La conmutación por error es la capacidad de cambiar de forma automática y sin problemas a un sistema de reserva fiable. La redundancia o el paso a un modo operativo de reserva cuando falla un componente del sistema primario deberían lograr la conmutación por error y reducir o eliminar el impacto negativo sobre el usuario.
Un servidor de base de datos, sistema u otro componente de hardware, servidor o red redundante o en modo de espera debe estar preparado para sustituir a cualquier versión previamente activa en caso de terminación anormal o fallo de la misma. Dado que la conmutación por error es esencial para la recuperación de desastres, todos los sistemas de servidores informáticos de reserva y otras técnicas de copia de seguridad deben ser a su vez inmunes a los fallos.
Switchover es básicamente la misma operación, pero a diferencia de la conmutación por error (failover), no es automática y exige la intervención humana. La mayoría de los sistemas informáticos están respaldados por soluciones automáticas de conmutación por error.
Tabla de Contenido
Qué es la Conmutación por Error o Failover
La conmutación por error o Failover en una red de comunicaciones es el proceso de transferir tareas de un componente averiado a un componente redundante similar para evitar interrupciones y mantener las operaciones.

La conmutación por error automatizada es la capacidad de redirigir automáticamente los datos de un componente averiado, como un servidor o una conexión de red, a un componente que funcione, y es esencial para los sistemas de misión crítica.
La arquitectura de red completa, o los componentes de red individuales, pueden configurarse como:
- Repuesto en frío -cold spare- (conmutación por error manual, que requiere intervención humana),
- Repuesto en caliente -hot spare- o par de Alta Disponibilidad (HA) (conmutación por error automática, con un breve retraso)
- Totalmente redundante (sitio de recuperación de desastres sincronizado).
Los tres elementos críticos que requieren una configuración de conmutación por error son la alimentación eléctrica, la conectividad de red y la capacidad del servidor.
Importancia de Failover y Aplicaciones
La conmutación por error es una función extremadamente importante en sistemas críticos que deben permanecer accesibles en todo momento. La función de conmutación por error redirige de forma transparente todas las peticiones al sistema inalcanzable al sistema de reserva, que imita el entorno del sistema original.

Los responsables del diseño de sistemas incorporan funciones de conmutación por error en servidores, bases de datos backend o redes que requieren alta disponibilidad y fiabilidad. La conmutación por error puede:
- Proteger tus bases de datos durante periodos de mantenimiento o fallos del sistema: Por ejemplo, si el servidor primario local sufre un fallo de hardware, el servidor de copia de seguridad (local o en la nube) puede hacerse cargo inmediatamente sin intervención manual.
- Permitir que las tareas de mantenimiento se ejecuten automáticamente sin supervisión: La conmutación por error automática durante las actualizaciones de software programadas proporciona una protección instantánea y sin fisuras contra los riesgos de ciberseguridad.
- Ser totalmente personalizable para adaptarse a tus configuraciones de hardware y de red: Durante el mantenimiento de la base de datos, no sólo es posible que un administrador opere un sistema A/B de dos servidores que funcionen en conjunto y se protejan contra las fallas del otro, sino también utilizar un servidor en la nube para permitir actualizaciones o solución de problemas en todo el sitio sin problemas de conectividad.
La conmutación por error puede aplicarse a cualquier aspecto de un sistema:
- En un ordenador personal o un dispositivo móvil, un activador de hardware o software puede proteger el dispositivo cuando falla un componente (por ejemplo, el procesador o incluso una celda de la batería).
- Dentro de una red, una conmutación por error puede aplicarse a cualquier componente individual de la red, o a un conjunto de componentes que forman un sistema, por ejemplo una ruta de conexión, un dispositivo de almacenamiento o un servidor web.
- Con una aplicación web o una base de datos alojada, la conmutación por error permite que varios servidores locales o en la nube mantengan una conexión constante y segura con poca o ninguna interrupción del servicio.
La Mayoría de Empresas tienen un Procedimiento de Conmutación por Error
La mayoría de las empresas cuentan con un procedimiento por el que sus sistemas conmutan a una copia de seguridad. En el mercado digital actual, por ejemplo, la caída de un servicio o un sitio web puede ser el beso de la muerte.
Caer, en este contexto, significa desconectarse involuntariamente. Si tu sitio web no funciona, probablemente significa que se ha caído y está fuera de línea, es decir, es inaccesible. También utilizamos el término tiempo de inactividad.

Lo contrario de offline es online. El término online se refiere a un estado de conectividad, que en este contexto significa conectado a Internet.
Los comercios, los bancos, las fábricas y cientos de otros tipos de empresas deben disponer de un mecanismo de conmutación por error. El sistema de reserva de Internet puede estar en otra ciudad o incluso en otro país.
Computer Hope afirma lo siguiente en relación con los sistemas de copia de seguridad de los servicios en línea:
El sistema de conmutación por error es una imagen espejo del sistema principal, por lo que se pierden pocos o ningún dato.
Computer Hope
Failover Automático
En el mundo de la informática y las comunicaciones en línea, se utiliza a menudo el término conmutación automática por error (Failover automático).
Se trata de un recurso que permite al administrador de un sistema pasar automáticamente la gestión de los datos a un sistema en espera. En concreto, lo hace cuando el sistema tiene un error.
En este contexto, automático describe el proceso de pasar a una copia de seguridad.
En cuanto a la mayoría de los sistemas de copia de seguridad en el mundo informático, Techopedia dice:
Por definición, la mayoría de los procesos de conmutación por error están programados para ejecutarse automáticamente.
Techopedia
Ejemplo Analógico: Generadores Hospitalarios
En la mayoría de los hospitales, los generadores de reserva entran en funcionamiento en caso de apagón. Disponer de un suministro continuo de electricidad es esencial en los hospitales. De hecho, muchas vidas humanas dependen de ello.
Los hospitales están llenos de dispositivos médicos, equipos de monitorización y otras máquinas. Muchas de ellas mantienen con vida a los pacientes.
Por ejemplo, algunos pacientes en coma no sobrevivirían si su respirador, es decir, su dispositivo para respirar, fallara.
¿Es el mecanismo que tienen los hospitales una conmutación por error?
Algunos dirían que es una conmutación por error. Hacen hincapié en que los dispositivos médicos siguen funcionando en caso de apagón. Los generadores de reserva se activan automáticamente y el suministro eléctrico continúa.
Otros, en cambio, argumentan que a veces la transición no es perfecta. En muchos hospitales, las luces se apagan durante un par de segundos antes de que los generadores empiecen a funcionar.
A veces las luces se atenúan ligeramente antes de que se enciendan los generadores. Esto no es una transición fluida, afirman. Con una transición sin interrupciones, la mayoría de la gente no se daría cuenta del apagón.
¿Qué es la Prueba de Conmutación por Error?
Las pruebas de conmutación por error validan la capacidad de un sistema durante un fallo del servidor para asignar recursos suficientes a la recuperación. En otras palabras, las pruebas de conmutación por error evalúan la capacidad de conmutación por error de los servidores.
La prueba determinará si el sistema tiene la capacidad en caso de cualquier tipo de terminación anormal o fallo para gestionar los recursos adicionales necesarios y trasladar las operaciones a los sistemas de respaldo. Por ejemplo, las pruebas de conmutación por error y recuperación determinan la capacidad del sistema para gestionar y alimentar una CPU adicional o varios servidores una vez que alcanza un umbral de rendimiento, que a menudo se supera durante fallos críticos. Esto pone de relieve la importante relación entre las pruebas de recuperación tras fallos, la capacidad de recuperación y la seguridad.

Failover vs Failback: Explicación
Ya sea debido a una interrupción inesperada, un desastre natural o un mantenimiento planificado, hay momentos en los que el entorno de producción no está disponible temporalmente. El failover y el failback son mecanismos de recuperación de desastres que ayudan a mantener la continuidad del negocio en caso de una interrupción repentina.
El failover o la conmutación por error es el proceso de cambiar a una instalación de recuperación de copia de seguridad designada. Normalmente se trata de un sitio de recuperación que contiene una copia replicada de todos los sistemas y datos de tu sitio de producción primario. Cualquier cambio realizado durante una conmutación por error se guarda en el almacenamiento virtual.
El failback es un mecanismo de continuidad de negocio que se utiliza cuando el sitio de producción primario vuelve a estar operativo. La producción vuelve a su sitio original (o nuevo) durante un failback, y cualquier cambio guardado en el almacenamiento virtual se sincroniza.
¿Tienes más preguntas? Consulta nuestras preguntas frecuentes a continuación.
Preguntas Frecuentes
La conmutación por error es un proceso de cambio de un sistema a otro cuando falla el sistema principal. Es una estrategia o función utilizada para garantizar que el sistema tiene redundancia y puede seguir funcionando cuando uno o más componentes del sistema fallan.
La conmutación por error funciona con un sistema secundario, o sistema de reserva, preparado para tomar el relevo cuando falle el sistema primario. Este sistema de reserva suele estar configurado de antemano y se sincroniza constantemente con el sistema primario. Cuando falla el sistema primario, el sistema en espera puede tomar el relevo y realizar la misma función que el sistema primario.
El uso de la conmutación por error tiene numerosas ventajas. Proporciona redundancia, lo que garantiza que el sistema pueda seguir funcionando aunque falle un componente del sistema. También ayuda a minimizar el tiempo de inactividad y a reducir el impacto financiero de una interrupción.
Una de las principales limitaciones de la conmutación por error es que puede resultar cara de implantar y mantener. También requiere una cuidadosa configuración y planificación para garantizar que funciona según lo previsto. Además, siempre existe el riesgo de que el sistema en espera también falle.
Existen diferentes tipos de conmutación por error: activa-pasiva, activa-activa y N+1. La conmutación por error activa-pasiva implica un sistema primario y un sistema de reserva. La conmutación por error activa-activa implica varios sistemas activos y la conmutación por error N+1 implica varios sistemas con un sistema adicional para proporcionar redundancia.
La implantación de la conmutación por error requiere una planificación y configuración cuidadosas. Es importante conocer los distintos tipos de conmutación por error y los requisitos de cada uno de ellos. Además, es importante conocer los puntos fuertes y débiles de cada tipo y determinar cuál es el más adecuado para el sistema.
La conmutación por error se activa cuando un dispositivo detecta un problema con el dispositivo principal. El dispositivo cambia automáticamente al dispositivo secundario para mantener el servicio en funcionamiento.