Saltar al contenido principal

Cómo supervisar correctamente el tiempo de actividad del servidor

· 7 min de lectura
Customer Care Engineer

Publicado el 26 de mayo de 2026

Cómo supervisar correctamente el tiempo de actividad del servidor

Si quieres saber cómo supervisar el tiempo de actividad del servidor sin adivinar, empieza con comprobaciones desde fuera del servidor, no solo dentro de él. Un servicio puede parecer saludable en los registros locales mientras los usuarios están mirando una página de tiempo de espera agotado. La primera tarea es sencilla: confirmar si el servidor responde desde una ubicación independiente, si el puerto correcto está abierto y si el servicio real devuelve una respuesta válida. Esa es la parte que ahorra tiempo a las 3:14 a. m. cuando nadie quiere filosofía.

Cómo supervisar el tiempo de actividad del servidor sin puntos ciegos

La supervisión del tiempo de actividad no es una sola comprobación. Es una pequeña cadena de comprobaciones que responde a distintas preguntas. ¿Se puede acceder al host a través de la red? ¿Está respondiendo el servidor web en el puerto 80 o 443? ¿Está la aplicación devolviendo una página saludable en lugar de un error 500? ¿Sigue la base de datos aceptando conexiones? Si supervisas solo una capa, puedes pasar por alto una caída muy real.

Un ping ICMP básico puede decirte si se puede acceder al servidor, pero no demuestra que el sitio web o la API estén funcionando. Una comprobación de puerto TCP es mejor porque confirma que un servicio específico está escuchando. Una comprobación HTTP o HTTPS va más allá y verifica el código de estado, el contenido de la respuesta, la validez del certificado y el tiempo de respuesta. Para la mayoría de las cargas de trabajo empresariales, las comprobaciones HTTP son el verdadero centro de la verdad porque eso es lo que usan los clientes.

Aquí es donde muchas configuraciones se vuelven un poco demasiado optimistas. Un resultado de ping en verde puede hacer que todos se sientan seguros mientras la aplicación que hay detrás claramente no está nada tranquila.

Empieza con las comprobaciones de tiempo de actividad correctas

Para un sitio web, supervisa la URL pública por HTTPS, valida el código de respuesta esperado y comprueba una palabra clave conocida en el cuerpo de la respuesta. Eso te dice que la página se está cargando como se espera, no que simplemente está devolviendo por accidente una plantilla de error con un estado 200.

Para una API, comprueba el endpoint de estado si existe, pero ten cuidado con las comprobaciones de estado superficiales. Si el endpoint solo dice que el proceso está vivo, puede ocultar conexiones rotas a la base de datos, backends de caché fallidos o problemas de almacenamiento. Un endpoint de estado más útil prueba las dependencias que realmente importan para la aplicación.

Para servidores de correo, supervisa directamente los puertos SMTP, IMAP o POP3. Para bases de datos, usa supervisión interna en lugar de exponer comprobaciones públicas. El objetivo no es hacer público cada servicio. El objetivo es verificar el servicio desde el lugar correcto con el método correcto.

Una pila de supervisión práctica suele incluir comprobaciones externas de tiempo de actividad, comprobaciones internas de servicios y métricas del sistema. Las comprobaciones externas te dicen lo que experimentan los usuarios. Las comprobaciones internas te dicen por qué falló algo. Las métricas te ayudan a detectar problemas antes de que se conviertan en tiempo de inactividad.

Sobre qué alertar y sobre qué no alertar

Si cada pequeño pico crea una alerta, tu equipo dejará de confiar en las alertas. Así es como se ignoran los incidentes reales. La buena supervisión del tiempo de actividad no es ruidosa. Es precisa.

Configura alertas para fallos confirmados, no para los primeros tropiezos. Un enfoque común es alertar solo después de dos o tres comprobaciones fallidas seguidas desde varias ubicaciones. Esto ayuda a filtrar la pérdida temporal de paquetes o que un único nodo de supervisión tenga una mala mañana. Al mismo tiempo, no retrases tanto las alertas como para que los clientes se den cuenta primero. El equilibrio depende del servicio. Una tienda en línea durante las horas de pago necesita umbrales más estrictos que una herramienta interna privada.

El tiempo de respuesta también debería tener umbrales, pero con cuidado. Lento no es lo mismo que caído. Si una página de inicio suele cargarse en 300 ms y de repente tarda 4 segundos durante diez minutos, eso merece atención aunque el monitor de tiempo de actividad siga mostrando verde. La degradación del rendimiento a menudo llega antes que el fallo real.

Las alertas de caducidad de certificados forman parte de la misma conversación. Técnicamente, un SSL caducado no es tiempo de inactividad del servidor, pero los clientes verán un servicio roto de todos modos. Desde el punto de vista operativo, el resultado es lo bastante parecido.

Las métricas internas hacen útil la supervisión del tiempo de actividad

Si solo recopilas comprobaciones de activo o inactivo, sabrás que algo se rompió pero no por qué. Añade métricas del sistema y métricas de servicios para que el incidente tenga contexto desde el primer minuto.

El uso de CPU, la presión de memoria, el espacio en disco, la espera de E/S de disco, la carga media, el uso de inodos y el rendimiento de red son los puntos de partida habituales. En los servidores de aplicaciones modernos, los problemas de memoria y almacenamiento son causas frecuentes de tiempo de inactividad evitable. Un disco lleno puede romper el registro, las escrituras de base de datos, el comportamiento de la caché, las copias de seguridad y las actualizaciones de paquetes de una forma bastante brusca.

En la capa de aplicación, haz seguimiento de las conexiones del servidor web, las tasas de solicitudes, las tasas de error, la latencia de la base de datos, la longitud de la cola y los reinicios de procesos. Si usas contenedores, supervisa las salidas de contenedores y los límites de recursos. Si ejecutas una plataforma SaaS, vigila también las dependencias: el retraso de replicación de la base de datos, el uso de memoria de Redis, la disponibilidad del almacenamiento de objetos y los tiempos de espera agotados de API externas pueden afectar al tiempo de actividad desde el punto de vista del cliente.

Las herramientas que exportan métricas a Prometheus y las visualizan en Grafana funcionan bien para equipos que quieren detalle y flexibilidad. Las herramientas de supervisión alojadas más simples suelen ser suficientes para equipos más pequeños que necesitan alertas fiables sin construir una plataforma completa de observabilidad. Depende de cuánto control necesites y de cuánto tiempo quieras dedicar a mantener la propia supervisión.

Cómo supervisar el tiempo de actividad del servidor en distintos entornos

Un único VPS que aloja un sitio web empresarial necesita una configuración ligera. Una comprobación HTTPS externa, métricas básicas del sistema, alertas de disco, supervisión de caducidad de SSL y verificación de copias de seguridad cubrirán la mayor parte del riesgo. No necesitas un imperio de supervisión grandioso para una pila simple.

Un VPS gestionado o un servidor de agencia con varios sitios necesita más separación. Supervisa cada sitio individualmente, no solo el servidor. Un sitio de cliente puede fallar por un proceso PHP roto o un problema de base de datos mientras el resto de la máquina está técnicamente bien. Si solo vigilas el tiempo de actividad a nivel de servidor, pasarás por alto incidentes de cara al cliente.

Los servidores dedicados y las aplicaciones en clúster necesitan supervisión a nivel de nodo y a nivel de servicio. Si un nodo falla pero el tráfico sigue enrutándose correctamente, el servicio puede seguir disponible. Eso es bueno para el tiempo de actividad, pero aun así quieres visibilidad inmediata del nodo fallido para que la redundancia no desaparezca silenciosamente.

Para comercio electrónico y SaaS, las comprobaciones de transacciones merecen el esfuerzo. En lugar de comprobar solo la página de inicio, simula una acción clave como iniciar sesión, buscar o añadir un producto al carrito. Esto detecta las situaciones incómodas en las que el sitio está en línea pero los ingresos no.

La entrega de alertas importa más de lo que la gente admite

La supervisión solo es útil si la persona adecuada recibe la alerta con la suficiente rapidez para actuar. El correo electrónico por sí solo es demasiado lento para incidentes reales. Usa al menos un canal inmediato como SMS, escalado por teléfono o una aplicación de incidentes basada en push. Enruta las alertas según la gravedad y la hora del día. Un informe de copia de seguridad fallida no debería despertar a nadie por la noche. Una base de datos de producción caída probablemente sí debería.

Asegúrate también de que las alertas incluyan suficiente contexto. Un mensaje que dice "Server down" es técnicamente honesto y operativamente perezoso. Una alerta mejor indica qué comprobación falló, desde qué regiones, durante cuánto tiempo, qué cambió recientemente y qué métricas relacionadas parecen sospechosas. Esto acorta el primer paso de la investigación, que es donde desaparecen los minutos.

Si tu proveedor ofrece supervisión activa y respuesta humana, eso puede reducir mucha fricción operativa. Este es un lugar donde la infraestructura gestionada demuestra su valor. En kodu.cloud, por ejemplo, la supervisión y el soporte están diseñados para reducir el tiempo entre la detección y la acción, lo cual importa más que los paneles bonitos durante una caída.

Errores comunes que hacen que los datos de tiempo de actividad resulten engañosos

Un error es supervisar la IP privada del servidor en lugar del punto de entrada público. Eso demuestra que la máquina está viva, pero no que los usuarios puedan llegar a ella a través de DNS, equilibradores de carga, firewalls o TLS.

Otro es usar solo una ubicación de supervisión. Los problemas de enrutamiento regional ocurren. Un servicio puede estar saludable desde Nueva York y no disponible desde Dallas debido a un problema de ruta del proveedor. Varias regiones de comprobación ayudan a separar el ruido local de los incidentes reales.

Un tercer error es ignorar las ventanas de mantenimiento y los cambios planificados. Si cada despliegue activa falsas alertas de tiempo de inactividad, los equipos se insensibilizan. Usa programación de mantenimiento y supresión de alertas consciente de dependencias cuando sea posible.

Y luego está la confianza en las copias de seguridad sin verificación de copias de seguridad. Un servidor puede tener un excelente tiempo de actividad justo hasta el momento en que se necesita la recuperación. Supervisa la finalización de las copias de seguridad, la retención, la salud del almacenamiento y las restauraciones de prueba. En sentido estricto, esto no es supervisión del tiempo de actividad. En el mundo real, pertenece al mismo sistema de seguridad.

Crea una rutina de supervisión, no solo un panel

La configuración más sólida es aburrida en el buen sentido. Las comprobaciones se ejecutan cada uno o dos minutos. Las alertas se prueban. Los umbrales se ajustan después de incidentes reales. Los paneles muestran la salud actual, pero los informes también muestran tendencias a lo largo de semanas y meses. Aprendes si el tiempo de inactividad vino de cambios de código, recursos agotados, vecinos ruidosos, certificados caducados o errores humanos de los de toda la vida.

Si estás configurando esto desde cero, empieza con una comprobación HTTPS externa, un recopilador de métricas internas y una ruta de alerta a la que alguien realmente responda. Luego añade comprobaciones específicas del servicio para las partes de la pila que más duelen cuando fallan. La supervisión debería crecer con el riesgo empresarial, no con el ego.

Hecha correctamente, la supervisión del tiempo de actividad te da dos cosas: una respuesta a incidentes más rápida y menos sorpresas. Eso suele ser lo que la gente quería desde el principio, aunque primero pidieran un panel con muchas líneas muy impresionantes.

Andres Saar Ingeniero de atención al cliente