Aller au contenu principal

Comment surveiller correctement la disponibilité du serveur

· 7 minutes de lecture
Customer Care Engineer

Publié le 26 mai 2026

Comment surveiller correctement la disponibilité du serveur

Si vous voulez savoir comment surveiller la disponibilité du serveur sans deviner, commencez par des vérifications depuis l'extérieur du serveur, et pas seulement depuis l'intérieur. Un service peut sembler sain dans les journaux locaux pendant que les utilisateurs fixent une page de délai d'expiration. La première tâche est simple : confirmer si le serveur répond depuis un emplacement indépendant, si le bon port est ouvert et si le service réel renvoie une réponse valide. C'est la partie qui fait gagner du temps à 3 h 14 du matin. quand personne n'a envie de philosophie.

Comment surveiller la disponibilité du serveur sans angles morts

La surveillance de la disponibilité n'est pas une seule vérification. C'est une petite chaîne de vérifications qui répondent à différentes questions. L'hôte est-il joignable sur le réseau ? Le serveur web répond-il sur le port 80 ou 443 ? L'application renvoie-t-elle une page saine au lieu d'une erreur 500 ? La base de données accepte-t-elle encore les connexions ? Si vous ne surveillez qu'une seule couche, vous pouvez passer à côté d'une panne très réelle.

Un ping ICMP basique peut vous indiquer si le serveur est joignable, mais il ne prouve pas que le site web ou l'API fonctionne. Une vérification de port TCP est meilleure, car elle confirme qu'un service spécifique est à l'écoute. Une vérification HTTP ou HTTPS va plus loin et valide le code d'état, le contenu de la réponse, la validité du certificat et le temps de réponse. Pour la plupart des charges de travail métier, les vérifications HTTP sont la vraie source de vérité, car c'est ce que les clients utilisent.

C'est là que beaucoup de configurations deviennent un peu trop optimistes. Un résultat de ping vert peut rassurer tout le monde alors que l'application derrière est loin d'être sereine.

Commencez par les bonnes vérifications de disponibilité

Pour un site web, surveillez l'URL publique en HTTPS, validez le code de réponse attendu et recherchez un mot-clé connu dans le corps de la réponse. Cela vous indique que la page se charge comme prévu, et ne renvoie pas simplement par accident un modèle d'erreur avec un statut 200.

Pour une API, vérifiez le point de terminaison de santé s'il en existe un, mais faites attention aux vérifications de santé superficielles. Si le point de terminaison dit seulement que le processus est vivant, il peut masquer des connexions de base de données cassées, des backends de cache en échec ou des problèmes de stockage. Un point de terminaison de santé plus utile teste les dépendances qui comptent réellement pour l'application.

Pour les serveurs de messagerie, surveillez directement les ports SMTP, IMAP ou POP3. Pour les bases de données, utilisez une surveillance interne plutôt que d'exposer des vérifications publiques. L'objectif n'est pas de rendre chaque service public. L'objectif est de vérifier le service depuis le bon endroit avec la bonne méthode.

Une pile de surveillance pratique comprend généralement des vérifications externes de disponibilité, des vérifications internes des services et des métriques système. Les vérifications externes vous indiquent ce que les utilisateurs vivent. Les vérifications internes vous indiquent pourquoi quelque chose a échoué. Les métriques vous aident à détecter les problèmes avant qu'ils ne deviennent une indisponibilité.

Sur quoi alerter, et sur quoi ne pas alerter

Si chaque petit pic crée une alerte, votre équipe cessera de faire confiance aux alertes. C'est ainsi que les vrais incidents sont ignorés. Une bonne surveillance de la disponibilité n'est pas bruyante. Elle est précise.

Définissez des alertes pour les défaillances confirmées, pas pour les premiers ratés. Une approche courante consiste à n'alerter qu'après deux ou trois vérifications échouées d'affilée depuis plusieurs emplacements. Cela aide à filtrer une perte temporaire de paquets ou un seul nœud de surveillance qui passe une mauvaise matinée. En même temps, ne retardez pas tellement les alertes que les clients le remarquent en premier. L'équilibre dépend du service. Une boutique en ligne pendant les heures de commande a besoin de seuils plus stricts qu'un outil interne privé.

Le temps de réponse doit également avoir des seuils, mais avec prudence. Lent n'est pas la même chose qu'à l'arrêt. Si une page d'accueil se charge habituellement en 300 ms et met soudain 4 secondes pendant dix minutes, cela mérite de l'attention même si le moniteur de disponibilité reste au vert. La dégradation des performances arrive souvent avant la défaillance réelle.

Les alertes d'expiration de certificat font partie de la même conversation. Techniquement, un SSL expiré n'est pas une indisponibilité du serveur, mais les clients verront quand même un service cassé. Sur le plan opérationnel, le résultat est suffisamment proche.

Les métriques internes rendent la surveillance de la disponibilité utile

Si vous ne collectez que des vérifications de type en marche ou à l'arrêt, vous saurez que quelque chose s'est cassé, mais pas pourquoi. Ajoutez des métriques système et des métriques de service afin que l'incident ait du contexte dès la première minute.

L'utilisation du CPU, la pression mémoire, l'espace disque, l'attente d'E/S disque, la charge moyenne, l'utilisation des inodes et le débit réseau sont les points de départ habituels. Sur les serveurs d'applications modernes, les problèmes de mémoire et de stockage sont des causes fréquentes d'indisponibilité évitable. Un disque plein peut casser la journalisation, les écritures en base de données, le comportement du cache, les sauvegardes et les mises à jour de paquets d'un seul mouvement plutôt brutal.

Au niveau de l'application, suivez les connexions du serveur web, les taux de requêtes, les taux d'erreur, la latence de la base de données, la longueur de la file d'attente et les redémarrages de processus. Si vous utilisez des conteneurs, surveillez les arrêts de conteneurs et les limites de ressources. Si vous exploitez une plateforme SaaS, surveillez aussi les dépendances : le retard de réplication de la base de données, l'utilisation de la mémoire Redis, la disponibilité du stockage objet et les expirations de délai des API externes peuvent tous affecter la disponibilité du point de vue du client.

Les outils qui exportent des métriques vers Prometheus et les visualisent dans Grafana fonctionnent bien pour les équipes qui veulent du détail et de la flexibilité. Des outils de surveillance hébergés plus simples suffisent souvent pour les petites équipes qui ont besoin d'alertes fiables sans construire une plateforme complète d'observabilité. Cela dépend du niveau de contrôle dont vous avez besoin et du temps que vous voulez consacrer à maintenir la surveillance elle-même.

Comment surveiller la disponibilité du serveur dans différents environnements

Un seul VPS hébergeant un site web d'entreprise a besoin d'une configuration légère. Une vérification HTTPS externe, des métriques système de base, des alertes disque, une surveillance de l'expiration SSL et une vérification des sauvegardes couvriront la plupart des risques. Vous n'avez pas besoin d'un empire de surveillance grandiose pour une pile simple.

Un VPS géré ou un serveur d'agence multi-sites a besoin de plus de séparation. Surveillez chaque site individuellement, pas seulement le serveur. Un site client peut échouer à cause d'un processus PHP cassé ou d'un problème de base de données alors que le reste de la machine est techniquement en bon état. Si vous ne surveillez que la disponibilité au niveau du serveur, vous passerez à côté des incidents visibles par le client.

Les serveurs dédiés et les applications en cluster ont besoin d'une surveillance au niveau des nœuds et au niveau des services. Si un nœud échoue mais que le trafic continue d'être acheminé correctement, le service peut rester disponible. C'est bon pour la disponibilité, mais vous voulez quand même une visibilité immédiate sur le nœud défaillant afin que la redondance ne disparaisse pas discrètement.

Pour l'e-commerce et le SaaS, les vérifications transactionnelles valent l'effort. Au lieu de vérifier uniquement la page d'accueil, simulez une action clé comme se connecter, rechercher ou ajouter un produit au panier. Cela détecte les situations gênantes où le site est en ligne mais pas le chiffre d'affaires.

La livraison des alertes compte plus que les gens ne l'admettent

La surveillance n'est utile que si la bonne personne reçoit l'alerte assez vite pour agir. L'e-mail seul est trop lent pour les vrais incidents. Utilisez au moins un canal immédiat comme le SMS, l'escalade téléphonique ou une application d'incident basée sur les notifications push. Acheminez les alertes en fonction de la gravité et de l'heure de la journée. Un rapport d'échec de sauvegarde ne devrait pas réveiller quelqu'un la nuit. Une base de données de production morte, probablement si.

Assurez-vous aussi que les alertes incluent suffisamment de contexte. Un message qui dit "Server down" est techniquement honnête et opérationnellement paresseux. Une meilleure alerte indique quelle vérification a échoué, depuis quelles régions, pendant combien de temps, ce qui a changé récemment et quelles métriques associées semblent suspectes. Cela raccourcit la première étape de l'investigation, là où les minutes disparaissent.

Si votre fournisseur propose une surveillance active et une réponse humaine, cela peut réduire beaucoup de friction opérationnelle. C'est un domaine où l'infrastructure gérée justifie son coût. Chez kodu.cloud, par exemple, la surveillance et le support sont conçus pour réduire le temps entre la détection et l'action, ce qui compte plus que de jolis tableaux de bord pendant une panne.

Erreurs courantes qui rendent les données de disponibilité trompeuses

Une erreur consiste à surveiller l'IP privée du serveur au lieu du point d'entrée public. Cela prouve que la machine est active, mais pas que les utilisateurs peuvent l'atteindre via le DNS, les équilibreurs de charge, les pare-feu ou TLS.

Une autre consiste à n'utiliser qu'un seul emplacement de surveillance. Les problèmes de routage régional arrivent. Un service peut être sain depuis New York et indisponible depuis Dallas à cause d'un problème de chemin chez le fournisseur. Plusieurs régions de vérification aident à distinguer le bruit local des vrais incidents.

Une troisième erreur consiste à ignorer les fenêtres de maintenance et les changements planifiés. Si chaque déploiement déclenche de fausses alertes d'indisponibilité, les équipes deviennent insensibles. Utilisez la planification de maintenance et la suppression d'alertes tenant compte des dépendances lorsque c'est possible.

Et puis il y a la confiance dans les sauvegardes sans vérification des sauvegardes. Un serveur peut avoir une excellente disponibilité jusqu'au moment précis où une restauration est nécessaire. Surveillez l'achèvement des sauvegardes, la rétention, l'état du stockage et testez les restaurations. À strictement parler, ce n'est pas de la surveillance de disponibilité. Dans le monde réel, cela fait partie du même système de sécurité.

Construisez une routine de surveillance, pas seulement un tableau de bord

La configuration la plus solide est ennuyeuse au bon sens du terme. Les vérifications s'exécutent toutes les une ou deux minutes. Les alertes sont testées. Les seuils sont ajustés après de vrais incidents. Les tableaux de bord montrent l'état de santé actuel, mais les rapports montrent aussi les tendances sur des semaines et des mois. Vous apprenez si l'indisponibilité provenait de changements de code, de ressources épuisées, de voisins bruyants, de certificats expirés ou d'une bonne vieille erreur humaine.

Si vous mettez cela en place à partir de zéro, commencez par une vérification HTTPS externe, un collecteur de métriques internes et une voie d'alerte à laquelle quelqu'un répond réellement. Ajoutez ensuite des vérifications spécifiques aux services pour les parties de la pile qui font le plus mal lorsqu'elles échouent. La surveillance doit croître avec le risque métier, pas avec l'ego.

Bien faite, la surveillance de la disponibilité vous apporte deux choses : une réponse aux incidents plus rapide et moins de surprises. C'est généralement ce que les gens voulaient depuis le début, même s'ils ont d'abord demandé un tableau de bord avec beaucoup de lignes très impressionnantes.

Andres Saar Ingénieur Customer Care