Zum Hauptinhalt springen

So überwachen Sie die Server-Uptime korrekt

· 6 Minuten Lesezeit
Customer Care Engineer

Veröffentlicht am 26. Mai 2026

So überwachen Sie die Server-Uptime korrekt

Wenn Sie wissen möchten, wie Sie die Server-Uptime ohne Rätselraten überwachen, beginnen Sie mit Prüfungen von außerhalb des Servers, nicht nur innerhalb davon. Ein Dienst kann in lokalen Logs gesund aussehen, während Benutzer auf eine Timeout-Seite starren. Die erste Aufgabe ist einfach - bestätigen Sie, ob der Server von einem unabhängigen Standort aus antwortet, ob der richtige Port offen ist und ob der eigentliche Dienst eine gültige Antwort zurückgibt. Das ist der Teil, der um 3:14 Uhr morgens Zeit spart. wenn niemand Philosophie möchte.

So überwachen Sie die Server-Uptime ohne blinde Flecken

Die Uptime-Überwachung ist keine einzelne Prüfung. Sie ist eine kleine Kette von Prüfungen, die unterschiedliche Fragen beantworten. Ist der Host über das Netzwerk erreichbar? Antwortet der Webserver auf Port 80 oder 443? Gibt die Anwendung anstelle eines 500-Fehlers eine gesunde Seite zurück? Akzeptiert die Datenbank noch Verbindungen? Wenn Sie nur eine Ebene überwachen, können Sie einen sehr realen Ausfall übersehen.

Ein einfacher ICMP-Ping kann Ihnen sagen, ob der Server erreichbar ist, aber er beweist nicht, dass die Website oder API funktioniert. Eine TCP-Port-Prüfung ist besser, weil sie bestätigt, dass ein bestimmter Dienst lauscht. Eine HTTP- oder HTTPS-Prüfung geht weiter und verifiziert den Statuscode, den Antwortinhalt, die Gültigkeit des Zertifikats und die Antwortzeit. Für die meisten geschäftlichen Workloads sind HTTP-Prüfungen das eigentliche Zentrum der Wahrheit, weil Kunden genau das nutzen.

Hier werden viele Setups etwas zu optimistisch. Ein grünes Ping-Ergebnis kann allen ein Gefühl von Sicherheit geben, während die App dahinter alles andere als ruhig ist.

Beginnen Sie mit den richtigen Uptime-Prüfungen

Für eine Website überwachen Sie die öffentliche URL über HTTPS, validieren den erwarteten Antwortcode und prüfen auf ein bekanntes Schlüsselwort im Antworttext. Das sagt Ihnen, dass die Seite wie erwartet geladen wird und nicht nur versehentlich eine Fehlervorlage mit einem 200-Status zurückgibt.

Für eine API prüfen Sie den Health-Endpunkt, falls es einen gibt, aber seien Sie vorsichtig mit oberflächlichen Health-Prüfungen. Wenn der Endpunkt nur sagt, dass der Prozess läuft, kann er defekte Datenbankverbindungen, ausgefallene Cache-Backends oder Speicherprobleme verbergen. Ein nützlicherer Health-Endpunkt testet die Abhängigkeiten, die für die Anwendung tatsächlich wichtig sind.

Für Mailserver überwachen Sie SMTP-, IMAP- oder POP3-Ports direkt. Für Datenbanken verwenden Sie interne Überwachung, anstatt öffentliche Prüfungen bereitzustellen. Das Ziel ist nicht, jeden Dienst öffentlich zu machen. Das Ziel ist, den Dienst vom richtigen Ort mit der richtigen Methode zu verifizieren.

Ein praktischer Überwachungs-Stack umfasst normalerweise externe Uptime-Prüfungen, interne Dienstprüfungen und Systemmetriken. Externe Prüfungen sagen Ihnen, was Benutzer erleben. Interne Prüfungen sagen Ihnen, warum etwas fehlgeschlagen ist. Metriken helfen Ihnen, Probleme zu erkennen, bevor sie zu Ausfallzeit werden.

Worauf Sie alarmieren sollten, und worauf nicht

Wenn jede kleine Spitze einen Alarm auslöst, wird Ihr Team aufhören, Alarmen zu vertrauen. So werden echte Vorfälle ignoriert. Gute Uptime-Überwachung ist nicht laut. Sie ist präzise.

Setzen Sie Alarme für bestätigte Fehler, nicht für die ersten Aussetzer. Ein gängiger Ansatz ist, nur nach zwei oder drei fehlgeschlagenen Prüfungen in Folge von mehreren Standorten aus zu alarmieren. Das hilft, vorübergehenden Paketverlust oder einen einzelnen Überwachungsknoten mit einem schlechten Morgen herauszufiltern. Gleichzeitig sollten Sie Alarme nicht so stark verzögern, dass Kunden es zuerst bemerken. Die Balance hängt vom Dienst ab. Ein Onlineshop während der Checkout-Zeiten braucht engere Schwellenwerte als ein privates internes Tool.

Auch für die Antwortzeit sollten Schwellenwerte gelten, aber mit Vorsicht. Langsam ist nicht dasselbe wie ausgefallen. Wenn eine Startseite normalerweise in 300 ms lädt und plötzlich zehn Minuten lang 4 Sekunden braucht, verdient das Aufmerksamkeit, auch wenn der Uptime-Monitor noch grün anzeigt. Leistungsverschlechterung tritt oft vor dem eigentlichen Ausfall auf.

Warnungen zum Zertifikatsablauf gehören in dieselbe Diskussion. Technisch gesehen ist ein abgelaufenes SSL kein Serverausfall, aber Kunden werden den Dienst trotzdem als defekt erleben. Operativ ist das Ergebnis nahe genug.

Interne Metriken machen die Uptime-Überwachung nützlich

Wenn Sie nur Up-oder-Down-Prüfungen erfassen, wissen Sie, dass etwas kaputtgegangen ist, aber nicht warum. Fügen Sie Systemmetriken und Dienstmetriken hinzu, damit der Vorfall von der ersten Minute an Kontext hat.

CPU-Auslastung, Speicherdruck, Festplattenspeicher, Disk-I/O-Wartezeit, Load Average, Inode-Nutzung und Netzwerkdurchsatz sind die üblichen Ausgangspunkte. Auf modernen Anwendungsservern sind Speicher- und Storage-Probleme häufige Ursachen für vermeidbare Ausfallzeit. Eine volle Festplatte kann Logging, Datenbankschreibvorgänge, Cache-Verhalten, Backups und Paket-Updates in einem ziemlich unhöflichen Zug beeinträchtigen.

Auf der Anwendungsebene verfolgen Sie Webserver-Verbindungen, Anfrageraten, Fehlerraten, Datenbanklatenz, Warteschlangenlänge und Prozessneustarts. Wenn Sie Container verwenden, überwachen Sie Container-Beendigungen und Ressourcenlimits. Wenn Sie eine SaaS-Plattform betreiben, beobachten Sie auch die Abhängigkeiten - Replikationsverzögerung der Datenbank, Redis-Speichernutzung, Verfügbarkeit von Objektspeicher und Timeouts externer APIs können sich aus Kundensicht alle auf die Uptime auswirken.

Tools, die Metriken nach Prometheus exportieren und sie in Grafana visualisieren, funktionieren gut für Teams, die Detailtiefe und Flexibilität wollen. Einfachere gehostete Überwachungstools reichen oft für kleinere Teams aus, die zuverlässige Alarme benötigen, ohne eine vollständige Observability-Plattform aufzubauen. Es hängt davon ab, wie viel Kontrolle Sie brauchen und wie viel Zeit Sie für die Wartung der Überwachung selbst aufwenden möchten.

So überwachen Sie die Server-Uptime für unterschiedliche Umgebungen

Ein einzelner VPS, der eine geschäftliche Website hostet, braucht ein schlankes Setup. Eine externe HTTPS-Prüfung, grundlegende Systemmetriken, Festplattenwarnungen, Überwachung des SSL-Ablaufs und Backup-Verifizierung decken den größten Teil des Risikos ab. Für einen einfachen Stack brauchen Sie kein besonders großes Überwachungsimperium.

Ein verwalteter VPS oder ein Agenturserver mit mehreren Websites braucht mehr Trennung. Überwachen Sie jede Website einzeln, nicht nur den Server. Eine Kunden-Website kann wegen eines defekten PHP-Prozesses oder eines Datenbankproblems ausfallen, während der Rest der Maschine technisch gesehen in Ordnung ist. Wenn Sie nur die Uptime auf Serverebene beobachten, entgehen Ihnen kundenrelevante Vorfälle.

Dedizierte Server und geclusterte Anwendungen benötigen Überwachung auf Knotenebene und auf Dienstebene. Wenn ein Knoten ausfällt, der Traffic aber weiterhin korrekt geroutet wird, kann der Dienst verfügbar bleiben. Das ist gut für die Uptime, aber Sie wollen trotzdem sofortige Sichtbarkeit in den ausgefallenen Knoten, damit Redundanz nicht still und leise verschwindet.

Für E-Commerce und SaaS lohnt sich der Aufwand für Transaktionsprüfungen. Statt nur die Startseite zu prüfen, simulieren Sie eine Schlüsselaktion wie Anmelden, Suchen oder das Hinzufügen eines Produkts zum Warenkorb. Damit erfassen Sie die peinlichen Situationen, in denen die Website online ist, der Umsatz aber nicht.

Die Zustellung von Alarmen ist wichtiger, als die Leute zugeben

Überwachung ist nur nützlich, wenn die richtige Person den Alarm schnell genug erhält, um zu handeln. E-Mail allein ist für echte Vorfälle zu langsam. Verwenden Sie mindestens einen unmittelbaren Kanal wie SMS, telefonische Eskalation oder eine Push-basierte Incident-App. Leiten Sie Alarme nach Schweregrad und Tageszeit weiter. Ein Bericht über ein fehlgeschlagenes Backup sollte nachts niemanden wecken. Eine ausgefallene Produktionsdatenbank wahrscheinlich schon.

Stellen Sie außerdem sicher, dass Alarme genügend Kontext enthalten. Eine Nachricht mit dem Inhalt "Server down" ist technisch ehrlich und operativ faul. Ein besserer Alarm nennt, welche Prüfung fehlgeschlagen ist, aus welchen Regionen, wie lange, was sich kürzlich geändert hat und welche verwandten Metriken verdächtig aussehen. Das verkürzt den ersten Untersuchungsschritt, und dort verschwinden die Minuten.

Wenn Ihr Anbieter aktive Überwachung und menschliche Reaktion anbietet, kann das viel operativen Ballast reduzieren. Das ist ein Bereich, in dem verwaltete Infrastruktur ihr Geld wert ist. Bei kodu.cloud sind Überwachung und Support zum Beispiel darauf ausgelegt, die Zeit zwischen Erkennung und Reaktion zu verkürzen, was bei einem Ausfall wichtiger ist als hübsche Dashboards.

Häufige Fehler, die Uptime-Daten irreführend machen

Ein Fehler ist, die private IP des Servers statt des öffentlichen Einstiegspunkts zu überwachen. Das beweist, dass die Box lebt, aber nicht, dass Benutzer sie über DNS, Load Balancer, Firewalls oder TLS erreichen können.

Ein anderer Fehler ist, nur einen Überwachungsstandort zu verwenden. Probleme mit regionalem Routing kommen vor. Ein Dienst kann von New York aus gesund sein und von Dallas aus wegen eines Pfadproblems beim Anbieter nicht verfügbar. Mehrere Prüfregionen helfen, lokales Rauschen von echten Vorfällen zu trennen.

Ein dritter Fehler ist, Wartungsfenster und geplante Änderungen zu ignorieren. Wenn jede Bereitstellung falsche Ausfallalarme auslöst, werden Teams abgestumpft. Verwenden Sie nach Möglichkeit Wartungsplanung und abhängigkeitsbewusste Alarmunterdrückung.

Und dann gibt es noch das Vertrauen in Backups ohne Backup-Verifizierung. Ein Server kann eine hervorragende Uptime haben - bis zu dem Moment, in dem Wiederherstellung nötig wird. Überwachen Sie den Abschluss von Backups, Aufbewahrung, Speicherzustand und Testwiederherstellungen. Streng genommen ist das keine Uptime-Überwachung. In der realen Welt gehört es in dasselbe Sicherheitssystem.

Bauen Sie eine Überwachungsroutine auf, nicht nur ein Dashboard

Das stärkste Setup ist auf gute Weise langweilig. Prüfungen laufen jede oder alle zwei Minuten. Alarme werden getestet. Schwellenwerte werden nach echten Vorfällen angepasst. Dashboards zeigen den aktuellen Zustand, aber Berichte zeigen auch Trends über Wochen und Monate. Sie lernen, ob die Ausfallzeit durch Codeänderungen, erschöpfte Ressourcen, laute Nachbarn, abgelaufene Zertifikate oder altmodischen menschlichen Fehler verursacht wurde.

Wenn Sie das neu aufsetzen, beginnen Sie mit einer externen HTTPS-Prüfung, einem internen Metrik-Sammler und einem Alarmweg, auf den tatsächlich jemand reagiert. Fügen Sie dann dienstspezifische Prüfungen für die Teile des Stacks hinzu, die am meisten schmerzen, wenn sie ausfallen. Überwachung sollte mit dem Geschäftsrisiko wachsen, nicht mit dem Ego.

Richtig umgesetzt gibt Ihnen Uptime-Überwachung zwei Dinge: schnellere Reaktion auf Vorfälle und weniger Überraschungen. Das ist normalerweise das, was die Leute die ganze Zeit wollten, selbst wenn sie zuerst nach einem Dashboard mit vielen sehr beeindruckenden Linien gefragt haben.

Andres Saar Customer Care Engineer