"Site Reliability Engineering" 05.03.2020, 13:31 Uhr

In 3 Schritten zu zuverlässigeren Webseiten

"Site Reliability Engineering" (SRE) verspricht eine Zuverlässigkeit der Webseite. Mit SRE können Online-Händler dafür sorgen, dass ihre Webseite auch bei unerwartet hohen Zugriffen verlässlich verfügbar ist.
(Quelle: shutterstock.com/EtiAmmos)
Von Markus Schmid, Cloud Solution Architect bei Rackspace, einem Managed-Cloud-Dienstleister
Schön, wenn viel Traffic auf eine Webseite kommt und sie der höheren Nachfragelast auch standhält. Um das zu erreichen, kann "Site Reliability Engineering" (SRE) als Instrument eingesetzt werden.
"Site Reliability" bedeutet übersetzt: die Zuverlässigkeit der Webseite. Mit SRE können Online-Händler dafür sorgen, dass ihre Webseite auch bei unerwartet hohen Zugriffen verlässlich verfügbar ist. Es setzt auf einen klar definierten DevOps-Ansatz, um einen Zyklus datengetriebener Optimierungen zu schaffen.
Diese drei Schritte gehören zum SRE-Prozess:

1. Zielbestimmung

Service-Level-Ziele bilden den Kern von SRE. Wer klare Erfolgsziele setzt, kann Betriebsabläufe, Entwicklung und Geschäft optimal aufeinander abstimmen. Ein Ziel ist in diesem Kontext ein klar messbarer Wert, der häufig die Verfügbarkeit eines Dienstes beschreibt. Etwa, dass die Antwortzeit einer Webseite 100 Millisekunden nicht überschreiten darf.
Die Service-Level-Ziele orientieren sich an den Ansprüchen, die Kunden oder der Markt an solche Dienste stellen. Eine einfache Webseite mit langen Ladezeiten würden Nutzer heutzutage beispielsweise nicht mehr akzeptieren.

2. Risikoanalyse

Nur wer seine Schwächen kennt, kann sie kontrollieren. Daher ist die Risikoanalyse ein Kernfaktor von SRE. Wie lange braucht ein Unternehmen, um Ausfälle zu erkennen und sie zu beheben? Mit der Risikoanalyse lassen sich zudem die Auswirkungen von grösseren Ausfällen besser einschätzen.

3. Datenanalyse

Für eine aussagekräftige Feedback-Schleife sind Daten nötig. Sie ergeben sich aus den in den Zielen definierten Indikatoren - und werden über einen festgelegten Zeitraum hinweg aggregiert. Auf diese Weise werden zum Beispiel Zusammenhänge zwischen erhöhter Latenz und Kaufabbrüchen erkennbar.
Daraufhin kann ein Plattformbetreiber eine faktenbasierte Entscheidung treffen, ob sich die Kosten für eine Optimierung der Latenz lohnen. Insofern unterstützen Daten Risikobewertungen und fundierte Entscheidungen. Das erfordert allerdings eine automatisierte Datenerfassung, für die Site Reliability Engineering ebenfalls sorgt.



Das könnte Sie auch interessieren