Hin und wieder müssen wir ein Hotfix installieren. Wir kündigen das auf unserer Login-Seite / auf der lemniscus Twitter/Statusseite und über das Symbol für Systembenachrichtungen in der oberen Menüleiste an.
Ein Hotfix ist ein nicht geplantes Update, also ein Update ohne Vorwarnung, das nicht aufgeschoben werden kann.
Wie funktioniert das mit dem Update, wenn wir tagsüber ein Update installieren müssen? Also wie geht ein Hotfix?
Zuerst wird von uns eine Meldung auf unserer Twitter/ Status-Seite veröffentlicht:
Die Statusseite mit allen Meldungen ist unter der folgenden Adresse erreichbar:
https://status.lemniscus.de/incidents
Sobald ein Fehler identifiziert und korrigiert wurde, kommt das Einspielen eines Updates.
Das Identifizieren und Beheben eines Fehlers kann natürlich unterschiedlich lang dauern. Bisher konnten wir die “hässlichen” Fehler immer innerhalb weniger Minuten korrigieren.
Ein Beispiel aus der Praxis:
- ca. 5min gebraucht, um den Fehler zu identifizieren
- ca. 5min benötigt, um die Fehlerbeseitigung zu programmieren,
- ca. 5min dauert es, eine neue lemniscus-Version zu bauen und bereitzustellen
Es werden dann neue Server hochgefahren und die bekommen die neue lemniscus-Version installiert. Auf den neuen Servern wird die Fehlerbehebung getestet.
Jetzt werden die neuen Server mit den alten getauscht - das machen wir, indem wir die IP-Adressen von “my.lemniscus.de” im Namensdienst ändern.
Kundys, die erst jetzt lemniscus laden, bekommen ab diesen Moment bereits die neue Version zu sehen. Alle anderen müssen den IP-Wechsel erst mitbekommen, das kann ein paar Minuten dauern. Sobald der IP-Wechsel erkannt wurde, wird die Seite automatisch neu geladen.
Bis hier hat kein Kundy einen Ausfall, der Wechsel findet praktisch nahtlos statt. Nur das Neuladen der Seite wird eventuell bemerkt.
An der Grafik kann man erkennen, wie die Netzwerklast bei den alten Servern abnimmt und bei den neuen zunimmt. Normalerweise stellen wir erst um, wenn die meisten Anwendys auf die neuen Servern umgesattelt haben. Bei einem Hotfix (wichtiges Update) schon etwas früher.
Ca. 30 Minuten später werden die alten Server mit der neuen Version überspielt. Das kann tatsächlich dazu führen, dass die Browser, die noch die alte IP-Adresse haben, die Seite für ca. 2 bis 3 Minuten nicht laden können. Und das ist der Grund, warum wir normalerweise Updates nur spät in der Nacht durchführen.
In der Grafik sieht man auch das Update der älteren Server. Die Lücken in der Grafik zeigen, wann die Server nicht erreichbar waren - knapp unter 2 Minuten.