Datacenter: Umbauarbeiten an Switch-Infrastruktur abgeschlossen

Der nächste grosse Meilenstein ist erreicht: wir haben unsere Switch-Infrastruktur homogenisiert und modernisiert. Kleinere Switche wurden gegen grössere ausgetauscht, gleichzeitig wurde die Redundanz nochmal erhöht. Da unsere oVirt-Cluster und GlusterFS-Storages das Netzwerk wie die Luft zum Atmen brauchen, glich dieses Wartungsfenster der berühmten Operation am offenen Herzen.

Klar, Menschen machen Fehler, und nicht alles ist plan- und vorhersagbar. Bei dieser heiklen Operation sollte so wenig wie möglich schiefgehen, daher wurde im Vorfeld noch mehr als sonst getestet und viel geübt (danke an Alex Faes von https://www.fsit.com für die Test-Leihgabe der Switch-Hardware). Zudem haben wir uns diesesmal aufgeteilt: statt dass alle in unser Datacenter pilgerten, konfigurierte ein Teil der besseren Konzentration und Übersicht halber die Switche per SSH aus dem Office. Der andere Teil der Mannschaft leistete vor Ort die Tests sowie Einbau-, Verkabelungs- und Umsteckarbeiten.

Das Protokoll:

00:00 Uhr

Nach Ankündigung im Wartungsfenster werden die Rack-Türen geöffnet, und wir beginnen mit der Überprüfung der Netzwerk-Verkabelung gegen unsere Dokumentation.

00:20 Uhr

Verkabelung stimmt, Backup-Systeme geprüft. Der Einbau der neuen Switche startet.

01:00 Uhr

Die neuen Switche sind verkabelt. Erste Tests an Bonding Mode 6-Maschinen beginnen.

01:30 Uhr

Die Tests sind erfolgreich. Wichtige VMs werden aus Sicherheitsgründen heruntergefahren. Das Umstecken der Bonding Mode 4-Maschinen beginnt.

01:45 Uhr

Es treten auf einem Gluster-Volume Shards auf.

02:00 Uhr

Ein abgestürzter Self-Heal-Daemon auf einem älteren Hyperconverged oVirt-Node hält uns auf Trab. Nach kurzer Beratung starten wir dort glusterd neu. Das Self-Healing läuft diesesmal durch.

02:30 Uhr

MLAG über die neuen Switche ist eingerichtet.

02:45 Uhr

Alle Bonding Mode 4-Maschinen sind umgesteckt, die neuen Switche sind mit LACP über die MLAGs konfiguriert. Das Umstecken der Bonding Mode 6-Maschinen beginnt.

03:00 Uhr

Die Bonding Mode 6-Maschinen sind umgesteckt.

03:10 Uhr

Kunden-VMs werden hochgefahren.

03:25 Uhr

Alle aus Sicherheitsgründen heruntergefahrenen Präsenzen unserer Kunden sind wieder erreichbar.

03:50 Uhr

Fertig. Alles aufgeräumt, Switche konfiguriert, Icinga ist zufrieden, das gesamte Datacenter ist wie gewohnt up and running.