Howto: ESXi Host im Notfall ohne vCenter verwalten

Normales Setup: ein VMware Cluster aus 3 ESXi, redundant über FC oder 10GB Copper angebunden an eine ebenfalls redundant ausgelegte SAN-Lösung von einem der bekannten Lösungsanbieter. Was fällt aus? Logisch. Genau die LUN, auf der der vCenter Server residiert.

18. Feb 2015 00:54

Eigentlich hat man alles getan. Aber es passiert trotzdem. Hochverfügbarkeit ist überall ein Thema, und trotzdem sind Ausfälle, wie der oben beschriebene, offenbar häufiger, als gewünscht.

Hier beschreibe ich eine Möglichkeit, handlungsfähig zu bleiben, auch wenn der vCenter Server nicht verfügbar ist.

Das Konzept

Bei 3 vorhandenen Hosts sollte es selbst im schlimmsten anzunehmenden Fall zumindest einen geben, der noch hochfährt.

In jedem meiner ESXi Hosts befindet sich physisch vorhandener lokaler Festplattenspeicher - zum einen für die Logs und Reports des ESXi Hosts, aber vor allem als Speicherort für die VM-Auslagerungsdateien. Und als Speicherort für eine handvoll Notfall-VMs.

Diese sind auf jedem Host identisch, daher ist es nicht nötig, sie in einer Backup-Strategie zu berücksichtigen. Sie bleiben ausgeschaltet, benötigen also im Normalbetrieb keine Resorcen - bis auf eine einzige: ein Notfall-Arbeitsplatz unter WindowsXP.

Die nötigen WindowsXP Lizenzen liegen in den meißten Firmen heute ungenutzt herum. WindowsXP begnügt sich mit sehr geringen Resourcen (16GB Festplatte, 1GB Ram, 1 CPU), ist wartungsarm (weil es wirklich nur ein Notfall-Arbeitsplatz ist) und bietet alle grundlegenden Werkzeuge: vSphere Client, PuTTY, Webbrowser, Notepad.

WindowsXP wird zwar von VMware nicht mehr unterstützt, aber es gibt einen Workaround dafür.

Notfallbetrieb inkl. Internet nach IT-Totalausfall in 15min

Ausgehend vom schlimmsten anzunehmenden Fall, gibt es natürlich auch kein Internet mehr (eine redundant ausgelegte Cisco Firewall ist evtl. schlicht deshalb nicht verwendbar, weil ein Bagger irgendwo das Kabel gekappt hat). Dafür ist eine VM als Router/Firewall vorbereitet, die ich einfach starten kann. Mit LTE-Stick, der in die VM durchgereicht wird.

So ist jeder einzelne ESXi Host in der Lage, nach einem Totalausfall der kompletten IT inkl. dem Verlust der externen Internet-Anbindung nach höchstens 15min an allen Arbeitsplätzen einen Notfallbetrieb sicherzustellen: mit Internet, Email und interner Kommunikation.

Be prepared! Den Notfallbetrieb planen

Je nach dem, wie in Ihrer Planung der Notfallbetrieb beschrieben ist, können bestimmte Dienste mit weiteren VMs abgefangen werden.

ERP-Systeme, Kassensysteme, Buchhaltung und ähnliches gehören nicht dazu (jeder, der schon einmal mit dem Problem konfrontiert war, die Datenbestände von 2 ERP-Systemen zu mergen, weis wovon ich rede).

Dagegen kann eine virtuelle VPN-Appliance wichtig sein, um externe Dienstleister oder Helfer in die Problemlösung mit einzubeziehen.

Gehen Sie bei der Planung Ihrer Notfallstrategie davon aus, dass Sie nicht mehr als höchstens diesen einen ESXi haben. Und denken Sie das Unmögliche.

Notfallbetrieb bedeutet nicht, voll arbeitsfähig zu sein, sondern alle nötigen Resourcen und Werkzeuge zu haben, um den Normalbetrieb wieder herstellen zu können (Internet und Email an den Arbeitsplätzen ist quasi eher ein Nebeneffekt).

 
π