Am Mittwoch, dem 06. Mai 2026, fiel die gesamte zentrale IT-Infrastruktur der Universität für fast einen ganzen Arbeitstag aus. Ein schwerwiegender Ausfall, der viele Universitätsangehörige erheblich beeinträchtigt hat — und der vermeidbar gewesen wäre. Dieser Beitrag schildert offen, was passiert ist, was funktioniert hat und wo Verbesserungsbedarf besteht.
Was ist passiert?
Die IT-Infrastruktur der Universität ist für Ausfälle ausgelegt: Jeder Server verfügt über zwei redundante Netzteile, Festplatten sind in RAID-Systemen gespiegelt, und die rund 600 Server sind auf zwei Maschinenräume (Rechenzentrum und M3) verteilt, zwischen denen Daten synchron gespiegelt werden. Das Konzept ist so ausgelegt, dass im Bedarfsfall alle Server an einem einzigen Standort weiterlaufen können.
Im Rahmen vorbereitender Arbeiten für die geplante Erneuerung der IT-Infrastruktur (Großgeräteantrag) wurde dieser Wechsel zwischen den Standorten in den vergangenen Wochen bereits mehrfach vollzogen — völlig unterbrechungsfrei und von niemandem bemerkt. Am Mittwoch ist dabei jedoch ein Fehler unterlaufen: Beide Standorte waren gleichzeitig außer Betrieb.
Was lernen wir daraus?
Der anschließende Wiederanlauf aller Systeme ist deutlich komplexer als das schlichte Einschalten eines Computers: Dienste müssen in einer bestimmten Reihenfolge gestartet werden, Synchronisationsvorgänge brauchen Zeit. Ein Szenario dieser Größenordnung war im 24/7-Betrieb unserer Universität noch nie geprobt worden. Das muss sich ändern.
Drei konkrete Lehren werden mitgenommen:
- Wiederanlaufplan verbessern: Der Plan hat grundsätzlich funktioniert — aber er hat Lücken. Er wird überarbeitet und künftig regelmäßig geprobt.
- Sorgfalt vor Tempo: Der Zeitdruck auf das Admin-Team darf bei kritischen Arbeiten nicht so groß werden, dass die Sorgfalt leidet.
- Kommunikation ausbauen: Am Vormittag war bereits eine Meldung in den Sozialen Medien erschienen — Zwischenmeldungen während des Wiederanlaufs hätten die Ungewissheit jedoch deutlich reduziert. Auch eine zeitnahe schriftliche Information unmittelbar nach Wiederherstellung der Systeme wäre angemessen gewesen. Das war nicht gut genug.
Erste konkrete Maßnahme bereits in der Umsetzung
Die Verteilung von zwei zusätzlichen physischen DNS-Servern ist bereits angelaufen. DNS-Server funktionieren wie ein Telefonbuch des Internets: Sie übersetzen Adressen wie www.uni-bamberg.de in technische Adressen, die Rechner tatsächlich ansteuern können. Fällt dieser Dienst aus, sind Webseiten, E-Mail und viele weitere Angebote nicht mehr erreichbar — unabhängig davon, ob die eigentlichen Systeme noch laufen. Die zusätzlichen, physisch getrennten Server sorgen dafür, dass genau das künftig nicht mehr passiert.
Der Ausfall und insbesondere die zögerliche Kommunikation werden ausdrücklich bedauert. Beides hat Vertrauen gekostet — und beides wird ernst genommen.