Serverausfall - was kann man tun?

Autor:   |  12.07.2019


eigener-server.jpgEin Serverausfall bei einer privaten Webseite ist in erster Linie ärgerlich - bei einem Unternehmen hingegen können die Folgen schnell einen hohen finanziellen Schaden und einen Verlust von Reputation und Vertrauen bei den Kunden beinhalten. Aus diesem Grund ist es unverzichtbar, die permanente Erreichbarkeit durch ein Servermonitoring zu überwachen und im Falle einer Störung unverzüglich Gegenmaßnahmen einzuleiten. Andernfalls ist es möglich, dass unter ungünstigen Umständen zwischen einem Serverausfall und der ersten Reaktion wertvolle Zeit verloren geht und sich aus einem begrenzten Vorfall erhebliche Konsequenzen entwickeln. Ein rasches Eingreifen minimiert in vielen Fällen sowohl die Dauer wie auch die Auswirkungen und erlaubt es, bei einem Serverausfall die Internetpräsenz rasch auf eine temporäre Notfall-Instanz umzuleiten.

 

Ab einer gewissen Betriebsgröße ist ein umfassendes Sicherheitskonzept obligatorisch, um einen Serverausfall nach Möglichkeit zu vermeiden und gegebenenfalls dessen Folgen zu begrenzen und die Gegenmaßnahmen zu koordinieren. Angesichts der Vielzahl der möglichen Ursachen gehört zu diesem neben einem Plan für das akute Krisenmanagement auch - soweit möglich - eine alternative IT-Struktur als Backup. Das erlaubt eine universelle Reaktion auf externe Gründe wie eine DDos Attacke, Versagen der Hardware oder Energieversorgung und Fälle höherer Gewalt ebenso wie bei internen Faktoren - zum Beispiel Fehler in der Konfiguration und Programmierung oder unzureichende Wartung.

Inhaltsverzeichnis:

Ursachen für einen Serverausfall
Risikominimierung

Kosten durch einen Serverausfall
Gegenmaßnahmen auf mehreren Ebenen
Haftung und Schadenersatz
Erste Gegenmaßnahmen bei einem akuten Serverausfall

Ursachen für einen Serverausfall

Dass trotz diverser Sicherheitsmaßnahmen ein Serverausfall eher die Regel als die Ausnahme ist, belegt eine 2013 von HP Deutschland in Auftrag gegebene Studie über deren Häufigkeit und Auswirkungen. Für sie befragte der Konzern etwa 300 mittelständische Unternehmen mit 200 bis 4.999 Angestellten auf die Häufigkeit und die Gründe für einen Serverausfall. Mehr als drei Viertel aller Teilnehmer gab an, dass innerhalb der letzten 12 Monate mindestens ein Ausfall in systemkritischen Bereichen aufgetreten sei. Zu den möglichen Auslösern zählen unter anderem:

  • Angriffe wie eine DDos Attacke
  • Versagen der Hardware inklusive CPU, Festplatten oder Expansion Cards
  • Bugs in der Software
  • Probleme im Netzwerk durch Router, Switches, Security Server oder Verkabelung
  • Menschliches Versagen
  • Gezielte Cyberkriminalität oder -spionage wie Spear Phishing, Social Engineering oder Datendiebstahl durch Man-in-the-Middle Angriffe
  • Infiltration kritischer Bereiche durch Viren, Würmer, Ransomware oder Trojaner
  • Unfälle wie Brand
  • Versagen von externen Dienstleistern - etwa Stromausfälle
  • Innere oder äußere Sabotage durch Manipulation von SCADA Systemen
  • Ausnutzen von Sicherheitslücken für das Eindringen in das Netzwerk
  • Probleme beim Betriebssystem (Windows Blue Screen, Linux Kernel Panic)

Die schiere Zahl der betroffenen Unternehmen beweist, dass eine vollständige Sicherheit selbst in abgeschotteten Bereichen nur schwer zu erreichen ist. Selbst eine vollständige Isolierung der kritischen Systeme beseitigt nicht die Gefahr, dass zahlreiche externe Faktoren inklusive Unfällen, mangelnder Energieversorgung oder einem spontanen Ausfall von Hardware eine kontinuierliche Laufzeit und Erreichbarkeit 24/7/365 gewährleisten.

Risikominimierung

Viele der möglichen Szenarien lassen sich durch die entsprechenden Sicherheitsmaßnahmen vollständig vermeiden oder mindestens in ihrer Wahrscheinlichkeit auf ein sehr niedriges Niveau senken. Allerdings muss in diesem Zusammenhang immer der Kosten-Nutzen-Faktor und die Relation zwischen dem Aufwand und den voraussichtlichen Auswirkungen berücksichtigt werden. Darüber hinaus spielen rechtliche wie psychologische Aspekte eine wichtige Rolle - die vollständige Überwachung eines Angestellten ist technologisch ohne Weiteres möglich, verspricht aber nur in seltenen Fällen Erfolg und ist nur bei akutem Verdacht zulässig und sinnvoll. Einerseits schränkt die Gesetzgebung und der Datenschutz diese notwendigerweise ein, andererseits leiden unter ihr auch grundlegende Faktoren wie Vertrauen, interne Kooperation, Betriebsklima und Kreativität, so dass die Produktivität und die Bereitschaft für Innovationen unter diesen Maßnahmen empfindlich leiden.

Kosten durch einen Serverausfall

In jeder Branche führt ein Serverausfall unmittelbar zu einer hohen finanziellen Belastung, die einerseits auf die Unterbrechung des Betriebsablaufs und andererseits auf die Maßnahmen zur Regulierung der Situation und Beseitigung der Folgen zurückzuführen sind. Ein Backup in Echtzeit kann als sekundäre Datensicherung mit einem vergleichsweise geringen Aufwand durchgeführt werden und laufende Prozesse sowie eingehende Informationen etwa in einem Shopsystem verlustfrei protokollieren. Es gewährleistet bei einem Serverausfall aber lediglich die Integrität der Daten, vermeidet aber keine Ausgaben für das Personal, die Wiederherstellung des primären Systems und die Analyse der Ursachen. Je nach Größe des Unternehmens steigen diese überdurchschnittlich an, sofern es nicht ohne Verzögerung Gegenmaßnahmen ergreift und dadurch seine Produktivität aufrechterhält. Durchschnittlich lagen bei der von HP Deutschland angefertigten Studie die Kosten bei 25.000 Euro je Stunde Serverausfall und betrugen bei Mittelständern mit mehr als 1.000 Angestellten 40.000 Euro und höher.

Ein Serverausfall benötigte statistisch etwa 3,8 Stunden für die Reparatur - die Folgen sind demnach ein Schaden zwischen etwa 90.000 Euro und 150.000 Euro pro Ereignis und summieren sich bei einer gemittelten Ausfallzeit von 12 bis 16 Stunden auf einen Wert von 380.000 Euro im Jahr. Besonders betroffen sind dabei die verarbeitende Industrie und die vernetzten Strukturen einer Smart Factory, denn hier kann das Just-in-Time Produktionssystem dazu führen, dass die gesamte Prozesskette zeitweilig ausfällt. Auch innerhalb einer intelligenten Prozesskette ist es nur begrenzt möglich, einen lokalen Serverausfall durch die Umverteilung der Ressourcen zu kompensieren. Die Folgen eines Vorfalls beinhalten deshalb sowohl kurz- wie langfristige finanzielle Kosten, die weit über die direkte Reparatur hinausgeht. Zu diesen zählen unter anderem:

  • Personalkosten für die aktive Beseitigung des Schadens
  • Komponenten oder Server als Ersatzteile
  • Umsatzverluste durch fehlende Erreichbarkeit der Webseite
  • Rekonstruktion der Daten
  • Restrukturierung, Monitoring und Neustart der Prozesse
  • Unterbrechung der Produktion oder Logistik
  • Kommunikation mit betroffenen Stamm- und Neukunden

Gegenmaßnahmen auf mehreren Ebenen

Obwohl zahlreiche unterschiedliche und effiziente Maßnahmen existieren, kann ein Serverausfall aufgrund von Unglücken, technischem und menschlichem Versagen oder gezielten Angriffen nicht vollständig ausgeschlossen werden. Eine vollständige und umfassende Absicherung erfordert eine komplexe und kostenintensive Betreuung und lohnt sich in der Regel ausschließlich bei kritischer IT-Infrastruktur wie der Energie- und Wasserversorgung, Institutionen der öffentlichen Sicherheit sowie der Telekommunikation. In den meisten Fällen ist ein Servermonitoring in Echtzeit in Verbindung mit einem Notfallplan ausreichend. Die Gegenmaßnahmen für einen Serverausfall unterscheiden sich nach internen und externen Einflüssen und mehreren Szenarien. Sie umfassen unter anderem:

  • 24/7/365 Servermonitoring in Echtzeit mit automatischem Alarm bei Problemen
  • Absicherung des Betriebssystems
  • Firewall und weitere Filter für die Erkennung einer DDos Attacke
  • Geprüfte Hardware mit einer niedrigen Ausfallwahrscheinlichkeit von weniger als 99 Prozent
  • Regelmäßige Modernisierung der IT-Infrastruktur
  • Flexible Cluster aus mehreren Servern mit Hot Swap
  • Redundante Netzwerke und IT-Strukturen
  • Permanente Datensicherung über gespiegeltes Backup an unterschiedlichen Standorten
  • Automatisierte Standby-Systeme als zweite Instanz bei Notfällen
  • Physische Gegenmaßnahmen wie Brandschutz und Zugangskontrollen
Wegen der Vielzahl der möglichen Szenarien für einen Serverausfall bietet sich gerade bei kleinen und mittelständischen Unternehmen das Bereithalten einer zusätzlichen, leistungsschwächeren IT-Infrastruktur für eventuelle Notfälle an. Diese kann von einem einfachen Webserver für die Kommunikation und den Betrieb einer Notfallseite (zum Beispiel: Technische Arbeiten, Wartungsmaßnahmen) bis hin zu redundanten Prozessketten über alternative Embedded Devices und sekundäre Subnets in der Produktion reichen. Der Übergang von der primären auf die sekundäre IT-Struktur erfolgt in der Regel automatisiert und in Echtzeit, falls das Servermonitoring einen Serverausfall, kritischen Zustand oder ein Teilversagen feststellt.
 

Haftung und Schadenersatz


Bei einer eigenen Infrastruktur können fremde Anbieter nur in seltenen Ausnahmefällen für einen Serverausfall zur Verantwortung gezogen werden - etwa wenn ein nachweislich fehlerhaftes oder grob fahrlässiges Verhalten im Rahmen eines regulären Support-Vertrages vorliegt oder die Hardware nicht die vom Hersteller zugesicherten Bedingungen erfüllt. Ein Webhoster garantiert seinen Kunden in der Regel pro Kalenderjahr eine durchschnittliche Erreichbarkeit von 99 Prozent oder höher. Auf einen Zeitraum von 365 Tagen bedeutet dies einen maximalen Serverausfall von 87,6 Stunden im Mittel - er kann allerdings bei einzelnen Kunden länger andauern, ohne dass daraus einen Anspruch auf Schadensersatz entsteht. Aus diesem Grund sind preisgünstige Webhoster für kommerzielle Anwendungen nur begrenzt zu empfehlen - bei der Notwendigkeit einer hohen, permanenten Erreichbarkeit ist eine eigene IT-Infrastruktur aus mehreren räumlich getrennten Root Servern oder Virtuellen Servern mit permanentem Servermonitoring einer Paketlösung vorzuziehen.
 

Erste Gegenmaßnahmen bei einem akuten Serverausfall


Ein Serverausfall kann in seinen Auswirkungen erheblich reduziert werden, falls der Betreiber unmittelbar nach dem Versagen Gegenmaßnahmen zur Begrenzung des Schadens ergreift. Diese haben gegenüber einer Analyse oder einer Rekonstruktion des Vorgangs - zum Beispiel durch eine datentechnische Forensik - absolute Priorität. Aus diesem Grund kommt der Datensicherung mittels Backup auf getrennten Systemenn eine besondere Bedeutung zu - diese sollten für einen Notfall jederzeit zur Verfügung stehen und bei einem Serverausfall der primären IT-Struktur automatisch oder manuell ohne Verzögerung aufgeschaltet werden können. Ein Schadensersatz durch den Webhoster, einem Rechenzentrum oder den Hersteller der Hardware ist nicht zu erwarten. Die Absicherung und Prävention für einen Serverausfall liegt deshalb in der eigenen Verantwortung, sofern Verträge mit externen Dienstleistern diese nicht explizit in dessen Zuständigkeit verlagern.