High Availability und Disaster Recovery: Was ist der Unterschied?

Wir verlassen uns im Geschäftsalltag immer mehr auf unsere IT-Infrastruktur. Ein kritischer Fehler ist nicht nur ein Zeitfresser, sondern auch eine mögliche Gelegenheit für Cyberangriffe. Aufgrund solcher Gefahren investieren Unternehmen heute einen großen Teil ihres IT-Budgets in Lösungen. Diese Lösungen wurden entwickelt, um sicherzustellen, dass die Server auch im schlimmsten Fall betriebsbereit bleiben. Obwohl allgemein anerkannt ist, dass solche Maßnahmen erforderlich sind, gibt es natürlich eine gewisse Debatte darüber, welche Lösung das größte Maß an Schutz bietet.

Was bedeuten High Availability und Disaster Recovery?

High Availability und Disaster Recovery reduzieren Ausfallzeiten und sorgen für die Aufrechterhaltung der Geschäftskontinuität in Notzeiten. Aber was bedeuten sie?

High Availability (HA) – Dies bezieht sich auf ein System, das so lange wie möglich kontinuierlich vergügbar ist. Dieses System kann ein ganzes Netzwerk oder nur ein Teil einer größeren Infrastruktur sein.
Disaster Recovery (DR) – Dies bezieht sich auf Verfahren, die die Wiederherstellung von Systeme nach einer Katastrophe ermöglichen.

High Availability: Drei Ebenen der Redundanz

Im Grunde genommen denken wir bei High Availability (Deutsch: Hochverfügbarkeit) an ein System, das ständig in Betrieb ist. Die Praxis ist jedoch etwas komplexer.Bei High Availability geht es darum, einzelne Ausfallpunkte zu eliminieren. Da es bei HA darum geht, Ausfallpunkte zu reduzieren, ist es wichtig, Redundanz in das System einzubauen. Diese absichtliche Redundanz ist in drei Schlüsselbereiche unterteilt: Hardware, Software und Standort.

1. Hardware-Redundanz

Die Hardware-Redundanz war der erste Aspekt, mit dem HA in die Welt der Computer eingeführt wurde. Früher, als es noch kein Internet gab, war Hardware-Redundanz unerlässlich. In der heutigen Zeit versuchen Hardware-Hersteller weiterhin, Fehlerquellen zu beseitigen, indem sie Redundanz in Netzwerklösungen, Stromversorgung, und Speicherelemente einbauen.

Redundante Speicherelemente sorgen dafür, dass die Daten auf mehrere Festplatten geschrieben werden. Dies verhindert Datenverlust und Ausfallzeiten im Falle eines Serverausfalls.
Redundante Stromversorgung erfolgt typischerweise in Form von mehreren Stromquellen. Dadurch können Administratoren im Falle eines Ausfalls einer einzelnen Stromquelle auf eine Ersatzstromversorgung zurückgreifen.
Redundante Netzwerklösungen ermöglichen die Verbindung zu mehreren unabhängigen Netzwerken, um sicherzustellen, dass ein Server online bleibt.

2. Software-Redundanz

Im Zuge der Weiterentwicklung der Computertechnologie stellten die Programmierer sicher, dass die Anwendungen selbst Ausfälle in einem System tolerieren können. Dies erfolgt in der Regel durch Clustering, Load Balancing und Self-healing Systems:

Clustering (Deutsch: Rechnerverbund), die die Verteilung von Arbeitslasten auf mehrere verschiedene Server ermöglicht.
Load Balancing (Deutsch: Lastverteilung), die es ermöglicht, dass eingehende Anfragen an gesunde Anwendungsknoten weitergeleitet werden.
Self-healing Systems (Deutsch: Selbstheilende Systeme), die es erlauben, Arbeitslasten zu verschieben und zusätzliche Kapazitäten zuzuweisen.

3. Standort-Redundanz

Techniker bringen HA jetzt auf ein noch höheres Niveau:

Redundanz der Rechenzentren, die es Benutzern ermöglicht, Anwendungen in getrennten Rechenzentren auszuführen. Diese Rechenzentren liegen zwar getrennt, aber relativ nahe beieinander.
Hardware-Redundanz auf Server-Rack-Ebene, die es Benutzern ermöglicht, Arbeitslasten zu verteilen, um einzelne Fehlerquellen zu minimieren.

In dem seltenen Fall, dass alle diese Faktoren versagen und ein System trotzdem ausfällt, kommt hier die Disaster Recovery ins Spiel.

Disaster Recovery

Disaster Recovery (Deutsch: Datenwiederherstellung im Krisenfall) kann in verschiedenen Formen erfolgen. Manchmal geht es nur darum, ein Backup wiederherzustellen, und manchmal geht es um komplexere Maßnahmen. Ähnlich wie High Availability beinhaltet auch Disaster Recovery zwei Kernkonzepte:

RTO (Recovery Time Objective): Die Recovery Time Objective (RTO) ist die Zeit, die ein System maximal ausfallen kann, bevor es wiederhergestellt wird. Für die Low-Level-Systeme kann die RTO in Stunden gemessen werden. Bei geschäftskritischen Systemen sollte die RTO in Sekunden oder Minuten gemessen werden.
RPO (Recovery Point Objective): Ein Recovery Point Objective ist der älteste Zeitpunkt eines Backups, der im Falle einer Katastrophe toleriert werden kann. Für einfache Systeme ist ein RPO von ein bis zwei Tagen normalerweise akzeptabel. Bei unternehmenskritischen Systemen wäre ein akzeptabler RPO auch in Minuten oder sogar Sekunden.

Kurz gesagt, die Wichtigkeit der gehosteten Daten bestimmt den Schwellenwert für die RTO und RPO.

In Fällen, in denen dieser Schwellenwert niedrig ist (d.h. schnell), wird empfohlen, die Datentransfer zwischen Primär- und Sekundärsystem ständig aktiv zu halten. Es muss dazu ein Backup-System installiert werden, um die Website im Falle einer Katastrophe weiterhin online zu halten.

Wenn die Schwelle hoch ist (d.h. für Low-Level-Systeme), kann eine Wiederherstellung der Systeme aus täglichen Backups oft ausreichen, um den Betrieb wieder zu normalisieren. In solchen Fällen können Sie auf die Betriebskosten für ein Backup-System verzichten.

Was ist also der endgültige Unterschied?

Während beide, HA und DR, darauf hinarbeiten, dass die Systeme jederzeit online und funktionsfähig sind, unterscheiden sie sich in ihren Aufgaben.

High Availability Systeme sollten auch bei Strom-, Netzwerk- oder Hardwareausfällen weiter funktionieren. Redundanzen sollten genügend Zeit bieten, um das Problem zu beheben, während der Betrieb normal weiterläuft.

Disaster Recovery ist die letzte Anlaufstelle, wenn es zu einem Totalausfall kommt. Sie stellt sicher, dass unternehmenskritische Daten nicht verloren gehen und die notwendige Ausfallzeit minimiert wird. Kurz gesagt, ist es empfehlenswert, einen Notfallplan zu haben.