Frank Dederichs: Die Aussage, wir hätten unsere Backup-Systeme vernachlässigt – und dies gar systematisch – weise ich entschieden zurück. Wir investieren nicht nur enorme Summen in unsere Infrastruktur, sondern auch in die Ausfallsicherheit unserer Systeme. In vielen Fällen funktionieren diese Konzepte tadellos. Genau das merkt man dann nicht – und so sollte das auch sein.
Um die Ausfallsicherheit sicherzustellen, kommen zwei Konzepte zur Anwendung. Erstens der Aufbau von Redundanzen und zweitens die Resilienz von Systemen. In der öffentlichen Diskussion der vergangenen Wochen war immer wieder von der Redundanz die Rede. Damit ist gemeint, dass das Netz so ausgelegt ist, dass wichtige Komponenten oder Kommunikationswege mehrfach vorhanden sind. Diese übernehmen im Notfall die Aufgabe einer defekten Komponente.
Wie die Erfahrung der vergangenen Wochen gezeigt hat, ist Redundanz allein jedoch kein Allheilmittel, da sie in gewissen Spezialfällen nicht greift – zudem erhöhen zu viele Redundanzen die Komplexität. Nebst den bestehenden Redundanzen wollen wir deshalb die Resilienz von Systemen noch stärker vorantreiben. Denn Qualität hat für uns höchste Priorität. Der Unterschied lässt sich am Beispiel eines PKW-Reifens veranschaulichen: Verliert Ihr Reifen im Falle einer Panne Luft, wechseln Sie ihn einfach gegen ein Reserverad aus. Das ist Redundanz. Absolute Redundanz aber ist nicht immer zielführend. Es nützt wenig, fünf Reserveräder mitzuführen. Deshalb setzen wir vermehrt auf die Resilienz. Resilient wäre bei unserem Beispiel ein Runflat Reifen, der auch weiterrollt, wenn er Luft verliert – zwar etwas langsamer und wohl auch nicht mehr bis ans Ende der Welt, aber er fährt immerhin bis zur nächsten Garage.
Die Abstände zwischen Software-Updates sind kürzer geworden, und die Lebensdauer der Hardware nimmt ab. Zudem muss das Netz ständig ausgebaut werden, um mit der wachsenden Datenmenge und vielen anderen Anforderungen fertig zu werden. Die Geschwindigkeit, mit der wir Änderungen an unseren Systemen vornehmen müssen, hat sich deshalb massiv erhöht. Heute stehen wir bei mehr als 4’000 Änderungen pro Woche an unseren Systemen und dabei sind Fehler leider nie restlos auszuschliessen.
Bei jeder Anpassung stellt sich die Frage: Wie kompliziert ist diese? Und wie gross die mögliche Schadensschneise? Daraus ergibt sich die Einstufung, wie bei der Änderung vorgegangen wird. Dabei kann es zu Fehleinschätzungen kommen, wie zum Beispiel bei der Störung am 11. Februar 2019. So wurde in einer Nacht bei mehreren kritischen Netz-Komponenten gleichzeitig ein Software-Update eingespielt, weil das Risiko fälschlicherweise als gering eingeschätzt wurde. Sicherheitshalber hätte die Umstellung in zwei Nächten bei je der Hälfte der Komponenten erfolgen sollen. Deshalb überprüfen wir nun auch unsere Prozesse, um das Potenzial von Fehlern bei Wartungsarbeiten nochmals zu reduzieren.
Neue Komponenten werden in der Regel in den Labors getestet, bevor sie live gehen. Im Labornetz kann etwa überprüft werden, wie das Zusammenspiel von fünf Komponenten mit dem von einem Lastengenerator simulierten Verkehr funktioniert. Das Funktionieren unter Labor-Bedingungen ist aber keine Garantie, dass dies auch im richtigen Netz mit Tausenden Komponenten der Fall sein wird.
Ein Test ist aber nicht immer möglich. Wird zum Beispiel eine gravierende Sicherheitslücke entdeckt, muss diese schnell geschlossen werden. Teilweise muss dabei das Risiko von Störungen in Kauf genommen werden, weil auf das übliche Test-Prozedere verzichtet werden muss.
Langfristig betrachtet entwickelt sich die Betriebsstabilität positiv. So beispielsweise im Privatkundenbereich, wo die Ausfallminuten in den letzten drei Jahren um 40% reduziert wurden. Swisscom ist die grösste Anbieterin der Schweiz. Somit sind von einem Ausfall automatisch mehr Kunden betroffen, als dies bei den Mitbewerbern der Fall ist. Im Geschäftskundenbereich wollen wir uns verbessern. Denn hier haben kleinste Ausfälle eine grosse Auswirkung – durch die Digitalisierung sind unsere Infrastrukturen, Systeme und Software stärker denn je mit den Geschäftsabläufen unserer Kunden verzahnt. Deshalb liegt hier die Toleranzschwelle bei Ausfällen viel tiefer.
Kein Telekommunikationsunternehmen dieser Welt kann sich gegen IP stellen. Denn IP ist ein weltweiter Standard, auf dem die Digitalisierung aufbaut. Heute hängen Dienste immer stärker zusammen. Mit dem Smartphone geschossene Fotos werden etwa in die Cloud übertragen. Oder der Fernseher kann mit dem Smartphone bedient werden. Damit die Plattformen Daten miteinander austauschen können, müssen die Netze verbunden sein. Das IP-Protokoll macht diese Vernetzung erst möglich. Heikel ist also nicht das Protokoll an sich, sondern die Tatsache, dass es diese Verbindungsnetze gibt. Und genau wie jede andere Technologie ist auch IP nicht völlig störungsfrei. Sie ist aber gleich zuverlässig wie die analoge Telefonie. Mit dem Abschalten der analogen Technik und dem Wechsel auf IP konnte zudem die Komplexität des Netzes reduziert werden – und damit auch die Anfälligkeit für Störungen.
Swisscom hat nach den Ereignissen im Januar und Februar 2020 rasch reagiert und unterschiedliche kurzfristige Massnahmen umgesetzt. So wurde der Prozess für die Umsetzung von Änderungen umgehend verschärft. Ziel ist es, Risiken konsequenter auszuschliessen und im Falle kritischer Änderungen enger zu begleiten. Andererseits sind wir mit den Verantwortlichen der Blaulichtorganisationen bereits dran, die Ausfallsicherheit bzw. die redundante Auslegung der Systeme möglichst rasch zu erhöhen.
Daneben haben wir zwei Vorhaben aufgegleist, die mittel- bis langfristig einen Effekt haben sollen. Einerseits untersuchen wir unser Netz und unsere Systeme konsequent auf sogenannte «Single Point of Failures» – also einzelne Schwachstellen, die im schlimmsten Fall ein ganzes System ausser Gefecht setzen können. Finden wir eine solche Konstellation, wird diese Schwachstelle mit hoher Priorität geschlossen. Andererseits haben wir ein breit abgestütztes Audit aufgesetzt, das unsere gesamten Systeme, Netze, Prozesse, Kultur und weitere Themen durchleuchten soll. Ziel ist es, Erkenntnisse für langfristige Verbesserungen zu gewinnen.
Abonnieren Sie die News von Swisscom per E-Mail.
Swisscom
Media Relations
Alte Tiefenaustrasse 6
3048 Worblaufen
Postadresse:
Postfach, CH-3050 Bern
Schweiz
Tel. +41 58 221 98 04
media@swisscom.com
Frank Dederichs ist Mitglied der Bereichsleitung IT, Network & Infrastructure von Swisscom und verantwortlich für den Bereich Cloud Engineering & Operations.