Mitglied Bereichsleitung IT, Netze und Infrastruktur

«Qualität hat höchste Priorität»

Die Netzausfälle von Swisscom der letzten Zeit bewegen. Im Zuge der Berichterstattung haben sich in den Medien verschiedene Telecom-Experten zu möglichen Hintergründen geäussert. Wir haben einige der Thesen aufgenommen und von Frank Dederichs, Mitglied der Bereichsleitung von IT, Netze und Infrastruktur, auf deren Gehalt prüfen lassen.
Bruno Böhlen
Bruno Böhlen, Corporate Journalist
09. März 2020

These: «Swisscom hat offenbar ihre Backup-Systeme vernachlässigt.»

Frank Dederichs: Die Aussage, wir hätten unsere Backup-Systeme vernachlässigt – und dies gar systematisch – weise ich entschieden zurück. Wir investieren nicht nur enorme Summen in unsere Infrastruktur, sondern auch in die Ausfallsicherheit unserer Systeme. In vielen Fällen funktionieren diese Konzepte tadellos. Genau das merkt man dann nicht – und so sollte das auch sein.

Um die Ausfallsicherheit sicherzustellen, kommen zwei Konzepte zur Anwendung. Erstens der Aufbau von Redundanzen und zweitens die Resilienz von Systemen. In der öffentlichen Diskussion der vergangenen Wochen war immer wieder von der Redundanz die Rede. Damit ist gemeint, dass das Netz so ausgelegt ist, dass wichtige Komponenten oder Kommunikationswege mehrfach vorhanden sind. Diese übernehmen im Notfall die Aufgabe einer defekten Komponente.

Wie die Erfahrung der vergangenen Wochen gezeigt hat, ist Redundanz allein jedoch kein Allheilmittel, da sie in gewissen Spezialfällen nicht greift – zudem erhöhen zu viele Redundanzen die Komplexität. Nebst den bestehenden Redundanzen wollen wir deshalb die Resilienz von Systemen noch stärker vorantreiben. Denn Qualität hat für uns höchste Priorität. Der Unterschied lässt sich am Beispiel eines PKW-Reifens veranschaulichen: Verliert Ihr Reifen im Falle einer Panne Luft, wechseln Sie ihn einfach gegen ein Reserverad aus. Das ist Redundanz. Absolute Redundanz aber ist nicht immer zielführend. Es nützt wenig, fünf Reserveräder mitzuführen. Deshalb setzen wir vermehrt auf die Resilienz. Resilient wäre bei unserem Beispiel ein Runflat Reifen, der auch weiterrollt, wenn er Luft verliert – zwar etwas langsamer und wohl auch nicht mehr bis ans Ende der Welt, aber er fährt immerhin bis zur nächsten Garage.

«Swisscom hat ihre komplexen Systeme nicht mehr im Griff, weshalb es bei Änderungen häufig zu Fehlern kommt.»

Die Abstände zwischen Software-Updates sind kürzer geworden, und die Lebensdauer der Hardware nimmt ab. Zudem muss das Netz ständig ausgebaut werden, um mit der wachsenden Datenmenge und vielen anderen Anforderungen fertig zu werden. Die Geschwindigkeit, mit der wir Änderungen an unseren Systemen vornehmen müssen, hat sich deshalb massiv erhöht. Heute stehen wir bei mehr als 4’000 Änderungen pro Woche an unseren Systemen und dabei sind Fehler leider nie restlos auszuschliessen.

Bei jeder Anpassung stellt sich die Frage: Wie kompliziert ist diese? Und wie gross die mögliche Schadensschneise? Daraus ergibt sich die Einstufung, wie bei der Änderung vorgegangen wird. Dabei kann es zu Fehleinschätzungen kommen, wie zum Beispiel bei der Störung am 11. Februar 2019. So wurde in einer Nacht bei mehreren kritischen Netz-Komponenten gleichzeitig ein Software-Update eingespielt, weil das Risiko fälschlicherweise als gering eingeschätzt wurde. Sicherheitshalber hätte die Umstellung in zwei Nächten bei je der Hälfte der Komponenten erfolgen sollen. Deshalb überprüfen wir nun auch unsere Prozesse, um das Potenzial von Fehlern bei Wartungsarbeiten nochmals zu reduzieren.

«Swisscom testet zu wenig, bevor sie neue Komponenten oder ganze Systeme in Betrieb nimmt.»

Neue Komponenten werden in der Regel in den Labors getestet, bevor sie live gehen. Im Labornetz kann etwa überprüft werden, wie das Zusammenspiel von fünf Komponenten mit dem von einem Lastengenerator simulierten Verkehr funktioniert. Das Funktionieren unter Labor-Bedingungen ist aber keine Garantie, dass dies auch im richtigen Netz mit Tausenden Komponenten der Fall sein wird.

Ein Test ist aber nicht immer möglich. Wird zum Beispiel eine gravierende Sicherheitslücke entdeckt, muss diese schnell geschlossen werden. Teilweise muss dabei das Risiko von Störungen in Kauf genommen werden, weil auf das übliche Test-Prozedere verzichtet werden muss.

«Swisscom hat zu viel gespart. Gebremst wird bei Investitionen in die Infrastruktur. Diese wird aus Kostengründen zu wenig gut gewartet.»

Langfristig betrachtet entwickelt sich die Betriebsstabilität positiv. So beispielsweise im Privatkundenbereich, wo die Ausfallminuten in den letzten drei Jahren um 40% reduziert wurden. Swisscom ist die grösste Anbieterin der Schweiz. Somit sind von einem Ausfall automatisch mehr Kunden betroffen, als dies bei den Mitbewerbern der Fall ist. Im Geschäftskundenbereich wollen wir uns verbessern. Denn hier haben kleinste Ausfälle eine grosse Auswirkung – durch die Digitalisierung sind unsere Infrastrukturen, Systeme und Software stärker denn je mit den Geschäftsabläufen unserer Kunden verzahnt. Deshalb liegt hier die Toleranzschwelle bei Ausfällen viel tiefer.

«Früher war alles besser. Seit der Umstellung der analogen Telefonie auf IP steigt die Zahl der Ausfälle.»

Kein Telekommunikationsunternehmen dieser Welt kann sich gegen IP stellen. Denn IP ist ein weltweiter Standard, auf dem die Digitalisierung aufbaut. Heute hängen Dienste immer stärker zusammen. Mit dem Smartphone geschossene Fotos werden etwa in die Cloud übertragen. Oder der Fernseher kann mit dem Smartphone bedient werden. Damit die Plattformen Daten miteinander austauschen können, müssen die Netze verbunden sein. Das IP-Protokoll macht diese Vernetzung erst möglich. Heikel ist also nicht das Protokoll an sich, sondern die Tatsache, dass es diese Verbindungsnetze gibt. Und genau wie jede andere Technologie ist auch IP nicht völlig störungsfrei. Sie ist aber gleich zuverlässig wie die analoge Telefonie. Mit dem Abschalten der analogen Technik und dem Wechsel auf IP konnte zudem die Komplexität des Netzes reduziert werden – und damit auch die Anfälligkeit für Störungen.

«Swisscom wird die aufgetretenen Probleme innerhalb nützlicher Frist nicht in den Griff bekommen.»

Swisscom hat nach den Ereignissen im Januar und Februar 2020 rasch reagiert und unterschiedliche kurzfristige Massnahmen umgesetzt. So wurde der Prozess für die Umsetzung von Änderungen umgehend verschärft. Ziel ist es, Risiken konsequenter auszuschliessen und im Falle kritischer Änderungen enger zu begleiten. Andererseits sind wir mit den Verantwortlichen der Blaulichtorganisationen bereits dran, die Ausfallsicherheit bzw. die redundante Auslegung der Systeme möglichst rasch zu erhöhen.

Daneben haben wir zwei Vorhaben aufgegleist, die mittel- bis langfristig einen Effekt haben sollen. Einerseits untersuchen wir unser Netz und unsere Systeme konsequent auf sogenannte «Single Point of Failures» – also einzelne Schwachstellen, die im schlimmsten Fall ein ganzes System ausser Gefecht setzen können. Finden wir eine solche Konstellation, wird diese Schwachstelle mit hoher Priorität geschlossen. Andererseits haben wir ein breit abgestütztes Audit aufgesetzt, das unsere gesamten Systeme, Netze, Prozesse, Kultur und weitere Themen durchleuchten soll. Ziel ist es, Erkenntnisse für langfristige Verbesserungen zu gewinnen.



News abonnieren

Abonnieren Sie die News von Swisscom per E-Mail.


Kontaktieren Sie uns

Adresse

Swisscom
Media Relations
Alte Tiefenaustrasse 6
3048 Worblaufen

Postadresse:
Postfach, CH-3050 Bern
Schweiz

Kontakt

Tel. +41 58 221 98 04
media@swisscom.com

Weitere Kontakte

Zur Person

Frank Dederichs ist Mitglied der Bereichsleitung IT, Network & Infrastructure von Swisscom und verantwortlich für den Bereich Cloud Engineering & Operations.