Membre de la direction de la division IT, Réseau et Infrastructure à propos de la qualité du réseau

«La qualité est une priorité absolue»

Les pannes du réseau Swisscom survenues ces derniers temps ne sont pas passées inaperçues. Dans le cadre de la publication des rapports, différents experts en télécoms se sont exprimés dans les médias sur de possibles explications. Nous avons repris certaines de ces thèses afin de les soumettre à l’analyse de Frank Dederichs, membre de la direction de la division IT, Réseau et Infrastructure.
Bruno Böhlen
Bruno Böhlen, Corporate Journalist
09 mars 2020

Thèse: «Swisscom a visiblement négligé ses systèmes de sauvegarde.»

Frank Dederichs: Je réfute formellement l’affirmation selon laquelle nous aurions négligé nos systèmes de sauvegarde, et ce de manière systématique. Nous investissons des sommes colossales dans notre infrastructure, mais aussi dans la fiabilité de nos systèmes. Ces concepts fonctionnent parfaitement dans de nombreux cas. Mais cela ne se voit pas, et c’est précisément l’objectif.

Deux concepts sont appliqués pour garantir la sûreté de fonctionnement: la mise en place de redondances, d’une part, et la résilience des systèmes, d’autre part. Il a souvent été question de redondance dans les débats publics de ces dernières semaines. Cela signifie que le réseau est conçu de sorte à avoir des doublons sur les composants ou canaux de communications importants. En cas d’urgence, ces derniers peuvent ainsi prendre le relais d’un composant défectueux.

Comme l’a montré l’expérience ces dernières semaines, la redondance à elle seule n’est pas un remède miracle étant donné qu’elle n’intervient pas dans certains cas particuliers – de plus, trop de redondances augmentent la complexité. C’est pourquoi nous voulons, outre les redondances existantes, développer encore davantage la résilience des systèmes. La qualité est en effet une priorité absolue pour nous. Prenons l’exemple d’un pneu de voiture pour illustrer la différence: lorsque l’un de vos pneus se dégonfle suite à un incident, vous le remplacez simplement par la roue de secours. C’est la redondance. Mais la redondance absolue n’est pas toujours appropriée. Concrètement, il n’est pas très utile d’avoir cinq roues de secours. C’est pourquoi nous misons de plus en plus sur la résilience. Dans notre exemple, un pneu roulage à plat, qui permet de continuer à rouler malgré une perte de pression, correspondrait à la résilience – le véhicule serait ralenti et ne pourrait pas rouler éternellement, mais au moins jusqu’au garage le plus proche.

«C’est parce que Swisscom ne maîtrise plus ses systèmes complexes qu’il y a souvent des erreurs lors des modifications.»

La durée de vie du matériel et les délais entre les mises à jour logicielles se sont raccourcis. Par ailleurs, le réseau doit en permanence être étendu pour faire face à la quantité croissante de données et aux nombreuses autres exigences. La vitesse à laquelle nous devons apporter des modifications à nos systèmes s’est accrue de manière considérable. Nous dénombrons actuellement plus de 4000 modifications sur nos systèmes chaque semaine, il est donc difficile d’exclure complètement les erreurs.

Pour chaque modification, nous nous posons les questions suivantes: quel en est le degré de complexité? Quelle serait l’ampleur des dégâts en cas de panne? Nous établissons la marche à suivre pour la modification en fonction des réponses. Il peut y avoir des erreurs d’appréciation, comme lors du dérangement du 11 février 2020. Une mise à jour logicielle a été lancée sur plusieurs composants critiques du réseau en même temps en une nuit parce que le risque avait été évalué à tort comme faible. Par mesure de sécurité, la mise à jour aurait dû être effectuée sur deux nuits, d’abord sur une première moitié des composants puis sur l’autre. C’est la raison pour laquelle nous vérifions nos processus afin de réduire encore davantage le potentiel d’erreurs lors des travaux de maintenance.

«Swisscom ne réalise pas assez de tests avant de mettre en service de nouveaux composants ou des systèmes entiers.»

En général, les nouveaux composants sont testés en laboratoire avant d’être mis en service. Le réseau du laboratoire permet de tester l’interaction de cinq composants avec le trafic simulé par un générateur de charges. Or le fonctionnement dans des conditions de laboratoire n’est pas une garantie du bon fonctionnement sur le vrai réseau qui comporte des milliers de composants.

Il n’est pas toujours possible d’effectuer un test. Par exemple, lorsqu’une faille de sécurité grave est découverte, elle doit être comblée au plus vite. Dans ce cas, nous devons tolérer un risque de dérangements, car nous sommes contraints de renoncer au processus de test habituel.

«Swisscom a fait trop d’économies. Il y a un ralentissement des investissements dans l’infrastructure. Ces dernières ne sont pas assez bien entretenues en raison des coûts.»

La stabilité opérationnelle évolue de manière positive sur le long terme. Dans le segment des clients privés par exemple, on a enregistré 40% de minutes de dérangement en moins sur les trois dernières années. Swisscom est le premier opérateur de Suisse. Une panne touche donc automatiquement plus de clients chez Swisscom que chez un concurrent. Nous voulons nous améliorer dans le segment des clients commerciaux. En effet, les plus petites pannes y ont un impact important – avec la numérisation, nos infrastructures, systèmes et logiciels sont plus que jamais imbriqués dans les processus commerciaux de nos clients. C’est la raison pour laquelle le seuil de tolérance est beaucoup plus bas pour les pannes.

«C’était mieux avant. Le nombre de pannes augmente depuis la migration de la téléphonie analogique vers la téléphonie IP.»

Aucune entreprise de télécommunication au monde ne peut se passer de l’IP. Il s’agit d’une norme internationale sur laquelle repose la numérisation. Aujourd’hui, les services sont de plus en plus interdépendants. Des photos prises avec un smartphone sont transférées vers un cloud. Un téléviseur peut être commandé via un smartphone. Pour que les plateformes puissent échanger des données, les réseaux doivent être connectés. Et le protocole IP permet cette interconnexion. Ce n’est pas ce protocole en soi qui est critique, mais la présence de ces réseaux de liaison. Et comme n’importe quelle autre technologie, la technologie IP est sujette aux dérangements. Elle est néanmoins aussi fiable que la téléphonie analogique. Avec l’arrêt de la technologie analogique et le basculement vers l’IP, la complexité du réseau a pu être réduite, et avec elle le risque de dérangements.

«Swisscom n’a pas résolu les problèmes survenus dans un délai raisonnable.»

Swisscom a réagi rapidement après les événements de janvier et février 2020 et mis en œuvre différentes mesures dans un bref délai. Le processus de mise en œuvre des modifications a été immédiatement renforcé. L’objectif est d’exclure les risques de façon plus systématique et d’assurer un suivi plus étroit en cas de modifications critiques. Par ailleurs, nous travaillons déjà, avec les responsables des services d’intervention d’urgence, à améliorer le plus rapidement possible la sûreté de fonctionnement et la configuration redondante des systèmes.

En parallèle, nous avons mis en place deux mesures qui doivent avoir un impact à moyen et long terme. D’un côté, nous contrôlons notre réseau et nos systèmes de manière systématique afin de détecter les «Single Point of Failures», c’est-à-dire des failles isolées qui peuvent, dans le pire des cas, paralyser tout un système. Le cas échéant, nous comblons la faille en priorité. De l’autre côté, nous avons mis en place un audit à vaste échelle ayant pour mission de passer au crible l’ensemble de nos systèmes, réseaux, processus, notre culture et d’autres thèmes. L’objectif est de collecter des informations en vue d’améliorations durables.



S'abonner aux news

Abonnez-vous à nos news par e-mail


Contactez-nous

Adresse

Swisscom
Media Relations
Alte Tiefenaustrasse 6
3048 Worblaufen

Adresse postale:
case postale, CH-3050 Berne
Suisse

Contact

Tél. +41 58 221 98 04
media@swisscom.com

Autres contacts

Portrait

Frank Dederichs est membre de la direction de la division IT, Network & Infrastructure de Swisscom et responsable du secteur Cloud Engineering & Operations.