Mettre à niveau un data lake

Data Science

Mettre à niveau un data lake

L'analyse des données volumineuses connaît actuellement une seconde vie. La croissance du marché de l'analyse des Big Data est exponentielle et c'est pourquoi les technologies permettant de stocker et de traiter efficacement les Big Data se développent si rapidement de nos jours. La taille du marché de l'analyse des big data a été estimée à 240,56 milliards de dollars l'année dernière, et on s'attend à ce que le marché passe de 271,83 milliards de dollars à 655,53 milliards de dollars entre 2022 et 2029 [7].

L'analyse des grandes données vise à traiter d'énormes quantités de données structurées et non structurées afin d'obtenir des informations précieuses pour l'entreprise. Elle recherche des corrélations et des modèles sous-jacents qui ne sont pas évidents pour l'homme, mais qui sont révélés par l'IA (Intelligence Artificielle), les technologies d'apprentissage automatique et les systèmes informatiques distribués.

Une deuxième transformation numérique est en cours, encore plus profonde et pertinente pour nos vies que ce que nous avons vécu au cours des dernières décennies. Cette transformation numérique ne s'occupe pas seulement de la création de services numériques, mais aussi de la transformation de tout ce que nous savons en répliques numériques (comme dans les jumeaux numériques, le métavers, l'IoT (Internet Of Things)). En particulier, l'utilisation de l'analyse des Big Data, aide à analyser toutes sortes de données qui peuvent nous aider, notre entreprise et notre vie, à s'améliorer.

Le grand catalyseur de cette véritable transformation numérique a été la pandémie, qui a forcé non seulement les entreprises, mais aussi la plupart des gens à se tenir au courant des dernières technologies numériques. Selon une enquête récente, 67% des personnes interrogées ont déclaré avoir accéléré leur transformation numérique et 63% ont augmenté leur budget numérique en raison de la pandémie [7]. Cette accélération de la transformation numérique est visible dans le secteur de la santé (rapports contrôlés par l'IA, dossiers médicaux électroniques, prévisions de pandémie, etc.), mais aussi dans de nombreux autres secteurs. L'utilisation d'analyses avancées pour comprendre les dernières tendances dues à la pandémie et au travail à distance a pris de l'importance. Les entreprises ont adapté leurs services numériques et leurs stratégies numériques à cette nouvelle réalité. C'est pour cette raison que l'on s'attend à ce que la croissance du marché numérique et de l'analytique big data soit encore plus dynamique dans les années à venir.

Il n'y a pas si longtemps, les technologies de Big Data et d'IA sont devenues populaires auprès des entreprises. Toutes les entreprises voulaient entrer dans cette nouvelle ère de connaissances intelligentes. Elles ont donc commencé à rassembler en un seul endroit toutes sortes de données commerciales traditionnelles, mais aussi des données d'appareils, des protocoles, des fichiers texte, des documents, des images, etc. Dans l'espoir que ces nouvelles technologies puissent extraire des connaissances de toutes ces grandes quantités de données avec peu d'efforts et qu'elles soient pertinentes pour les entreprises. Tout cela s'est produit, soit en raison du manque de maturité des entreprises en ce qui concerne les technologies Big Data, soit parce qu'elles n'avaient pas de stratégie Big Data clairement définie.

Grafik Data Lake

La technologie adoptée par les entreprises pour stocker toutes ces énormes quantités de données de toutes sortes a fini par être appelée Data Lake. Cette technologie peut stocker tout type de données, structurées ou non, dans leur format brut. Et elle y parvient grâce à la séparation des données et du schéma qui les définit. (Schema-on-read) [6]. Traditionnellement, les données d'entreprise sont stockées dans des systèmes de données structurées avec un schéma prédéfini lors de la saisie des données. D'autre part, les lacs de données stockent tout type de données dans un format brut afin de répliquer les données de différentes sources qui seront ensuite prétraitées, agrégées, combinées et interprétées.

Un Data Lake correctement conçu devrait se composer de trois domaines principaux. Il s'agit du bronze (pour cloner tous les types de données au format brut), de l'argent (les données sont affinées : prétraitées, nettoyées et filtrées) et de l'or (combinées, agrégées pour la valeur commerciale) [8]. Des domaines supplémentaires pourraient être envisagés pour séparer d'autres processus spécifiques au type d'activité et aux besoins. Les entreprises commencent à reconnaître les problèmes qui surviennent avec ce type d'architecture basée uniquement sur le data lake, elles rencontrent donc une série de problèmes et de défis lorsqu'elles veulent analyser les données ou les utiliser dans des rapports avancés.

Le Data Lake n'est pas conçu pour prendre en charge les transactions ou les métadonnées. Il nécessite une série de compétences supplémentaires pour les exécuter, les gérer et les contrôler. Les Data Lakes ne traitent pas les données endommagées, incomplètes ou de mauvaise qualité. Il n'est pas non plus conçu pour combiner les données par lots et le traitement en continu. Ils ne prennent pas en compte les différentes versions des données ou les changements de schéma. Cette dernière peut en effet rendre les données totalement inutilisables. De plus, certaines entreprises ont décidé de planifier régulièrement des copies complètes des sources de données, ce qui a entraîné une augmentation des ressources utilisées pour les stocker et les traiter.

La réalité actuelle est que de nombreux Data Lakes sont devenus des Data Swamps [11] pour de nombreuses entreprises. Un endroit où tous les types de données coexistent, sans que l'utilisateur ne sache ce qui est stocké et si leur qualité correspond au contenu des sources originales. Tout cela rend une grande partie des Data Lakes presque inutilisables. Enregistrer des données sans processus d'embarquement ou sans une vue de leur utilisation possible rend les choses encore plus difficiles. Du point de vue de l'IA / ML, ces lacs de données, lorsqu'ils sont utilisés pour créer des modèles avancés, deviennent une source de garbage in / garbage out, comme on le sait dans le langage courant. De plus, les entreprises se sont rendues compte que les données sur ces systèmes augmentent à un taux supérieur à celui que leurs systèmes informatiques peuvent analyser.

Grafik Databricks

Le degré de maturité dans la compréhension de l'analyse des Big Data par les entreprises s'est considérablement amélioré au cours des dernières années. Elles ont compris que ces architectures de data lake ne répondent pas entièrement aux exigences d'une analyse avancée des big data. C'est pourquoi de nombreuses entreprises ont commencé à mettre à jour leurs lacs de données en ajoutant une couche Delta Lake à leurs systèmes. Il s'agit d'une alternative à la mise à niveau qui a une meilleure acceptation.

La technologie Delta Lake est utilisée par plus de 7000 entreprises et traite des exabytes de données chaque jour. Data Lake 2.0 de DataBricks a été récemment publié dans son intégralité cette année et contient de nombreuses fonctionnalités qui le rendent prêt pour l'analyse des grandes données [9]. Un Delta Lake dans sa forme de base est une couche de gestion de données et de stockage de transactions qui étend un Data Lake pour offrir fiabilité, qualité, cohérence et performances améliorées [10]. La technologie de base est basée sur les fichiers Apache Parquet ainsi que sur des protocoles supplémentaires.

Cette technologie est en constante évolution, mais les principales caractéristiques actuelles sont les suivantes:

  • Tables delta avec transactions ACID
  • Mémoire évolutive et métadonnées
  • Unification du traitement des flux et des lots sur une seule table
  • Versionnement automatique
  • Développement et application de schémas
  • Système de base de données DML comme opérations

Et bien d'autres fonctions qui rendent les lacs de données pleinement opérationnels et prêts pour l'analyse de données volumineuses. Dans ses dernières versions, il permet aussi de construire une architecture Lakehouse avec des moteurs de calcul, dont Spark et d'autres font partie. L'architecture Lakehouse réunit tous les cas d'analyse avancée et d'entrepôts de données (DWH) en combinant les meilleurs éléments de Delta Lakes et DWH pour permettre la fiabilité, la gouvernance et la performance des entrepôts de données et, d'autre part, la flexibilité et l'analyse de données volumineuses de Delta Lakes [9].

Nous avons récemment eu l'expérience d'aider un client qui exploitait une instance de data lake depuis plusieurs années. Le Data Lake n'était pas complètement à l'aise avec l'architecture Delta Lake et commençait à souffrir de la plupart des problèmes mentionnés ci-dessus. Tant le département commercial que le département d'analyse n'avaient aucune certitude quant à l'exactitude des données et si les données avaient été récemment mises à jour. De plus, il était de plus en plus difficile d'entretenir leurs modèles de prédiction, et donc les performances associées se détérioraient.

Après une étude approfondie de l'architecture actuelle et de l'utilisation des données par les parties prenantes, nous avons pu proposer une série de solutions qui répondaient à toutes les exigences du client afin d'optimiser le système de data lake.

A propos de Swisscom Data & Analytics

Swisscom Data & Analytics soutient les clients commerciaux dans le conseil, la conception, l'intégration et la maintenance de systèmes d'information analytiques tels que les lacs de données, les entrepôts de données, les tableaux de bord, les rapports et les solutions ML/AI basées sur des technologies sélectionnées de Microsoft, AWS, SAP, Open Source et plus encore. Plus de 50 experts en données et en analyse dévoués soutiennent chaque jour nos clients dans différents secteurs afin de les transformer en véritables entreprises pilotées par les données.

A propos de l'auteur

Sergio Jimenez est Senior Data & Analytics Consultant chez Swisscom, spécialisé dans les analyses avancées. Depuis son arrivée chez Swisscom en 2016, Sergio a travaillé sur de nombreux projets pour plusieurs clients, allant de la Business Intelligence à l'AI/ML. Il a développé avec succès des solutions innovantes en utilisant les dernières technologies.

Références:

[1] Big Data Analytics. IBM. Accès à sep 20222. https://www.ibm.com/analytics/big-data-analytics

[2] Artificial Intelligence. IBM. Accès à sep 2022
https://www.ibm.com/design/ai/basics/ai/

[3] Machine learning. IBM. Accès à sep
2022. 
https://www.ibm.com/design/ai/basics/ml

[4] What is data lake. Microsoft. Accès à sep 2022. https://azure.microsoft.com/en-us/resources/cloud-computing-dictionary/what-is-a-data-lake/

[5] Introduction to data lakes. Databricks. Accès à sep 2022. https://www.databricks.com/discover/data-lakes/introduction

[6] How Schema On Read vs. Schema On Write Started It All. Dell. Aug 2017. https://www.dell.com/en-us/blog/schema-read-vs-schema-write-started/

[7] Big Data Analytics Market Size, Share & COVID-19 Impact Analysis 2022-2029. Fortune Business Insights. July 2022. https://www.fortunebusinessinsights.com/big-data-analytics-market-106179

[8] Medaillon Architecture. Databricks. Accès à sep 2022. https://www.databricks.com/glossary/medallion-architecture

[9] Open Sourcing All of Delta Lake. Databricks. June 2022. https://www.databricks.com/blog/2022/06/30/open-sourcing-all-of-delta-lake.html

[10] Realizing a Data Mesh: Delta Lake and the Lakehouse architecture. Deloitte. Accès à sep 2022. https://www2.deloitte.com/nl/nl/pages/data-analytics/articles/realizing-a-data-mesh.html

[11] Data lakes and data swamps. IBM. March 2018. https://developer.ibm.com/articles/ba-data-becomes-knowledge-2/

Sergio Jimenez-Otero

Sergio Jimenez-Otero

Senior Data & Analytics Consultant

Plus d’articles getIT

Prêts pour Swisscom

Trouve le Job ou l’univers professionnel qui te convient. Où tu veux co-créer et évoluer.

Ce qui nous définit, c’est toi.

Vers les univers professionnels

Vers les postes vacants cybersécurité