Aggiornare un data lake

Data Science

Aggiornare un data lake

L'analisi dei big data sta vivendo una seconda vita. La crescita del mercato dell'analisi dei big data è esponenziale ed è per questo che le tecnologie per l'archiviazione e l'elaborazione efficiente dei big data si stanno evolvendo così rapidamente. Lo scorso anno le dimensioni del mercato dell'analisi dei big data sono state stimate in 240,56 miliardi di dollari e si prevede che il mercato crescerà da 271,83 miliardi di dollari a 655,53 miliardi di dollari tra il 2022 e il 2029 [7].

Da Sergio Jimenez-Otero, Senior Data & Analytics Consultant

18 ottobre 2022

L'analisi dei big data mira a elaborare enormi quantità di dati strutturati e non strutturati per ottenere preziose informazioni per l'organizzazione. Cerca correlazioni e schemi sottostanti che non sono ovvi per l'uomo ma che vengono scoperti dall'intelligenza artificiale (AI), dalle tecnologie di apprendimento automatico e dai sistemi informatici distribuiti.

È in atto una seconda trasformazione digitale, ancora più profonda e rilevante per le nostre vite rispetto a quella sperimentata negli ultimi decenni. Questa trasformazione digitale non riguarda solo la creazione di servizi digitali, ma anche la trasformazione di tutto ciò che conosciamo in repliche digitali (come i gemelli digitali, i metaversi, l'IoT (Internet Of Things)). In particolare, l'uso dei big data analytics aiuta ad analizzare tutti i tipi di dati che possono aiutarci a migliorare le nostre attività e le nostre vite.

Il grande catalizzatore di questa vera e propria trasformazione digitale è stata la pandemia, che ha costretto non solo le aziende ma anche la maggior parte delle persone a tenersi al passo con le ultime tecnologie digitali. Secondo un recente sondaggio, il 67% degli intervistati ha dichiarato di aver accelerato la propria trasformazione digitale e il 63% ha aumentato i budget digitali a causa della pandemia [7]. Questa accelerazione della trasformazione digitale può essere riscontrata nel settore sanitario (reportistica guidata dall'intelligenza artificiale, cartelle cliniche elettroniche, previsioni sulle pandemie, ecc. L'uso di analisi avanzate per comprendere le ultime tendenze dovute alla pandemia e al lavoro da remoto è diventato sempre più importante. Le aziende hanno adattato i loro servizi digitali e le loro strategie digitali a questa nuova realtà. Per questo motivo, si prevede che la crescita del mercato digitale e dell'analisi dei big data subirà uno slancio ancora maggiore nei prossimi anni.

Non è passato molto tempo da quando le tecnologie dei big data e dell'intelligenza artificiale sono diventate popolari tra le aziende. Tutte le aziende volevano entrare in questa nuova era di approfondimenti intelligenti. Così hanno iniziato a raccogliere tutti i tipi di dati aziendali tradizionali, ma anche dati dei dispositivi, log, file di testo, documenti, immagini e così via in un unico luogo. Con la speranza che queste nuove tecnologie potessero estrarre informazioni da tutti questi big data con un minimo sforzo ed essere rilevanti per le aziende. Tutto questo è accaduto perché le aziende non erano mature in termini di tecnologie per i big data o perché non avevano una strategia per i big data chiaramente definita.

(AWS: https://aws.amazon.com/big-data/what-is-a-data-lake)

La tecnologia adottata dalle aziende per immagazzinare queste enormi quantità di dati di ogni tipo si è trasformata in un data lake. Questa tecnologia è in grado di archiviare qualsiasi tipo di dati, strutturati o non strutturati, nel loro formato grezzo. E questo grazie alla separazione tra i dati e lo schema che li definisce. (schema-on-read) [6]. Tradizionalmente, i dati aziendali vengono archiviati in sistemi di dati strutturati con uno schema che viene specificato durante l'acquisizione dei dati. D'altro canto, i data lake archiviano qualsiasi tipo di dati in formato grezzo per replicare i dati provenienti da fonti diverse che vengono successivamente pre-elaborati, aggregati, combinati e interpretati.

Un data lake progettato correttamente dovrebbe essere composto da tre aree principali. Queste sono Bronze (per clonare tutti i tipi di dati in formato grezzo), Silver (i dati vengono raffinati: pre-elaborati, puliti e filtrati) e Gold (combinati, aggregati per i benefici aziendali) [8]. Si potrebbero considerare ulteriori aree per separare altri processi specifici al tipo di azienda e ai requisiti. Le aziende stanno iniziando a rendersi conto dei problemi che si verificano con questo tipo di architettura basata solo sul Data Lake, per cui riscontrano una serie di problemi e sfide quando vogliono analizzare i dati o utilizzarli in report avanzati.

Il Data Lake non è progettato per supportare transazioni o metadati. Richiede una serie di competenze aggiuntive per eseguirle, gestirle e controllarle. I Data Lake non elaborano dati corrotti, incompleti o di bassa qualità. Inoltre, non sono progettati per combinare dati batch ed elaborazione in streaming. Non tengono conto delle diverse versioni dei dati o delle modifiche allo schema. Infatti, queste ultime possono rendere i dati completamente inutilizzabili. Inoltre, alcune organizzazioni hanno deciso di programmare regolarmente copie complete delle fonti di dati, consumando più risorse per archiviarle ed elaborarle.

La realtà attuale è che molti data lake sono diventati paludi di dati [11] per molte organizzazioni. Un luogo in cui coesistono tutti i tipi di dati senza che l'utente sappia cosa viene memorizzato e se la sua qualità corrisponde al contenuto delle fonti originali. Tutto questo rende la maggior parte dei data lake quasi inutilizzabili. La registrazione dei dati senza un processo di onboarding o una visione del loro potenziale utilizzo rende tutto ancora più difficile. Dal punto di vista dell'intelligenza artificiale e del ML, questi data lake, se utilizzati per creare modelli avanzati, diventano una fonte di garbage in / garbage out, come si dice in gergo. Inoltre, le aziende si sono rese conto che i dati presenti in questi sistemi crescono a un ritmo superiore a quello che i loro sistemi informatici sono in grado di analizzare.

(Databricks: https://www.databricks.com/blog/2021/12/01/the-foundation-of-your-lakehouse-starts-with-delta-lake.html)

Il livello di maturità delle aziende nella comprensione delle analisi dei big data è migliorato notevolmente negli ultimi anni. Hanno capito che le architetture dei data lake non soddisfano pienamente i requisiti per le analisi avanzate dei big data. Per questo motivo, molte aziende hanno iniziato ad aggiornare i loro data lake aggiungendo un livello delta lake ai loro sistemi. Si tratta di un'alternativa all'aggiornamento, che ha un tasso di accettazione più elevato.

La tecnologia Delta Lake è utilizzata da oltre 7.000 aziende ed elabora exabyte di dati ogni giorno. Data Lake 2.0 di DataBricks è stato recentemente rilasciato nella sua interezza quest'anno e include molte caratteristiche che lo rendono pronto per l'analisi dei big data [9]. Un delta lake, nella sua forma di base, è un livello di gestione dei dati e di archiviazione delle transazioni che estende un data lake per fornire affidabilità, qualità, coerenza e prestazioni migliori [10]. La tecnologia di base si basa sui file Apache Parquet e su protocolli aggiuntivi.

Questa tecnologia è in continua evoluzione, ma le caratteristiche principali attuali sono:

Tabelle Delta con transazioni ACID
Memoria e metadati scalabili
Standardizzazione dell'elaborazione di flussi e batch su un'unica tabella
Versione automatica
Sviluppo e implementazione del piano
Operazioni DML simili a quelle del sistema di database

E molte altre funzioni che rendono i laghi di dati completamente funzionali e pronti per l'analisi dei big data. Nelle sue ultime versioni, consente anche di creare un'architettura Lakehouse con motori di calcolo come Spark e altri. L'architettura Lakehouse unifica tutti i casi di analitica avanzata e data warehouse (DWH) combinando i migliori elementi di Delta Lakes e DWH per consentire l'affidabilità, la governance e le prestazioni dei data warehouse e, d'altro canto, la flessibilità e l'analitica dei big data di Delta Lakes [9].

Di recente abbiamo avuto l'esperienza di supportare un cliente che gestiva un'istanza di Data Lake da diversi anni. Il data lake non era pienamente in grado di gestire l'architettura di Delta Lake e ha iniziato a soffrire della maggior parte dei problemi sopra menzionati. Sia i reparti aziendali che quelli di analisi non avevano alcuna certezza sull'accuratezza dei dati e sul fatto che fossero stati aggiornati di recente. Inoltre, stava diventando sempre più difficile mantenere i modelli predittivi e le relative prestazioni si stavano deteriorando.

Dopo uno studio approfondito dell'architettura attuale e dell'utilizzo dei dati da parte degli stakeholder, siamo stati in grado di proporre una serie di soluzioni che soddisfano tutti i requisiti del cliente per ottimizzare il sistema di data lake.

Informazioni su Swisscom Data & Analytics

Swisscom Data & Analytics supporta le aziende clienti nella consulenza, nella progettazione, nell'integrazione e nella manutenzione di sistemi informativi analitici come data lake, data warehouse, dashboard, reporting e soluzioni ML/AI basate su tecnologie selezionate di Microsoft, AWS, SAP, Open Source e altre ancora. Più di 50 esperti dedicati ai dati e all'analisi supportano quotidianamente i nostri clienti in vari settori per renderli organizzazioni realmente orientate ai dati.

Informazioni sull'autore

Sergio Jimenez è un Senior Data & Analytics Consultant di Swisscom, specializzato in Advanced Analytics. Da quando è entrato in Swisscom nel 2016, Sergio ha lavorato a numerosi progetti per diversi clienti che spaziano dalla Business Intelligence all'AI/ML. Ha sviluppato con successo soluzioni innovative utilizzando le tecnologie più recenti.

Riferimenti:

[1] Big Data Analytics. IBM. Zugriff auf Sep 2022. https://www.ibm.com/analytics/big-data-analytics

[2] Artificial Intelligence. IBM. Zugriff auf Sep 2022.
https://www.ibm.com/design/ai/basics/ai/

[3] Machine learning. IBM. Zugriff auf Sep 2022. https://www.ibm.com/design/ai/basics/ml

[4] What is data lake. Microsoft. Zugriff auf Sep 2022. https://azure.microsoft.com/en-us/resources/cloud-computing-dictionary/what-is-a-data-lake/

[5] Introduction to data lakes. Databricks. Zugriff auf Sep 2022. https://www.databricks.com/discover/data-lakes/introduction

[6] How Schema On Read vs. Schema On Write Started It All. Dell. Aug 2017. https://www.dell.com/en-us/blog/schema-read-vs-schema-write-started/

[7] Big Data Analytics Market Size, Share & COVID-19 Impact Analysis 2022-2029. Fortune Business Insights. July 2022. https://www.fortunebusinessinsights.com/big-data-analytics-market-106179

[8] Medaillon Architecture. Databricks. Zugriff auf Sep 2022. https://www.databricks.com/glossary/medallion-architecture

[9] Open Sourcing All of Delta Lake. Databricks. June 2022. https://www.databricks.com/blog/2022/06/30/open-sourcing-all-of-delta-lake.html

[10] Realizing a Data Mesh: Delta Lake and the Lakehouse architecture. Deloitte. Zugriff auf Sep 2022. https://www2.deloitte.com/nl/nl/pages/data-analytics/articles/realizing-a-data-mesh.html

[11] Data lakes and data swamps. IBM. March 2018. https://developer.ibm.com/articles/ba-data-becomes-knowledge-2/

Sergio Jimenez-Otero

Senior Data & Analytics Consultant

Altri articoli getIT

Pronti per Swisscom

Trova il posto di lavoro o il percorso di carriera che fa per te. Dove dare il tuo contributo e crescere professionalmente.

Ciò che tu fai, è ciò che siamo.

Aggiornare un data lake

Informazioni su Swisscom Data & Analytics

Informazioni sull'autore

Riferimenti:

Sergio Jimenez-Otero

Altri articoli getIT

Pronti per Swisscom

Vai ai percorsi di carriera

Vai alle posizioni vacanti cibersicurezza