Einen Data Lake aufrüsten

Data Science

Einen Data Lake aufrüsten

Big Data Analytics erlebt gerade ein zweites Leben. Das Wachstum des Big-Data-Analysemarktes ist exponentiell und daher entwickeln sich die Technologien zur effizienten Speicherung und Verarbeitung von Big Data heutzutage so rasant weiter. Die Größe des Marktes für Big-Data-Analysen wurde im vergangenen Jahr auf 240,56 Milliarden US-Dollar geschätzt, und es wird erwartet, dass der Markt zwischen 2022 und 2029 von 271,83 Milliarden US-Dollar auf 655,53 Milliarden US-Dollar wachsen wird [7].

Von Sergio Jimenez-Otero, Senior Data & Analytics Consultant

18.10.2022 00:00:00

Big Data Analytics zielt darauf ab, riesige Mengen an strukturierten und unstrukturierten Daten zu verarbeiten, um wertvolle Erkenntnisse für das Unternehmen zu gewinnen. Es sucht nach Korrelationen und zugrunde liegenden Mustern, die für den Menschen nicht offensichtlich sind, aber durch KI (Künstliche Intelligenz), maschinelle Lerntechnologien und verteilte Computersysteme aufgedeckt werden.

Es findet eine zweite digitale Transformation statt, die noch tiefer und relevanter für unser Leben ist als wir in den letzten Jahrzehnten erlebt haben. Diese digitale Transformation befasst sich nicht nur mit der Schaffung digitaler Dienstleistungen, sondern auch mit der Umwandlung von allem, was wir wissen, in digitale Replikate (wie in digitalen Zwillingen, Metaversum, IoT (Internet Of Things)). Insbesondere die Verwendung von Big Data-Analysen, hilft, alle Arten von Daten zu analysieren, die uns, unserem Geschäft und unserem Leben helfen können, sich zu verbessern.

Der große Katalysator für diese echte digitale Transformation war die Pandemie, die nicht nur Unternehmen, sondern auch die meisten Menschen dazu gezwungen hat, mit den neuesten digitalen Technologien Schritt zu halten. Laut einer aktuellen Umfrage gaben 67% der Befragten an, dass sie ihre digitale Transformation beschleunigt haben und dass 63% das digitale Budget aufgrund der Pandemie erhöht haben [7]. Diese Beschleunigung der digitalen Transformation ist im Gesundheitswesen (KI-gesteuerte Berichterstattung, elektronische Krankenakten, Pandemievorhersagen usw.), aber auch in vielen anderen Sektoren zu sehen. Der Einsatz von Advanced Analytics, um die neuesten Trends aufgrund der Pandemie und der Remote-Arbeit zu verstehen, hat an Bedeutung gewonnen. Unternehmen haben ihre digitalen Dienstleistungen und digitalen Strategien an diese neue Realität angepasst. Aus diesem Grund wird erwartet, dass das Wachstum des digitalen Marktes und der Big-Data-Analytik in den kommenden Jahren eine noch größere Dynamik erfahren wird.

Es ist noch gar nicht so lange her, dass Big Data- und KI-Technologien bei Unternehmen populär wurden. Alle Unternehmen wollten in diese neue Ära intelligenter Erkenntnisse eintreten. So begannen sie, alle Arten von traditionellen Geschäftsdaten, aber auch Gerätedaten, Protokolle, Textdateien, Dokumente, Bilder usw. an einem Ort zu sammeln. In der Hoffnung, dass diese neuen Technologien aus all diesen grossen Datenmenge Erkenntnisse mit wenig Aufwand gewinnen und für Unternehmen relevant sein könnten. All dies geschah, sei es aufgrund der mangelnden Reife der Unternehmen in Bezug auf die Big-Data-Technologien oder weil sie keine klar definierte Big Data Strategie hatten.

(AWS: https://aws.amazon.com/big-data/what-is-a-data-lake)

Die Technologie, die von Unternehmen übernommen wurde, um all diese riesigen Datenmengen aller Art zu speichern, endete als Data Lake. Diese Technologie kann jede Art von Daten, ob strukturiert oder unstrukturiert, in ihrem Rohformat speichern. Und das erreicht es dank der Trennung von Daten und dem Schema, das sie definiert. (Schema-on-read) [6]. Traditionell werden Geschäftsdaten in strukturierten Datensystemen mit einem Schema gespeichert, das bei der Datenerfassung vorgegeben wird. Auf der anderen Seite speichern Data Lakes jede Art von Daten im Rohformat, um Daten aus verschiedenen Quellen zu replizieren, die später vorverarbeitet, aggregiert, kombiniert und interpretiert werden.

Ein richtig konzipierter Data Lake sollte aus drei Hauptbereichen bestehen. Dabei handelt es sich um Bronze (zum Klonen aller Arten von Daten im Rohformat), Silber (Daten werden verfeinert: vorverarbeitet, gereinigt und gefiltert) und Gold (kombiniert, aggregiert für den Geschäftsnutzen) [8]. Zusätzliche Bereiche könnten in Betracht gezogen werden, um andere Prozesse zu trennen, die für die Art des Geschäfts und die Anforderungen spezifisch sind. Unternehmen beginnen die Probleme zu erkennen, die bei dieser Art von Architektur auftreten, welche nur auf Data Lake basiert, daher erleben sie eine Reihe von Problemen und Herausforderungen, wenn sie Daten analysieren oder in erweiterten Berichten verwenden möchten.

Data Lake ist nicht für die Unterstützung von Transaktionen oder Metadaten ausgelegt. Es erfordert eine Reihe zusätzlicher Fähigkeiten, um sie auszuführen, zu verwalten und zu steuern. Data Lakes verarbeiten keine beschädigten, unvollständigen oder qualitativ minderwertigen Daten. Es ist auch nicht darauf ausgelegt, Batch-Daten und Streaming-Verarbeitung zu kombinieren. Sie berücksichtigen keine unterschiedlichen Versionen von Daten oder Schemaänderungen. Letzteres kann in der Tat die Daten völlig unbrauchbar machen. Darüber hinaus beschlossen einige Unternehmen, regelmäßig vollständige Kopien der Datenquellen zu planen, wodurch mehr Ressourcen verbraucht wurden, um sie zu speichern und zu verarbeiten.

Die aktuelle Realität ist, dass viele Data Lakes für viele Unternehmen zu Data Swamps [11] geworden sind. Ein Ort, an dem alle Arten von Daten nebeneinander existieren, ohne dass der Benutzer es weiss, was gespeichert wird und ob ihre Qualität mit dem Inhalt der ursprünglichen Quellen übereinstimmt. All dies macht einen Großteil der Data Lakes fast unbrauchbar. Die Aufzeichnung von Daten ohne Onboarding-Prozess oder eine Sicht auf ihre mögliche Verwendung macht es noch schwieriger. Aus Sicht der KI / ML werden diese Data Lakes, wenn sie zur Erstellung fortschrittlicher Modelle verwendet werden, zu einer Quelle von Garbage In / Garbage Out, wie es umgangssprachlich bekannt ist. Außerdem haben Unternehmen erkannt, dass Daten auf diesen Systemen mit einer höheren Rate wachsen, als ihre Computersysteme analysieren können.

(Databricks: https://www.databricks.com/blog/2021/12/01/the-foundation-of-your-lakehouse-starts-with-delta-lake.html)

Der Reifegrad im Verständnis von Big Data-Analysen bei den Unternehmen, hat sich in den letzten Jahren massgeblich verbessert. Sie haben verstanden, dass diese Data Lake-Architekturen den Anforderungen an fortschrittliche Big Data-Analysen nicht vollständig erfüllen. Aus diesem Grund haben viele Unternehmen damit begonnen, ihre Data Lakes zu aktualisieren, indem sie ihren Systemen einen Delta Lake-Layer hinzufügen. Es handelt sich hier um eine Alternative zum Upgrade, welche eine höhere Akzeptanz hat.

Die Delta Lake-Technologie wird von über 7.000 Unternehmen eingesetzt und verarbeitet täglich Exabytes an Daten. Data Lake 2.0 von DataBricks wurde kürzlich vollständig in diesem Jahr veröffentlicht und enthält viele Funktionen, die es für Big Data Analytics bereit machen [9]. Ein Delta Lake in seiner Grundform ist eine Datenverwaltungs- und Transaktionsspeicherschicht, die einen Data Lake erweitert, um Zuverlässigkeit, Qualität, Konsistenz und verbesserte Leistung zu bieten [10]. Die Kerntechnologie basiert auf den Apache Parquet-Dateien sowie zusätzlichen Protokollen.

Diese Technologie entwickelt sich ständig weiter, aber die aktuellen Hauptmerkmale sind:

Delta Tables mit ACID-Transaktionen
Skalierbarer Speicher und Metadaten
Vereinheitlichung von Stream- und Batch-Verarbeitung auf einer einzigen Tabelle
Automatische Versionierung
Schemaentwicklung und -durchsetzung
DML-Datenbanksystem wie Operationen

Und viele weitere Funktionen, die Data Lakes voll funktionsfähig und Big Data Analytics bereit machen. In seinen neuesten Versionen ermöglicht es auch den Aufbau einer Lakehouse-Architektur mit Compute-Engines, zu denen Spark und andere gehören. Die Lakehouse-Architektur vereint alle Advanced Analytics und Data Warehouses (DWH)-Fälle, indem sie die besten Elemente von Delta Lakes und DWH kombiniert, um Zuverlässigkeit, Governance und die Leistung von Data Warehouses und auf der anderen Seite die Flexibilität und Big Data Analytics von Delta Lakes zu ermöglichen [9].

Wir hatten kürzlich die Erfahrung, einen Kunden zu unterstützen, der mehrere Jahre lang eine Data Lake-Instanz betrieb. Der Data Lake kam mit der Delta Lake Architektur nicht vollständig zu recht und begann unter den meisten der oben genannten Probleme zu leiden. Sowohl die Geschäfts- als auch die Analyseabteilung hatten keine Gewissheit über die Datengenauigkeit und ob die Daten kürzlich aktualisiert worden waren. Darüber hinaus war es immer schwieriger, ihre Vorhersagemodelle zu warten und damit verschlechtert sich die verbundene Leistung.

Nach einer eingehenden Untersuchung der aktuellen Architektur und der Verwendung von Daten durch die Beteiligten konnten wir eine Reihe von Lösungen vorschlagen, die alle Kundenanforderungen erfüllten, um das Data Lake-System zu optimieren.

Über Swisscom Data & Analytics

Swisscom Data & Analytics unterstützt Geschäftskunden bei der Beratung, Konzeption, Integration und Wartung von analytischen Informationssystemen wie Data Lakes, Data Warehouses, Dashboards, Reporting und ML/AI-Lösungen auf Basis ausgewählter Technologien von Microsoft, AWS, SAP, Open Source und mehr. Mehr als 50 engagierte Daten- und Analyseexperten unterstützen unsere Kunden in verschiedenen Branchen täglich, um sie zu echten datengesteuerten Unternehmen zu machen.

Über den Autor

Sergio Jimenez ist Senior Data & Analytics Consultant bei Swisscom, spezialisiert auf Advanced Analytics. Seit seinem Eintritt bei Swisscom im Jahr 2016 hat Sergio an zahlreichen Projekten für mehrere Kunden gearbeitet, die von Business Intelligence bis hin zu AI/ML reichen. Er hat erfolgreich innovative Lösungen mit den neuesten Technologien entwickelt.

Referenzen:

[1] Big Data Analytics. IBM. Zugriff auf Sep 2022. https://www.ibm.com/analytics/big-data-analytics

[2] Artificial Intelligence. IBM. Zugriff auf Sep 2022.
https://www.ibm.com/design/ai/basics/ai/

[3] Machine learning. IBM. Zugriff auf Sep 2022. https://www.ibm.com/design/ai/basics/ml

[4] What is data lake. Microsoft. Zugriff auf Sep 2022. https://azure.microsoft.com/en-us/resources/cloud-computing-dictionary/what-is-a-data-lake/

[5] Introduction to data lakes. Databricks. Zugriff auf Sep 2022. https://www.databricks.com/discover/data-lakes/introduction

[6] How Schema On Read vs. Schema On Write Started It All. Dell. Aug 2017. https://www.dell.com/en-us/blog/schema-read-vs-schema-write-started/

[7] Big Data Analytics Market Size, Share & COVID-19 Impact Analysis 2022-2029. Fortune Business Insights. July 2022. https://www.fortunebusinessinsights.com/big-data-analytics-market-106179

[8] Medaillon Architecture. Databricks. Zugriff auf Sep 2022. https://www.databricks.com/glossary/medallion-architecture

[9] Open Sourcing All of Delta Lake. Databricks. June 2022. https://www.databricks.com/blog/2022/06/30/open-sourcing-all-of-delta-lake.html

[10] Realizing a Data Mesh: Delta Lake and the Lakehouse architecture. Deloitte. Zugriff auf Sep 2022. https://www2.deloitte.com/nl/nl/pages/data-analytics/articles/realizing-a-data-mesh.html

[11] Data lakes and data swamps. IBM. March 2018. https://developer.ibm.com/articles/ba-data-becomes-knowledge-2/

Sergio Jimenez-Otero

Senior Data & Analytics Consultant

Mehr getIT-Beiträge

Bereit für Swisscom

Finde deinen Job oder die Karrierewelt, die zu dir passt. In der du mitgestalten und dich weiterentwickeln willst.

Was du draus machst, ist was uns ausmacht.

Einen Data Lake aufrüsten

Über Swisscom Data & Analytics

Über den Autor

Referenzen:

Sergio Jimenez-Otero

Mehr getIT-Beiträge

Bereit für Swisscom

Zu den Karrierewelten

Zu den offenen Security Stellen