Was ist ein Enterprise Data Lake?
Der Aufstieg von Multi-Cloud- und Data-First-Architekturen und das breite Portfolio an fortschrittlichen datengesteuerten Anwendungen, die sich daraus ergeben haben, basieren auf Data Lakes zur Speicherung aller Daten. Ein Data Lake ist ein Open-Source- und Industriestandard-Repository zur Speicherung großer Datenmengen. Folglich ist ein Unternehmensdatensee Sie speichern nicht nur Daten, sondern bieten auch unternehmensweite Dienste zum Sammeln, Erkunden, Verwalten, Vorbereiten und Erstellen von Pipelines für Unternehmensdaten.
Enterprise Data Lakes speichern Daten entweder so, wie sie sind, wenn sie aufgenommen werden, um zeitaufwändige und teure ETL-Prozesse zu vermeiden, oder sie bieten Datenaufbereitungsdienste an. Diese Dienste profilieren, bereinigen, bereichern, transformieren, modellieren und erstellen Datenpipelines, um spezifische Anwendungsanforderungen zu erfüllen. Ziel ist es, datengesteuerte Anwendungen in Echtzeit zu ermöglichen. Die Datenaufbereitung verbessert die Datenqualität und ermöglicht erweiterte Analyse- und Business-Intelligence-Anwendungen.
Datenpipelines für das datengesteuerte Unternehmen
Datengesteuerte Anwendungen nutzen riesige und komplexe Netzwerke aus Daten und Diensten. Enterprise Data Lakes bieten die notwendigen Verbindungen, um Daten von jeder Quelle zu jedem Zielort zu verschieben. Da sie sehr große Datenmengen verarbeiten und horizontal skalieren können, indem sie Standard-Cloud-Infrastruktur, Enterprise Data Lakes sind eine ideale Plattform für die Cloud-Datenmigration, Unternehmensarchivierung und Operational Data Store (ODS). Darüber hinaus können sie Pipelines zwischen Produktionssystemen und nachgelagerten Analysen, SQL-Data Warehouses, Anwendungen für künstliche Intelligenz (KI) und maschinelles Lernen (ML) aufbauen.

Datenpipelines sind eine Reihe von Datenflüssen. Die Ausgabe eines Elements ist die Eingabe des nächsten und so weiter. Enterprise Data Lakes dienen als Sammel- und Zugriffspunkte in einer Datenpipeline und sind für die Zugriffskontrolle verantwortlich. Wenn Datenpipelines im gesamten Unternehmen entstehen, Unternehmensdatenseen werden zu Datenverteilungsknotenpunkten mit zentraler Steuerung, um Daten über Netzwerke von Datenseen hinweg zu föderieren. Die Datenföderation zentralisiert Metadatenverwaltung, Datenverwaltung und Compliance-Kontrolle und ermöglicht gleichzeitig dezentrale Data-Lake-Operationen.
Natürlich sind bei der Verwaltung von Daten in einem so großen Maßstab Kontrollen der Datenverwaltung unerlässlich. Ein Enterprise Data Lake verwaltet Daten mithilfe von Richtlinien für das Information Lifecycle Management (ILM). Diese legen ein System von Kontrollen und Geschäftsregeln fest, darunter Richtlinien zur Datenaufbewahrung und rechtliche Aufbewahrungsfristen. Sicherheits- und Datenschutzkontrollen für Verbraucher wie NIST 800-53, PCI, HIPAA und DSGVO sind nicht nur für die Einhaltung gesetzlicher Vorschriften unerlässlich, eine ordnungsgemäße Umsetzung verbessert auch die Datenqualität.
Zentrales Metadatenmanagement
Enterprise Data Lakes brauchen Metadatenmanagement ermöglicht die Anzeige der gesamten Datenlandschaft (einschließlich strukturierter, halbstrukturierter und unstrukturierter Daten) und hilft Benutzern, ihre Daten besser zu verstehen. Analysten klassifizieren, profilieren und erstellen konsistente Beschreibungen und einen Geschäftskontext für die Daten. Durch die zentrale Metadatenverwaltung können Benutzer ihre Datenlandschaft auf drei Arten erkunden:
- Mithilfe der Datenherkunft können Benutzer den Datenlebenszyklus einschließlich der Historie der Datenbewegung und -transformation nachvollziehen. Dies vereinfacht die Ursachenanalyse durch die Rückverfolgung von Datenfehlern und verbessert die Zuverlässigkeit für die Verarbeitung durch nachgelagerte Systeme.
- Ein Datenkatalog ist eine Portfolioansicht des Datenbestands und der Datenressourcen. Mit anderen Worten: Benutzer durchsuchen die Daten, die sie benötigen, und können Daten für beabsichtigte Verwendungszwecke auswerten.
- Das Business-Glossar ist eine Liste von Geschäftsbegriffen mit ihren Definitionen. Datenverwaltungsprogramme erfordern, dass Geschäftskonzepte für eine Organisation einheitlich definiert und verwendet werden.
Das Herzstück von Cloud-Datenmanagementprogrammen
Die digitale Transformation erfordert die Interoperabilität mit der Cloud und ihrem riesigen Netzwerk aus Daten und Webdiensten. Data Lakes sind ein Open-Source-Ansatz nach Industriestandard, um große Datenmengen sicher und geschützt zu sammeln und zu speichern. Darüber hinaus bietet ein Enterprise Data Lake unternehmenstaugliche Dienste zum Erkunden, Verwalten, Regeln, Vorbereiten und Bereitstellen von Zugriffskontrollen. Manager, die diese datengesteuerten Vorteile nutzen möchten, setzen Enterprise Data Lakes ein, um die Kundenbindung zu verbessern oder verbesserte Analysen auf der Grundlage umfassenderer, ereignisgesteuerter Daten bereitzustellen.
Zusammenfassend lässt sich sagen, dass Data-First-Architekturen kostengünstige und effiziente Objektspeicherung, Echtzeitzugriff, Datenverwaltung, Metadatenmanagement, Datenaufbereitung und Konnektivität erfordern, um End-to-End-Datenpipelines aufzubauen. Mit einer Unternehmensdatensee, Jede Organisation ist in der Lage, diese kritischen Fähigkeiten sehr schnell zu implementieren, eine digitale Transformation zu erreichen und ein datengesteuertes Unternehmen zu werden.
