Barry Art

Préface

Cet article propose une analyse architecturale complète des lacs de données, et plus particulièrement de Delta Lake, en comparaison avec les entrepôts de données traditionnels. Il vise à fournir aux décideurs d'entreprise, notamment au sein d'organisations comme le Service national de santé britannique (NHS), les informations nécessaires pour prendre des décisions éclairées concernant les stratégies de gestion des données. L'accent est mis sur les contraintes opérationnelles, les compromis stratégiques et les modes de défaillance potentiels associés à chaque approche, garantissant ainsi un débat de haut niveau et fondé sur la confiance.

Définition

Un lac de données est un référentiel centralisé permettant le stockage à grande échelle de données structurées et non structurées, tandis qu'un entrepôt de données est un système utilisé pour la production de rapports et l'analyse de données, optimisé pour la performance des requêtes et l'intégrité des données. La compréhension de ces définitions est essentielle pour évaluer leurs architectures respectives et leurs implications opérationnelles.

Réponse directe

Le choix entre Delta Lake et un entrepôt de données traditionnel dépend des types de données, des besoins en matière de performances des requêtes et des capacités de gouvernance de l'organisation. Delta Lake offre une grande flexibilité pour les données de tous types, tandis que les entrepôts de données optimisent les performances pour les données structurées.

Pourquoi maintenant

L'augmentation du volume et de la variété des données générées par les organisations impose une réévaluation des stratégies de gestion des données. Alors que des organisations comme le NHS cherchent à exploiter les données pour améliorer la prise de décision et l'efficacité opérationnelle, il devient impératif de comprendre les différences architecturales et les contraintes opérationnelles des lacs de données et des entrepôts de données. Cette urgence est encore accentuée par les exigences réglementaires en matière de gouvernance et de conformité des données.

Tableau de diagnostic

<tdVariable performance based on data quality

Aspect Lac de données (Delta Lake) Entreposage De Données
Types de données Structuré et non structuré Principalement structuré
Prix Coûts initiaux plus faibles, risque de frais généraux de gestion plus élevés Des coûts de stockage et d'entretien plus élevés
Performances Optimisé pour les requêtes complexes
Gouvernance Nécessite des cadres de gouvernance robustes Pratiques de gouvernance établies
Évolutivité Très évolutif pour les gros volumes L'évolutivité peut être limitée par l'architecture.
Qualité des données Risque de submersion des données en l'absence de gouvernance Intégrité des données supérieure grâce à leur structure.

Sections analytiques approfondies

Aperçu architectural des lacs de données et des entrepôts de données

L'architecture des lacs de données, notamment Delta Lake, privilégie la flexibilité et l'évolutivité, permettant aux organisations de stocker d'immenses volumes de données de types variés. À l'inverse, les entrepôts de données sont conçus pour les données structurées et l'optimisation des performances des requêtes. Cette section analysera les implications de ces choix architecturaux sur les pratiques de gestion des données.

Contraintes opérationnelles et compromis

Lorsqu'on compare les lacs de données et les entrepôts de données, les contraintes opérationnelles sont primordiales. Les lacs de données exigent une gouvernance robuste pour garantir une qualité de données optimale, tandis que les entrepôts de données engendrent des coûts de stockage et de maintenance plus élevés. Cette section analysera ces compromis en détail et proposera des pistes de réflexion pour aider les organisations à relever ces défis.

Modes de défaillance dans la gestion des données

L'identification des modes de défaillance potentiels est essentielle à une gestion efficace des données. Les lacs de données peuvent se transformer en « marécages de données » s'ils ne sont pas correctement gérés, tandis que les entrepôts de données peuvent subir une dégradation de leurs performances au fil du temps. Cette section analysera ces modes de défaillance, en examinant leurs mécanismes et leurs impacts potentiels sur les stratégies de données organisationnelles.

Cadre de mise en œuvre

La mise en œuvre d'une stratégie de gestion des données exige un cadre structuré qui prenne en compte à la fois les lacs de données et les entrepôts de données. Cette section décrit les composantes clés d'un cadre de mise en œuvre efficace, notamment les politiques de gouvernance des données, le suivi des performances et les contrôles d'accès des utilisateurs, afin de garantir que les organisations puissent exploiter efficacement leurs actifs de données.

Risques stratégiques et coûts cachés

Chaque stratégie de gestion des données comporte des risques inhérents et des coûts cachés. Pour les lacs de données, il convient de prendre en compte l'augmentation potentielle des coûts de gestion, tandis que les entrepôts de données peuvent engendrer des coûts opérationnels plus élevés du fait de leur structure. Cette section analysera en détail ces risques stratégiques, offrant ainsi une vision complète des implications financières de chaque approche.

Contrepoint de l'Homme d'Acier

Bien que les lacs de données offrent flexibilité et évolutivité, il est essentiel de prendre en compte les atouts des entrepôts de données. Cette section présentera des arguments solides en faveur des entrepôts de données, en soulignant leurs avantages en matière d'intégrité des données, de performance et de pratiques de gouvernance éprouvées, garantissant ainsi une analyse équilibrée.

Intégration de solution

L'intégration des lacs de données et des entrepôts de données au sein d'une stratégie de gestion des données cohérente permet aux organisations de tirer le meilleur parti des deux approches. Cette section présente des stratégies d'intégration efficaces, notamment les pipelines de données, les cadres de gouvernance et le suivi des performances, afin de garantir aux organisations une valorisation optimale de leurs actifs de données.

Scénario d'entreprise réaliste

Pour illustrer les implications pratiques du choix entre Delta Lake et un entrepôt de données, cette section présente un scénario réaliste concernant le Service national de santé britannique (NHS). En examinant les besoins spécifiques du NHS en matière de gestion des données, cette section permettra de comprendre comment les organisations peuvent appréhender la complexité de la gestion des données dans un contexte réel.

QFP

Q : Quelle est la principale différence entre un lac de données et un entrepôt de données ?
A : La principale différence réside dans les types de données qu'ils stockent : les lacs de données accueillent à la fois des données structurées et non structurées, tandis que les entrepôts de données sont optimisés pour les données structurées.

Q : Comment Delta Lake améliore-t-il les capacités des lacs de données ?
A: Delta Lake fournit des transactions ACID, une gestion évolutive des métadonnées et unifie le traitement des données en flux continu et par lots, améliorant ainsi la qualité et la gouvernance des données.

Q : Quels sont les risques associés aux lacs de données ?
A : Les risques comprennent la formation potentielle d'un marécage de données en raison de l'ingestion non réglementée de données et les difficultés à maintenir la qualité des données sans une gouvernance robuste.

Mode de défaillance observé en lien avec le sujet de l'article

Lors d'un incident récent, nous avons découvert une défaillance critique dans notre architecture de gouvernance des données, plus précisément liée à contrôles de conservation et d'élimination dans le stockage d'objets non structurésLa première défaillance s'est produite lorsque la propagation silencieuse des métadonnées de conservation légale entre les versions d'objets a échoué, ce qui a conduit à une situation où les tableaux de bord indiquaient une conformité saine alors que l'application réelle de la gouvernance était déjà compromise.

Le plan de contrôle, chargé de la gestion des conservations légales, a divergé du plan de données, qui exécutait les actions de cycle de vie. Cette divergence a entraîné une erreur de classification de la durée de conservation lors de l'ingestion, provoquant le marquage pour suppression de certains objets alors qu'ils étaient soumis à une conservation légale. Par conséquent, les étiquettes d'objets critiques et les indicateurs de conservation légale ont été désynchronisés, ce qui a conduit à la récupération d'objets expirés lors d'un audit de conformité, révélant ainsi l'ampleur du problème.

Malheureusement, cette défaillance était irréversible au moment de sa découverte. La purge du cycle de vie était déjà terminée et les instantanés immuables avaient écrasé l'état précédent, rendant impossible la restauration des métadonnées légales correctes. La reconstruction de l'index n'a pas permis de prouver l'état antérieur, ce qui nous a exposés à un risque de non-conformité important et impossible à atténuer.

Il s'agit d'un exemple hypothétique ; nous ne citons pas de clients ou d'institutions figurant au classement Fortune 500 à titre d'exemples.

  • fausse hypothèse architecturale
  • Qu'est-ce qui a cassé en premier ?
  • Leçon d'architecture générale liée à la question « Lac de données : Delta Lake vs Entrepôt de données »

Perspective unique tirée de « » sous les contraintes « Lac de données : Delta Lake vs Entrepôt de données »

Cet incident souligne l'importance cruciale de l'alignement entre le plan de contrôle et le plan de données dans les architectures de gouvernance des données. Le modèle de « séparation des plans de contrôle et de données » dans la récupération réglementée illustre comment un désalignement peut entraîner de graves manquements à la conformité. Les organisations doivent veiller à ce que leurs mécanismes de gouvernance soient étroitement intégrés à la gestion du cycle de vie des données afin d'éviter de tels écueils.

La plupart des équipes ont tendance à négliger la nécessité d'une validation continue entre les plans de contrôle et de données, supposant souvent que la conformité est assurée tant que les tableaux de bord affichent un bon fonctionnement. Or, cet incident démontre que, sans contrôles rigoureux, des défaillances silencieuses peuvent survenir, entraînant des conséquences irréversibles.

La plupart des recommandations publiques omettent généralement la nécessité de contrôles de gouvernance proactifs permettant d'identifier les écarts entre les données prévues et les données réelles. Cette lacune peut engendrer des risques importants de non-conformité auxquels les organisations ne sont pas toujours préparées.

Test EEAT Ce que font la plupart des équipes Ce qu'un expert fait différemment (sous la pression réglementaire)
Quel facteur donc ? On suppose que la conformité est maintenue en fonction des indicateurs du tableau de bord. Mettre en œuvre des contrôles de validation continus entre les plans de contrôle et de données.
Preuves d'origine S'appuyer sur des instantanés de données historiques pour assurer la conformité. Assurer un suivi en temps réel des métadonnées de conservation légale à travers les différentes versions d'objets.
Delta unique / Gain d'information Privilégiez les mesures de conformité réactives. Adoptez des stratégies de gouvernance proactives pour prévenir les manquements en matière de conformité.

Références

1. NIST SP 800-53 : Établit des mécanismes de contrôle pour la gouvernance et la conformité des données.
2. OIN 15489 :

Barry Art

Barry Art

Vice-président du marketing, Solix Technologies Inc.

Barry Art Il dirige les initiatives marketing chez Solix Technologies, où il traduit les défis complexes liés à la gouvernance des données, à la mise hors service des applications et à la conformité en stratégies claires pour les clients figurant au classement Fortune 500.

Expérience en entreprise : Barry avait auparavant travaillé avec IBM zSeries écosystèmes soutenant l'activité mainframe multimilliardaire de CA Technologies, avec une exposition pratique à l'économie des infrastructures d'entreprise et aux risques liés au cycle de vie à grande échelle.

Référence orale vérifiée : Inscrit comme panéliste au programme du symposium sur l'IA explicable et sécurisée de l'UC San Diego ( Consulter l'agenda au format PDF ).

AVERTISSEMENT : LE CONTENU, LES POINTS DE VUE ET LES OPINIONS EXPRIMÉS DANS CE BLOG SONT LA RESPONSABILITÉ EXCLUSIVE DES AUTEURS ET NE REFLÈTENT PAS LA POLITIQUE OU LA POSITION OFFICIELLE DE SOLIX TECHNOLOGIES, INC., DE SES SOCIÉTÉS AFFILIÉES OU DE SES PARTENAIRES. CE BLOG EST EXPLOITÉ DE MANIÈRE INDÉPENDANTE ET N'EST NI RÉVISÉ NI APPROUVÉ PAR SOLIX TECHNOLOGIES, INC. À TITRE OFFICIEL. TOUTES LES MARQUES, LOGOS ET DOCUMENTS PROTÉGÉS PAR LE DROIT D'AUTEUR TIERS MENTIONNÉS DANS CE BLOG APPARTIENNENT À LEURS PROPRIÉTAIRES RESPECTIFS. TOUTE UTILISATION EST STRICTEMENT À DES FINS D'IDENTIFICATION, DE COMMENTAIRE OU ÉDUCATIVES CONFORMÉMENT À LA DOCTRINE DE L'US FAIR USE (US COPYRIGHT ACT § 107 ET ÉQUIVALENTS INTERNATIONAUX). AUCUN PARRAINAGE, AUCUNE APPROBATION OU AFFILIATION AVEC SOLIX TECHNOLOGIES, INC. N'EST IMPLICITE. LE CONTENU EST FOURNI « EN L'ÉTAT », SANS GARANTIE D'EXACTITUDE, D'EXHAUSTIVITÉ OU D'ADÉQUATION À UN USAGE PARTICULIER. SOLIX TECHNOLOGIES, INC. DÉCLINE TOUTE RESPONSABILITÉ POUR LES ACTIONS PRISES SUR LA BASE DE CE MATÉRIEL. LES LECTEURS ASSUMENT L'ENTIÈRE RESPONSABILITÉ DE LEUR UTILISATION DE CES INFORMATIONS. SOLIX RESPECTE LES DROITS DE PROPRIÉTÉ INTELLECTUELLE. POUR SOUMETTRE UNE DEMANDE DE RETRAIT DMCA, ENVOYEZ UN E-MAIL À INFO@SOLIX.COM AVEC : (1) L'IDENTIFICATION DE L'ŒUVRE, (2) L'URL DU MATÉRIEL CONTREFAÇANT, (3) VOS COORDONNÉES ET (4) UNE DÉCLARATION DE BONNE FOI. TOUTE RÉCLAMATION VALIDE RECEVRA UNE EXAMEN RAPIDE. EN ACCÉDANT À CE BLOG, VOUS ACCEPTEZ CET AVIS DE NON-RESPONSABILITÉ ET NOS CONDITIONS D'UTILISATION. CE CONTRAT EST RÉGI PAR LES LOIS DE LA CALIFORNIE.