Préface
Cet article propose une analyse architecturale complète des lacs de données (data lakehouses et delta lakes), en mettant l'accent sur leurs différences structurelles, leurs contraintes opérationnelles et leurs modes de défaillance potentiels. Il vise à fournir aux décideurs d'entreprise, notamment au sein d'organisations telles que la Federal Trade Commission (FTC), les informations nécessaires pour prendre des décisions éclairées concernant leurs stratégies de gestion des données. L'analyse souligne l'importance de comprendre les mécanismes techniques et les contraintes opérationnelles associés à chaque architecture, afin de garantir que les organisations puissent exploiter efficacement leurs actifs de données tout en respectant les normes de conformité et de gouvernance.
Définition
Un lac de données est défini comme un système de gestion de données unifié qui combine les fonctionnalités des lacs de données et des entrepôts de données, permettant le stockage de données structurées et non structurées avec prise en charge des transactions. À l'inverse, un lac delta est une couche de stockage open source qui apporte les transactions ACID aux lacs de données, permettant un traitement et une gestion fiables des données. La compréhension de ces définitions est essentielle pour évaluer les implications architecturales et les exigences opérationnelles de chaque approche.
Réponse directe
Le choix entre un entrepôt de données et un lac de données delta doit être guidé par les besoins spécifiques de gouvernance des données et les exigences transactionnelles de l'organisation. Les entrepôts de données offrent une approche plus intégrée, tandis que les lacs de données delta visent à améliorer les capacités des lacs de données tout en garantissant l'intégrité transactionnelle.
Pourquoi maintenant
L'augmentation du volume et de la diversité des données générées par les organisations exige des solutions de gestion des données robustes. Face à la pression réglementaire croissante, notamment pour des organismes comme la FTC, la mise en place de mécanismes efficaces de gouvernance et de conformité des données devient primordiale. Les différences architecturales entre les lacs de données et les lacs delta présentent des opportunités et des défis spécifiques que les organisations doivent relever pour garantir l'intégrité et la conformité de leurs données.
Tableau de diagnostic
| Décision | Options | Logique de sélection | Coûts cachés |
|---|---|---|---|
| Choisir entre Data Lakehouse et Delta Lake | Data Lakehouse, lac Delta | Évaluer en fonction des besoins en matière de gouvernance des données et des exigences transactionnelles. | Complexité accrue de la gestion des données pour les résidences au bord des lacs, surcharge potentielle en termes de performances dans les configurations de lacs delta. |
| Cadre de gouvernance des données | Mettre en œuvre, ne pas mettre en œuvre | Évaluer les exigences de conformité et les politiques de traitement des données. | Coût de la mise en œuvre par rapport au risque de non-conformité. |
| Enregistrement des transactions | Activer, Désactiver | Déterminer la nécessité en fonction des besoins d'intégrité des données. | Allocation des ressources pour la journalisation vs. perte potentielle de données. |
| Gestion de l'évolution des schémas | Automatisé, manuel | Évaluer en fonction de la stabilité de la structure des données. | Complexité de la gestion manuelle vs. risque d'erreurs d'automatisation. |
| L'optimisation des performances | Optimiser, ignorer | Évaluer les modèles d'accès aux données et les indicateurs de performance. | Coût des efforts d'optimisation par rapport à la dégradation potentielle des performances. |
| Contrôles de conformité | Mettre en œuvre, ne pas mettre en œuvre | Évaluer les exigences réglementaires et la tolérance au risque. | Coût de la mise en conformité par rapport au risque d'infractions réglementaires. |
Sections analytiques approfondies
Aperçu architectural
Les différences architecturales entre les data lakehouses et les delta lakes sont importantes. Les data lakehouses intègrent les fonctionnalités des data lakes et des data warehouses, permettant le stockage de données structurées et non structurées. Cette intégration facilite une gestion des données plus fluide, permettant aux organisations d'exploiter plus efficacement leurs actifs de données. En revanche, les delta lakes se concentrent sur la fourniture de transactions ACID sur les data lakes, garantissant ainsi l'intégrité et la fiabilité des données. Cette distinction est cruciale pour les organisations qui exigent des mécanismes robustes de gouvernance et de conformité des données.
Contraintes opérationnelles
La mise en œuvre de lacs de données et de lacs delta s'accompagne de contraintes opérationnelles inhérentes. Les lacs de données, de par leur nature intégrée, peuvent complexifier la gouvernance des données, obligeant les organisations à établir des politiques exhaustives concernant l'accès aux données, leur conservation et leur traçabilité. À l'inverse, les lacs delta nécessitent des configurations spécifiques pour des performances optimales, ce qui peut engendrer des difficultés en matière de gestion de la cohérence et de l'intégrité des données. Il est essentiel pour les organisations de comprendre ces contraintes afin de maîtriser efficacement la complexité de la gestion des données.
Modes de défaillance
Les points de défaillance potentiels des implémentations de lacs de données et de lacs delta doivent être analysés avec soin. Une configuration inadéquate peut engendrer des incohérences de données, notamment dans les environnements où l'évolution des schémas n'est pas correctement gérée. De plus, un manque de contrôles de conformité peut entraîner des infractions réglementaires, exposant les organisations à des risques juridiques et financiers. L'identification de ces modes de défaillance permet aux organisations de mettre en œuvre des mesures préventives et d'atténuer les impacts potentiels sur leurs stratégies de gestion des données.
Cadre de mise en œuvre
La mise en place d'un cadre d'implémentation robuste est essentielle au déploiement réussi des lacs de données et des lacs delta. Les organisations doivent prioriser l'élaboration d'un cadre de gouvernance des données définissant des politiques claires en matière de traitement, d'accès et de conservation des données. Par ailleurs, la mise en œuvre de mécanismes de journalisation des transactions contribue à garantir l'intégrité des données en cours d'exploitation. En se concentrant sur ces éléments fondamentaux, les organisations peuvent créer un environnement de gestion des données résilient, conforme aux objectifs de conformité et de gouvernance.
Risques stratégiques et coûts cachés
Les organisations doivent être conscientes des risques stratégiques et des coûts cachés liés à la mise en œuvre de solutions de type « delta lakehouse » et « delta lake ». La complexité accrue de la gestion des données pour les « delta lakes » peut engendrer des coûts opérationnels plus élevés et des difficultés d'allocation des ressources. De même, les éventuelles surcharges de performance dans les configurations « delta lake » peuvent impacter l'efficacité globale du système. L'évaluation de ces risques et coûts est essentielle pour permettre aux organisations de prendre des décisions éclairées concernant leurs stratégies de gestion des données.
Contrepoint de l'Homme d'Acier
Si les entrepôts de données (data lakehouses) offrent une approche unifiée de la gestion des données, certains estiment que les lacs delta constituent une solution plus ciblée pour les organisations traitant principalement de grands volumes de données non structurées. L'accent mis par les lacs delta sur les transactions ACID renforce la fiabilité des données, ce qui en fait un choix judicieux pour les organisations soumises à des exigences strictes en matière d'intégrité des données. Toutefois, cette perspective risque de négliger les avantages plus larges des entrepôts de données, notamment en termes d'intégration et de flexibilité.
Intégration de solution
L'intégration des lacs de données et des lacs delta aux cadres de gestion de données existants exige une planification et une exécution rigoureuses. Les organisations doivent évaluer leurs architectures de données actuelles et identifier les domaines où l'intégration peut améliorer la gouvernance et la conformité des données. Cela peut impliquer de réévaluer les politiques d'accès aux données, de mettre en œuvre de nouveaux outils de gestion des données et de s'assurer que toutes les parties prenantes partagent les mêmes pratiques de traitement des données. Une approche stratégique de l'intégration permet aux organisations de maximiser la valeur de leurs actifs de données tout en minimisant les risques.
Scénario d'entreprise réaliste
Prenons l'exemple de la Federal Trade Commission (FTC) qui évalue sa stratégie de gestion des données. L'organisation doit choisir entre un entrepôt de données centralisé (data lakehouse) et un lac de données multidimensionnel (delta lake) pour gérer son vaste ensemble d'actifs de données. En analysant ses besoins en matière de gouvernance des données, ses exigences transactionnelles et ses contraintes opérationnelles, la FTC peut prendre une décision éclairée, conforme à ses objectifs de conformité. Ce scénario souligne l'importance d'une approche structurée de la gestion des données, permettant aux organisations d'exploiter efficacement leurs données tout en respectant la réglementation.
QFP
Q : Quelle est la principale différence entre un data lakehouse et un delta lake ?
A: Un data lakehouse intègre les fonctionnalités des lacs de données et des entrepôts de données, tandis qu'un delta lake se concentre sur la fourniture de transactions ACID pour améliorer les capacités du lac de données.
Q : Quelles sont les principales contraintes opérationnelles liées à la mise en œuvre d'un lac de données ?
A: Les entrepôts de données peuvent introduire de la complexité dans la gouvernance des données et nécessitent des politiques complètes en matière d'accès aux données, de conservation et de traçabilité.
Q : Comment les organisations peuvent-elles atténuer les modes de défaillance potentiels dans les implémentations de Data Lakehouse et de Delta Lake ?
A: Les organisations peuvent mettre en œuvre des cadres de gouvernance des données robustes, des mécanismes de journalisation des transactions et des pratiques de gestion de l'évolution des schémas pour atténuer les risques.
Mode de défaillance observé en lien avec le sujet de l'article
Lors d'un incident récent, nous avons découvert une défaillance critique dans notre architecture de gouvernance des données qui découlait d'un manque de contrôles de conservation et d'élimination dans le stockage d'objets non structurésAu départ, nos tableaux de bord indiquaient que tous les systèmes étaient opérationnels, mais à notre insu, l'application de la propagation des métadonnées de conservation légale entre les versions d'objets avait échoué sans que nous nous en apercevions. Cette négligence a conduit à une situation où des objets qui auraient dû être conservés pour des raisons de conformité ont été marqués par inadvertance pour suppression, créant ainsi un risque important de perte de données.
Le mécanisme de défaillance résidait dans une divergence entre le plan de contrôle et le plan de données. Plus précisément, le bit/indicateur de conservation légale de certains objets n'a pas été correctement mis à jour lors de l'exécution de leur cycle de vie, entraînant une inadéquation entre la classe de conservation prévue et l'état réel des objets. Par conséquent, nous avons constaté que les étiquettes d'objets et les pointeurs du journal d'audit s'écartaient de leurs valeurs attendues, ce qui a engendré des erreurs lors des opérations de récupération. Lorsque nous avons tenté d'utiliser RAG/recherche pour localiser ces objets, nous avons rencontré des erreurs de récupération pour des éléments expirés qui auraient dû être conservés, révélant ainsi la gravité de la défaillance de la gouvernance.
Cette défaillance était irréversible au moment de sa découverte, car la purge du cycle de vie était terminée. La compaction des versions avait donc écrasé les instantanés immuables contenant les métadonnées correctes. L'impossibilité de reconstruire l'index pour prouver l'état antérieur a aggravé le problème, engendrant un important écart de conformité impossible à corriger.
Il s'agit d'un exemple hypothétique ; nous ne citons pas de clients ou d'institutions figurant au classement Fortune 500 à titre d'exemples.
- fausse hypothèse architecturale
- Qu'est-ce qui a cassé en premier ?
- Leçon d'architecture générale liée à l'analyse architecturale « Data Lakehouse vs Delta Lake »
Perspective unique tirée de « » sous les contraintes de « Data Lakehouse vs Delta Lake : une analyse architecturale »
Cet incident met en lumière un problème critique connu sous le nom de « séparation des plans de contrôle et de données » dans le cadre de la récupération réglementée des données. Ce problème illustre l'importance d'une intégration étroite des mécanismes de gouvernance aux processus de gestion du cycle de vie des données. Lorsque ces deux plans fonctionnent indépendamment, le risque de non-conformité augmente considérablement, comme notre expérience le démontre.
La plupart des équipes ont tendance à négliger la nécessité d'une synchronisation continue entre le plan de contrôle et le plan de données, ce qui entraîne souvent des incohérences dans les politiques de conservation des données. Un expert, en revanche, mettrait en œuvre des audits réguliers et des contrôles automatisés afin de garantir l'application systématique des obligations légales de conservation des données à l'ensemble des éléments de données, réduisant ainsi le risque de perte de données.
| Test EEAT | Ce que font la plupart des équipes | Ce qu'un expert fait différemment (sous la pression réglementaire) |
|---|---|---|
| Quel facteur donc ? | On suppose que la conformité est maintenue grâce à des examens périodiques. | Mettre en place une surveillance continue et des alertes en temps réel en cas de non-conformité. |
| Preuves d'origine | S'appuyer sur la documentation manuelle de la provenance des données | Utiliser un suivi automatisé de la lignée intégré aux contrôles de gouvernance |
| Delta unique / Gain d'information | Privilégier la disponibilité des données plutôt que la conformité | Accorder la priorité à la conformité en tant qu'aspect fondamental des stratégies de disponibilité des données |
La plupart des directives publiques tendent à omettre le besoin crucial de mécanismes de gouvernance en temps réel qui s'adaptent à la nature dynamique de la gestion du cycle de vie des données.
Références
- NISTSP 800-53 – Établit des contrôles pour la gouvernance et la conformité des données.
- – Lignes directrices pour la gestion et la conservation des documents.
AVERTISSEMENT : LE CONTENU, LES POINTS DE VUE ET LES OPINIONS EXPRIMÉS DANS CE BLOG SONT LA RESPONSABILITÉ EXCLUSIVE DES AUTEURS ET NE REFLÈTENT PAS LA POLITIQUE OU LA POSITION OFFICIELLE DE SOLIX TECHNOLOGIES, INC., DE SES SOCIÉTÉS AFFILIÉES OU DE SES PARTENAIRES. CE BLOG EST EXPLOITÉ DE MANIÈRE INDÉPENDANTE ET N'EST NI RÉVISÉ NI APPROUVÉ PAR SOLIX TECHNOLOGIES, INC. À TITRE OFFICIEL. TOUTES LES MARQUES, LOGOS ET DOCUMENTS PROTÉGÉS PAR LE DROIT D'AUTEUR TIERS MENTIONNÉS DANS CE BLOG APPARTIENNENT À LEURS PROPRIÉTAIRES RESPECTIFS. TOUTE UTILISATION EST STRICTEMENT À DES FINS D'IDENTIFICATION, DE COMMENTAIRE OU ÉDUCATIVES CONFORMÉMENT À LA DOCTRINE DE L'US FAIR USE (US COPYRIGHT ACT § 107 ET ÉQUIVALENTS INTERNATIONAUX). AUCUN PARRAINAGE, AUCUNE APPROBATION OU AFFILIATION AVEC SOLIX TECHNOLOGIES, INC. N'EST IMPLICITE. LE CONTENU EST FOURNI « EN L'ÉTAT », SANS GARANTIE D'EXACTITUDE, D'EXHAUSTIVITÉ OU D'ADÉQUATION À UN USAGE PARTICULIER. SOLIX TECHNOLOGIES, INC. DÉCLINE TOUTE RESPONSABILITÉ POUR LES ACTIONS PRISES SUR LA BASE DE CE MATÉRIEL. LES LECTEURS ASSUMENT L'ENTIÈRE RESPONSABILITÉ DE LEUR UTILISATION DE CES INFORMATIONS. SOLIX RESPECTE LES DROITS DE PROPRIÉTÉ INTELLECTUELLE. POUR SOUMETTRE UNE DEMANDE DE RETRAIT DMCA, ENVOYEZ UN E-MAIL À INFO@SOLIX.COM AVEC : (1) L'IDENTIFICATION DE L'ŒUVRE, (2) L'URL DU MATÉRIEL CONTREFAÇANT, (3) VOS COORDONNÉES ET (4) UNE DÉCLARATION DE BONNE FOI. TOUTE RÉCLAMATION VALIDE RECEVRA UNE EXAMEN RAPIDE. EN ACCÉDANT À CE BLOG, VOUS ACCEPTEZ CET AVIS DE NON-RESPONSABILITÉ ET NOS CONDITIONS D'UTILISATION. CE CONTRAT EST RÉGI PAR LES LOIS DE LA CALIFORNIE.
-
PublicationArchitecture de l'information d'entreprise pour l'IA générale et l'apprentissage automatique
Télécharger le livre blanc -
-
-
PublicationIntelligence d'entreprise : construire les bases du succès de l'IA
Télécharger le livre blanc
