Barry Art

Préface

L'exclusion de données dans les lacs de données Delta Lake est un mécanisme essentiel pour optimiser l'extraction de données dans les lacs de données modernes, notamment pour les organisations comme le Département de la Justice des États-Unis (DOJ) qui gèrent d'importants volumes de données héritées. En exploitant les métadonnées pour ignorer les fichiers de données non pertinents, ces organisations peuvent améliorer les performances des requêtes et réduire la consommation de ressources. Cet article examine les contraintes opérationnelles liées aux données héritées, les compromis stratégiques en matière de modernisation des données et le cadre de mise en œuvre nécessaire à une exclusion de données efficace.

Définition

Le mécanisme d'exclusion de données Delta Lake optimise la récupération des données en ignorant les fichiers non pertinents grâce à leurs métadonnées, améliorant ainsi les performances des requêtes et réduisant la consommation de ressources. Ce processus est essentiel pour les organisations qui utilisent de grands ensembles de données, car il minimise la quantité de données analysées lors des requêtes, améliorant ainsi l'efficacité et réduisant les coûts.

Réponse directe

La mise en œuvre de Delta Lake Data Skipping permet aux organisations de moderniser leurs lacs de données en améliorant les performances des requêtes et en réduisant les coûts opérationnels associés à la récupération des données.

Pourquoi maintenant

La modernisation urgente des lacs de données découle de l'augmentation du volume de données générées par les organisations et de la nécessité de se conformer à des politiques de gouvernance des données rigoureuses. Les ensembles de données existants sont souvent dépourvus d'indexation et de métadonnées adéquates, ce qui engendre des processus d'extraction de données inefficaces. En adoptant la technique de contournement des données Delta Lake, les organisations peuvent relever ces défis et améliorer leurs capacités de gestion des données.

Tableau de diagnostic

Question Impact Fréquence Gravité Stratégie d'atténuation
Fichiers de données sans balises de métadonnées Analyses complètes lors des requêtes Haute Critical Mettre en œuvre des protocoles d'étiquetage des métadonnées
Formats de données incohérents Défis d'intégration Moyenne Haute Normaliser les formats de données entre les systèmes
Les politiques de rétention ne sont pas appliquées de manière uniforme. Conformité complexe Moyenne Haute Audits réguliers des politiques de rétention
Suivi incomplet de la lignée des données Influant sur l'auditabilité Haute Critical Mettre en œuvre des outils complets de traçabilité des données
Performances des requêtes dégradées Augmentation des coûts opérationnels Haute Haute Optimiser les structures de données et l'indexation
Les mesures de rétention légale ne sont pas appliquées. Risques de conformité Moyenne Critical Automatiser les processus de conservation légale

Sections analytiques approfondies

Comprendre le saut de données du lac Delta

Le filtrage des données dans Delta Lake est un mécanisme technique qui réduit considérablement la quantité de données analysées lors des requêtes. En exploitant les métadonnées, Delta Lake identifie les fichiers de données pertinents, ce qui permet une récupération plus efficace des données. Ce mécanisme est particulièrement avantageux pour les organisations disposant de grands ensembles de données, car il minimise la consommation de ressources et améliore les performances globales. Cependant, l'efficacité du filtrage des données dépend de l'exactitude et de l'exhaustivité des métadonnées associées aux ensembles de données.

Contraintes opérationnelles des ensembles de données hérités

Les jeux de données hérités présentent plusieurs contraintes opérationnelles qui entravent une gestion efficace des données dans les lacs de données modernes. Souvent, ces jeux de données sont mal indexés, ce qui rend difficile la récupération rapide des informations pertinentes. De plus, les exigences de conformité peuvent compliquer l'accessibilité aux données, car les organisations doivent se conformer à diverses réglementations tout en garantissant l'intégrité des données. L'absence de formats de données standardisés aggrave encore ces difficultés, entraînant des problèmes d'intégration et des processus de récupération de données inefficaces.

Compromis stratégiques dans la modernisation des données

La modernisation des lacs de données implique plusieurs compromis stratégiques que les organisations doivent examiner attentivement. Il est essentiel de trouver un équilibre entre la croissance des données et le contrôle de la conformité, car les organisations doivent s'assurer que leurs pratiques de gestion des données sont conformes aux exigences réglementaires. De plus, les investissements dans la modernisation doivent tenir compte des coûts opérationnels à long terme, notamment le besoin potentiel d'outils supplémentaires de gestion des métadonnées et de formation du personnel aux nouvelles pratiques. Ces compromis nécessitent une analyse approfondie de la stratégie de données et des objectifs opérationnels de l'organisation.

Cadre de mise en œuvre

Pour une mise en œuvre efficace du Delta Lake Data Skipping, les organisations doivent établir un cadre complet incluant des audits réguliers des métadonnées, un suivi de la conformité et l'intégration d'outils de traçabilité des données. Les audits réguliers garantissent l'exactitude et la mise à jour des métadonnées, évitant ainsi un Delta Lake Data Skipping inefficace. Le suivi de la conformité doit être intégré aux flux d'ingestion des données afin d'assurer le respect des politiques de gouvernance des données. Par ailleurs, les organisations doivent investir dans la formation de leur personnel aux nouvelles pratiques de gestion des données pour faciliter une transition harmonieuse vers des lacs de données modernisés.

Risques stratégiques et coûts cachés

Bien que la mise en œuvre du Delta Lake Data Skipping offre de nombreux avantages, les organisations doivent également être conscientes des risques stratégiques et des coûts cachés associés à cette transition. Un balayage de données inefficace peut survenir si les métadonnées ne sont pas à jour ou sont inexactes, ce qui entraîne une dégradation des performances des requêtes et une augmentation des coûts opérationnels. De plus, le besoin potentiel d'outils supplémentaires de gestion des métadonnées et de formation du personnel peut engendrer des dépenses imprévues. Les organisations doivent donc mener une évaluation approfondie des risques afin d'identifier et d'atténuer ces difficultés de manière proactive.

Contrepoint de l'Homme d'Acier

Malgré les avantages du contournement des données du lac Delta, certains estiment que la mise en œuvre de tels mécanismes peut complexifier les processus de gestion des données existants. La nécessité de métadonnées précises et d'audits réguliers peut engendrer des coûts et un surcroît de temps considérables, risquant de détourner l'attention d'autres initiatives essentielles. De plus, les organisations dont les cadres de gouvernance des données sont limités peuvent avoir du mal à tirer pleinement parti du contournement des données, ce qui peut susciter des doutes quant à son efficacité. Il est donc primordial que les décideurs mettent en balance ces préoccupations et les gains de performance et les économies potentielles.

Intégration de solution

L'intégration du saut de données Delta Lake aux pratiques de gestion des données existantes exige une approche stratégique alignée sur la stratégie globale de données de l'organisation. Celle-ci doit évaluer son architecture de données actuelle et identifier les domaines où le saut de données peut s'avérer le plus bénéfique. La collaboration entre les équipes informatiques et de gouvernance des données est essentielle pour garantir la mise en place et le maintien de bonnes pratiques de gestion des métadonnées. Par ailleurs, les organisations devraient envisager d'exploiter les outils et technologies existants pour faciliter l'intégration des mécanismes de saut de données à leurs lacs de données.

Scénario d'entreprise réaliste

Prenons l'exemple du ministère de la Justice américain (DOJ), où les anciens ensembles de données entravent l'accès rapide aux informations essentielles. Grâce à la mise en œuvre de Delta Lake Data Skipping, le DOJ peut optimiser ses processus d'extraction de données et réduire considérablement le temps nécessaire pour accéder aux données pertinentes dans le cadre de procédures judiciaires. Cette modernisation améliore non seulement l'efficacité opérationnelle, mais garantit également la conformité aux politiques de gouvernance des données, contribuant ainsi à la mission du DOJ : faire respecter la justice.

QFP

Qu’est-ce que le Delta Lake Data Skipping ?
Delta Lake Data Skipping est un mécanisme qui optimise la récupération des données en ignorant les fichiers de données non pertinents en fonction des métadonnées, améliorant ainsi les performances des requêtes et réduisant la consommation de ressources.

Pourquoi le saut de données est-il important pour les ensembles de données hérités ?
L'exclusion de données est cruciale pour les ensembles de données existants car elle minimise la quantité de données analysées lors des requêtes, améliorant ainsi l'efficacité et réduisant les coûts opérationnels associés à la récupération des données.

Quelles sont les contraintes opérationnelles des ensembles de données existants ?
Les ensembles de données hérités manquent souvent d'indexation adéquate, présentent des formats de données incohérents et peuvent ne pas respecter les exigences de conformité, ce qui complique l'accessibilité et la récupération des données.

Quels compromis stratégiques les organisations doivent-elles envisager lors de la modernisation de leurs lacs de données ?
Les organisations doivent trouver un équilibre entre la croissance des données et le contrôle de la conformité, et prendre en compte les coûts opérationnels à long terme liés aux investissements dans la modernisation.

Comment les organisations peuvent-elles garantir une mise en œuvre efficace du Delta Lake Data Skipping ?
Les organisations devraient mettre en place un cadre comprenant des audits réguliers des métadonnées, un suivi de la conformité et une formation du personnel aux nouvelles pratiques de gestion des données.

Mode de défaillance observé en lien avec le sujet de l'article

Lors d'un incident récent, nous avons découvert une défaillance critique dans notre architecture de gouvernance des données, affectant directement notre capacité à appliquer les politiques de confidentialité. Initialement, nos tableaux de bord indiquaient un fonctionnement normal de tous les systèmes, mais à notre insu, le plan de contrôle divergeait déjà du plan de données. Cette divergence a entraîné une propagation incorrecte des métadonnées de conservation légale entre les versions d'objets, provoquant une classification erronée de la classe de rétention lors de l'ingestion.

La première défaillance est survenue lors de la tentative de récupération d'un objet censé être sous séquestre légal. Nous avons alors constaté que sa classe de rétention avait été incorrectement attribuée suite à une erreur dans le processus d'étiquetage des métadonnées. Cette phase de défaillance silencieuse a duré plusieurs semaines. Durant ce temps, nos mécanismes de gouvernance semblaient intacts, mais l'intégrité des données sous-jacentes était compromise. Les pointeurs du journal d'audit et les étiquettes des objets se sont divergés, ce qui a conduit à une situation où la récupération d'un objet expiré a révélé la défaillance.

Malheureusement, cette défaillance était irréversible au moment de sa découverte. La purge du cycle de vie était déjà terminée et les instantanés immuables avaient écrasé l'état précédent, rendant impossible la restauration du statut de conservation légale correct. La reconstruction de l'index n'a pas permis de prouver l'état antérieur, nous exposant à un risque de non-conformité important que nous ne pouvions atténuer.

Il s'agit d'un exemple hypothétique ; nous ne citons pas de clients ou d'institutions figurant au classement Fortune 500 à titre d'exemples.

  • fausse hypothèse architecturale
  • Qu'est-ce qui a cassé en premier ?
  • Leçon d'architecture générale liée au projet « Delta Lake Data Skipping : Moderniser les données sous-utilisées »

Perspective unique tirée de « » sous les contraintes du projet « Delta Lake Data Skipping : Modernizing Underutilized Data »

Cet incident souligne l'importance cruciale de maintenir l'alignement entre le plan de contrôle et le plan de données, notamment sous la pression réglementaire. Le manque de coordination entre ces deux plans lors de la récupération réglementée des données peut engendrer des risques importants de non-conformité s'il n'est pas géré correctement. Les organisations doivent veiller à ce que leurs mécanismes de gouvernance soient étroitement intégrés à la gestion du cycle de vie des données afin d'éviter les erreurs de classification et les manquements à l'application de la réglementation.

La plupart des recommandations publiques omettent généralement la nécessité d'un suivi et d'une validation continus de l'intégrité des métadonnées entre les différentes versions d'un objet. Cette lacune peut avoir de graves conséquences, comme l'illustre notre cas, où le défaut d'application des mesures de conservation légale a entraîné des répercussions juridiques potentielles.

Test EEAT Ce que font la plupart des équipes Ce qu'un expert fait différemment (sous la pression réglementaire)
Quel facteur donc ? On suppose que la conformité est maintenue grâce à des audits réguliers. Mettre en œuvre une surveillance en temps réel de l'intégrité des métadonnées
Preuves d'origine S'appuyer sur des examens périodiques des journaux d'audit Utiliser le suivi automatisé des modifications de métadonnées
Delta unique / Gain d'information Se concentrer sur la récupération des données sans tenir compte de la gouvernance Intégrer les contrôles de gouvernance dans les processus de récupération des données

Références

  • NISTSP 800-53 – Conseils sur la gestion des données et les contrôles de conformité.
  • – Normes relatives aux pratiques de gestion des documents.

Barry Art Dirige les initiatives marketing chez Solix Technologies, traduisant les défis complexes liés à la gouvernance des données, à la mise hors service des applications et à la conformité en stratégies pour les entreprises du Fortune 500. Auparavant, a travaillé avec les écosystèmes IBM zSeries en soutien à l'activité mainframe de CA Technologies. Contributeur,Symposium sur l'intelligence artificielle explicable et sécurisée de l'UC San Diego.Conseils de Forbes |LinkedIn

Barry Art

Barry Art

Vice-président du marketing, Solix Technologies Inc.

Barry Art Il dirige les initiatives marketing chez Solix Technologies, où il traduit les défis complexes liés à la gouvernance des données, à la mise hors service des applications et à la conformité en stratégies claires pour les clients figurant au classement Fortune 500.

Expérience en entreprise : Barry avait auparavant travaillé avec IBM zSeries écosystèmes soutenant l'activité mainframe multimilliardaire de CA Technologies, avec une exposition pratique à l'économie des infrastructures d'entreprise et aux risques liés au cycle de vie à grande échelle.

Référence orale vérifiée : Inscrit comme panéliste au programme du symposium sur l'IA explicable et sécurisée de l'UC San Diego ( Consulter l'agenda au format PDF ).

AVERTISSEMENT : LE CONTENU, LES POINTS DE VUE ET LES OPINIONS EXPRIMÉS DANS CE BLOG SONT LA RESPONSABILITÉ EXCLUSIVE DES AUTEURS ET NE REFLÈTENT PAS LA POLITIQUE OU LA POSITION OFFICIELLE DE SOLIX TECHNOLOGIES, INC., DE SES SOCIÉTÉS AFFILIÉES OU DE SES PARTENAIRES. CE BLOG EST EXPLOITÉ DE MANIÈRE INDÉPENDANTE ET N'EST NI RÉVISÉ NI APPROUVÉ PAR SOLIX TECHNOLOGIES, INC. À TITRE OFFICIEL. TOUTES LES MARQUES, LOGOS ET DOCUMENTS PROTÉGÉS PAR LE DROIT D'AUTEUR TIERS MENTIONNÉS DANS CE BLOG APPARTIENNENT À LEURS PROPRIÉTAIRES RESPECTIFS. TOUTE UTILISATION EST STRICTEMENT À DES FINS D'IDENTIFICATION, DE COMMENTAIRE OU ÉDUCATIVES CONFORMÉMENT À LA DOCTRINE DE L'US FAIR USE (US COPYRIGHT ACT § 107 ET ÉQUIVALENTS INTERNATIONAUX). AUCUN PARRAINAGE, AUCUNE APPROBATION OU AFFILIATION AVEC SOLIX TECHNOLOGIES, INC. N'EST IMPLICITE. LE CONTENU EST FOURNI « EN L'ÉTAT », SANS GARANTIE D'EXACTITUDE, D'EXHAUSTIVITÉ OU D'ADÉQUATION À UN USAGE PARTICULIER. SOLIX TECHNOLOGIES, INC. DÉCLINE TOUTE RESPONSABILITÉ POUR LES ACTIONS PRISES SUR LA BASE DE CE MATÉRIEL. LES LECTEURS ASSUMENT L'ENTIÈRE RESPONSABILITÉ DE LEUR UTILISATION DE CES INFORMATIONS. SOLIX RESPECTE LES DROITS DE PROPRIÉTÉ INTELLECTUELLE. POUR SOUMETTRE UNE DEMANDE DE RETRAIT DMCA, ENVOYEZ UN E-MAIL À INFO@SOLIX.COM AVEC : (1) L'IDENTIFICATION DE L'ŒUVRE, (2) L'URL DU MATÉRIEL CONTREFAÇANT, (3) VOS COORDONNÉES ET (4) UNE DÉCLARATION DE BONNE FOI. TOUTE RÉCLAMATION VALIDE RECEVRA UNE EXAMEN RAPIDE. EN ACCÉDANT À CE BLOG, VOUS ACCEPTEZ CET AVIS DE NON-RESPONSABILITÉ ET NOS CONDITIONS D'UTILISATION. CE CONTRAT EST RÉGI PAR LES LOIS DE LA CALIFORNIE.