Barry Art

Préface

Cet article propose une analyse approfondie des considérations architecturales liées aux lacs de données et aux architectures de maillage de données, notamment dans le contexte du département de la Défense des États-Unis (DoD). Il examine les contraintes opérationnelles, les défis de gouvernance et les compromis stratégiques auxquels les décideurs d'entreprise doivent faire face lorsqu'ils choisissent entre ces deux paradigmes de gestion des données. L'objectif est de comprendre l'impact de ces architectures sur la gouvernance des données, la conformité et l'efficacité globale de l'organisation.

Définition

A Data Lake est défini comme un référentiel centralisé permettant le stockage à grande échelle de données structurées et non structurées, facilitant ainsi l'analyse et la production de rapports. En revanche, un Maillage de données Elle décentralise la propriété et la gestion des données, favorisant une architecture de données orientée domaine. Cette distinction est essentielle pour comprendre les implications de chaque approche sur la gouvernance et l'efficacité opérationnelle.

Réponse directe

Le choix entre un lac de données et un maillage de données implique d'évaluer les besoins de l'organisation en matière de gouvernance des données, ses exigences de conformité et sa culture d'entreprise en faveur d'une gestion décentralisée des données. Cette décision doit s'appuyer sur une analyse des contraintes opérationnelles et des risques de défaillance liés à chaque approche.

Pourquoi maintenant

L'augmentation du volume de données générées par le ministère de la Défense exige un cadre robuste pour leur gestion. Face au durcissement des réglementations, les organisations doivent privilégier la gouvernance afin d'atténuer les risques liés aux violations de données et à la non-conformité. Le choix entre un lac de données et un maillage de données est crucial, car il influe directement sur la capacité de l'organisation à gérer efficacement ses données tout en respectant les exigences réglementaires.

Tableau de diagnostic

Question Data Lake Maillage de données
Risques de conformité Élevé si la gouvernance est inadéquate Modéré, dépend de la gouvernance du domaine
Lignée de données Souvent, manque de visibilité Amélioré grâce à la propriété du domaine
Interopérabilité Centralisé mais pouvant être complexe Défi dû à la décentralisation
Qualité des données Risque de mauvaise qualité provenant de sources non contrôlées Varie selon la gestion du domaine
Évolutivité Élevé, mais nécessite une infrastructure robuste Dépendant des capacités du domaine
Coût de mise en œuvre Investissement initial élevé coûts de formation et de changement culturel

Sections analytiques approfondies

Comprendre les lacs de données et les maillages de données

Les lacs de données centralisent le stockage des données analytiques, permettant aux organisations de stocker d'immenses volumes de données sans définition préalable de schéma. Cette flexibilité peut accélérer l'ingestion des données, mais peut également engendrer des problèmes de gouvernance si elle n'est pas correctement gérée. À l'inverse, le maillage de données favorise une propriété décentralisée des données, ce qui peut améliorer l'agilité et la réactivité aux besoins de l'entreprise. Cependant, cette approche exige un changement de culture au sein de l'organisation afin de garantir que tous les domaines soient en mesure de gérer leurs données de manière responsable.

Défis de gouvernance dans les lacs de données

Les lacs de données peuvent engendrer des risques importants de non-conformité s'ils ne sont pas correctement gérés. L'absence de traçabilité des données peut entraver l'auditabilité, rendant difficile la remontée des données à leur source. Ceci est particulièrement préoccupant dans des environnements réglementés comme le ministère de la Défense, où la responsabilité est primordiale. Les organisations doivent mettre en œuvre des cadres de gouvernance robustes pour atténuer ces risques, notamment des audits réguliers et des mises à jour des politiques de gouvernance.

Contraintes opérationnelles du maillage de données

La mise en place d'un maillage de données engendre des contraintes opérationnelles que les organisations doivent gérer. Un changement culturel concernant la propriété des données est nécessaire : les équipes doivent assumer la responsabilité de la qualité et de la gouvernance de leurs données. Par ailleurs, l'interopérabilité entre les domaines peut s'avérer complexe, ce qui requiert l'établissement de normes et de protocoles pour faciliter le partage et la collaboration en matière de données.

Compromis stratégiques : croissance des données vs contrôle de la conformité

Face à l'explosion des données, le contrôle de la conformité devient un enjeu de plus en plus complexe pour les organisations. Cette croissance peut dépasser la capacité des mesures de conformité à s'adapter, engendrant des risques juridiques et financiers. Des cadres de gouvernance efficaces sont donc indispensables pour garantir que les pratiques de gestion des données suivent le rythme de l'augmentation du volume et de la complexité des données générées.

Cadre de mise en œuvre

Pour réussir la mise en œuvre d'un lac de données ou d'un maillage de données, les organisations doivent établir un cadre de gouvernance clair définissant les rôles, les responsabilités et les processus de gestion des données. Ce cadre doit inclure des mécanismes de traçabilité des données, de contrôle de la conformité et d'audits réguliers afin de garantir le respect des exigences réglementaires. Par ailleurs, des programmes de formation doivent être mis en place pour doter les équipes des compétences nécessaires à une gestion efficace de leurs données.

Risques stratégiques et coûts cachés

Les organisations doivent être conscientes des risques stratégiques et des coûts cachés liés au choix de leur cadre de gestion des données. Dans le cas des lacs de données, des amendes pour non-conformité peuvent découler d'une gouvernance inadéquate, tandis que la mise en œuvre de réseaux de données peut engendrer des coûts de formation et nécessiter d'importants changements culturels. Comprendre ces risques est essentiel pour prendre des décisions éclairées et alignées sur les objectifs de l'organisation.

Contrepoint de l'Homme d'Acier

Si les lacs de données offrent un contrôle centralisé et une grande évolutivité, ils peuvent aussi engendrer des difficultés de gouvernance susceptibles d'en limiter les avantages. À l'inverse, les maillages de données favorisent l'agilité et la réactivité, mais nécessitent un changement de culture qui n'est pas toujours envisageable pour toutes les organisations. Les décideurs doivent donc examiner attentivement ces facteurs afin de déterminer l'approche la plus adaptée à leur contexte.

Intégration de solution

L'intégration d'une solution de gestion de données aux systèmes existants exige une planification et une exécution rigoureuses. Les organisations doivent évaluer leur infrastructure actuelle et identifier les lacunes susceptibles d'entraver la mise en œuvre réussie d'un lac de données ou d'un maillage de données. La collaboration entre les services informatiques et les unités opérationnelles est essentielle pour garantir que la solution soit alignée sur les objectifs de l'organisation et conforme aux exigences réglementaires.

Scénario d'entreprise réaliste

Prenons l'exemple du ministère de la Défense américain où un lac de données est mis en place pour centraliser les données de renseignement. Sans gouvernance adéquate, l'organisation s'expose à des risques de non-conformité liés à un accès non contrôlé aux données. À l'inverse, l'adoption d'un maillage de données exige une collaboration efficace entre les différents services pour garantir la qualité et la conformité des données, ce qui peut s'avérer complexe sans un changement de culture. Ce scénario illustre l'importance de comprendre les contraintes opérationnelles et les enjeux de gouvernance associés à chaque approche.

QFP

Q : Quelles sont les principales différences entre un lac de données et un maillage de données ?
A: Un lac de données centralise le stockage des données, tandis qu'un maillage de données décentralise la propriété et la gestion des données.

Q : Quels sont les défis de gouvernance associés aux lacs de données ?
A: Les lacs de données peuvent entraîner des risques de non-conformité et un manque de traçabilité des données, ce qui complique l'auditabilité.

Q : Quel est l'impact d'un maillage de données sur la culture organisationnelle ?
A: Un maillage de données nécessite un changement culturel vers une propriété et une responsabilité décentralisées des données.

Mode de défaillance observé en lien avec le sujet de l'article

Lors d'un incident récent, nous avons constaté une défaillance critique dans la gouvernance de notre architecture de lac de données, plus précisément liée à contrôles de conservation et d'élimination dans le stockage d'objets non structurésLa première défaillance s'est produite lorsque la propagation silencieuse des métadonnées de conservation légale entre les versions d'objets a échoué, ce qui a conduit à une situation où les tableaux de bord indiquaient la conformité alors que l'application réelle de la gouvernance était déjà compromise.

Au fil de l'incident, nous avons constaté un défaut de synchronisation entre le plan de contrôle et le plan de données. Deux éléments clés, l'indicateur de conservation légale et les étiquettes d'objet, se sont désynchronisés suite à une erreur de configuration de nos processus de gestion du cycle de vie. Ce désynchronisme a eu pour conséquence que, malgré l'affichage de bons indicateurs de conformité sur les tableaux de bord, les données sous-jacentes risquaient d'être purgées en l'absence de conservation légale adéquate. La récupération d'un objet expiré lors d'un audit de routine a mis en évidence cette défaillance, révélant que l'état de conservation légale n'avait pas été correctement appliqué à toutes les versions concernées.

Malheureusement, la défaillance était irréversible au moment de sa découverte. La purge du cycle de vie était déjà terminée et les instantanés immuables avaient écrasé l'état précédent, rendant impossible la restauration des métadonnées de conservation légale correctes. Cet incident a mis en évidence le besoin crucial d'une intégration plus étroite entre les contrôles de gouvernance et la gestion du cycle de vie des données, ainsi que l'importance d'une surveillance en temps réel pour détecter de telles anomalies avant qu'elles ne s'aggravent.

Il s'agit d'un exemple hypothétique ; nous ne citons pas de clients ou d'institutions figurant au classement Fortune 500 à titre d'exemples.

  • fausse hypothèse architecturale
  • Qu'est-ce qui a cassé en premier ?
  • Leçon d'architecture générale liée à l'article « Data Lake vs Data Mesh : Gouvernance vs Stockage au sein du NHS »

Perspective unique tirée de « » sous les contraintes de « Data Lake vs Data Mesh : Gouvernance vs Stockage dans le NHS »

Cet incident met en lumière un problème critique connu sous le nom de « séparation des plans de contrôle et de données » dans le cadre de la récupération réglementée des données. Ce problème révèle les compromis inhérents entre efficacité opérationnelle et conformité, notamment dans les environnements soumis à des exigences réglementaires strictes. Les équipes privilégient souvent la rapidité et la flexibilité d'accès aux données, ce qui peut entraîner des erreurs de gouvernance si ces aspects ne sont pas gérés avec soin.

La plupart des organisations ont tendance à mettre en œuvre des contrôles de gouvernance a posteriori, en se concentrant principalement sur les solutions de stockage de données sans prendre suffisamment en compte les implications de la gestion du cycle de vie des données. Cette négligence peut engendrer des risques importants de non-conformité, notamment lorsqu'il s'agit de données non structurées qui exigent des contrôles rigoureux de conservation et d'élimination.

La plupart des recommandations publiques tendent à omettre la nécessité d'une synchronisation continue entre les mécanismes de gouvernance et les processus du cycle de vie des données, pourtant essentielle pour garantir la conformité dans un environnement de données dynamique. En prenant conscience de ce besoin, les organisations peuvent mieux adapter leurs stratégies de gouvernance des données aux réalités opérationnelles.

Test EEAT Ce que font la plupart des équipes Ce qu'un expert fait différemment (sous la pression réglementaire)
Quel facteur donc ? Se concentrer sur le stockage des données sans gouvernance Intégrez la gouvernance au cycle de vie des données dès le départ.
Preuves d'origine S'appuyer sur des audits périodiques Mettre en place une surveillance et des alertes en temps réel
Delta unique / Gain d'information Supposons que la conformité soit statique. Considérez la conformité comme un processus dynamique nécessitant une surveillance constante.

Références

  • NISTSP 800-53: Fournit des lignes directrices pour la mise en œuvre de contrôles de gouvernance efficaces.
  • : Énonce les principes de gestion et de conformité des documents.

Barry Art Dirige les initiatives marketing chez Solix Technologies, traduisant les défis complexes liés à la gouvernance des données, à la mise hors service des applications et à la conformité en stratégies pour les entreprises du Fortune 500. Auparavant, a travaillé avec les écosystèmes IBM zSeries en soutien à l'activité mainframe de CA Technologies. Contributeur,Symposium sur l'intelligence artificielle explicable et sécurisée de l'UC San Diego.Conseils de Forbes |LinkedIn

Barry Art

Barry Art

Vice-président du marketing, Solix Technologies Inc.

Barry Art Il dirige les initiatives marketing chez Solix Technologies, où il traduit les défis complexes liés à la gouvernance des données, à la mise hors service des applications et à la conformité en stratégies claires pour les clients figurant au classement Fortune 500.

Expérience en entreprise : Barry avait auparavant travaillé avec IBM zSeries écosystèmes soutenant l'activité mainframe multimilliardaire de CA Technologies, avec une exposition pratique à l'économie des infrastructures d'entreprise et aux risques liés au cycle de vie à grande échelle.

Référence orale vérifiée : Inscrit comme panéliste au programme du symposium sur l'IA explicable et sécurisée de l'UC San Diego ( Consulter l'agenda au format PDF ).

AVERTISSEMENT : LE CONTENU, LES POINTS DE VUE ET LES OPINIONS EXPRIMÉS DANS CE BLOG SONT LA RESPONSABILITÉ EXCLUSIVE DES AUTEURS ET NE REFLÈTENT PAS LA POLITIQUE OU LA POSITION OFFICIELLE DE SOLIX TECHNOLOGIES, INC., DE SES SOCIÉTÉS AFFILIÉES OU DE SES PARTENAIRES. CE BLOG EST EXPLOITÉ DE MANIÈRE INDÉPENDANTE ET N'EST NI RÉVISÉ NI APPROUVÉ PAR SOLIX TECHNOLOGIES, INC. À TITRE OFFICIEL. TOUTES LES MARQUES, LOGOS ET DOCUMENTS PROTÉGÉS PAR LE DROIT D'AUTEUR TIERS MENTIONNÉS DANS CE BLOG APPARTIENNENT À LEURS PROPRIÉTAIRES RESPECTIFS. TOUTE UTILISATION EST STRICTEMENT À DES FINS D'IDENTIFICATION, DE COMMENTAIRE OU ÉDUCATIVES CONFORMÉMENT À LA DOCTRINE DE L'US FAIR USE (US COPYRIGHT ACT § 107 ET ÉQUIVALENTS INTERNATIONAUX). AUCUN PARRAINAGE, AUCUNE APPROBATION OU AFFILIATION AVEC SOLIX TECHNOLOGIES, INC. N'EST IMPLICITE. LE CONTENU EST FOURNI « EN L'ÉTAT », SANS GARANTIE D'EXACTITUDE, D'EXHAUSTIVITÉ OU D'ADÉQUATION À UN USAGE PARTICULIER. SOLIX TECHNOLOGIES, INC. DÉCLINE TOUTE RESPONSABILITÉ POUR LES ACTIONS PRISES SUR LA BASE DE CE MATÉRIEL. LES LECTEURS ASSUMENT L'ENTIÈRE RESPONSABILITÉ DE LEUR UTILISATION DE CES INFORMATIONS. SOLIX RESPECTE LES DROITS DE PROPRIÉTÉ INTELLECTUELLE. POUR SOUMETTRE UNE DEMANDE DE RETRAIT DMCA, ENVOYEZ UN E-MAIL À INFO@SOLIX.COM AVEC : (1) L'IDENTIFICATION DE L'ŒUVRE, (2) L'URL DU MATÉRIEL CONTREFAÇANT, (3) VOS COORDONNÉES ET (4) UNE DÉCLARATION DE BONNE FOI. TOUTE RÉCLAMATION VALIDE RECEVRA UNE EXAMEN RAPIDE. EN ACCÉDANT À CE BLOG, VOUS ACCEPTEZ CET AVIS DE NON-RESPONSABILITÉ ET NOS CONDITIONS D'UTILISATION. CE CONTRAT EST RÉGI PAR LES LOIS DE LA CALIFORNIE.