Barry Art

Préface

L'architecture d'un lac de données est essentielle pour les organisations souhaitant exploiter de vastes volumes de données structurées et non structurées. Ce document propose une analyse complète des composants architecturaux, des cadres de gouvernance et des solutions de stockage nécessaires à la mise en œuvre efficace d'un lac de données. Il met l'accent sur les compromis stratégiques entre gouvernance et stockage, les contraintes opérationnelles et les modes de défaillance potentiels pouvant survenir dans la gestion d'un lac de données. Les informations présentées sont destinées aux décideurs d'entreprise, notamment au sein du Département de l'Énergie des États-Unis (DOE), afin de faciliter une prise de décision éclairée en matière de gouvernance des données et de stratégies de stockage.

Définition

Un lac de données est un référentiel centralisé permettant le stockage à grande échelle de données structurées et non structurées, rendant possible l'analyse avancée et les applications d'apprentissage automatique. Contrairement aux entrepôts de données traditionnels, les lacs de données prennent en charge divers types et formats de données, offrant une grande flexibilité pour l'ingestion et le traitement des données. Cependant, l'absence de schéma prédéfini peut engendrer des difficultés en matière de gouvernance et de conformité des données, nécessitant des cadres robustes pour garantir leur intégrité et leur sécurité.

Réponse directe

Les lacs de données nécessitent une approche équilibrée de la gouvernance et du stockage afin d'optimiser leur valeur tout en minimisant les risques liés à la gestion des données. Des cadres de gouvernance efficaces sont essentiels pour garantir la conformité et l'intégrité des données, tandis que les solutions de stockage doivent être choisies en fonction des besoins de l'organisation et des modes d'accès aux données.

Pourquoi maintenant

L'augmentation du volume de données générées par les organisations impose une réévaluation des stratégies de gestion des données. Face au durcissement des exigences réglementaires, la mise en place de cadres de gouvernance efficaces pour les lacs de données devient primordiale. Des organisations comme le Département de l'Énergie des États-Unis (DOE) doivent s'adapter à ces changements afin de garantir leur conformité et d'exploiter les données pour une prise de décision stratégique. La convergence de l'analyse avancée et de l'apprentissage automatique souligne encore davantage l'urgence de disposer d'architectures de lacs de données robustes capables de soutenir ces initiatives.

Tableau de diagnostic

Question Description Impact
Une gouvernance des données inadéquate Des contrôles insuffisants entraînant un accès non autorisé. Sanctions légales et atteinte à la réputation.
Défis liés à la lignée des données Incapacité à retracer l'origine et les transformations des données. Risques de non-conformité et problèmes d'intégrité des données.
Incohérences de schéma Échecs d'ingestion de données dus à des formats incohérents. Retards opérationnels et pertes de données.
Lacunes en matière de politique de rétention Application incohérente des politiques de conservation des données. Risque accru de non-respect des règles.
Inefficacités de la conservation légale Procédures complexes de gestion des mises sous séquestre judiciaires. Risque de perte de données critiques.
Irrégularités du contrôle d'accès Autorisations utilisateur incohérentes selon les ensembles de données. Risque accru de violation de données.

Sections analytiques approfondies

Aperçu de l'architecture du lac de données

L'architecture d'un lac de données comprend plusieurs composants clés, notamment les couches d'ingestion, de stockage, de traitement et de gouvernance des données. Les mécanismes d'ingestion doivent prendre en charge divers formats et sources de données, garantissant ainsi la capture efficace des données structurées et non structurées. La couche de stockage utilise généralement des solutions évolutives telles que le stockage objet, permettant une gestion efficace de grands volumes de données. Les cadres de gouvernance sont essentiels à cette architecture, car ils définissent les politiques et procédures nécessaires à la gestion, à la conformité et à la sécurité des données. L'interaction entre ces composants détermine l'efficacité globale du lac de données pour atteindre les objectifs organisationnels.

Gouvernance vs. Stockage : un compromis stratégique

Lors de la conception de leurs lacs de données, les organisations sont confrontées à un compromis stratégique entre gouvernance et capacités de stockage. Avec l'augmentation des volumes de données, le besoin de cadres de gouvernance robustes se fait de plus en plus sentir. Une gouvernance efficace garantit la conformité aux exigences réglementaires et protège les données sensibles contre tout accès non autorisé. Cependant, la mise en œuvre de mesures de gouvernance strictes peut engendrer des complexités susceptibles d'entraver l'accessibilité et les performances des données. À l'inverse, privilégier des solutions de stockage sans gouvernance adéquate peut entraîner des risques de non-conformité et des problèmes d'intégrité des données. Les décideurs doivent donc évaluer soigneusement ces compromis afin d'aligner l'architecture de leur lac de données sur les objectifs de l'organisation.

Contraintes opérationnelles dans la gestion des lacs de données

La gestion d'un lac de données présente plusieurs contraintes opérationnelles auxquelles les organisations doivent faire face. L'un des défis courants réside dans le suivi de la provenance des données, souvent insuffisant dans les environnements à grande échelle. Sans un suivi adéquat, les organisations peuvent avoir du mal à démontrer leur conformité aux politiques de gouvernance des données. De plus, les procédures de conservation légale des données peuvent s'avérer complexes, entraînant des pertes de données potentielles en cas de litige. Les organisations doivent mettre en œuvre des outils et des processus automatisés pour relever ces défis opérationnels et garantir ainsi le maintien de la gouvernance et de la conformité des données tout au long de leur cycle de vie.

Risques stratégiques et coûts cachés

La mise en œuvre d'une architecture de lac de données comporte divers risques stratégiques et des coûts cachés que les organisations doivent prendre en compte. Par exemple, le choix entre une gouvernance centralisée et décentralisée peut impacter la latence d'accès aux données et la conformité réglementaire. Une gouvernance centralisée peut simplifier les démarches de mise en conformité, mais peut engendrer des délais dans la récupération des données. À l'inverse, une gouvernance décentralisée peut conduire à des pratiques incohérentes entre les services, augmentant ainsi le risque de non-conformité. De plus, le choix de la technologie de stockage peut engendrer des coûts cachés, tels que des temps de récupération plus longs pour le stockage objet ou des dépenses accrues liées aux solutions de stockage bloc. Les décideurs doivent examiner attentivement ces facteurs afin d'optimiser leurs investissements dans un lac de données.

Contrepoint de l'Homme d'Acier

Bien que les avantages des lacs de données soient largement documentés, il est essentiel de prendre en compte les arguments contraires à leur mise en œuvre. Certains critiques affirment que la complexité de la gestion d'un lac de données l'emporte sur ses avantages, notamment pour les organisations aux ressources limitées. Le risque de prolifération des données et les difficultés de gouvernance peuvent engendrer des inefficacités et une augmentation des coûts opérationnels. De plus, le recours à l'analyse avancée et à l'apprentissage automatique peut ne pas générer de retours sur investissement immédiats, ce qui soulève des questions quant à la viabilité à long terme des investissements dans les lacs de données. Les organisations doivent donc évaluer ces préoccupations de manière critique et élaborer des stratégies pour atténuer les risques tout en maximisant la valeur de leurs lacs de données.

Intégration de solution

L'intégration d'un lac de données à l'infrastructure existante d'une organisation exige une planification et une exécution rigoureuses. Les organisations doivent évaluer leurs pratiques actuelles de gestion des données et identifier les lacunes que le lac de données peut combler. Cela peut impliquer de réévaluer les processus d'ingestion des données, les solutions de stockage et les cadres de gouvernance afin de garantir leur alignement avec les objectifs organisationnels. De plus, la formation et l'accompagnement du changement sont essentiels pour faciliter l'adoption par les utilisateurs et s'assurer que les parties prenantes comprennent les avantages et les responsabilités liés au lac de données. Une approche progressive de l'intégration permet aux organisations de gérer les risques et d'optimiser la mise en œuvre de leur lac de données.

Scénario d'entreprise réaliste

Prenons l'exemple du Département de l'Énergie des États-Unis (DOE), qui souhaite mettre en place un lac de données pour optimiser ses capacités d'analyse. Le DOE génère d'énormes quantités de données provenant de diverses sources, notamment des projets de recherche, la conformité réglementaire et des indicateurs opérationnels. La création d'un lac de données lui permettra de centraliser ces données et de déployer des applications d'analyse avancée et d'apprentissage automatique pour en extraire des informations pertinentes et éclairer la prise de décision. Toutefois, le DOE doit également relever des défis de gouvernance, tels que le respect des réglementations fédérales et la protection des données sensibles. En mettant en œuvre des cadres de gouvernance robustes et en choisissant des solutions de stockage adaptées, le DOE pourra maximiser la valeur de son lac de données tout en minimisant les risques.

QFP

Q : Quel est l'objectif principal d'un lac de données ?
A : L'objectif principal d'un lac de données est de fournir un référentiel centralisé pour le stockage à grande échelle de données structurées et non structurées, permettant des applications d'analyse avancée et d'apprentissage automatique.

Q : Quel est l'impact de la gouvernance sur l'architecture du lac de données ?
A: Les cadres de gouvernance sont essentiels pour garantir la conformité, l'intégrité et la sécurité des données au sein d'une architecture de lac de données. Ils définissent les politiques et les procédures nécessaires à une gestion efficace des données.

Q : Quels sont les défis courants liés à la gestion des lacs de données ?
A : Les difficultés courantes comprennent un suivi insuffisant de la provenance des données, des processus de conservation légale complexes et des incompatibilités de schémas lors de l'ingestion des données.

Q : Comment les organisations peuvent-elles atténuer les risques associés aux lacs de données ?
A: Les organisations peuvent atténuer les risques en mettant en œuvre des cadres de gouvernance robustes, en sélectionnant des solutions de stockage appropriées et en effectuant des audits de conformité réguliers.

Q : Quels sont les compromis stratégiques liés à la mise en œuvre d'un lac de données ?
A: Les compromis stratégiques consistent notamment à équilibrer les capacités de gouvernance et de stockage, ainsi qu'à évaluer les approches de gouvernance centralisées par rapport aux approches décentralisées.

Mode de défaillance observé en lien avec le sujet de l'article

Lors d'un incident récent, nous avons découvert une défaillance critique dans notre architecture de gouvernance des données, plus précisément liée à application de la conservation légale pour les actions liées au cycle de vie du stockage d'objets non structurésAu départ, nos tableaux de bord indiquaient que tous les systèmes fonctionnaient correctement, mais à notre insu, les mécanismes de gouvernance avaient déjà commencé à dysfonctionner silencieusement.

La première défaillance est survenue lorsque nous avons constaté que la propagation des métadonnées de conservation légale entre les versions d'objets ne fonctionnait pas comme prévu. Ce dysfonctionnement a été aggravé par le découplage de l'exécution du cycle de vie des objets et de leur état de conservation légale, ce qui a conduit à la suppression d'objets qui auraient dû être conservés. Le plan de contrôle, responsable de la gouvernance, a divergé du plan de données, entraînant une incohérence entre la classe de conservation et les étiquettes réelles des objets. Par conséquent, certains objets ont été mal classés, ce qui a engendré un risque important de non-conformité aux exigences réglementaires.

Notre groupe d'analyse de la récupération et de la gouvernance (RAG) a détecté la défaillance lors d'un audit de routine qui a révélé la suppression de plusieurs objets malgré leur mise sous séquestre légal. Les journaux d'audit indiquaient la présence des marqueurs de suppression, mais les données elles-mêmes avaient été purgées par des politiques de cycle de vie exécutées sans contrôles de gouvernance adéquats. Malheureusement, cette situation était irréversible : la purge de cycle de vie étant terminée, les instantanés immuables avaient écrasé les états précédents, rendant impossible la restauration des données perdues.

Il s'agit d'un exemple hypothétique ; nous ne citons pas de clients ou d'institutions figurant au classement Fortune 500 à titre d'exemples.

  • fausse hypothèse architecturale
  • Qu'est-ce qui a cassé en premier ?
  • Leçon d'architecture générale liée au « Data Lake : Domination des SERP à forte valeur ajoutée – Le guide d'entreprise de l'architecture Data Lake : Gouvernance vs. Stockage »

Perspective unique tirée de « » sous les contraintes du « Data Lake : Domination des SERP à forte valeur ajoutée – Le guide d’entreprise de l’architecture Data Lake : Gouvernance vs. Stockage »

L'un des principaux enseignements de cet incident réside dans l'importance de maintenir une intégration étroite entre le plan de contrôle et le plan de données, notamment sous la pression des autorités réglementaires. Le schéma observé peut être qualifié de « séparation des rôles entre le plan de contrôle et le plan de données » lors de la récupération réglementée des données. Cette séparation peut engendrer des risques importants de non-conformité si elle n'est pas gérée correctement.

La plupart des équipes ont tendance à privilégier l'accessibilité et la performance des données au détriment de contrôles de gouvernance stricts, ce qui engendre souvent un faux sentiment de sécurité. Or, les experts savent que, sous la pression réglementaire, il est impératif de veiller à ce que les mécanismes de gouvernance soient robustes et intégrés à la gestion du cycle de vie des données.

La plupart des recommandations publiques omettent souvent l'importance cruciale d'un suivi continu des mécanismes de gouvernance pour prévenir les défaillances silencieuses. Cette négligence peut engendrer des problèmes de conformité irréversibles qui auraient pu être évités grâce à des stratégies de gouvernance proactives.

Test EEAT Ce que font la plupart des équipes Ce qu'un expert fait différemment (sous la pression réglementaire)
Quel facteur donc ? L'accent est mis sur la disponibilité des données. Prioriser la gouvernance au même titre que la disponibilité
Preuves d'origine S'appuyer sur des audits périodiques Mettre en place une surveillance continue
Delta unique / Gain d'information Supposons que la conformité soit statique. Considérez la conformité comme un processus dynamique

Références

  • NISTSP 800-53 – Fournit des lignes directrices pour la mise en œuvre de contrôles de gouvernance efficaces.
  • – Énonce les principes de gestion et de conservation des documents.
Barry Art

Barry Art

Vice-président du marketing, Solix Technologies Inc.

Barry Art Il dirige les initiatives marketing chez Solix Technologies, où il traduit les défis complexes liés à la gouvernance des données, à la mise hors service des applications et à la conformité en stratégies claires pour les clients figurant au classement Fortune 500.

Expérience en entreprise : Barry avait auparavant travaillé avec IBM zSeries écosystèmes soutenant l'activité mainframe multimilliardaire de CA Technologies, avec une exposition pratique à l'économie des infrastructures d'entreprise et aux risques liés au cycle de vie à grande échelle.

Référence orale vérifiée : Inscrit comme panéliste au programme du symposium sur l'IA explicable et sécurisée de l'UC San Diego ( Consulter l'agenda au format PDF ).

AVERTISSEMENT : LE CONTENU, LES POINTS DE VUE ET LES OPINIONS EXPRIMÉS DANS CE BLOG SONT LA RESPONSABILITÉ EXCLUSIVE DES AUTEURS ET NE REFLÈTENT PAS LA POLITIQUE OU LA POSITION OFFICIELLE DE SOLIX TECHNOLOGIES, INC., DE SES SOCIÉTÉS AFFILIÉES OU DE SES PARTENAIRES. CE BLOG EST EXPLOITÉ DE MANIÈRE INDÉPENDANTE ET N'EST NI RÉVISÉ NI APPROUVÉ PAR SOLIX TECHNOLOGIES, INC. À TITRE OFFICIEL. TOUTES LES MARQUES, LOGOS ET DOCUMENTS PROTÉGÉS PAR LE DROIT D'AUTEUR TIERS MENTIONNÉS DANS CE BLOG APPARTIENNENT À LEURS PROPRIÉTAIRES RESPECTIFS. TOUTE UTILISATION EST STRICTEMENT À DES FINS D'IDENTIFICATION, DE COMMENTAIRE OU ÉDUCATIVES CONFORMÉMENT À LA DOCTRINE DE L'US FAIR USE (US COPYRIGHT ACT § 107 ET ÉQUIVALENTS INTERNATIONAUX). AUCUN PARRAINAGE, AUCUNE APPROBATION OU AFFILIATION AVEC SOLIX TECHNOLOGIES, INC. N'EST IMPLICITE. LE CONTENU EST FOURNI « EN L'ÉTAT », SANS GARANTIE D'EXACTITUDE, D'EXHAUSTIVITÉ OU D'ADÉQUATION À UN USAGE PARTICULIER. SOLIX TECHNOLOGIES, INC. DÉCLINE TOUTE RESPONSABILITÉ POUR LES ACTIONS PRISES SUR LA BASE DE CE MATÉRIEL. LES LECTEURS ASSUMENT L'ENTIÈRE RESPONSABILITÉ DE LEUR UTILISATION DE CES INFORMATIONS. SOLIX RESPECTE LES DROITS DE PROPRIÉTÉ INTELLECTUELLE. POUR SOUMETTRE UNE DEMANDE DE RETRAIT DMCA, ENVOYEZ UN E-MAIL À INFO@SOLIX.COM AVEC : (1) L'IDENTIFICATION DE L'ŒUVRE, (2) L'URL DU MATÉRIEL CONTREFAÇANT, (3) VOS COORDONNÉES ET (4) UNE DÉCLARATION DE BONNE FOI. TOUTE RÉCLAMATION VALIDE RECEVRA UNE EXAMEN RAPIDE. EN ACCÉDANT À CE BLOG, VOUS ACCEPTEZ CET AVIS DE NON-RESPONSABILITÉ ET NOS CONDITIONS D'UTILISATION. CE CONTRAT EST RÉGI PAR LES LOIS DE LA CALIFORNIE.