Barry Art

Préface

La mise en place de lacs de données au sein des entreprises est devenue un enjeu crucial pour les responsables informatiques, notamment dans des organisations comme la NOAA (National Oceanic and Atmospheric Administration). Cet article explore les deux aspects de la gouvernance des données et des capacités de stockage dans les lacs de données, en soulignant les contraintes opérationnelles et les compromis stratégiques auxquels les décideurs doivent faire face. En comprenant ces dynamiques, les architectes d'entreprise peuvent mieux aligner leurs stratégies de données sur les exigences de conformité et les défis liés à la croissance des données.

Définition

Un lac de données est un référentiel centralisé permettant le stockage à grande échelle de données structurées et non structurées, rendant possible l'analyse avancée et les applications d'apprentissage automatique. Contrairement aux entrepôts de données traditionnels, les lacs de données offrent une grande flexibilité en matière d'ingestion et de stockage des données, et peuvent accueillir divers types et sources de données. Cependant, cette flexibilité complexifie la gouvernance et la conformité, ce qui nécessite un cadre robuste pour une gestion efficace des données.

Réponse directe

Les lacs de données offrent des avantages considérables en termes d'évolutivité et de flexibilité, mais soulèvent également des défis liés à la gouvernance et à la conformité. Les organisations doivent impérativement mettre en place des cadres de gouvernance afin d'atténuer les risques associés à un accès non réglementé aux données et de garantir le respect des normes légales et réglementaires.

Pourquoi maintenant

L'urgence d'une gouvernance efficace des lacs de données est accentuée par la croissance exponentielle des données et le renforcement du contrôle réglementaire sur les pratiques de gestion des données. Les entreprises subissent une pression croissante pour garantir l'intégrité, la sécurité et la conformité de leurs données, notamment au regard de réglementations telles que le RGPD et de normes sectorielles comme la norme NIST SP 800-53. Alors que des organisations comme la NOAA exploitent les lacs de données pour améliorer leurs analyses, la nécessité d'une approche équilibrée de la gouvernance et du stockage devient primordiale.

Tableau de diagnostic

Question Description Impact
Silos de données Une gouvernance inadéquate conduit à des ensembles de données isolés. Entrave l'accessibilité et l'analyse des données.
Politiques de conservation Non-respect des calendriers de conservation. Augmente les risques juridiques et les infractions à la conformité.
Croissance des données L'ingestion rapide des données dépasse les capacités de stockage. Entraîne une dégradation des performances et une perte potentielle de données.
Contrôle d'Accès Application incohérente des contrôles d'accès. Expose les données à un accès non autorisé.
Journaux d'audit Journalisation insuffisante des événements d'accès aux données. Cela complique les audits de conformité et la responsabilisation.
Lignée de données Suivi incomplet de la provenance des données. Défis liés à la garantie de l'intégrité et de la conformité des données.

Sections analytiques approfondies

Gouvernance des données vs. Stockage dans les lacs de données

Les cadres de gouvernance des données sont essentiels à la conformité, notamment dans les environnements où la confidentialité et la sécurité des données sont primordiales. Le compromis entre gouvernance et capacités de stockage est un élément crucial pour les entreprises. Si une gouvernance robuste peut limiter l'accessibilité des données, elle est nécessaire pour prévenir les accès non autorisés et garantir la conformité aux réglementations. À l'inverse, privilégier les solutions de stockage sans gouvernance adéquate peut entraîner la création de silos de données et des risques de non-conformité. Les organisations doivent évaluer leurs exigences de conformité au regard de la croissance prévue de leurs données afin de prendre des décisions éclairées.

Contraintes opérationnelles des lacs de données

La mise en place de lacs de données soulève plusieurs défis opérationnels. L'une des principales contraintes réside dans le risque de formation de silos de données, qui peut survenir en l'absence d'une gouvernance rigoureuse. Par ailleurs, des politiques de conservation des données doivent être établies et respectées afin de limiter les risques juridiques liés à leur conservation. L'absence de stratégie cohérente peut engendrer des inefficacités opérationnelles et une augmentation des coûts, les organisations peinant à gérer l'accès aux données non réglementé et les audits de conformité.

Risques stratégiques et coûts cachés

Lorsqu'elles doivent choisir entre une gouvernance renforcée et une capacité de stockage accrue, les organisations doivent tenir compte des coûts cachés associés à chaque option. Privilégier les cadres de gouvernance peut entraîner des amendes pour non-conformité, tandis qu'augmenter les capacités de stockage peut engendrer une hausse des coûts opérationnels liés à la gestion de volumes de données plus importants. Comprendre ces risques stratégiques est essentiel pour prendre des décisions éclairées, en adéquation avec les objectifs de l'organisation et les exigences de conformité.

Contrepoint de l'Homme d'Acier

Bien que les avantages des lacs de données soient largement documentés, il est essentiel de prendre en compte les arguments contraires à leur mise en œuvre. Les critiques soulignent que la complexité de la gestion des données non structurées peut surpasser les avantages, notamment en l'absence de cadres de gouvernance adéquats. De plus, le risque de surcharge du stockage est important, car une croissance non maîtrisée des données peut entraîner des pannes système et des interruptions de service. Les organisations doivent donc mettre en balance ces préoccupations et les avantages des lacs de données afin de déterminer la stratégie de données la plus appropriée.

Intégration de solution

L'intégration des lacs de données aux infrastructures informatiques existantes exige une planification et une exécution rigoureuses. Les organisations doivent mettre en œuvre des cadres de gouvernance des données comprenant des audits réguliers et des mises à jour des politiques, afin de garantir la conformité aux normes du secteur. L'établissement de politiques de conservation des données est également essentiel pour atténuer les risques juridiques liés à la conservation des données. En alignant leurs stratégies de lac de données sur les objectifs organisationnels, les entreprises peuvent exploiter pleinement le potentiel de leurs données tout en préservant leur conformité et leur efficacité opérationnelle.

Scénario d'entreprise réaliste

Prenons l'exemple de la NOAA qui met en place un lac de données pour améliorer ses capacités d'analyse. L'organisation doit relever le défi de la gestion de l'afflux de données non structurées provenant de diverses sources, notamment l'imagerie satellitaire et les capteurs environnementaux. Sans cadre de gouvernance robuste, la NOAA risque de créer des silos de données qui entravent ses efforts d'analyse. En priorisant la gouvernance des données et en établissant des politiques de conservation, la NOAA peut gérer efficacement son lac de données, garantir la conformité tout en optimisant la valeur de son patrimoine de données.

QFP

Quel est le principal avantage d'un lac de données ?
Un lac de données permet le stockage à grande échelle de données structurées et non structurées, permettant ainsi des applications d'analyse avancée et d'apprentissage automatique.

Comment les organisations peuvent-elles garantir la conformité à la gouvernance des données ?
Les organisations peuvent mettre en œuvre des cadres de gouvernance comprenant des audits réguliers, des contrôles d'accès et des politiques de conservation des données afin de garantir la conformité aux normes légales et réglementaires.

Quels sont les risques liés à la non-mise en œuvre d'une gouvernance des données ?
En l'absence de gouvernance des données, les organisations s'exposent à des sanctions légales, à des violations de données et à une perte de confiance de la part des parties prenantes en raison d'un accès non réglementé aux données.

Mode de défaillance observé en lien avec le sujet de l'article

Lors d'un incident récent, nous avons découvert une défaillance critique dans notre cadre de gouvernance des données, plus précisément liée à contrôles de conservation et d'élimination dans le stockage d'objets non structurésLa première défaillance s'est produite lorsque la propagation silencieuse des métadonnées de conservation légale entre les versions d'objets a échoué, ce qui a conduit à une situation où les tableaux de bord indiquaient la conformité, mais où l'application réelle était compromise.

En approfondissant notre analyse, il est apparu clairement que le plan de contrôle n'était pas correctement synchronisé avec le plan de données. Deux éléments clés, le bit de conservation légale et les étiquettes d'objet, se sont désynchronisés suite à une erreur de configuration de nos processus de gestion du cycle de vie. Ce décalage a entraîné la récupération d'objets qui auraient dû être soumis à une conservation légale, nous exposant ainsi à des risques de non-conformité. La situation a été aggravée par le fait que la purge du cycle de vie était déjà terminée, rendant toute correction impossible.

Nos outils RAG/de recherche ont révélé le problème lorsqu'une requête a renvoyé un objet expiré, classé par erreur comme actif. L'irréversibilité de cette défaillance était due à l'écrasement d'instantanés immuables lors de l'exécution du cycle de vie, ce qui nous empêchait de prouver l'état antérieur des données. Cet incident a mis en évidence le besoin crucial d'une intégration plus étroite entre les contrôles de gouvernance et les processus de gestion des données.

Il s'agit d'un exemple hypothétique ; nous ne citons pas de clients ou d'institutions figurant au classement Fortune 500 à titre d'exemples.

  • fausse hypothèse architecturale
  • Qu'est-ce qui a cassé en premier ?
  • Leçon d'architecture générale liée au « Data Lake : Domination des SERP à forte valeur ajoutée – Le guide d'entreprise sur les avantages du Data Lake : Gouvernance vs. Stockage »

Perspective unique tirée de « » Sous les contraintes du « Lac de données : Domination des SERP à forte valeur ajoutée – Le guide d’entreprise sur les avantages du lac de données : Gouvernance vs. Stockage »

Cet incident souligne l'importance de maintenir un cadre de gouvernance robuste, capable de s'adapter à la complexité des lacs de données. Le modèle de séparation des plans de contrôle et de données dans la récupération réglementée illustre comment un manque d'alignement entre la gouvernance et la gestion des données peut engendrer des risques importants de non-conformité. Les organisations doivent impérativement synchroniser ces couches afin d'éviter des défaillances similaires.

La plupart des recommandations publiques omettent généralement la nécessité d'un suivi et d'une validation continus des contrôles de gouvernance par rapport à l'état réel des données. Cette lacune peut engendrer un faux sentiment de sécurité, comme l'a montré notre incident, où les tableaux de bord de conformité ne reflétaient pas les problèmes d'intégrité des données sous-jacents.

Test EEAT Ce que font la plupart des équipes Ce qu'un expert fait différemment (sous la pression réglementaire)
Quel facteur donc ? Supposer la conformité en se basant sur les indicateurs du tableau de bord Valider régulièrement les contrôles de gouvernance par rapport aux états des données
Preuves d'origine S'appuyer sur des instantanés de données historiques Mettre en œuvre une surveillance en temps réel des artefacts de gouvernance
Delta unique / Gain d'information Prioriser l'efficacité du stockage des données Prioriser l'alignement de la gouvernance avec la gestion du cycle de vie des données

Références

  • NISTSP 800-53 – Cadre pour la mise en place de contrôles de gouvernance des données.
  • ISO 15489 – Lignes directrices relatives à la conservation et à la gestion des documents.
Barry Art

Barry Art

Vice-président du marketing, Solix Technologies Inc.

Barry Art Il dirige les initiatives marketing chez Solix Technologies, où il traduit les défis complexes liés à la gouvernance des données, à la mise hors service des applications et à la conformité en stratégies claires pour les clients figurant au classement Fortune 500.

Expérience en entreprise : Barry avait auparavant travaillé avec IBM zSeries écosystèmes soutenant l'activité mainframe multimilliardaire de CA Technologies, avec une exposition pratique à l'économie des infrastructures d'entreprise et aux risques liés au cycle de vie à grande échelle.

Référence orale vérifiée : Inscrit comme panéliste au programme du symposium sur l'IA explicable et sécurisée de l'UC San Diego ( Consulter l'agenda au format PDF ).

AVERTISSEMENT : LE CONTENU, LES POINTS DE VUE ET LES OPINIONS EXPRIMÉS DANS CE BLOG SONT LA RESPONSABILITÉ EXCLUSIVE DES AUTEURS ET NE REFLÈTENT PAS LA POLITIQUE OU LA POSITION OFFICIELLE DE SOLIX TECHNOLOGIES, INC., DE SES SOCIÉTÉS AFFILIÉES OU DE SES PARTENAIRES. CE BLOG EST EXPLOITÉ DE MANIÈRE INDÉPENDANTE ET N'EST NI RÉVISÉ NI APPROUVÉ PAR SOLIX TECHNOLOGIES, INC. À TITRE OFFICIEL. TOUTES LES MARQUES, LOGOS ET DOCUMENTS PROTÉGÉS PAR LE DROIT D'AUTEUR TIERS MENTIONNÉS DANS CE BLOG APPARTIENNENT À LEURS PROPRIÉTAIRES RESPECTIFS. TOUTE UTILISATION EST STRICTEMENT À DES FINS D'IDENTIFICATION, DE COMMENTAIRE OU ÉDUCATIVES CONFORMÉMENT À LA DOCTRINE DE L'US FAIR USE (US COPYRIGHT ACT § 107 ET ÉQUIVALENTS INTERNATIONAUX). AUCUN PARRAINAGE, AUCUNE APPROBATION OU AFFILIATION AVEC SOLIX TECHNOLOGIES, INC. N'EST IMPLICITE. LE CONTENU EST FOURNI « EN L'ÉTAT », SANS GARANTIE D'EXACTITUDE, D'EXHAUSTIVITÉ OU D'ADÉQUATION À UN USAGE PARTICULIER. SOLIX TECHNOLOGIES, INC. DÉCLINE TOUTE RESPONSABILITÉ POUR LES ACTIONS PRISES SUR LA BASE DE CE MATÉRIEL. LES LECTEURS ASSUMENT L'ENTIÈRE RESPONSABILITÉ DE LEUR UTILISATION DE CES INFORMATIONS. SOLIX RESPECTE LES DROITS DE PROPRIÉTÉ INTELLECTUELLE. POUR SOUMETTRE UNE DEMANDE DE RETRAIT DMCA, ENVOYEZ UN E-MAIL À INFO@SOLIX.COM AVEC : (1) L'IDENTIFICATION DE L'ŒUVRE, (2) L'URL DU MATÉRIEL CONTREFAÇANT, (3) VOS COORDONNÉES ET (4) UNE DÉCLARATION DE BONNE FOI. TOUTE RÉCLAMATION VALIDE RECEVRA UNE EXAMEN RAPIDE. EN ACCÉDANT À CE BLOG, VOUS ACCEPTEZ CET AVIS DE NON-RESPONSABILITÉ ET NOS CONDITIONS D'UTILISATION. CE CONTRAT EST RÉGI PAR LES LOIS DE LA CALIFORNIE.