Barry Art

Préface

La mise en œuvre de lacs de données en entreprise révèle une interaction complexe entre les cadres de gouvernance et les solutions de stockage. Cet article vise à analyser les contraintes opérationnelles, les compromis stratégiques et les modes de défaillance associés aux architectures de lacs de données, notamment dans le contexte d'organisations telles que les Instituts nationaux de la santé (NIH). La compréhension de ces éléments permettra aux décideurs d'entreprise de faire des choix éclairés, conformes aux exigences réglementaires et aux meilleures pratiques de gestion des données.

Définition

Un lac de données est un référentiel centralisé permettant le stockage à grande échelle de données structurées et non structurées, rendant possible l'analyse avancée et les applications d'apprentissage automatique. Contrairement aux entrepôts de données traditionnels, les lacs de données prennent en charge une plus grande variété de types et de formats de données, qui peuvent être ingérés en temps réel ou par lots. Cette flexibilité exige toutefois des cadres de gouvernance robustes afin de garantir l'intégrité des données et leur conformité aux normes réglementaires.

Réponse directe

Dans le contexte des lacs de données, la gouvernance et le stockage ne sont pas incompatibles ; au contraire, ils doivent être intégrés pour garantir une gestion efficace des données. Les cadres de gouvernance définissent la manière dont les données sont stockées, consultées et utilisées, tandis que les solutions de stockage doivent être conçues pour répondre à ces exigences de gouvernance. L’équilibre entre ces deux éléments est essentiel pour assurer la conformité et optimiser l’utilisation des données.

Pourquoi maintenant

L'urgence de mettre en place des solutions efficaces de gouvernance et de stockage des lacs de données est accentuée par le renforcement du contrôle réglementaire et la croissance exponentielle des données. Des organismes comme le NIH sont soumis à une forte pression pour gérer d'immenses volumes de données sensibles tout en garantissant la conformité à des réglementations telles que la loi HIPAA et le RGPD. Un défaut de gouvernance adéquate peut engendrer des risques juridiques et opérationnels importants, ce qui rend impératif pour les entreprises d'intégrer ces considérations à leurs stratégies de lac de données.

Tableau de diagnostic

Question Description Impact
Inadéquation de la politique de rétention Les calendriers de conservation des données ne correspondent pas aux taux d'ingestion. Risque accru de perte de données et de non-conformité.
Traçabilité des données incomplète Le suivi de la provenance des données était incomplet, ce qui a entraîné des risques de non-conformité. Sanctions légales potentielles et perte de confiance.
Lacunes en matière de contrôle d'accès Les listes de contrôle d'accès n'ont pas été mises à jour suite aux changements de personnel. Accès non autorisé à des données sensibles.
Lacunes du journal d'audit Les journaux d'audit ont révélé des lacunes dans l'accès aux données pendant des périodes critiques. Incapacité à démontrer la conformité lors des audits.
Classification des données incohérente Les étiquettes de classification des données ont été appliquées de manière incohérente d'un ensemble de données à l'autre. Difficultés accrues en matière de récupération des données et de conformité.
Échecs de la conservation légale Des indicateurs de blocage légal existaient dans le système d'enregistrement, mais n'ont jamais été propagés aux étiquettes d'objet. Risque de perte de données pendant un litige.

Sections analytiques approfondies

Gouvernance vs. Stockage dans les lacs de données

Des cadres de gouvernance efficaces sont essentiels pour garantir la conformité et l'intégrité des données dans les implémentations de lacs de données. Il convient d'évaluer avec soin les avantages et les inconvénients d'une gouvernance centralisée et d'une gestion décentralisée du stockage. Une gouvernance centralisée peut simplifier les démarches de conformité, mais risque d'engendrer des goulots d'étranglement dans l'accès aux données. À l'inverse, une gestion décentralisée du stockage peut améliorer l'agilité, mais complexifie la gouvernance, ce qui peut engendrer des risques de non-conformité.

Contraintes opérationnelles dans les architectures de lac de données

La croissance exponentielle des données peut entraîner une dégradation des performances si elle n'est pas correctement gérée. Des contraintes opérationnelles, telles que des politiques de conservation et des contrôles d'accès aux données, doivent être mises en place pour garantir une mise à l'échelle efficace des lacs de données. Les exigences de conformité imposent des contraintes supplémentaires en matière d'accès et de conservation des données, ce qui nécessite un équilibre délicat entre performance et gouvernance.

Risques stratégiques et coûts cachés

Choisir entre une gouvernance centralisée et une gestion décentralisée du stockage implique des coûts cachés qui ne sont pas toujours immédiatement apparents. La complexité accrue de la récupération des données avec une gestion décentralisée peut engendrer des inefficacités et des coûts opérationnels plus élevés. De plus, les sanctions potentielles liées à une gouvernance inadéquate peuvent avoir des conséquences financières importantes à long terme pour les organisations.

Modes de défaillance dans les implémentations de lacs de données

L'une des principales causes de défaillance est la perte de données due à une gouvernance inadéquate. Ce phénomène est souvent lié à l'absence de politiques de conservation des données appropriées, pouvant entraîner la suppression accidentelle de données critiques. Le déclencheur fréquent de ces défaillances est le défaut de mise en œuvre d'une mesure de conservation légale lors d'un litige, ce qui provoque des suppressions irréversibles de données avant même l'application de cette mesure. Les conséquences en aval incluent l'impossibilité de produire les données requises lors de la procédure de découverte électronique et d'éventuelles sanctions juridiques.

Cadre de mise en œuvre

La mise en place d'un lac de données exige un cadre global intégrant la gouvernance et les solutions de stockage. Ce cadre doit inclure des politiques de gouvernance des données exhaustives afin de réduire les risques de non-conformité et de mauvaise gestion des données. Des audits réguliers et des mises à jour des politiques de gouvernance sont indispensables pour s'adapter à l'évolution du contexte réglementaire et aux besoins de l'organisation.

Intégration de solution

L'intégration de solutions de gouvernance et de stockage dans une architecture de lac de données implique d'aligner les mécanismes techniques sur les contraintes opérationnelles. Cette intégration garantit que les lacs de données peuvent prendre en charge l'analyse avancée tout en assurant la conformité aux exigences réglementaires. Les organisations doivent prioriser le développement de cadres de gouvernance robustes, capables de s'adapter à l'évolution des environnements de données et aux besoins de conformité.

Scénario d'entreprise réaliste

Prenons l'exemple des NIH, où un nouveau lac de données est mis en place pour gérer les données d'essais cliniques. L'organisation doit relever le défi de garantir la conformité à la réglementation HIPAA tout en prenant en charge la diversité des types de données générés par les différents projets de recherche. En établissant un cadre de gouvernance centralisé comprenant des politiques de conservation et des contrôles d'accès clairs, les NIH peuvent atténuer les risques liés à la perte de données et à la non-conformité. De plus, l'utilisation de solutions de stockage avancées permettant l'ingestion de données en temps réel optimisera l'utilité du lac de données à des fins d'analyse et de recherche.

QFP

Quel est le principal avantage d'un lac de données ?
Un lac de données permet aux organisations de stocker de vastes quantités de données structurées et non structurées, permettant ainsi des applications d'analyse avancée et d'apprentissage automatique.

Quel est l'impact de la gouvernance sur les lacs de données ?
Les cadres de gouvernance garantissent l'intégrité et la conformité des données, éléments essentiels pour la gestion des données sensibles dans les lacs de données.

Quels sont les modes de défaillance courants dans les implémentations de lacs de données ?
Les modes de défaillance courants incluent la perte de données due à une gouvernance inadéquate, un suivi incomplet de la provenance des données et des lacunes dans le contrôle d'accès.

Mode de défaillance observé en lien avec le sujet de l'article

Lors d'un incident récent, nous avons constaté une défaillance critique dans notre cadre de gouvernance des données, plus précisément liée à application de la conservation légale pour les actions liées au cycle de vie du stockage d'objets non structurésAu départ, nos tableaux de bord indiquaient que tous les systèmes fonctionnaient correctement, mais à notre insu, l'application des mesures de conservation légale était déjà compromise.

La première défaillance est survenue lorsque la propagation des métadonnées de conservation légale entre les versions d'objets a échoué en raison d'une erreur de configuration du plan de contrôle. Cette erreur a entraîné une dissonance entre les étiquettes d'objets et les indicateurs de conservation légale, créant ainsi une divergence entre le plan de contrôle et le plan de données. De ce fait, l'application efficace des politiques de conservation s'est avérée impossible, exposant à un risque de suppression des objets qui auraient dû être conservés pour des raisons de conformité.

Malgré l'apparence saine de nos tableaux de bord, la phase de défaillance silencieuse a persisté jusqu'à ce qu'une opération de récupération de routine révèle le problème. Nous avons tenté d'accéder à un objet marqué pour conservation légale, pour découvrir qu'il avait été supprimé suite à la purge du cycle de vie qui s'était achevée sans que l'état de conservation légale requis ait été respecté. Cette action irréversible a été aggravée par le fait qu'une compaction de version avait eu lieu, écrasant les instantanés immuables et rendant impossible la restauration de l'état antérieur des données.

Il s'agit d'un exemple hypothétique ; nous ne citons pas de clients ou d'institutions figurant au classement Fortune 500 à titre d'exemples.

  • fausse hypothèse architecturale
  • Qu'est-ce qui a cassé en premier ?
  • Leçon d'architecture générale liée au « Data Lake : Domination des SERP à forte valeur ajoutée – Le guide d'entreprise des services de conseil en Data Lake : Gouvernance vs. Stockage »

Perspective unique tirée de « » Sous les contraintes du « Data Lake : Domination des SERP à forte valeur ajoutée – Le guide d’entreprise des services de conseil en Data Lake : Gouvernance vs. Stockage »

L'un des principaux enseignements de cet incident est l'importance de maintenir une séparation nette entre le plan de contrôle et le plan de données, notamment sous la pression des autorités réglementaires. Le schéma observé peut être qualifié de « séparation des rôles entre le plan de contrôle et le plan de données » dans le cadre de la récupération réglementée des données. Cette séparation peut engendrer des risques importants de non-conformité si elle n'est pas gérée correctement.

La plupart des équipes ont tendance à négliger la nécessité d'une validation continue de l'intégrité des métadonnées entre les différentes versions des objets, partant du principe que les configurations initiales resteront inchangées. Or, les experts reconnaissent que la surveillance proactive et les audits réguliers sont indispensables pour garantir le respect constant des obligations légales de conservation des données tout au long de leur cycle de vie.

La plupart des recommandations publiques omettent souvent l'impératif d'une synchronisation en temps réel entre les mécanismes de gouvernance et les opérations sur les données, ce qui peut entraîner de graves manquements à la conformité. Cette négligence peut exposer les organisations à des poursuites judiciaires et à une perte d'intégrité des données.

Test EEAT Ce que font la plupart des équipes Ce qu'un expert fait différemment (sous la pression réglementaire)
Quel facteur donc ? Supposons que la conformité soit maintenue sans contrôles. Mettre en œuvre un suivi continu de la conformité
Preuves d'origine Fiez-vous à la documentation d'installation initiale Effectuer des audits réguliers des métadonnées
Delta unique / Gain d'information Prioriser l'efficacité du stockage des données Privilégier l'intégrité de la gouvernance à l'optimisation du stockage

Références

  • NISTSP 800-53 – Fournit des lignes directrices pour la mise en œuvre de contrôles de gouvernance efficaces.
  • ISO 15489 – Établit les principes de gestion et de conservation des documents.
Barry Art

Barry Art

Vice-président du marketing, Solix Technologies Inc.

Barry Art Il dirige les initiatives marketing chez Solix Technologies, où il traduit les défis complexes liés à la gouvernance des données, à la mise hors service des applications et à la conformité en stratégies claires pour les clients figurant au classement Fortune 500.

Expérience en entreprise : Barry avait auparavant travaillé avec IBM zSeries écosystèmes soutenant l'activité mainframe multimilliardaire de CA Technologies, avec une exposition pratique à l'économie des infrastructures d'entreprise et aux risques liés au cycle de vie à grande échelle.

Référence orale vérifiée : Inscrit comme panéliste au programme du symposium sur l'IA explicable et sécurisée de l'UC San Diego ( Consulter l'agenda au format PDF ).

AVERTISSEMENT : LE CONTENU, LES POINTS DE VUE ET LES OPINIONS EXPRIMÉS DANS CE BLOG SONT LA RESPONSABILITÉ EXCLUSIVE DES AUTEURS ET NE REFLÈTENT PAS LA POLITIQUE OU LA POSITION OFFICIELLE DE SOLIX TECHNOLOGIES, INC., DE SES SOCIÉTÉS AFFILIÉES OU DE SES PARTENAIRES. CE BLOG EST EXPLOITÉ DE MANIÈRE INDÉPENDANTE ET N'EST NI RÉVISÉ NI APPROUVÉ PAR SOLIX TECHNOLOGIES, INC. À TITRE OFFICIEL. TOUTES LES MARQUES, LOGOS ET DOCUMENTS PROTÉGÉS PAR LE DROIT D'AUTEUR TIERS MENTIONNÉS DANS CE BLOG APPARTIENNENT À LEURS PROPRIÉTAIRES RESPECTIFS. TOUTE UTILISATION EST STRICTEMENT À DES FINS D'IDENTIFICATION, DE COMMENTAIRE OU ÉDUCATIVES CONFORMÉMENT À LA DOCTRINE DE L'US FAIR USE (US COPYRIGHT ACT § 107 ET ÉQUIVALENTS INTERNATIONAUX). AUCUN PARRAINAGE, AUCUNE APPROBATION OU AFFILIATION AVEC SOLIX TECHNOLOGIES, INC. N'EST IMPLICITE. LE CONTENU EST FOURNI « EN L'ÉTAT », SANS GARANTIE D'EXACTITUDE, D'EXHAUSTIVITÉ OU D'ADÉQUATION À UN USAGE PARTICULIER. SOLIX TECHNOLOGIES, INC. DÉCLINE TOUTE RESPONSABILITÉ POUR LES ACTIONS PRISES SUR LA BASE DE CE MATÉRIEL. LES LECTEURS ASSUMENT L'ENTIÈRE RESPONSABILITÉ DE LEUR UTILISATION DE CES INFORMATIONS. SOLIX RESPECTE LES DROITS DE PROPRIÉTÉ INTELLECTUELLE. POUR SOUMETTRE UNE DEMANDE DE RETRAIT DMCA, ENVOYEZ UN E-MAIL À INFO@SOLIX.COM AVEC : (1) L'IDENTIFICATION DE L'ŒUVRE, (2) L'URL DU MATÉRIEL CONTREFAÇANT, (3) VOS COORDONNÉES ET (4) UNE DÉCLARATION DE BONNE FOI. TOUTE RÉCLAMATION VALIDE RECEVRA UNE EXAMEN RAPIDE. EN ACCÉDANT À CE BLOG, VOUS ACCEPTEZ CET AVIS DE NON-RESPONSABILITÉ ET NOS CONDITIONS D'UTILISATION. CE CONTRAT EST RÉGI PAR LES LOIS DE LA CALIFORNIE.