Barry Art

Préface

La modernisation des données sous-utilisées par la mise en place de lacs de données est un impératif stratégique pour les organisations souhaitant valoriser leurs ensembles de données existants. Les lacs de données servent de référentiels centralisés pour les données structurées et non structurées, facilitant ainsi l'analyse avancée et les applications d'apprentissage automatique. Cet article explore les considérations architecturales, les contraintes opérationnelles et les modes de défaillance potentiels liés à la mise en œuvre de lacs de données, notamment dans le contexte du ministère japonais de l'Économie, du Commerce et de l'Industrie (METI). La compréhension de ces éléments permettra aux décideurs d'entreprise de faire des choix éclairés, en adéquation avec les objectifs de leur organisation.

Définition

Un lac de données est un référentiel centralisé permettant le stockage à grande échelle de données structurées et non structurées, rendant possible l'analyse avancée et les applications d'apprentissage automatique. Contrairement aux entrepôts de données traditionnels, les lacs de données peuvent ingérer des données brutes, offrant ainsi une grande flexibilité dans leur traitement et leur analyse. Cette architecture prend en charge diverses sources de données, ce qui en fait un élément essentiel des stratégies de données modernes.

Réponse directe

Les lacs de données modernisent les données sous-utilisées en fournissant une architecture évolutive et flexible qui prend en charge l'analyse avancée et l'apprentissage automatique, permettant ainsi aux organisations d'extraire de la valeur des ensembles de données existants.

Pourquoi maintenant

L'urgence de moderniser les pratiques de gestion des données découle de la croissance exponentielle des données et de la demande croissante d'analyses en temps réel. Des organisations comme METI sont soumises à la pression d'exploiter efficacement leurs données pour favoriser la prise de décision et l'innovation. Les méthodes traditionnelles de stockage et de traitement des données sont souvent inadaptées à ces exigences, ce qui fait des lacs de données une solution opportune. De plus, les exigences réglementaires imposent des cadres de gouvernance des données robustes, que les lacs de données peuvent soutenir grâce à des pratiques de gestion des données structurées.

Tableau de diagnostic

Challenge Description Impact
Gouvernance des Données Garantir la conformité aux réglementations en matière de données. Risque de sanctions légales et de perte de confiance des parties prenantes.
Qualité des données Problèmes liés à l'ingestion de données non structurées. Analyses et prises de décision inexactes.
Politiques de conservation Application insuffisante des politiques de conservation des données. Risque de perte de données et de non-conformité.
Lignée de données Manque de visibilité sur les transformations de données. Défis liés aux audits de conformité et à l'intégrité des données.
Gestion des métadonnées Échec du balisage des métadonnées lors de l'ingestion des données. Difficultés de découverte et d'utilisation des données.
Contrôle d'Accès Modes d'accès irréguliers aux ensembles de données sensibles. Risque accru de violations de données et de non-conformité.

Sections analytiques approfondies

Importance stratégique des lacs de données

Les lacs de données jouent un rôle essentiel dans l'architecture de données moderne en facilitant l'intégration de sources de données diverses. Ils soutiennent les initiatives d'analyse avancée et d'apprentissage automatique, permettant aux organisations d'extraire des informations pertinentes à partir de vastes volumes de données. La possibilité de stocker les données brutes permet aux organisations de s'adapter à l'évolution des besoins analytiques sans avoir recours à des processus de transformation de données complexes. Cette flexibilité est cruciale pour des organisations comme METI, qui doivent répondre à l'évolution des conditions du marché et aux exigences réglementaires.

Contraintes opérationnelles liées à la mise en œuvre d'un lac de données

La mise en place d'un lac de données n'est pas sans difficultés. La gouvernance des données est essentielle pour garantir la conformité aux réglementations telles que le RGPD et les normes NIST. Les organisations doivent établir des protocoles de qualité des données clairs afin d'atténuer les problèmes liés à l'ingestion de données non structurées. De plus, l'intégration des sources de données existantes dans un lac de données peut s'avérer complexe et nécessite une planification et une exécution rigoureuses pour éviter toute interruption de la disponibilité et de l'intégrité des données.

Modes de défaillance dans la gestion des lacs de données

Les points de défaillance potentiels dans l'exploitation d'un lac de données incluent une traçabilité des données insuffisante, pouvant entraîner des non-conformités, et des politiques de conservation mal définies, susceptibles de provoquer des pertes de données. Les organisations doivent surveiller attentivement les processus d'ingestion des données afin de garantir le respect des exigences en matière de métadonnées. Le non-respect des calendriers de conservation appliqués de manière cohérente à l'ensemble des jeux de données peut engendrer des risques juridiques et opérationnels importants.

Cadre de mise en œuvre

Pour réussir la mise en œuvre d'un lac de données, les organisations doivent adopter un cadre structuré comprenant la mise en place d'une gouvernance des données, la définition de politiques de conservation et de suppression, ainsi que l'application de contrôles rigoureux de la qualité des données. Des audits réguliers et des mises à jour des politiques de gouvernance sont indispensables pour s'adapter à l'évolution du contexte réglementaire. Par ailleurs, les organisations doivent investir dans la formation et les ressources nécessaires pour que leur personnel soit en mesure de gérer la complexité des opérations liées au lac de données.

Risques stratégiques et coûts cachés

Bien que les lacs de données offrent des avantages considérables, ils comportent également des risques stratégiques et des coûts cachés. Les organisations doivent prendre en compte les frais potentiels de transfert de données liés aux solutions cloud et l'augmentation des coûts de maintenance des infrastructures sur site. De plus, le manque de données empiriques sur le retour sur investissement (RSI) des initiatives de lac de données peut complexifier les processus décisionnels. Il est donc essentiel que les organisations réalisent des analyses coûts-avantages approfondies avant de s'engager dans la mise en œuvre d'un lac de données.

Contrepoint de l'Homme d'Acier

Les détracteurs des lacs de données affirment souvent que la complexité et les coûts liés à la gestion de grands volumes de données non structurées peuvent être supérieurs aux avantages. Ils soulignent les difficultés à garantir la qualité et la conformité des données comme des obstacles majeurs à leur réussite. Cependant, leurs partisans soutiennent qu'avec des cadres de gouvernance et des pratiques opérationnelles adaptés, ces difficultés peuvent être surmontées efficacement, permettant ainsi aux organisations de valoriser pleinement leurs données.

Intégration de solution

L'intégration d'un lac de données à une architecture de données existante exige une analyse approfondie de l'infrastructure et des pratiques de gestion des données actuelles de l'organisation. Lors du choix d'une architecture de lac de données, les organisations doivent évaluer leurs besoins en matière d'évolutivité, leurs exigences de conformité et leur pile technologique existante. Une approche hybride peut s'avérer avantageuse, permettant aux organisations de tirer parti à la fois des solutions cloud et sur site pour répondre à leurs besoins spécifiques.

Scénario d'entreprise réaliste

Prenons l'exemple du METI qui souhaite moderniser ses pratiques de gestion des données. La mise en place d'un lac de données lui permettra de consolider ses sources de données disparates et d'améliorer ainsi l'efficacité de l'analyse et du reporting. Toutefois, l'organisation devra maîtriser la complexité de la gouvernance et de la conformité des données afin de garantir que son lac de données demeure un atout précieux et non un fardeau. En établissant des politiques claires et en investissant dans l'infrastructure nécessaire, le METI pourra exploiter efficacement ses données pour atteindre ses objectifs stratégiques.

QFP

Qu'est-ce qu'un lac de données ?
Un lac de données est un référentiel centralisé qui permet le stockage de données structurées et non structurées à grande échelle, permettant des applications d'analyse avancée et d'apprentissage automatique.

Quels sont les principaux avantages de l'utilisation d'un lac de données ?
Les lacs de données facilitent l'intégration de sources de données diverses et soutiennent les initiatives d'analyse avancée et d'apprentissage automatique.

Quels sont les défis liés à la mise en œuvre d'un lac de données ?
Les défis comprennent la gouvernance des données, les problèmes de qualité des données et la complexité de l'intégration des sources de données existantes.

Comment les organisations peuvent-elles garantir leur conformité aux réglementations en matière de données lorsqu'elles utilisent un lac de données ?
Les organisations devraient mettre en œuvre un cadre de gouvernance des données robuste et établir des politiques claires de conservation et de suppression.

Quels sont les risques potentiels liés à l'utilisation d'un lac de données ?
Les risques potentiels incluent la perte de données due à des politiques de conservation inadéquates et les manquements à la conformité liés à une mauvaise traçabilité des données.

Mode de défaillance observé en lien avec le sujet de l'article

Lors d'un incident récent, nous avons découvert une défaillance critique dans notre architecture de gouvernance des données, plus précisément liée à contrôles de conservation et d'élimination dans le stockage d'objets non structurésAu départ, nos tableaux de bord indiquaient que tous les systèmes fonctionnaient correctement, mais à notre insu, l'application des mesures de conservation légale était déjà compromise.

La première défaillance est survenue lorsque nous avons constaté un échec de la propagation des métadonnées de conservation légale entre les versions d'objets. Cet échec, silencieux, a entraîné une divergence entre le plan de contrôle et le plan de données, permettant la suppression d'objets malgré leur conservation légale. Parmi les éléments affectés figuraient l'indicateur de conservation légale et les étiquettes d'objet, qui n'ont pas été mis à jour pour refléter le statut de conservation correct. Par conséquent, lors de nos tentatives de récupération de certains objets, nos outils RAG/de recherche ont affiché des entrées expirées qui auraient dû être conservées.

Cette situation était irréversible car la purge du cycle de vie était déjà terminée et les instantanés immuables avaient écrasé l'état précédent. La reconstruction de l'index n'a pas permis de prouver l'état antérieur des objets, engendrant un risque de non-conformité important. Cet incident a mis en évidence le besoin crucial d'une intégration plus étroite entre le plan de contrôle et le plan de données afin de garantir l'application cohérente des mécanismes de gouvernance pour toutes les opérations sur les données.

Il s'agit d'un exemple hypothétique ; nous ne citons pas de clients ou d'institutions figurant au classement Fortune 500 à titre d'exemples.

  • fausse hypothèse architecturale
  • Qu'est-ce qui a cassé en premier ?
  • Leçon d'architecture générale liée à la « Modernisation des données sous-utilisées : la stratégie du lac de données »

Perspective unique tirée de « » sous les contraintes de « Moderniser les données sous-utilisées : la stratégie du lac de données »

L'une des principales contraintes liées à la modernisation des données sous-utilisées réside dans la difficulté de garantir la conformité tout en permettant la croissance des données. Le modèle de séparation des rôles entre plan de contrôle et plan de données dans la récupération réglementée des données engendre souvent des risques opérationnels importants s'il n'est pas géré correctement. Les équipes privilégient fréquemment l'accessibilité des données au détriment de leur gouvernance, ce qui peut entraîner de graves violations de la conformité.

La plupart des organisations ont tendance à négliger l'importance d'une surveillance continue de l'intégrité des métadonnées, pourtant essentielle pour garantir la bonne application des politiques de conservation. Cette négligence peut engendrer un faux sentiment de sécurité, les équipes croyant leur gouvernance des données intacte alors qu'en réalité, elle présente des défaillances silencieuses.

La plupart des recommandations publiques omettent généralement la nécessité d'intégrer les contrôles de gouvernance aux processus de gestion du cycle de vie des données. Cette intégration est pourtant essentielle pour garantir que les contrôles de conformité soient non seulement en place, mais également appliqués activement tout au long du cycle de vie des données.

Test EEAT Ce que font la plupart des équipes Ce qu'un expert fait différemment (sous la pression réglementaire)
Quel facteur donc ? L'accent est mis sur la disponibilité des données. Privilégier la conformité au même titre que la disponibilité
Preuves d'origine Supposons que les métadonnées soient exactes. Valider en permanence l'intégrité des métadonnées
Delta unique / Gain d'information Mettre en œuvre la gouvernance comme une réflexion après coup Intégrer la gouvernance dans la gestion du cycle de vie des données

Références

1. ISO 15489 – Établit les principes de gestion et de conservation des documents.
2. NIST SP 800-53 – Fournit des lignes directrices pour les contrôles de sécurité et de confidentialité.

Barry Art

Barry Art

Vice-président du marketing, Solix Technologies Inc.

Barry Art Il dirige les initiatives marketing chez Solix Technologies, où il traduit les défis complexes liés à la gouvernance des données, à la mise hors service des applications et à la conformité en stratégies claires pour les clients figurant au classement Fortune 500.

Expérience en entreprise : Barry avait auparavant travaillé avec IBM zSeries écosystèmes soutenant l'activité mainframe multimilliardaire de CA Technologies, avec une exposition pratique à l'économie des infrastructures d'entreprise et aux risques liés au cycle de vie à grande échelle.

Référence orale vérifiée : Inscrit comme panéliste au programme du symposium sur l'IA explicable et sécurisée de l'UC San Diego ( Consulter l'agenda au format PDF ).

AVERTISSEMENT : LE CONTENU, LES POINTS DE VUE ET LES OPINIONS EXPRIMÉS DANS CE BLOG SONT LA RESPONSABILITÉ EXCLUSIVE DES AUTEURS ET NE REFLÈTENT PAS LA POLITIQUE OU LA POSITION OFFICIELLE DE SOLIX TECHNOLOGIES, INC., DE SES SOCIÉTÉS AFFILIÉES OU DE SES PARTENAIRES. CE BLOG EST EXPLOITÉ DE MANIÈRE INDÉPENDANTE ET N'EST NI RÉVISÉ NI APPROUVÉ PAR SOLIX TECHNOLOGIES, INC. À TITRE OFFICIEL. TOUTES LES MARQUES, LOGOS ET DOCUMENTS PROTÉGÉS PAR LE DROIT D'AUTEUR TIERS MENTIONNÉS DANS CE BLOG APPARTIENNENT À LEURS PROPRIÉTAIRES RESPECTIFS. TOUTE UTILISATION EST STRICTEMENT À DES FINS D'IDENTIFICATION, DE COMMENTAIRE OU ÉDUCATIVES CONFORMÉMENT À LA DOCTRINE DE L'US FAIR USE (US COPYRIGHT ACT § 107 ET ÉQUIVALENTS INTERNATIONAUX). AUCUN PARRAINAGE, AUCUNE APPROBATION OU AFFILIATION AVEC SOLIX TECHNOLOGIES, INC. N'EST IMPLICITE. LE CONTENU EST FOURNI « EN L'ÉTAT », SANS GARANTIE D'EXACTITUDE, D'EXHAUSTIVITÉ OU D'ADÉQUATION À UN USAGE PARTICULIER. SOLIX TECHNOLOGIES, INC. DÉCLINE TOUTE RESPONSABILITÉ POUR LES ACTIONS PRISES SUR LA BASE DE CE MATÉRIEL. LES LECTEURS ASSUMENT L'ENTIÈRE RESPONSABILITÉ DE LEUR UTILISATION DE CES INFORMATIONS. SOLIX RESPECTE LES DROITS DE PROPRIÉTÉ INTELLECTUELLE. POUR SOUMETTRE UNE DEMANDE DE RETRAIT DMCA, ENVOYEZ UN E-MAIL À INFO@SOLIX.COM AVEC : (1) L'IDENTIFICATION DE L'ŒUVRE, (2) L'URL DU MATÉRIEL CONTREFAÇANT, (3) VOS COORDONNÉES ET (4) UNE DÉCLARATION DE BONNE FOI. TOUTE RÉCLAMATION VALIDE RECEVRA UNE EXAMEN RAPIDE. EN ACCÉDANT À CE BLOG, VOUS ACCEPTEZ CET AVIS DE NON-RESPONSABILITÉ ET NOS CONDITIONS D'UTILISATION. CE CONTRAT EST RÉGI PAR LES LOIS DE LA CALIFORNIE.