Barry Art

Préface

Cet article analyse en détail les implications financières des lacs de données et des entrepôts de données, notamment dans le contexte du Département américain de la Sécurité intérieure (DHS). Il vise à fournir aux décideurs d'entreprise, tels que les directeurs informatiques, les informations nécessaires pour faire des choix éclairés en matière d'architecture de données. L'analyse portera sur les contraintes opérationnelles, les compromis stratégiques et les risques de défaillance liés à chaque option, afin d'aider les organisations à optimiser la valeur de leurs actifs de données.

Définition

Un lac de données est un référentiel centralisé permettant le stockage de vastes quantités de données brutes dans leur format natif jusqu'à leur analyse. À l'inverse, un entrepôt de données (ou data lakehouse) est une plateforme de données unifiée qui combine les fonctionnalités des lacs de données et des entrepôts de données, permettant un stockage, un traitement et une analyse efficaces des données structurées et non structurées. La compréhension de ces définitions est essentielle pour évaluer les implications financières et l'efficacité opérationnelle de chaque solution.

Réponse directe

La comparaison des coûts entre les lacs de données et les entrepôts de données révèle que si les lacs de données peuvent paraître moins onéreux au premier abord grâce à des coûts de stockage inférieurs, ils engendrent souvent des coûts cachés liés aux inefficacités opérationnelles, à la conformité et à la gouvernance. Les entrepôts de données, bien que potentiellement plus coûteux à l'investissement initial, peuvent générer des économies à long terme grâce à une redondance réduite et à des capacités d'analyse intégrées.

Pourquoi maintenant

L'urgence de moderniser les solutions de stockage de données découle de l'augmentation exponentielle du volume de données générées par les organisations et de la nécessité de se conformer à des réglementations strictes. Le département américain de la Sécurité intérieure, par exemple, doit gérer d'immenses quantités de données sensibles tout en garantissant le respect des exigences légales et réglementaires. Face à la croissance continue des données, les contraintes opérationnelles des lacs de données traditionnels s'accentuent, imposant une réévaluation des stratégies d'architecture de données.

Tableau de diagnostic

Décision Options Logique de sélection Coûts cachés
Choisissez entre Data Lake et Data Lakehouse Lac de données, Data Lakehouse Évaluer en fonction du volume de données, des exigences de conformité et des capacités d'analyse. Risque d'augmentation des coûts opérationnels liés aux lacs de données, coûts d'intégration pour la transition vers une infrastructure de lac de données.
Coûts opérationnels Data Lake Des coûts plus élevés avec l'augmentation du volume de données. La conformité et la gouvernance engendrent des coûts cachés.
Coûts opérationnels Maison du lac de données Une redondance moindre engendre des économies. Les coûts d'installation initiaux peuvent être plus élevés.
Besoins de conformité Data Lake Nécessite des cadres de gouvernance étendus. Les infractions potentielles aux règles de conformité peuvent entraîner des sanctions légales.
Besoins de conformité Maison du lac de données Capacités de gouvernance intégrées. Risque moindre de non-conformité.
Exigences analytiques Data Lake Nécessite des outils d'analyse supplémentaires. Augmentation des coûts des outils d'analyse tiers.
Exigences analytiques Maison du lac de données Fonctionnalités analytiques intégrées. Besoin réduit d'outils externes.

Sections analytiques approfondies

Implications financières des lacs de données

Les lacs de données peuvent engendrer des coûts opérationnels importants, qui augmentent proportionnellement au volume de données stockées. À mesure que les organisations accumulent d'immenses quantités de données brutes, les coûts associés à leur gestion, notamment le stockage, la récupération et le traitement, peuvent devenir considérables. De plus, les exigences de conformité et de gouvernance introduisent des coûts cachés qui ne sont pas toujours immédiatement apparents. Par exemple, la nécessité d'un suivi et d'un audit rigoureux de la traçabilité des données peut entraîner une augmentation des ressources allouées, alourdissant ainsi les dépenses opérationnelles.

Implications financières des lacs de données

À l'inverse, les lacs de données offrent une approche plus intégrée, susceptible de générer des économies à long terme. En réduisant la redondance du stockage des données et en fournissant des fonctionnalités d'analyse intégrées, les organisations peuvent rationaliser leurs processus de gestion des données. Cette intégration permet non seulement de réduire les coûts globaux, mais aussi d'exploiter plus efficacement les données pour en tirer des enseignements. L'investissement initial dans un lac de données peut être plus élevé, mais les avantages financiers à long terme compensent souvent largement ces coûts initiaux.

Matrice de décision pour le choix entre Data Lake et Data Lakehouse

Lorsqu'il s'agit de choisir entre un lac de données et un entrepôt de données, les organisations doivent prendre en compte plusieurs facteurs clés, notamment le volume de données, les exigences de conformité et les besoins analytiques. Une matrice de décision structurée peut faciliter la clarification de ces considérations, permettant ainsi aux décideurs d'évaluer les avantages et les inconvénients de chaque option. Il est essentiel de prendre en compte les coûts cachés, tels que les inefficacités opérationnelles potentielles et les risques de non-conformité, qui peuvent impacter significativement le coût total de possession.

Signaux et contraintes opérationnels

Les signaux opérationnels concrets peuvent fournir des informations précieuses sur l'efficacité des solutions de stockage de données. Par exemple, si les taux d'ingestion de données dépassent la capacité de stockage, les organisations peuvent subir des retards d'accès aux données et une latence accrue. Les audits de conformité peuvent révéler des lacunes dans le suivi de la provenance des données, indiquant des vulnérabilités potentielles dans les cadres de gouvernance. Comprendre ces contraintes opérationnelles est essentiel pour prendre des décisions éclairées concernant l'architecture des données.

Conclusion et recommandations

Une analyse approfondie des coûts est essentielle pour une prise de décision éclairée concernant l'architecture des données. Les organisations doivent considérer les implications immédiates et à long terme de leurs choix, notamment en matière de conformité et d'efficacité opérationnelle. Il est recommandé aux entreprises de réaliser une évaluation complète de leurs besoins en données, en tenant compte des coûts cachés potentiels associés à chaque option. Ce faisant, elles peuvent optimiser l'exploitation de leurs actifs de données.

Cadre de mise en œuvre

La mise en place d'un lac de données ou d'un entrepôt de données (data lakehouse) exige une approche structurée comprenant la définition d'objectifs clairs, l'évaluation des pratiques actuelles de gestion des données et l'établissement de cadres de gouvernance. Les organisations doivent privilégier l'intégration d'outils de suivi des coûts afin de contrôler les dépenses en temps réel et de garantir la conformité aux exigences réglementaires. Des audits réguliers et des mises à jour des politiques de gouvernance sont indispensables pour assurer l'alignement avec l'évolution des normes de gestion des données.

Risques stratégiques et coûts cachés

Les risques stratégiques liés aux lacs de données incluent le risque de surcharge, qui peut entraver l'extraction et l'analyse des données. Les manquements à la conformité constituent un autre risque important, notamment si les organisations ne respectent pas les politiques de gouvernance des données. Les coûts cachés, tels que ceux liés aux inefficacités opérationnelles et au besoin d'outils supplémentaires, peuvent complexifier davantage le processus décisionnel. Les organisations doivent être vigilantes quant à l'identification et à l'atténuation de ces risques afin de garantir la réussite de la mise en œuvre de leur architecture de données.

Contrepoint de l'Homme d'Acier

Bien que les entrepôts de données présentent de nombreux avantages, il est essentiel d'en reconnaître les inconvénients potentiels. Par exemple, la complexité de la transition d'un lac de données vers un entrepôt de données peut poser problème, notamment pour les organisations ayant des pratiques de gestion des données bien établies. De plus, l'investissement initial requis peut dissuader certaines organisations d'effectuer la transition. Il est donc crucial que les décideurs évaluent soigneusement ces facteurs au regard des avantages à long terme de l'adoption d'un entrepôt de données.

Intégration de solution

L'intégration d'un lac de données ou d'un entrepôt de données (data lakehouse) à une infrastructure informatique existante exige une planification et une exécution rigoureuses. Les organisations doivent évaluer leurs capacités actuelles de gestion des données et identifier les lacunes à combler. La collaboration entre les équipes informatiques et les unités opérationnelles est essentielle pour garantir que la solution choisie soit en adéquation avec les buts et objectifs de l'organisation. Par ailleurs, la formation et l'accompagnement du personnel seront déterminants pour faciliter une transition harmonieuse et optimiser la valeur de la nouvelle architecture de données.

Scénario d'entreprise réaliste

Prenons l'exemple du Département américain de la Sécurité intérieure (DHS) qui évalue sa stratégie de gestion des données. Actuellement, le DHS utilise un lac de données traditionnel pour stocker d'importants volumes de données sensibles. Cependant, face à la croissance exponentielle de ces volumes, des inefficacités opérationnelles et des problèmes de conformité sont apparus. En migrant vers un entrepôt de données décentralisé, le DHS pourrait rationaliser ses processus de gestion des données, réduire les redondances et améliorer ses capacités d'analyse, ce qui permettrait d'optimiser la prise de décision et l'efficacité opérationnelle.

QFP

Q : Quelles sont les principales différences entre un lac de données et un entrepôt de données ?
A: Un lac de données stocke les données brutes dans leur format natif, tandis qu'un entrepôt de données combine les fonctionnalités des lacs de données et des entrepôts de données, permettant un traitement et une analyse des données plus efficaces.

Q : Quels sont les coûts cachés associés aux lacs de données ?
A: Les coûts cachés peuvent inclure les inefficacités opérationnelles, les dépenses liées à la conformité et à la gouvernance, ainsi que le besoin d'outils supplémentaires pour l'analyse des données.

Q : Comment les organisations peuvent-elles garantir la conformité aux politiques de gouvernance des données ?
A: Les organisations devraient mettre en œuvre un cadre de gouvernance des données robuste qui comprend des audits réguliers, le suivi de la provenance des données et le respect des exigences légales et réglementaires.

Mode de défaillance observé en lien avec le sujet de l'article

Lors d'un incident récent, nous avons découvert une défaillance critique dans notre architecture de gouvernance des données, plus précisément liée à application de la conservation légale pour les actions liées au cycle de vie du stockage d'objets non structurésAu départ, nos tableaux de bord indiquaient que tous les systèmes fonctionnaient correctement, mais à notre insu, l'application des mesures de conservation légale était défaillante. De ce fait, des éléments qui auraient dû être conservés à des fins de conformité ont été marqués par inadvertance pour suppression, créant un risque important de non-conformité.

La première défaillance est survenue lorsque le plan de contrôle, responsable de la gestion des états de conservation légale, s'est découplé du plan de données, qui exécutait les actions de cycle de vie. De ce fait, deux éléments critiques, les indicateurs de conservation légale et les étiquettes d'objet, se sont désynchronisés. Les indicateurs de conservation légale n'ont pas été mis à jour pour refléter l'état actuel des objets, tandis que les étiquettes d'objet ont été incorrectement marquées pour suppression. Ce décalage n'était pas immédiatement visible et nos journaux d'audit de récupération n'ont révélé le problème que lors de tentatives d'accès à des objets déjà purgés.

Une fois la purge du cycle de vie terminée, la défaillance est devenue irréversible. Les instantanés immuables des données ont écrasé les états précédents, et le processus de compactage des versions a effacé toute trace des indicateurs de conservation légale. Par conséquent, nous n'avons pas pu prouver l'état antérieur des objets, ce qui a engendré un risque de non-conformité important, impossible à atténuer a posteriori.

Il s'agit d'un exemple hypothétique ; nous ne citons pas de clients ou d'institutions figurant au classement Fortune 500 à titre d'exemples.

  • fausse hypothèse architecturale
  • Qu'est-ce qui a cassé en premier ?
  • Leçon d'architecture générale liée à la « Comparaison des coûts : Data Lake vs Data Lakehouse »

Perspective unique tirée de « » sous les contraintes de la « Comparaison des coûts : Data Lake vs Data Lakehouse »

Cet incident souligne l'importance cruciale de maintenir la synchronisation entre le plan de contrôle et le plan de données, notamment sous la pression réglementaire. Le dédoublement de la coordination entre le plan de contrôle et le plan de données lors de la récupération réglementée des données peut engendrer de graves problèmes de conformité s'il n'est pas correctement géré. Les organisations doivent veiller à ce que leurs mécanismes de gouvernance soient étroitement intégrés à la gestion du cycle de vie des données afin d'éviter des défaillances coûteuses.

La plupart des recommandations publiques omettent généralement la nécessité d'une synchronisation en temps réel entre les contrôles de gouvernance et les opérations sur les données, ce qui peut engendrer des risques importants de non-conformité. Cette négligence peut exposer les organisations à des poursuites judiciaires en cas de perte ou de mauvaise gestion des données.

Test EEAT Ce que font la plupart des équipes Ce qu'un expert fait différemment (sous la pression réglementaire)
Quel facteur donc ? Prioriser l'efficacité du stockage des données Prioriser l'alignement en matière de conformité et de gouvernance
Preuves d'origine Documenter la traçabilité des données post-factum Mettre en œuvre un suivi en temps réel de la gouvernance des données
Delta unique / Gain d'information Supposons que le cycle de vie des données soit linéaire. Reconnaître la nécessité d'ajustements dynamiques en matière de gouvernance

Références

1. ISO 15489 – Établit les principes de gestion des enregistrements, soutenant le besoin de conformité en matière de gouvernance des données.
2. NIST SP 800-53 – Fournit des lignes directrices pour la sécurisation des données stockées, pertinentes pour la compréhension des exigences de conformité.

Barry Art

Barry Art

Vice-président du marketing, Solix Technologies Inc.

Barry Art Il dirige les initiatives marketing chez Solix Technologies, où il traduit les défis complexes liés à la gouvernance des données, à la mise hors service des applications et à la conformité en stratégies claires pour les clients figurant au classement Fortune 500.

Expérience en entreprise : Barry avait auparavant travaillé avec IBM zSeries écosystèmes soutenant l'activité mainframe multimilliardaire de CA Technologies, avec une exposition pratique à l'économie des infrastructures d'entreprise et aux risques liés au cycle de vie à grande échelle.

Référence orale vérifiée : Inscrit comme panéliste au programme du symposium sur l'IA explicable et sécurisée de l'UC San Diego ( Consulter l'agenda au format PDF ).

AVERTISSEMENT : LE CONTENU, LES POINTS DE VUE ET LES OPINIONS EXPRIMÉS DANS CE BLOG SONT LA RESPONSABILITÉ EXCLUSIVE DES AUTEURS ET NE REFLÈTENT PAS LA POLITIQUE OU LA POSITION OFFICIELLE DE SOLIX TECHNOLOGIES, INC., DE SES SOCIÉTÉS AFFILIÉES OU DE SES PARTENAIRES. CE BLOG EST EXPLOITÉ DE MANIÈRE INDÉPENDANTE ET N'EST NI RÉVISÉ NI APPROUVÉ PAR SOLIX TECHNOLOGIES, INC. À TITRE OFFICIEL. TOUTES LES MARQUES, LOGOS ET DOCUMENTS PROTÉGÉS PAR LE DROIT D'AUTEUR TIERS MENTIONNÉS DANS CE BLOG APPARTIENNENT À LEURS PROPRIÉTAIRES RESPECTIFS. TOUTE UTILISATION EST STRICTEMENT À DES FINS D'IDENTIFICATION, DE COMMENTAIRE OU ÉDUCATIVES CONFORMÉMENT À LA DOCTRINE DE L'US FAIR USE (US COPYRIGHT ACT § 107 ET ÉQUIVALENTS INTERNATIONAUX). AUCUN PARRAINAGE, AUCUNE APPROBATION OU AFFILIATION AVEC SOLIX TECHNOLOGIES, INC. N'EST IMPLICITE. LE CONTENU EST FOURNI « EN L'ÉTAT », SANS GARANTIE D'EXACTITUDE, D'EXHAUSTIVITÉ OU D'ADÉQUATION À UN USAGE PARTICULIER. SOLIX TECHNOLOGIES, INC. DÉCLINE TOUTE RESPONSABILITÉ POUR LES ACTIONS PRISES SUR LA BASE DE CE MATÉRIEL. LES LECTEURS ASSUMENT L'ENTIÈRE RESPONSABILITÉ DE LEUR UTILISATION DE CES INFORMATIONS. SOLIX RESPECTE LES DROITS DE PROPRIÉTÉ INTELLECTUELLE. POUR SOUMETTRE UNE DEMANDE DE RETRAIT DMCA, ENVOYEZ UN E-MAIL À INFO@SOLIX.COM AVEC : (1) L'IDENTIFICATION DE L'ŒUVRE, (2) L'URL DU MATÉRIEL CONTREFAÇANT, (3) VOS COORDONNÉES ET (4) UNE DÉCLARATION DE BONNE FOI. TOUTE RÉCLAMATION VALIDE RECEVRA UNE EXAMEN RAPIDE. EN ACCÉDANT À CE BLOG, VOUS ACCEPTEZ CET AVIS DE NON-RESPONSABILITÉ ET NOS CONDITIONS D'UTILISATION. CE CONTRAT EST RÉGI PAR LES LOIS DE LA CALIFORNIE.