Préface
L'évolution de la gestion des données a conduit à l'émergence d'architectures de lac de données sans ETL, qui éliminent les processus traditionnels d'extraction, de transformation et de chargement (ETL). Ce changement permet aux organisations d'ingérer et d'utiliser les données brutes, améliorant considérablement leur disponibilité et réduisant la latence. Cependant, cette approche introduit de nouvelles contraintes opérationnelles et des compromis stratégiques que les décideurs d'entreprise doivent prendre en compte. Cet article propose une analyse approfondie des architectures sans ETL, de leurs implications pour la gouvernance des données et des risques potentiels liés à leur mise en œuvre.
Définition
L'architecture de lac de données sans ETL désigne une approche de gestion des données qui élimine le besoin de processus ETL traditionnels, permettant l'ingestion et l'utilisation des données brutes directement au sein d'un environnement de lac de données. Cette architecture tire parti des techniques modernes d'ingestion et de stockage de données pour faciliter l'analyse en temps réel et l'accessibilité des données, tout en soulevant des défis liés à la qualité et à la gouvernance des données.
Réponse directe
Les architectures sans ETL sont de plus en plus pertinentes à mesure que les organisations cherchent à rationaliser l'ingestion des données et à améliorer leurs capacités d'analyse en temps réel. En supprimant le goulot d'étranglement de l'ETL, les entreprises peuvent accéder plus rapidement aux données, mais elles doivent également prendre en compte la complexité de la gouvernance et de la gestion de la qualité des données brutes.
Pourquoi maintenant
L'adoption urgente d'architectures sans ETL découle du volume et de la variété croissants des données générées par les organisations. Les processus ETL traditionnels peinent souvent à suivre le rythme de cet afflux rapide de données, entraînant des retards dans leur disponibilité et des occasions manquées d'obtenir des informations pertinentes en temps opportun. Face à la priorité accordée à l'agilité et à la réactivité, les architectures sans ETL offrent une solution viable à ces défis, permettant une prise de décision plus rapide et une efficacité opérationnelle accrue.
Tableau de diagnostic
| Décision | Options | Logique de sélection | Coûts cachés |
|---|---|---|---|
| Adopter une architecture Zero-ETL | Mise en œuvre complète du zéro ETL, approche hybride avec ETL sélectif, maintien des processus ETL actuels | Évaluer en fonction du volume de données, des exigences de conformité et des besoins analytiques. | Formation accrue du personnel sur les nouveaux systèmes, besoin potentiel d'outils de gouvernance des données améliorés. |
Sections analytiques approfondies
Introduction aux architectures Zero-ETL
Les architectures sans ETL simplifient l'ingestion des données en permettant leur stockage à l'état brut, ce qui réduit considérablement le temps nécessaire à leur mise à disposition pour l'analyse. Cette approche est particulièrement avantageuse dans les environnements où les données sont générées à grande vitesse, comme dans les applications IoT ou les scénarios d'analyse en temps réel. Cependant, l'absence de processus de transformation peut engendrer des problèmes de cohérence et de qualité des données, nécessitant des cadres robustes de gestion et de gouvernance des métadonnées pour garantir leur intégrité.
Contraintes opérationnelles de l'ETL traditionnel
Les processus ETL traditionnels engendrent des délais importants dans la disponibilité des données, du fait du temps nécessaire à l'extraction, à la transformation et au chargement. Ces délais peuvent entraver la capacité d'une organisation à réagir rapidement aux évolutions du marché ou aux besoins opérationnels. De plus, la transformation des données peut entraîner une perte de contexte, les données originales pouvant être altérées ou agrégées de manière à en obscurcir le sens. Cette contrainte opérationnelle souligne la nécessité d'une approche de gestion des données plus agile, capable de répondre aux exigences de l'analytique moderne.
Mécanismes techniques du Zero-ETL
Les fondements techniques des architectures zéro ETL reposent notamment sur l'utilisation du schéma à la lecture, permettant une utilisation flexible des données sans définition préalable du schéma. Ce mécanisme permet aux organisations d'accéder aux données et de les analyser en temps réel, améliorant ainsi leur capacité à en tirer rapidement des enseignements. L'accès direct aux données facilite également l'intégration de sources de données diverses, favorisant une vision plus globale des données organisationnelles. Cependant, cette flexibilité s'accompagne du défi de garantir la qualité et la cohérence des données, quel que soit leur type.
Compromis stratégiques dans la gestion des données
L'adoption d'architectures sans ETL implique des compromis stratégiques, notamment en matière de gouvernance et de conformité des données. Si la suppression des processus ETL peut améliorer l'agilité, elle accroît également la complexité des cadres de gouvernance des données. Les organisations doivent mettre en œuvre des contrôles robustes pour gérer l'accès aux données brutes et garantir la conformité aux exigences réglementaires. Cette complexité peut engendrer des risques de non-conformité potentiels si elle n'est pas correctement prise en compte, ce qui nécessite une évaluation approfondie des stratégies de gouvernance dans le cadre des implémentations sans ETL.
Modes de défaillance et stratégies d'atténuation
L'adoption d'architectures sans ETL peut engendrer plusieurs défaillances. Par exemple, des problèmes de gouvernance des données peuvent survenir en raison de contrôles insuffisants sur l'accès aux données brutes, notamment lors d'une augmentation rapide de l'ingestion de données. Ceci peut entraîner des manquements à la conformité et des conséquences juridiques. De plus, l'ingestion directe de sources de données diverses peut engendrer des problèmes de qualité des données, avec pour conséquences des formats de données incohérents et des analyses erronées. Pour atténuer ces risques, les organisations doivent mettre en œuvre des solutions de gestion des métadonnées et établir un cadre de gouvernance des données complet, incluant des audits réguliers et la mise à jour des politiques de gouvernance.
Cadre de mise en œuvre
La mise en œuvre d'une architecture sans ETL exige une approche structurée comprenant les éléments clés suivants : premièrement, les organisations doivent évaluer leur environnement de données actuel et identifier les cas d'usage spécifiques qui bénéficieraient d'une approche sans ETL. Deuxièmement, elles doivent investir dans des solutions de gestion des métadonnées pour assurer un suivi efficace de la provenance et de l'utilisation des données. L'établissement d'un cadre de gouvernance des données est également essentiel pour gérer les risques de non-conformité liés aux données brutes. Enfin, les organisations doivent former leur personnel aux nouvelles méthodes d'accès aux données et s'assurer qu'il est en mesure de gérer la complexité des environnements sans ETL.
Risques stratégiques et coûts cachés
Bien que les architectures sans ETL offrent des avantages considérables, elles comportent également des risques stratégiques et des coûts cachés. Une dépendance accrue aux données brutes peut engendrer des problèmes de qualité des données, susceptibles de compromettre les processus décisionnels. De plus, la complexité de la gouvernance des données dans un environnement sans ETL peut entraîner des coûts opérationnels plus élevés liés aux audits de conformité et à la mise en œuvre d'outils de gouvernance. Les organisations doivent évaluer ces risques au regard des avantages potentiels d'une agilité accrue et de capacités d'analyse en temps réel lorsqu'elles envisagent une transition vers des architectures sans ETL.
Contrepoint de l'Homme d'Acier
Malgré les avantages des architectures sans ETL, certains estiment que les processus ETL traditionnels conservent toute leur importance pour garantir la qualité et la cohérence des données. Les processus ETL offrent une approche structurée de la transformation des données, essentielle pour les organisations qui s'appuient sur des données précises et fiables pour leurs prises de décision. De plus, la complexité introduite par les architectures sans ETL peut s'avérer supérieure aux avantages pour certaines organisations, notamment celles soumises à des exigences de conformité strictes. Par conséquent, une approche hybride combinant des éléments d'ETL et de zéro ETL peut être plus adaptée à certaines entreprises.
Intégration de solution
L'intégration d'architectures zéro ETL aux systèmes de gestion de données existants exige une planification et une exécution rigoureuses. Les organisations doivent évaluer leur infrastructure de données actuelle et identifier les domaines où le zéro ETL peut améliorer l'accessibilité des données et les capacités d'analyse. La collaboration entre les équipes informatiques et de gouvernance des données est essentielle pour garantir que la mise en œuvre soit conforme aux objectifs de l'organisation et aux exigences réglementaires. Par ailleurs, le recours à des solutions cloud peut faciliter l'évolutivité et la flexibilité nécessaires à la réussite des implémentations zéro ETL.
Scénario d'entreprise réaliste
Prenons l'exemple du Département américain de la Sécurité intérieure (DHS), où l'analyse des données en temps réel est cruciale pour les opérations de sécurité nationale. En adoptant une architecture sans ETL (transformation, chargement et transformation), le DHS peut intégrer des données provenant de diverses sources, notamment des systèmes de surveillance et des flux de médias sociaux, sans les délais associés aux processus ETL traditionnels. Ceci permet une analyse et une réponse rapides aux menaces émergentes. Toutefois, le DHS doit également mettre en œuvre des mesures robustes de gouvernance des données afin de gérer la complexité du traitement des données brutes et de garantir la conformité aux réglementations en matière de protection de la vie privée.
QFP
Q : Quels sont les principaux avantages des architectures sans ETL ?
A : Les principaux avantages comprennent une latence réduite dans la disponibilité des données, des capacités d'analyse en temps réel améliorées et la capacité d'ingérer diverses sources de données sous leur forme brute.
Q : Quels sont les défis rencontrés par les organisations lors de la mise en œuvre d'une approche zéro ETL ?
A: Les organisations peuvent rencontrer des difficultés liées à la qualité des données, à la complexité de la gouvernance et aux risques de conformité associés au traitement des données brutes.
Q : Comment les organisations peuvent-elles atténuer les risques associés à l'absence d'ETL ?
A: La mise en œuvre de solutions de gestion des métadonnées et l'établissement d'un cadre de gouvernance des données complet peuvent contribuer à atténuer les risques et à garantir la conformité.
Mode de défaillance observé en lien avec le sujet de l'article
Lors d'un incident récent, nous avons découvert une défaillance critique dans notre architecture de gouvernance des données qui découlait d'un manque de application de la conservation légale pour les actions liées au cycle de vie du stockage d'objets non structurésAu départ, nos tableaux de bord indiquaient que tous les systèmes fonctionnaient correctement, mais à notre insu, les mécanismes de gouvernance avaient déjà commencé à dysfonctionner silencieusement.
La première défaillance est survenue lorsque nous avons constaté que l'exécution du cycle de vie des objets était découplée de leur état de conservation légale. Ce décalage a entraîné la propagation de métadonnées de classe de rétention incorrectes à travers plusieurs versions d'objets. Par conséquent, certains objets qui auraient dû être conservés légalement ont été marqués pour suppression, créant un risque de non-conformité important. Cette défaillance a été aggravée par la dérive de nos journaux d'audit et de nos entrées de catalogue, rendant impossible la reconstitution de l'état initial des objets.
Notre groupe d'analyse de la récupération et de la gouvernance (RAG) a mis en évidence le problème lorsqu'une requête concernant un objet sous séquestre légal a renvoyé une version expirée. Cet incident a révélé une divergence entre notre plan de contrôle et notre plan de données, les mécanismes de gouvernance n'ayant pas permis d'appliquer les politiques de conservation nécessaires. Malheureusement, la purge du cycle de vie était déjà terminée et les instantanés immuables avaient écrasé les états précédents, rendant la situation irréversible.
Il s'agit d'un exemple hypothétique ; nous ne citons pas de clients ou d'institutions figurant au classement Fortune 500 à titre d'exemples.
- fausse hypothèse architecturale
- Qu'est-ce qui a cassé en premier ?
- Leçon d'architecture générale liée à l'article « Data Lake : Pourquoi l'ETL est mort : L'essor des architectures de lac de données sans ETL »
Perspective unique tirée de « » Sous les contraintes de « Data Lake : Pourquoi l’ETL est mort : L’essor des architectures de lac de données sans ETL »
L'un des principaux enseignements de cet incident réside dans l'importance d'une articulation étroite entre les contrôles de gouvernance et la gestion du cycle de vie des données. Le manque de coordination entre les plans de contrôle et de données lors de la récupération réglementée des données entraîne souvent des risques importants de non-conformité s'il n'est pas correctement géré. Les équipes négligent fréquemment la nécessité d'une synchronisation en temps réel entre ces deux plans, ce qui peut avoir de graves conséquences.
La plupart des organisations ont tendance à mettre en œuvre des contrôles de gouvernance a posteriori, en se concentrant principalement sur l'ingestion et le stockage des données. Or, les experts s'accordent à dire qu'une gouvernance proactive doit être intégrée à l'architecture des données dès sa conception, notamment sous la pression réglementaire. Cette approche permet non seulement d'atténuer les risques, mais aussi de renforcer l'intégrité globale du lac de données.
La plupart des recommandations publiques omettent généralement l'impératif d'un suivi et d'une adaptation continus des mécanismes de gouvernance face à l'évolution des données. Cette lacune peut engendrer d'importants manquements à la conformité et des dysfonctionnements opérationnels.
| Test EEAT | Ce que font la plupart des équipes | Ce qu'un expert fait différemment (sous la pression réglementaire) |
|---|---|---|
| Quel facteur donc ? | Mettre en œuvre la gouvernance comme processus secondaire | Intégrer la gouvernance dans l'architecture de base |
| Preuves d'origine | S'appuyer sur des audits périodiques | Utilisez la surveillance et les alertes en temps réel |
| Delta unique / Gain d'information | Prioriser l'efficacité du stockage des données | Prioriser l'alignement en matière de conformité et de gouvernance |
Références
- NISTSP 800-53 – Établit des contrôles pour la gouvernance et la conformité des données.
- – Fournit des lignes directrices pour la gestion des risques liés à la sécurité de l'information.
AVERTISSEMENT : LE CONTENU, LES POINTS DE VUE ET LES OPINIONS EXPRIMÉS DANS CE BLOG SONT LA RESPONSABILITÉ EXCLUSIVE DES AUTEURS ET NE REFLÈTENT PAS LA POLITIQUE OU LA POSITION OFFICIELLE DE SOLIX TECHNOLOGIES, INC., DE SES SOCIÉTÉS AFFILIÉES OU DE SES PARTENAIRES. CE BLOG EST EXPLOITÉ DE MANIÈRE INDÉPENDANTE ET N'EST NI RÉVISÉ NI APPROUVÉ PAR SOLIX TECHNOLOGIES, INC. À TITRE OFFICIEL. TOUTES LES MARQUES, LOGOS ET DOCUMENTS PROTÉGÉS PAR LE DROIT D'AUTEUR TIERS MENTIONNÉS DANS CE BLOG APPARTIENNENT À LEURS PROPRIÉTAIRES RESPECTIFS. TOUTE UTILISATION EST STRICTEMENT À DES FINS D'IDENTIFICATION, DE COMMENTAIRE OU ÉDUCATIVES CONFORMÉMENT À LA DOCTRINE DE L'US FAIR USE (US COPYRIGHT ACT § 107 ET ÉQUIVALENTS INTERNATIONAUX). AUCUN PARRAINAGE, AUCUNE APPROBATION OU AFFILIATION AVEC SOLIX TECHNOLOGIES, INC. N'EST IMPLICITE. LE CONTENU EST FOURNI « EN L'ÉTAT », SANS GARANTIE D'EXACTITUDE, D'EXHAUSTIVITÉ OU D'ADÉQUATION À UN USAGE PARTICULIER. SOLIX TECHNOLOGIES, INC. DÉCLINE TOUTE RESPONSABILITÉ POUR LES ACTIONS PRISES SUR LA BASE DE CE MATÉRIEL. LES LECTEURS ASSUMENT L'ENTIÈRE RESPONSABILITÉ DE LEUR UTILISATION DE CES INFORMATIONS. SOLIX RESPECTE LES DROITS DE PROPRIÉTÉ INTELLECTUELLE. POUR SOUMETTRE UNE DEMANDE DE RETRAIT DMCA, ENVOYEZ UN E-MAIL À INFO@SOLIX.COM AVEC : (1) L'IDENTIFICATION DE L'ŒUVRE, (2) L'URL DU MATÉRIEL CONTREFAÇANT, (3) VOS COORDONNÉES ET (4) UNE DÉCLARATION DE BONNE FOI. TOUTE RÉCLAMATION VALIDE RECEVRA UNE EXAMEN RAPIDE. EN ACCÉDANT À CE BLOG, VOUS ACCEPTEZ CET AVIS DE NON-RESPONSABILITÉ ET NOS CONDITIONS D'UTILISATION. CE CONTRAT EST RÉGI PAR LES LOIS DE LA CALIFORNIE.
-
PublicationArchitecture de l'information d'entreprise pour l'IA générale et l'apprentissage automatique
Télécharger le livre blanc -
-
-
PublicationIntelligence d'entreprise : construire les bases du succès de l'IA
Télécharger le livre blanc
