Comment remplir vos lacs de données sans perdre le contrôle des données
Temps de lecture 4 minutes

Comment remplir vos lacs de données sans perdre le contrôle des données

Cet article sur les lacs de données a été initialement publié sur Forbes.

DLes lacs Ata sont désormais partout, et les services cloud facilitent grandement leur lancement. Lacs de données cloud sécurisés stockez toutes les données dont vous avez besoin pour devenir une entreprise axée sur les données. Les lacs de données décomposent les structures de données canoniques des entrepôts de données d'entreprise, permettant aux utilisateurs de mieux décrire leurs données, d'obtenir de meilleures informations et de prendre de meilleures décisions.

Les utilisateurs de lacs de données sont axés sur les données. Ils exigent des données historiques, en temps réel et en streaming en grande quantité. Ils parcourent les catalogues de données, préfèrent la recherche textuelle et utilisent analyse avancée, l'apprentissage automatique (ML) et l'intelligence artificielle (IA) pour favoriser la transformation numérique des entreprises. Mais d'où viennent exactement toutes ces données ?

La complexité de la conformité et de la gouvernance dans les lacs de données

Le remplissage des lacs de données est un processus complexe qui doit être réalisé correctement pour éviter des préparations de données coûteuses et des problèmes de conformité. Les données sont collectées de partout et leur ingestion implique de gros volumes de données provenant de l'IoT, des médias sociaux, des serveurs de fichiers et des bases de données structurées et non structurées. Un tel échange de données à grande échelle pose des défis importants en matière de disponibilité et de gouvernance des données.

Gouvernance du Big Data La gouvernance de l'information partage les mêmes disciplines que la gouvernance traditionnelle de l'information, notamment l'intégration des données, la gestion des métadonnées, la confidentialité des données et la conservation des données. Mais l'un des défis majeurs est de parvenir à une conformité et un contrôle centralisés sur les vastes volumes de données qui traversent les réseaux multicloud de lacs de données distribués.

Et il y a un sentiment d’urgence. La transformation numérique devenant une priorité, la gouvernance, la sécurité et la conformité des données doivent toujours être en place. Les lois récemment adoptées, en particulier le RGPD et le CCPA, exigent des contrôles rigoureux de la confidentialité des données, y compris le « droit à l’oubli ». Pour de nombreuses organisations, cette conformité est un véritable défi, même lorsqu’il s’agit de répondre à la question apparemment simple : « Savez-vous où se trouvent vos données ? »

Gouvernance fédérée des données

Une solution consiste à adopter un modèle de gouvernance des données fédéré. La gouvernance des données fédérées résout le dilemme entre centralisation et décentralisation. En établissant des contrôles de conformité au point d’ingestion des données, des politiques de gestion du cycle de vie des informations (ILM) peuvent être appliquées pour classer et gérer les données tout au long de leur cycle de vie. À mesure que des volumes importants de données se déplacent des bases de données et des serveurs de fichiers vers le stockage d’objets basé sur le cloud, des contrôles de conformité basés sur des politiques sont plus que jamais nécessaires.

Lacs de données Gouvernance fédérée des Big Data

Pour mettre en place une gouvernance fédérée des données, il est recommandé de normaliser les politiques et procédures de conformité dans toute l’entreprise. Une bonne gouvernance des données implique de suivre scrupuleusement les règles de l’entreprise. Les systèmes de type « se conformer ou s’expliquer » suscitent la méfiance des autorités d’audit et nécessitent un suivi rigoureux pour garantir que les mesures correctives appropriées sont appliquées de manière cohérente. Une fois que les données non conformes sont diffusées sur le réseau, il peut être impossible de les récupérer.

Lacs de données d'entreprise

Un lac de données d'entreprise est la pièce maîtresse de la structure de données interconnectée. Les lacs de données d'entreprise ingèrent des données, les préparent pour le traitement et fournissent un cadre de gouvernance des données fédéré pour gérer les données tout au long de leur cycle de vie. Des contrôles de gouvernance des données centralisés et basés sur des politiques garantissent que des données conformes sont disponibles pour les opérations décentralisées du lac de données.

Les lacs de données d’entreprise accélèrent également l’ingestion des données. Les connexions centralisées pour importer des données à partir de magasins d’objets S3 structurés, semi-structurés, non structurés et cloisonnés simplifient le contrôle de la conformité. Que les données arrivent sous la forme d’une simple « copie » ou d’une fonction de « déplacement » plus complexe (pour l’archivage), l’ingestion centralisée permet de cataloguer, d’étiqueter, de transformer et de gérer les données avec des plans ILM et de conservation. Comme les données sont classées pendant l’ingestion, la gestion centralisée de la sécurité et le contrôle d’accès deviennent également possibles.

La décision de déplacer ou de copier les données est importante. Pour de nombreuses entreprises, la croissance des données atteint des proportions critiques. Les temps de réponse sont difficiles à respecter lorsque les ensembles de données sont trop volumineux. Les processus par lots peuvent ne pas être exécutés à temps, ce qui bouleverse les plannings. Les fenêtres d'indisponibilité requises pour les mises à niveau du système peuvent nécessiter une extension. Les coûts de stockage augmentent et les processus de reprise après sinistre deviennent encore plus difficiles. Un processus de déplacement purge les données à la source, soulageant ainsi la pression sur les performances des systèmes de production, tandis qu'un processus de copie augmente les exigences en matière d'infrastructure en doublant la quantité de données à traiter.

Conclusion

Ainsi, lorsque des lacs de données sont déployés au sein de votre organisation, n’oubliez pas que leur remplissage peut être la partie la plus difficile. Un lac de données d’entreprise doté d’un modèle de gouvernance fédéré du Big Data établit un système plus fiable de conformité centralisée et permet aux lacs de données décentralisés de prospérer.