3 idées fausses courantes sur les lacs de données
TLe data lake d’entreprise a largement dépassé ses débuts : plus d’un quart des entreprises disposent d’un data lake en production. Cependant, avec la maturité, de nouvelles découvertes, critiques et idées fausses sur le data lake s’ajoutent des titres tels que « Les data lakes devront démontrer leur valeur commerciale ou disparaître ».
La plupart des critiques sur les lacs de données sont tout simplement fausses. Je suis donc ici pour rétablir les faits en démystifiant trois idées fausses courantes sur les lacs de données :
Ils remplacent les entrepôts de données
Certaines personnes appellent lacs de données La prochaine génération d'entreposage de données, ou simplement l'entrepôt de données 2.0, n'est pas du tout la même. Bien que ces deux technologies soient à la base des référentiels de stockage de données capables de traiter, de manipuler et de sécuriser les données, elles sont toutes deux destinées à des fins différentes et sont donc plus efficaces lorsqu'elles coexistent.
La différence essentielle est que les lacs de données peuvent stocker tous les types de données, qu’elles soient structurées, non structurées ou semi-structurées, tandis que les entrepôts de données ne peuvent stocker que des données structurées. En termes simples, James Dixon, directeur technique de Pentaho (à qui l’on doit le nom de « lac de données »), a déclaré : « Un datamart ou un entrepôt de données s’apparente à une bouteille d’eau – nettoyée, conditionnée et structurée pour une consommation facile – alors qu’un lac de données s’apparente davantage à une étendue d’eau dans son état naturel. »
Parce que les lacs de données sont destinés à stocker et à traiter tous les types de données, ils sont idéaux pour projets de science des données et d'analyse de big data, tandis que les entrepôts de données sont plus adaptés aux applications principales où la sécurité et les performances sont primordiales. Ensemble, les lacs de données et les entrepôts de données aident les entreprises à gérer leurs données et à prendre de meilleures décisions basées sur les données.
Les lacs de données ne sont pas sécurisés
En voici un autre à ajouter à la liste des idées fausses sur les lacs de données : la principale comparaison entre les lacs de données et les entrepôts de données est la sécurité. Alors que les entrepôts de données existent depuis plus longtemps et sont considérés comme beaucoup plus matures pour sécuriser les données, les lacs de données peuvent être tout aussi sécurisés. La clé ne réside pas dans la technologie, mais plutôt dans la stratégie globale de gestion des données.
Pour sécuriser votre lac de données, vous devez comprendre le pipeline du lac de données, de l'ingestion à l'analyse, et mettre en œuvre les stratégies appropriées de gouvernance et de sécurité des données il se doit !
Les lacs de données finissent par devenir des « marécages de données »
Étant donné que les lacs de données ingèrent tous les types de données, les organisations craignent souvent que leurs lacs de données ne se transforment en « marécages de données », c’est-à-dire en d’énormes référentiels remplis de données désorganisées et mal gérées. La clé pour éviter un marécage de données est de garantir la mise en œuvre appropriée d’une solution complète Gestion du cycle de vie des informations stratégie pour votre lac de données.
Utiliser des outils pour garantir que les données peuvent être classées lors de leur ingestion ou de leur création et que les politiques de conservation appropriées sont appliquées jusqu'à chaque enregistrement. Cela garantit que les données ne sont pas conservées au-delà de leur utilité et que leur purge du système est entièrement contrôlée lors de leur suppression. Outre la conservation des données, le lac de données doit être configuré pour prendre en charge la « hiérarchisation des données » afin de permettre aux entreprises de stocker leurs données dans la couche adaptée à leur utilisation et à leur durée de vie à long terme.
Les CDP de Solix établi d'objets et atelier de gouvernance des données sont conçus avec tous les outils de gestion du cycle de vie des informations nécessaires pour empêcher votre lac de données de se transformer en un marais de données, en préparant mieux vos données pour des tâches avancées telles que l'analyse de Big Data, l'apprentissage automatique et l'intelligence artificielle.
Conclusion
Tout comme l’adoption de toute autre technologie dans l’entreprise, la mise en œuvre réussie d’un lac de données ne se limite pas à « si vous le construisez, ils viendront »Pour qu’un lac de données réussisse, les entreprises doivent créer une stratégie de gestion des données approfondie et, heureusement, de nombreuses solutions sont facilement disponibles pour les aider à y parvenir.

