Pourquoi l'archivage d'entreprise hiérarchisé est l'application phare d'Hadoop
Temps de lecture 3 minutes

Pourquoi l'archivage d'entreprise hiérarchisé est l'application phare d'Hadoop

Les recherches suggèrent que 70 % des déploiements Hadoop échoueront cette année. Cette stratégie infaillible vous aidera à gérer vos données et à surmonter les obstacles.

A Selon un récent rapport de Gartner, 70 % des déploiements Hadoop en 2018 ne parviendront pas à atteindre les objectifs clés, en raison de difficultés liées aux compétences et à l'intégration. Apparemment, de nombreuses organisations se lancent dans des projets Hadoop mais ne parviennent pas à les mettre en production, car elles ne disposent pas d'une feuille de route claire ni des compétences nécessaires pour les mener à bien, ce qui finit par devenir des projets personnels.

Déploiements Hadoop en 2018

Cela m’a fait réfléchir à quelque chose : les entreprises détiennent beaucoup de données, dont 80 % sont inactives (une autre statistique de Gartner). Quelle meilleure application que l’archivage/la suppression de ces données dans un référentiel Big Data ? Étant donné que les référentiels Big Data peuvent être construits à partir de stockage de base, de calcul et de logiciels open source, ils offrent un retour sur investissement immédiat, ce qui en fait une solution facile à vendre pour la haute direction et à déployer.

L'archivage d'entreprise est une bonne pratique de gestion du cycle de vie des informations et une stratégie d'ingestion de données permettant de distribuer vos données en niveaux accessibles, en fonction de l'importance, de l'âge ou des exigences de conformité des données. Cette capacité est rendue possible par le puissant système de fichiers HDFS de Hadoop. Bien que les données et les besoins de chaque organisation diffèrent, un bon point de départ pour un système d'archivage d'entreprise consiste à le baser sur les niveaux suivants, idéalement répartis sur des infrastructures informatiques hybrides et multicloud :

– Niveau Data Lake : pour les données actives qui doivent être consultées fréquemment.

– Niveau d’archivage : pour les données qui doivent être complètement découplées de l’environnement de production, utile pour les projets d’analyse de Big Data et de science des données.

Meilleures pratiques en matière de gestion du cycle de vie de l'information

Conçu pour le matériel de base à faible coût

Étant donné que Hadoop est conçu pour le matériel grand public, le déploiement de l'archivage d'entreprise sur des services cloud tels que S3 en fait un moyen extrêmement rentable de stocker vos données. Au-delà de l'archivage, vous pouvez étendre la même fonctionnalité à Enterprise Data Lake et ouvrir la plateforme aux analyses pour prédire et prévenir les problèmes, plutôt que de répondre aux problèmes. Cela crée de nouvelles opportunités pour vos data scientists de faire des choses qui n'étaient tout simplement pas possibles auparavant.

Mais l'archivage d'entreprise ne doit pas être un moyen d'atteindre un objectif, il s'agit simplement de la base sur laquelle commencer à monétiser et à organiser vos données. Plus important encore, c'est la feuille de route des applications que vous créez qui déterminera le succès de votre projet Hadoop. Et il est tout aussi important de mettre en œuvre un processus de gouvernance des informations approprié parallèlement à votre archivage d'entreprise.

La base de chaque projet Hadoop

Cependant, la mise en œuvre d’un archivage d’entreprise hiérarchisé comme base de votre prochain projet Hadoop dès le début du processus d’ingestion des données est essentielle pour garantir la stabilité, la sécurité et l’organisation de vos données. Une fois les données intégrées, l’archivage d’entreprise peut aider à créer des applications pour résoudre des problèmes tels que le RGPD, les plateformes de services partagés, et bien plus encore. Et cela est particulièrement évident lorsque vous décidez de mettre votre projet en production, où le volume, la variété et la vitesse futurs des données entrantes sont inconnus, ce qui a un impact sur les performances, les coûts et la disponibilité.

En savoir plus sur Solix Enterprise Archiving ici.

En savoir plus sur la plateforme de données commune Solix ici.