Hiérarchisation des données des applications d'entreprise avec Hadoop
Temps de lecture 6 minutes

Hiérarchisation des données des applications d'entreprise avec Hadoop

WAvec la transformation numérique généralisée qui se produit dans les entreprises du monde entier, chaque DSI veut savoir si son infrastructure sera en mesure de gérer la croissance des données qui en résultera. En fait, Gartner a montré dans son étude que 47 % des personnes interrogées ont classé la croissance des données comme le défi d'infrastructure n°1 pour les centres de données.

Crise de la croissance des données

Lorsque les ensembles de données deviennent trop volumineux, performance de l'application La croissance des données entraîne une augmentation des coûts, de la conformité et de la complexité à tous les niveaux, y compris au niveau des centres de données, des performances, de la disponibilité, de la maintenance et même de la conformité.

La disponibilité du système est affectée car les processus par lots ne sont plus en mesure de respecter les délais d'exécution prévus. Les « fenêtres d'interruption » nécessaires à la conversion des données pendant les cycles de mise à niveau de l'ERP peuvent s'étendre de quelques heures à quelques jours. D'autres processus critiques comme la réplication et la reprise après sinistre sont affectés car le déplacement et la copie d'un plus grand nombre de données prennent beaucoup de temps.

Si elle n’est pas contrôlée, la croissance des données peut également créer des problèmes de gouvernance, de risque et de conformité. GDPRLes normes CCPA, HIPAA, PCI DSS, FISMA et SAS 70 exigent toutes que les organisations établissent des cadres de conformité pour la sécurité et la conformité des données. Avec d'énormes quantités de données générées chaque jour et partagées régulièrement au sein de l'entreprise, il devient très difficile pour les entreprises de rester conformes aux réglementations.

Gartner a également indiqué que jusqu'à 80 % des données d'un portefeuille de production classique peuvent être inactives, ce qui entrave inutilement les performances des applications, augmente les coûts, provoque des pannes et des problèmes de conformité. Comment alors gérer les données de manière à ce que les données inactives n'encombrent pas l'infrastructure et n'aient pas d'impact sur le traitement critique ?

Statistiques de hiérarchisation des données

L'une des corrélations que nous pouvons établir est que la valeur des données est indirectement proportionnelle à leur ancienneté. En d'autres termes, les données historiques/inactives ont moins de valeur que les données plus récentes, car elles sont moins consultées et traitées. Alors pourquoi ces données inactives devraient-elles continuer à encombrer les environnements de production ?

La mise en œuvre d’une stratégie ILM efficace aidera

Gestion du cycle de vie des informations (ILM) est une bonne pratique de gestion des données pour gérer le cycle de vie des données, de leur création à leur suppression et à leur élimination.

Les objectifs de l'ILM sont :

  • Optimiser les performances des applications
  • Gérer la sécurité des données, les risques et la conformité
  • Réduire les coûts d’infrastructure
  • Réduisez le temps et les coûts de maintenance
  • Gérer la conformité des données (RGPD)
  • Analyser et générer des rapports d'analyse de données significatifs
  • Gérer les données diffusées en continu (en temps réel ou sur Twitter)
  • Préparation des données
  • Extraire, transformer et charger

ILM atteint ces objectifs en déplaçant les données vers le niveau d'infrastructure le plus approprié, en fonction des politiques de conservation telles que l'âge des données. Étant donné que les données plus anciennes sont moins fréquemment consultées, elles sont donc moins précieuses et méritent moins de bénéficier des performances et des capacités limitées du niveau 1. ILM atteint ces objectifs en déplaçant des données structurées, des documents, des fichiers, des images, des documents provenant de différentes sources telles que des bases de données, SharePoint, NFS, CIFS et des e-mails, etc.

L'infrastructure de niveau 1 est très coûteuse et peut inclure des serveurs multiprocesseurs dotés de grandes baies de mémoire flash et de réseaux de stockage à haut débit. Les données placées sur l'infrastructure de niveau 1 doivent idéalement avoir trois ans ou moins. Les données plus anciennes et moins actives doivent être attribuées à des niveaux d'infrastructure à faible coût pour réduire les coûts globaux tout en offrant un accès approprié aux données, même si ce n'est pas aux niveaux de performance de niveau 1.

Les nouvelles alternatives de stockage pour les données inactives

Apache Hadoop est un framework informatique gratuit et open source conçu pour exploiter une nouvelle infrastructure puissante et peu coûteuse à un niveau inférieur tout en offrant une évolutivité et des performances massives. Il offre des performances de charge de travail hautement évolutives et un stockage de données en masse à très faible coût. Hadoop exploite une infrastructure de base et des modèles de calcul distribués pour traiter de grands ensembles de données en parallèle sur le système de fichiers Hadoop (HDFS). Tout cela signifie que Hadoop offre des économies de coûts considérables par rapport à l'infrastructure traditionnelle de premier niveau.

Les magasins d'objets, quant à eux, peuvent aider à s'adapter à une plage de stockage de plusieurs pétaoctets et à surmonter la limitation des architectures de stockage de systèmes de fichiers traditionnels à une fraction du coût. Les magasins d'objets permettent à une organisation de stocker de grandes quantités de données sur le cloud / sur site et offrent des performances améliorées en garantissant la haute disponibilité des données. Les objets stockés sur l'objet peuvent être récupérés, visualisés et recherchés en fonction du contexte / du texte à l'aide d'outils d'analyse de Big Data.

Considérez la comparaison suivante :

Selon Monash Research, le coût d'une infrastructure de base de données de premier ordre est supérieur à 60,000 1 $ par To. Dans le même temps, 3 To de stockage de compartiments S26 chez Amazon Web Services (États-Unis Ouest - Californie du Nord) coûte XNUMX $ par mois selon leur liste de prix récenteCela signifie que Hadoop est essentiellement 64 fois moins cher que l’infrastructure de premier niveau.

Hadoop est 64 fois moins cher que l'infrastructure de niveau XNUMX

Explication de la hiérarchisation des données

Les applications d’entreprise telles que l’ERP, le CRM et le HCM représentent une excellente opportunité d’améliorer les performances et de réduire les coûts, grâce à la hiérarchisation des données d’application.

Archivage d'entreprise suit une approche ILM pour améliorer les performances et réduire les coûts en prenant en charge 3 niveaux de traitement :

Explication de la hiérarchisation des données

Les avantages de la hiérarchisation des données d'applications d'entreprise sont considérables en termes d'amélioration des performances de l'infrastructure, de réduction des coûts et de disponibilité accrue. En positionnant les données en fonction de la valeur commerciale, l'utilisation de l'infrastructure devient plus efficace tout en offrant un accès approprié.

Solix Common Data Platform – Plateforme de gestion et de hiérarchisation des données de nouvelle génération pour les organisations modernes axées sur les données

La plateforme commune de données Solix est une solution uniforme de collecte de données, de gestion de la conservation, de hiérarchisation des données et de stockage de données en masse pour les données structurées et non structurées. Solix CDP propose des applications d'archivage d'entreprise, de lac de données, de gouvernance des données et d'analyse avancée pour aider les organisations à obtenir des résultats commerciaux axés sur les données.

La CDP de Solix permet d'activer le cadre de gestion du cycle de vie des informations (ILM). Le cadre ILM permet d'archiver/de migrer les données vers un niveau approprié en fonction des règles métier, de l'âge et de la valeur des données. Il fournit également une gouvernance des données pour répondre aux objectifs de risque et de conformité et garantir le déploiement des meilleures pratiques en matière de conservation et de classification des données. Les politiques ILM et les règles métier peuvent être préconfigurées pour répondre aux objectifs de conformité aux normes du secteur ou conçues sur mesure pour répondre à des exigences plus spécifiques. Pour garantir la sécurité des données, la plateforme de données commune (CDP) de Solix découvre et classe les données sensibles, en les masquant ou en les cryptant en fonction des règles métier. L'accès basé sur les rôles est également pris en charge pour l'accès aux données au niveau de l'enregistrement.