Produits de données 101 : ce qu’ils sont, pourquoi ils sont importants, comment commencer ?
Temps de lecture 6 minutes

Produits de données 101 : ce qu’ils sont, pourquoi ils sont importants, comment commencer ?

La plupart des organisations manquent rarement de données, pourtant, on entend souvent les responsables données déclarer : « Nous gérons des pétaoctets de données, et pourtant, obtenir des informations précises prend du temps. » La plupart des équipes données ne manquent pas de données ; elles manquent de résultats fiables et réutilisables. Les signes sont partout : coûts élevés, processus lents, informations inexactes, doublons et tableau de bord encombré. Sans approches organisées et « productisées », les données brutes deviennent un fardeau, pesant souvent sur les entreprises au lieu d'améliorer leurs résultats financiers.

Qu'est-ce qu'un produit de données ?

Par définition, un produit de données est un ensemble de données organisées, fiables et documentées qui résout un problème utilisateur réel. Considérez les produits de données comme un logiciel : ils ont un propriétaire, un contrat, une version et des SLO. Les bons produits de données sont prêts à l'emploi, entièrement gouvernés et réutilisables.

Principaux attributs des produits de données

Les produits de données performants sont détectables (catalogués, étiquetés et détenus), adressables (URI stables et points de terminaison versionnés), sécurisés (accès au moindre privilège, masquage, chiffrement), compréhensibles (glossaire métier, lignage, exemples), gouvernés (politiques sous forme de code, SLA, conservation ou conservation légale) et fiables (SLO de qualité, pistes d'audit, lectures reproductibles). Ces attributs, pour les produits de données (entrées, sémantique, stockage, accès, service et documentation), sont essentiels pour créer des produits de données fiables et résilients que les consommateurs peuvent trouver, utiliser et auxquels ils peuvent faire confiance en toute confiance.

Pourquoi les produits de données sont-ils importants ?

Les produits de données organisés au sein des workflows de gestion des données permettent d'améliorer les délais de prise de décision, de réduire les risques de conformité et de dissocier les producteurs et les consommateurs de données, tout en favorisant la réutilisation des données via des contrats et une modification plus sûre grâce au contrôle des versions. Sur le plan organisationnel, cela simplifie les processus en définissant clairement la propriété et en évitant les problèmes ponctuels de gestion des données.

Anatomie d'un bon produit de données

Tout comme un logiciel bien conçu, un bon produit de données, sous le capot, comporte plusieurs couches et composants interagissant entre eux. Voici une anatomie générale des produits de données, décomposée en éléments clés :

  • Entrées de données : Chaque produit de données est associé à des données d'entrée, notamment des bases de données opérationnelles, des flux d'événements et des jeux de données tiers. Un produit de données définit clairement son mode de consommation des données d'entrée, tout en établissant un schéma, des attentes en matière de qualité des données et des accords de niveau de service (SLA) pour les échanges de données entre le producteur et le consommateur.
  • Sémantique et transformations : Il s'agit de la logique fondamentale du produit de données. Elle englobe toutes les transformations, règles métier et algorithmes appliqués aux données d'entrée, ainsi que les métadonnées, la sémantique essentielle et un glossaire métier clair avec des définitions documentées.
  • Couche de stockage et de service : Une fois transformées, où résident les données et comment les consommateurs y accèdent-ils ? Selon la complexité et le cas d'usage, cela peut se faire via des datamarts, des entrepôts, des lacs de données, voire même architectures de maisons au bord du lacLa couche de stockage doit être efficacement évolutive, à faible latence et à haut débit pour optimiser les performances et répondre aux besoins croissants d'une entreprise.
  • Gouvernance des données, sécurité et confidentialité : Tous les produits d'entreprise doivent garantir un cadre de gouvernance et de sécurité des données sous-jacent approprié. Cela inclut les contrôles d'accès, l'authentification API, les mesures de confidentialité telles que le masquage et l'obfuscation, les politiques de confidentialité intégrées pour la conservation et la suppression, et les journaux d'audit.
  • Interface d'accès : Un excellent produit de données offre de multiples interfaces pour différents utilisateurs. Par exemple, un produit de métriques peut accepter SQL, un jeu de données de machine learning peut inclure des notebooks, et des applications externes peuvent accéder aux produits de données via des API sécurisées. Les produits de données doivent disposer d'au moins une interface bien définie et rester stables ou rétrocompatibles avec leur évolution.
  • Documentation: Si personne ne comprend le contenu de vos produits de données, ils ne seront pas utilisés. Les produits de données de qualité sont soigneusement documentés et facilement accessibles. La documentation doit inclure l'objectif, le schéma, les spécifications de l'API, des exemples de requêtes, le propriétaire/les contacts et la fréquence des mises à jour. La plupart des produits de données stockent ces informations dans un catalogue de données, permettant aux utilisateurs de les découvrir par recherche.

Éléments constitutifs des produits de données

Utilisation de Solix Data Lake Plus pour créer des produits de données compatibles avec l'IA

Les clients peuvent utiliser Solix Data Lake Plus (dans le cadre de la Solix Common Data Platform (CDP)) pour créer plus rapidement des produits de données compatibles avec l'IA, car la plateforme concentre les fonctionnalités de base dont vous avez besoin en matière d'ingestion, de gouvernance et de service :

  • Ingestion unifiée pour les lots et en temps réel : Solix prend en charge les flux de données continus et le streaming en temps réel pour capturer les transactions, les événements IoT, les journaux et les flux sociaux sans attendre les lots nocturnes, qui sont essentiels pour les produits opérationnels et ML qui dépendent de signaux à faible latence.
  • Catalogue et métadonnées intégrés : Le catalogage des données et la gestion des métadonnées prêts à l'emploi vous aident à publier des interfaces détectables et documentées (schémas, propriétaires, exemples), l'épine dorsale des données produites.
  • Gouvernance, confidentialité et contrôles d’accès : Construction Plateforme de données commune Solix Fournit un glossaire métier, la découverte et le profilage des données, la classification, le masquage, les vues basées sur les rôles, les workflows et la gestion des politiques. Il simplifie l'application des contrats, la protection des informations personnelles identifiables et le respect de la conformité, tout en permettant une large réutilisation.
  • Préparation de l'IA/ML sur des bases cloud natives : CDP unifie les données structurées, semi-structurées et non structurées pour l'analyse et l'apprentissage automatique/l'IA, avec ILM pour maintenir les données actuelles et historiques conformes et disponibles pour la formation et l'évaluation des modèles.
  • Architecture de données moderne: Solix Data Lake Plus met l'accent sur l'intégration et l'ingénierie des données de bout en bout sur une plate-forme sécurisée et évolutive déployable sur des systèmes cloud, hybrides et sur site, ce qui est utile lorsque vos produits de données doivent passer du statut MVP à l'adoption à l'échelle de l'entreprise.

Réflexions de clôture

Il est crucial de se concentrer sur les données gérées par le produit. Définir clairement la propriété, les contrats, les objectifs de niveau de service (SLO), les tests et la documentation garantit des produits de données de haute qualité. Pour garantir la réussite de votre projet, commencez petit, choisissez une seule décision à fort impact, livrez un produit minimal mais performant de bout en bout, mesurez l'adoption et le délai d'obtention des informations, puis répétez-le délibérément pour réduire les risques et remplacer les tableaux de bord saturés par des données sécurisées, gouvernées, réutilisables et produites.

Des plates-formes comme Solix Data Lake Plus Les clients peuvent accélérer ce processus en unifiant l'ingestion, la gouvernance, le catalogage et l'accès. Les équipes données peuvent ainsi se concentrer sur la qualité des données plutôt que sur la gestion des pipelines.

Planifier un appel pour en savoir plus sur la manière dont Solix peut vous aider à augmenter et à amplifier votre pratique de gestion des données.