Une meilleure IA avec moins de données : comment les données spécifiques à un domaine peuvent surpasser les grands ensembles de données
Temps de lecture 8 minutes

Une meilleure IA avec moins de données : comment les données spécifiques à un domaine peuvent surpasser les grands ensembles de données

Seulement 15 % de tous les projets d’IA réussir dans la production, tandis que les enquêtes montrent que retour sur investissement moyen des implémentations d'IA au sein de l'entreprise est un maigre 1.3%[1]. Bien que ces statistiques soient aussi alarmantes que possible, elles soulèvent la question de savoir pourquoi tant d’organisations continuent d’investir des ressources (argent, heures de travail et calcul) dans la collecte de données et le développement de modèles sans disposer d’un chemin clair pour justifier le retour sur investissement.

Ne vous méprenez pas. Chez Solix, nous connaissons le potentiel de transformation que l'IA peut apporter si elle est bien utilisée. Cependant, voici en quoi notre thèse sur une IA réussie diffère. Fondamentalement, nous croyons plus de données n'est pas toujours mieux–la clé est d’avoir le des ensembles de données corrects, de haute qualité et en quantité suffisanteSi vous investissez des données de mauvaise qualité (et des sommes importantes) dans un projet sans stratégie claire ni pertinence, vous obtiendrez des résultats décroissants. Idéalement, un graphique linéaire illustrant la précision du modèle en fonction de la taille de l'ensemble d'entraînement doit montrer une tendance à la hausse jusqu'à atteindre un point de rendement décroissant. En pratique, même le doublement de la taille des données après un certain point pourrait probablement entraîner une augmentation de la précision de quelques points de pourcentage seulement.

Loi des rendements décroissants en IA

J'aimerais comparer l'IA à l'économie classique. Comme l'explique la loi de l'utilité marginale décroissante, l'utilité de chaque unité supplémentaire diminue à mesure que la consommation augmente, jusqu'à atteindre un état d'équilibre où toute augmentation supplémentaire se traduit par une utilité marginale nulle, voire négative.

L'IA est très similaire. Chaque point de données supplémentaire augmente considérablement la précision dès les premières étapes de l'entraînement d'un modèle. À mesure que le volume de données augmente, cet effet s'atténue. davantage de données n'apportent pas nécessairement de nouvelles perspectives sur la meilleure façon de modéliser le problème.

Par exemple, lors de l'entraînement d'un modèle de classification d'images, augmenter le nombre d'images étiquetées et étiquetées de 100 à 1,000 50,000 peut améliorer considérablement la précision du modèle. En revanche, passer de 100,000 100 à XNUMX XNUMX images ne permettra probablement pas d'obtenir une augmentation de XNUMX % de la précision du modèle. Si la capacité du modèle est limitée, lui fournir trop de données peut même légèrement nuire à ses performances, car le modèle risque de sur-adapter le bruit plutôt que le signal. Les modèles d'IA et de machine learning ont leurs « points de convergence », au-delà desquels tout gain de volume entraînerait une amélioration des performances limitée. Selon la complexité du modèle, certains modèles atteignent ce palier plus rapidement que d'autres, adaptés à des cas d'utilisation plus complexes.

Bien que, dans la plupart des cas, il soit très rare de gérer un volume excessif de données, la collecte inutile de données aléatoires peut néanmoins s'avérer coûteuse. Au-delà du volume, le contenu des données est bien plus important.

Qualité vs Quantité : les données spécifiques au domaine gagnent !

L'expression populaire – « Entrée poubelle, sortie poubelle », lorsqu'il est appliqué à l'IA, devient « garbage-in, garbage-squared »Cela souligne que l'utilisation de données bruitées, non pertinentes ou non représentatives ne permet pas d'obtenir des informations utiles et peut même être trompeuse. En pratique, des données propres, étiquetées et spécifiques à un domaine surpassent souvent un corpus générique.

Les données contextuelles sont plus performantes que les volumes. Même si les volumes sont nettement plus faibles, les données reflétant directement la tâche seront plus performantes qu'un modèle largement entraîné à partir de données récupérées sur Internet. Les entreprises souhaitant mettre en œuvre l'IA pour résoudre un problème spécifique pourraient avoir intérêt à construire un « modèle de langage compact » avec des données spécifiques au domaine. Cela contribuerait à accroître la précision et le retour sur investissement spécifiques au domaine. Les entreprises qui créent des modèles personnalisés doivent se poser les questions suivantes : « Ces données représentent-elles vraiment le domaine et le problème à résoudre ? ». Dans le cas contraire, affiner les ensembles de données peut s’avérer plus utile que de simplement ajouter davantage de données.

Définir votre portée : comment décider des données dont vous avez besoin ?

Tout projet d'IA doit commencer par une définition exhaustive de son périmètre et de ses indicateurs de réussite. Les données nécessaires dépendent des éléments suivants :

  • Complexité du cas d'utilisation/du problème :Quelle est la complexité du problème que vous essayez de résoudre ? Pour une régression logistique simple, cela pourrait nécessiter un échantillon de données de 1000 10000 à XNUMX XNUMX exemples, tandis que des applications comme le questionnement en domaine ouvert ou la création d'un service de taxi autonome comme celui de Waymo nécessiteraient des échantillons très importants, se chiffrant en millions.
  • Capacité et type du modèleVous peaufinez un modèle de langage restreint et spécifique à un domaine ou vous construisez le prochain grand LLM basé sur des transformateurs ? Les modèles de langage restreint (SLM) spécifiques à un domaine peuvent être très précis, grâce à la qualité des données d'entraînement. À l'inverse, un modèle plus volumineux nécessiterait beaucoup plus de données.
  • Risques commerciaux associés et retour sur investissementÊtes-vous dans un secteur hautement réglementé ? Avez-vous sécurisé vos données sensibles et vos informations personnelles identifiables ? Votre modèle d'IA dispose-t-il de contrôles d'accès adéquats pour empêcher tout accès non autorisé ? Quelles sont les pertes potentielles en cas d'erreurs dans votre modèle ? Pour des secteurs comme la santé et les services financiers, il est essentiel de disposer de données de validation supplémentaires pour éviter les erreurs de modèle tout en garantissant la conformité aux réglementations en vigueur.

Obtenir plus de valeur à partir de moins de données

Grâce aux progrès technologiques, les équipes d'IA disposent désormais d'outils et de techniques plus performants que la collecte de données par force brute. Voici quelques méthodes qui peuvent vous aider à optimiser la valeur des ensembles de données dont vous disposez déjà :

  • Créer une couche sémantique avec un contexte structuré :Connaître les données dont vous disposez est essentiel à la réussite de tout projet d'IA. De nombreuses organisations, grandes ou petites, ont collecté d'énormes quantités de données au fil des ans, souvent avec un contexte métier clair, voire inexistant. Ajouter une couche sémantique à vos données peut vous aider à identifier les données obscures et permettre aux modèles d'IA et de machine learning d'interpréter les données plus intelligemment. Au lieu de se contenter d'analyser des tables plates, votre modèle peut désormais comprendre les relations entre les ensembles de données, la logique métier et les contraintes.
  • Apprentissage actif et classification intelligente des donnéesLaissez votre modèle décider quelles données étiqueter ensuite. L'apprentissage actif se concentre sur les échantillons les plus informatifs, généralement dans les domaines où le modèle est le moins fiable. En combinant cela à une classification intelligente des données, vous pouvez regrouper et organiser les données en fonction de leur pertinence, de leur nouveauté et de leur sensibilité. Cela vous permet de concentrer vos efforts d'étiquetage tout en simplifiant le processus d'étiquetage des ensembles de données, en définissant le contenu, le moment et la raison de leur étiquetage, garantissant ainsi la valeur ajoutée de chaque annotation.
  • Transfert d'apprentissageDans la plupart des cas, entraîner un modèle de langage à partir de zéro peut s'avérer peu pratique et très gourmand en ressources. Au lieu de cela, partir d'un modèle disponible dans le commerce et l'ajuster en fonction des besoins de votre entreprise permet de réduire la quantité de données étiquetées nécessaire pour atteindre des performances de qualité professionnelle.
  • Génération de données synthétiquesPour les cas d'usage spécifiques, la collecte d'ensembles de données pertinents peut s'avérer complexe. Les organisations peuvent alors générer des ensembles de données synthétiques reproduisant les caractéristiques originales de leur domaine. Cette approche peut permettre de lancer des prototypes précoces ou de compléter des cas rares et marginaux afin d'obtenir l'approbation initiale des parties prenantes.

Réflexions de clôture

Il ne s’agit pas de plus de données, mais d’avoir accès aux bonnes données !

Comme souligné tout au long de ce blog, la qualité de vos données est bien plus importante que leur quantité. L'essentiel est de se concentrer sur le développement de produits de données adaptés à l'entreprise et aux cas d'utilisation, propres, étiquetés et spécifiques au domaine. La stratégie de données pour l'IA doit toujours être centrée sur la complexité des cas d'utilisation, les besoins de calcul, le choix du modèle et les indicateurs de réussite commerciale. Définir ces éléments permettrait aux entreprises d'établir une feuille de route claire pour assurer le succès de l'IA.

Un autre aspect important à prendre en compte concerne les pratiques de conformité globales mises en œuvre dans l'entreprise. Disposer de garde-fous adéquats en matière de conformité et de gouvernance des données est presque aussi crucial que tout ce qui a été évoqué précédemment. La conformité et la gouvernance des données pour l'IA étant extrêmement complexes, elles méritent une discussion distincte que je compte aborder dans mon prochain article. Restez connectés !

Chez Solix, nous permettons aux entreprises axées sur les données d'optimiser leurs ressources de données. IA d'entreprise Solix Suite, nous fournissons des solutions complètes pour la mise en scène des données, le développement de produits de données spécifiques au domaine et prêts pour l'entreprise, et la mise en place d'une gouvernance alimentée par l'IA à grande échelle.

Classification intelligente des données Solix, élément clé de la suite Solix EAI, est une couche sémantique intelligente qui permet de définir des règles métier, d'enrichir les métadonnées, d'améliorer le contexte et de redécouvrir les données. Grâce à Solix IDC, les entreprises peuvent étiqueter automatiquement les ensembles de données avec des métadonnées enrichies par l'IA et les classer en fonction de leur pertinence, de leur sensibilité et de leurs exigences de conformité.

Si vous avez trouvé cela intéressant, veuillez contactez-nous pour planifier une séance pour en savoir plus sur la manière dont Solix peut vous aider à améliorer votre stratégie de données existante.


[1] https://www.equalexperts.com/blog/tech-focus/ive-spent-1million-on-data-scientists-why-arent-i-seeing-a-return-on-my-investment/#:~:text=using%20cutting,generate%20a%20profit%20at%20all