Intelligenza artificiale migliore con meno dati: come i dati specifici di un dominio possono superare i set di dati di grandi dimensioni
8 minuti di lettura

Intelligenza artificiale migliore con meno dati: come i dati specifici di un dominio possono superare i set di dati di grandi dimensioni

Solo il 15% di tutti i progetti di intelligenza artificiale avere successo nella produzione, mentre i sondaggi mostrano che il ROI medio delle implementazioni di IA all'interno dell'impresa è un magro 1.3%[1]Sebbene queste statistiche siano sconfortanti, ci si chiede perché così tante organizzazioni continuino a investire risorse (denaro, ore di lavoro e risorse di calcolo) nella raccolta dati e nello sviluppo di modelli senza un percorso chiaro per giustificare il ROI.

Non fraintendetemi. Noi di Solix conosciamo il potenziale trasformativo che l'intelligenza artificiale può portare con sé se utilizzata correttamente. Tuttavia, ecco in cosa differisce la nostra tesi sull'intelligenza artificiale di successo. In sostanza, crediamo più dati non sono sempre meglio–la chiave è avere il set di dati giusti di alta qualità e nella quantità correttaSe si investono dati illimitati e di scarsa qualità (e molti soldi) in un progetto senza una strategia chiara o una strategia pertinente, si otterranno solo rendimenti decrescenti. Idealmente, un grafico lineare che rapporta l'accuratezza del modello alla dimensione del training set deve mostrare un andamento crescente fino a raggiungere un punto di rendimenti decrescenti. In pratica, anche raddoppiare la dimensione dei dati dopo un certo punto potrebbe probabilmente comportare un aumento di accuratezza di pochi punti percentuali.

Legge dei rendimenti decrescenti nell'intelligenza artificiale

Mi piace pensare all'intelligenza artificiale in modo simile all'economia classica. Come spiegato dalla legge dell'utilità marginale decrescente, l'utilità di ogni unità aggiuntiva diminuisce all'aumentare del consumo, fino a quando l'equazione non raggiunge uno stato di equilibrio, in cui qualsiasi ulteriore aumento si traduce in un'utilità marginale pari a zero o addirittura negativa.

L'intelligenza artificiale è molto simile. Ogni punto dati aggiuntivo aumenta notevolmente la precisione nelle fasi iniziali di addestramento di un modello. Con l'aumentare del volume dei dati, questo effetto diminuisce e più dati non forniscono necessariamente nuove intuizioni su come modellare al meglio il problema.

Ad esempio, quando si addestra un modello di classificazione delle immagini, aumentare il numero di immagini etichettate e taggate da 100 a 1,000 potrebbe migliorare significativamente l'accuratezza del modello. Tuttavia, passando da 50,000 a 100,000 immagini, è probabile che non si osservi un aumento del 100% nell'accuratezza del modello. Se la capacità del modello è limitata, l'inserimento di troppi dati può persino compromettere leggermente le prestazioni, poiché il modello potrebbe sovraadattarsi al rumore anziché al segnale. I modelli di intelligenza artificiale e apprendimento automatico hanno i loro "punti ottimali", oltre i quali qualsiasi aumento di volume si tradurrebbe in un miglioramento delle prestazioni solo marginale. A seconda della complessità del modello, alcuni modelli raggiungono questo livello più rapidamente di altri che si rivolgono a casi d'uso più complessi.

Sebbene nella maggior parte dei casi sia molto raro avere il problema di gestire "troppi dati", raccogliere dati casuali in modo dispendioso può comunque rivelarsi costoso. Oltre al volume, ciò che conta di più è il contenuto dei dati.

Qualità vs. Quantità: i dati specifici del dominio vincono!

La frase popolare – “spazzatura in entrata, spazzatura in uscita”, quando applicato all'IA, diventa “spazzatura dentro, spazzatura al quadrato”Ciò sottolinea che l'utilizzo di dati rumorosi, irrilevanti o non rappresentativi non porta a informazioni utili e può persino essere fuorviante. In pratica, dati puliti, etichettati e specifici per un dominio spesso superano un corpus generico.

I dati ricchi di contesto superano il volume. Anche se i volumi sono significativamente più piccoli, i dati che riflettono direttamente l'attività funzionerebbero meglio di un modello ampiamente addestrato su dati estratti da Internet. Le aziende che cercano di implementare l'intelligenza artificiale per risolvere un singolo problema potrebbero trarre vantaggio dalla creazione di un "modello di linguaggio di piccole dimensioni" con dati focalizzati sul dominio. Ciò contribuirebbe ad aumentare l'accuratezza specifica del dominio e il ROI. Le aziende che creano modelli personalizzati devono chiedersi: “Questi dati rappresentano veramente il dominio e il problema che deve essere risolto?”In caso contrario, potrebbe essere più utile perfezionare i set di dati piuttosto che semplicemente aggiungerne altri.

Definire il tuo ambito: come decidere di quali dati hai bisogno?

Ogni progetto di intelligenza artificiale dovrebbe iniziare con una definizione completa del suo ambito e delle metriche di successo. I dati necessari dipenderanno da:

  • Complessità del caso d'uso/problema:Quanto è complesso il problema che stai cercando di risolvere? Per una semplice regressione logistica, questo potrebbe significare un set di dati campione di 1000-10000 esempi, mentre applicazioni come l'interrogazione a dominio aperto o la creazione di un servizio di taxi autonomo come quello di Waymo richiederebbero campioni molto ampi, nell'ordine di milioni.
  • Capacità e tipo di modelloStai perfezionando un modello di linguaggio ridotto e dominio-specifico o stai costruendo il prossimo grande LLM basato su trasformatori? I modelli di linguaggio ridotto (SLM) dominio-specifici possono essere altamente accurati, a condizione che i dati di training siano di alta qualità. Al contrario, un modello più ampio richiederebbe una quantità di dati significativamente maggiore.
  • Rischi aziendali associati e ROILavori in un settore altamente regolamentato? Hai protetto dati sensibili e informazioni personali identificabili? Il tuo modello di intelligenza artificiale dispone di adeguati controlli di accesso per impedire accessi non autorizzati? Quali sono le potenziali perdite in caso di errori nel modello? Per settori come la sanità e i servizi finanziari, dovresti disporre di dati di convalida aggiuntivi per prevenire allucinazioni del modello, garantendo al contempo la conformità alle normative applicabili.

Ottenere più valore da meno dati

Con il progresso tecnologico, i team di intelligenza artificiale dispongono ora di strumenti e tecniche più recenti per superare le prestazioni della raccolta dati basata sulla forza bruta. Ecco alcuni metodi che possono aiutarti ad amplificare il valore dei set di dati che già possiedi:

  • Creare uno strato semantico con contesto strutturato:Sapere quali dati si possiedono è essenziale per il successo di qualsiasi progetto di intelligenza artificiale. Molte organizzazioni, grandi o piccole, hanno raccolto enormi quantità di dati nel corso degli anni, spesso con un contesto aziendale poco chiaro o inesistente. Aggiungere un livello semantico ai dati può aiutare a identificare i dati oscuri e consente ai modelli di intelligenza artificiale e di apprendimento automatico di interpretare i dati in modo più intelligente. Invece di limitarsi ad analizzare tabelle piatte, il modello può ora comprendere le relazioni tra set di dati, logica di business e vincoli.
  • Apprendimento attivo e classificazione intelligente dei datiLascia che sia il tuo modello a decidere quali dati etichettare successivamente. L'apprendimento attivo si concentra sui campioni più informativi, solitamente nelle aree in cui il modello è meno affidabile. Combinando questo con una classificazione intelligente dei dati, puoi raggruppare e organizzare i dati in base a pertinenza, novità e sensibilità. Questo ti aiuta a concentrare gli sforzi di etichettatura, semplificando al contempo il processo di etichettatura dei set di dati, il momento in cui vengono etichettati e il motivo per cui vengono etichettati, garantendo che ogni annotazione aggiunga valore.
  • Trasferimento di apprendimentoNella maggior parte dei casi, addestrare un modello linguistico da zero può essere poco pratico e richiedere molte risorse. Invece, partire da un modello disponibile in commercio e perfezionarlo in base alle esigenze aziendali riduce la quantità di dati etichettati necessari per ottenere prestazioni di qualità produttiva.
  • Generazione di dati sinteticiPer casi d'uso di nicchia, raccogliere set di dati pertinenti può essere difficile. Le organizzazioni potrebbero invece generare set di dati sintetici che replicano le caratteristiche originali pertinenti al loro dominio. Questo approccio può aiutare ad avviare prototipi iniziali o integrare casi rari e limite per ottenere l'approvazione iniziale degli stakeholder.

Pensieri di chiusura

Non si tratta di avere più dati, ma di avere accesso ai dati giusti!

Come sottolineato in tutto il blog, la qualità dei dati è molto più importante della quantità. La chiave è concentrarsi sullo sviluppo di prodotti dati pronti per il business/casi d'uso, puliti, etichettati e specifici per dominio. La strategia dati per l'intelligenza artificiale dovrebbe sempre concentrarsi sulla complessità dei casi d'uso, sulle esigenze di elaborazione, sulla selezione dei modelli e sulle metriche di successo aziendale. Definire questi aspetti consentirebbe alle aziende di definire una roadmap chiara che potrebbe portare al successo dell'intelligenza artificiale.

Un altro aspetto importante da considerare sono le pratiche di conformità generali seguite in tutta l'azienda. Avere le giuste misure di sicurezza in materia di conformità e governance dei dati è quasi altrettanto cruciale di tutto quanto discusso sopra. Poiché la conformità e la governance dei dati per l'IA sono estremamente complesse, meritano un approfondimento separato che ho intenzione di affrontare nel mio prossimo blog, quindi rimanete sintonizzati!

In Solix, diamo alle aziende basate sui dati gli strumenti per massimizzare le proprie risorse di dati. Con AI aziendale Solix suite, forniamo soluzioni complete per lo staging dei dati, lo sviluppo di prodotti dati specifici per il dominio e pronti per l'uso aziendale e l'abilitazione di una governance basata sull'intelligenza artificiale su larga scala.

Classificazione intelligente dei dati Solix, componente chiave della suite Solix EAI, è un livello semantico intelligente che consente di definire regole aziendali, arricchire i metadati, migliorare il contesto e riscoprire i dati. Utilizzando Solix IDC, le aziende possono etichettare automaticamente i set di dati con metadati potenziati dall'intelligenza artificiale e classificarli in base a pertinenza, sensibilità e requisiti di conformità.

Se hai trovato questo interessante, per favore contattaci per programmare una sessione per saperne di più su come Solix può aiutarti a migliorare la tua strategia dati esistente.


[1] https://www.equalexperts.com/blog/tech-focus/ive-spent-1million-on-data-scientists-why-arent-i-seeing-a-return-on-my-investment/#:~:text=using%20cutting,generate%20a%20profit%20at%20all