Il tassello mancante nella governance dell'intelligenza artificiale: combattere i pregiudizi in entrata e in uscita
8 minuti di lettura

Il tassello mancante nella governance dell'intelligenza artificiale: combattere i pregiudizi in entrata e in uscita

Se hai ascoltato il mio recente podcast (Gestire l'innovazione e la fiducia nell'era dell'intelligenza artificiale) con Kim Basile, Chief Information Officer di Kyndryl, saprete che mi piace lavorare con gli acronimi. Osservando il mondo in rapida espansione dell'intelligenza artificiale, aziende e dirigenti stanno sperimentando la cosiddetta FOMO (Fear Of Missing Out). Poiché Kyndryl è il più grande fornitore al mondo di servizi di infrastruttura IT, Kim ha sicuramente riconosciuto che la FOMO è reale, sia per Kyndryl che per i suoi clienti. La percezione (la realtà?) è che se non si è nel settore dell'intelligenza artificiale, la propria azienda sta rimanendo indietro.

Ho parlato anche con Kim di un secondo acronimo legato all'IA: FOMU, ovvero Fear Of Messing Up. Credo che questo sia un elemento ancora più importante per lanciare con successo iniziative di IA. Kim ha parlato a lungo della governance necessaria per gestire correttamente i progetti di IA e per costruire un clima di fiducia interfunzionale. Non si tratta di una sola persona responsabile della governance, ma di un team di supervisione leader che garantirà l'adozione delle opportune misure di sicurezza, e i progetti di IA sono come qualsiasi altro sforzo gestito all'interno delle aziende.

Se sei su LinkedIn e hai contatti nel settore tecnologico, avrai sicuramente visto post che fanno riferimento allo studio del MIT in cui "il 95% delle organizzazioni non ha riscontrato alcun ritorno nonostante gli investimenti aziendali da 30 a 40 miliardi di dollari in GenAI" da articoli come questo (Gli investimenti nell'intelligenza artificiale hanno portato a rendimenti pari a zero per il 95% delle aziende nello studio del MIT). Considerando tutto il clamore e gli investimenti associati, si tratta di una statistica allarmante. Ma perché?

Sono certo che la paura di perdersi (FOMO) e l'immersione in iniziative di IA senza una pianificazione e una governance approfondite siano parte del problema. Ritengo anche che non prestare sufficiente attenzione alla FOMU in questi progetti abbia portato al mancato raggiungimento del successo. Ma credo che ci sia un altro acronimo che sta contribuendo al mancato successo dell'IA come previsto: BIBO, ovvero Bias In Bias Out. Questo può essere applicato alle fonti di dati selezionate per l'addestramento dei modelli e ai prompt associati utilizzati per ottenere risultati dai modelli: i bias nei sistemi causano problemi che portano a fallimenti.

Cosa si può fare per ridurre al minimo il BIBO e puntare a sistemi di intelligenza artificiale privi di pregiudizi?

Innanzitutto è importante comprendere l'ampia varietà di distorsioni che possono essere introdotte nei sistemi di intelligenza artificiale. Questo articolo (Distorsione dell’IA: esplorazione di modelli decisionali algoritmici discriminatori e applicazione di possibili soluzioni incentrate sulle macchine adattate dall’industria farmaceutica – PMC) fa un ottimo lavoro nell'identificare i principali tipi di pregiudizio:

  • Pregiudizio storico
  • Bias di rappresentazione
  • Bias di misurazione
  • Bias di valutazione
  • Paradosso di Simpson (bias del sottogruppo)
  • Bias di campionamento
  • Bias di produzione di contenuti
  • Bias algoritmico

È necessario stabilire set di dati che non siano distorti e che non producano un insieme predeterminato di risultati. La creazione di una base dati adeguata inizia con audit approfonditi dei set di dati di training per identificare lacune di rappresentazione, disuguaglianze storiche e campioni distorti prima di iniziare lo sviluppo del modello. L'obiettivo è semplice: eliminare i bias fin dall'inizio. Implementare strategie di data sourcing diversificate che ricerchino attivamente prospettive e casi d'uso sottorappresentati, anziché affidarsi a set di dati facilmente accessibili o convenienti.

Dall'articolo sopra citato, "Gli algoritmi si basano sui dati e i loro risultati tendono a essere validi tanto quanto i dati forniti ed etichettati, quanto il modo in cui vengono concepite le formulazioni matematiche. Anche in un modello di apprendimento automatico non supervisionato che lavora con dati grezzi, la macchina potrebbe individuare modelli sociali discriminatori e replicarli".

Un esempio di "bias di rappresentazione" menzionato nell'articolo risale ai primi tempi di adozione diffusa dell'intelligenza artificiale. Amazon ha sviluppato un modello di intelligenza artificiale per esaminare, analizzare e valutare automaticamente il background delle persone che si candidavano per l'azienda. Tuttavia, dopo aver utilizzato questo sistema per circa un anno, si sono resi conto che attribuiva una valutazione molto più alta agli uomini rispetto alle donne (Approfondimento – Amazon elimina lo strumento segreto di reclutamento basato sull’intelligenza artificiale che mostrava pregiudizi nei confronti delle donne | Reuters). Il modello è stato addestrato sui dati relativi alle assunzioni degli ultimi 10 anni, ampiamente dominati dagli uomini. In sostanza, il modello si è auto-addestrato, ritenendo che i candidati maschi fossero "migliori". Questo modello non riusciva a tenere il passo con i ruoli tecnologici e con una forza lavoro che stava diventando sempre più popolare tra le donne.

Esiste un rischio reale di natura legale e finanziaria per le aziende se anche nelle azioni e nei risultati basati sull'intelligenza artificiale si manifestano pregiudizi. La piattaforma di risorse umane Workday è stata citata in giudizio perché il suo sistema di tracciamento delle candidature (ATS) ha mostrato pregiudizi nei confronti dei candidati più anziani (https://styledispatch.com/the-hidden-ageism-in-ai-hiring-tools/). I modelli di intelligenza artificiale analizzano i background con lacune nel curriculum, utilizzando una terminologia obsoleta e date di laurea (che possono risalire all'età) che potrebbero creare uno svantaggio per i candidati più esperti (ovvero più anziani).

Come ha accennato Kim nel nostro podcast, gestire le iniziative di IA con esperti interfunzionali può aiutare a supportare diverse prospettive e ridurre la possibilità che vengano introdotti pregiudizi. È consigliabile facilitare esercizi in cui i membri del team mettano in discussione le ipotesi e cerchino punti ciechi nella progettazione dei modelli, nell'acquisizione dei dati e nell'implementazione. Sebbene alcuni stakeholder possano esitare a partecipare perché l'IA sembra troppo tecnica, il contributo di membri del team non tecnici è spesso essenziale per individuare set di dati distorti e prompt problematici.

Test rigorosi, validazioni e governance continua saranno fondamentali per stabilire e mantenere sistemi di intelligenza artificiale privi di bias. Sviluppare protocolli di rilevamento dei bias che testino le prestazioni dei modelli su diversi gruppi demografici, casi d'uso e condizioni limite prima dell'implementazione. Implementare sistemi di monitoraggio continuo che tengano traccia delle disparità nelle prestazioni dei modelli in produzione, facilitando revisioni periodiche da parte dei team di governance.

Tutto ruota attorno a quella pronta, pronta, pronta... ottimizzazione

Poiché gli utenti finali cercano di utilizzare LLM appositamente formati tramite interfacce in linguaggio naturale simili a ChatGPT, il tipo e il modo in cui si formulano i prompt possono produrre risultati significativamente diversi. Di recente ho avuto una discussione interna con un collega sulla denominazione di un particolare prodotto. Avevo ricevuto feedback esterni secondo cui il nome che avevamo scelto poteva essere migliorato. Il mio collega si è rivolto a ChatGPT e ha ottenuto risultati che evidenziavano perché il nome utilizzato fosse valido. Mi sono rivolto a Claude e ho cercato di creare un prompt il più neutro possibile, preparando il terreno per la domanda, fornendo alcuni dettagli sul prodotto, le nostre due opzioni per i nomi e chiedendogli di scegliere quello migliore per il mercato. Claude mi ha consigliato di usare l'altro nome che stavamo considerando.

Nessuno dei due risultati era "giusto" o "sbagliato". Solo risultati completamente diversi in base ai prompt. Ho davvero creato un prompt il più neutro possibile? Non esattamente. Ho omesso di includere alcuni attributi del prodotto che supportano la denominazione attuale. Sono tornato da Claude, ho incluso il prompt originale, ho aggiunto questi dettagli del prodotto molto rilevanti e il risultato è stato che potevamo scegliere entrambi i nomi, con alcuni pro e contro per ciascuno.

Non "guidare il testimone". Dobbiamo spiegare agli utenti come i pregiudizi inconsci nella progettazione dei prompt possano distorcere i risultati, fornendo linee guida per un linguaggio neutrale e inclusivo. Come mostrato nel mio esempio di denominazione del prodotto, se si guida il motore di intelligenza artificiale in una certa direzione, ad esempio "perché il nome attuale è valido", il motore farà proprio questo. I team di intelligenza artificiale devono creare modelli di prompt e barriere di protezione che aiutino gli utenti a evitare domande o presupposti tendenziosi che potrebbero perpetuare stereotipi o distorcere involontariamente i risultati.

Andando avanti.

Il percorso verso il successo dell'IA non consiste solo nell'evitare la FOMO o gestire la FOMU, ma anche nell'affrontare il terzo fattore nascosto che è certamente parte del 95% dei fallimenti degli investimenti in IA: BIBO, ovvero Bias In Bias Out. Dall'algoritmo di reclutamento di Amazon, orientato verso gli uomini, ai modi sottili in cui i nostri suggerimenti possono distorcere i risultati, i pregiudizi possono infiltrarsi nei sistemi di IA a ogni livello, trasformando iniziative promettenti in costosi fallimenti. La soluzione richiede la stessa rigorosa governance sostenuta da Kim Basile, ma con un'attenzione particolare alla diversificazione delle fonti di dati, all'individuazione dei pregiudizi interfunzionali e alla formazione degli utenti per creare suggerimenti neutrali che non "predicano". Le organizzazioni che padroneggiano il BIBO non solo eviteranno di essere parte di quella preoccupante statistica del 95% di fallimenti, ma sbloccheranno il vero potenziale dell'IA mentre i loro concorrenti lottano con sistemi che perpetuano gli stessi problemi per cui sono stati progettati.