Chybějící článek v řízení umělé inteligence: Boj proti předsudkům dovnitř, předsudky ven
Pokud jste poslouchali můj nedávný podcast (Navigace v oblasti inovací a důvěry ve věku umělé inteligence) s Kim Basile, ředitelkou pro informační technologie ve společnosti Kyndryl, jistě víte, že ráda pracuji se zkratkami. Když se dívají na explodující svět umělé inteligence, podniky a manažeři zažívají FOMO – strach z toho, že něco promeškají. Vzhledem k tomu, že Kyndryl je největším světovým poskytovatelem služeb IT infrastruktury, Kim si rozhodně uvědomila, že FOMO je skutečný – pro Kyndryl a jeho zákazníky. Vnímání (realita?) je takové, že pokud nejste ve hře s umělou inteligencí, pak vaše firma zaostává.
Také jsem s Kim mluvil o druhé zkratce, která se vztahuje k AI – FOMU – strach z toho, že to zkazíme. Věřím, že to je ještě důležitější prvek pro úspěšné spuštění iniciativ v oblasti AI. Kim podrobně hovořila o správě a řízení, která je nezbytná pro řádné řízení projektů AI a pro budování mezifunkční důvěry v ně. Za správu a řízení není zodpovědná jen jedna osoba, ale vedoucí dozorčí tým, který zajistí, aby byly zavedeny správné ochranné prvky, a projekty AI jsou stejně jako jakékoli jiné řízené úsilí v rámci podniků.
Pokud jste na LinkedInu a máte kontakty v oblasti technologií, pak jste jistě viděli příspěvky odkazující na studii MIT, kde „95 % organizací zaznamenalo nulovou návratnost investic navzdory investicím podniků ve výši 30 až 40 miliard dolarů do GenAI“ z článků, jako je tento (Investice do umělé inteligence vedly k nulové návratnosti pro 95 % společností ve studii MIT). Vzhledem k veškerému humbuku a souvisejícím investicím je to děsivá statistika. Ale proč tomu tak je?
Jsem si jistý, že FOMO (strach z promeškání, chyba, něco, co by se dalo udělat) a ponořování se do iniciativ v oblasti umělé inteligence bez důkladného plánování a řízení je součástí problému. Také si myslím, že nedostatečná pozornost FOMU (strach, něco, co by se dalo udělat, aby se dosáhlo úspěchu) v těchto projektech vedla k nedosažení úspěchu. Domnívám se však, že existuje ještě jedna zkratka, která přispívá k tomu, že umělá inteligence není tak úspěšná, jak se očekávalo – BIBO (Bias In Bias Out). To lze vztáhnout na zdroje dat vybrané pro trénování modelu až po související výzvy používané k získání výsledků z modelů. Zkreslení v systémech způsobuje problémy, které vedou k selhání.
Co lze udělat pro minimalizaci BIBO a pro usilování o systémy umělé inteligence bez zkreslení?
V první řadě je důležité pochopit širokou škálu zkreslení, která lze do systémů umělé inteligence zavést. Tento článek (Zkreslení umělé inteligence: zkoumání diskriminačních algoritmických rozhodovacích modelů a aplikace možných strojově orientovaných řešení adaptovaných z farmaceutického průmyslu – PMC) skvěle identifikuje hlavní typy zkreslení:
- Historická zaujatost
- Zaujatost při zastupování
- Zkreslení měření
- Zkreslení hodnocení
- Simpsonův paradox (zkreslení podskupin)
- Vzorkování zkreslení
- Zkreslení produkce obsahu
- Algoritmické zkreslení
Je nezbytné vytvořit datové sady, které nebudou zkreslené a nepovedou k předem určené sadě výsledků. Budování správné datové základny začíná důkladnými audity trénovacích datových sad, aby se před zahájením vývoje modelu identifikovaly mezery v reprezentaci, historické nerovnosti a zkreslené vzorky. Cíl je jednoduchý: eliminovat zkreslení od samého začátku. Implementujte rozmanité strategie získávání dat, které aktivně vyhledávají nedostatečně zastoupené perspektivy a případy užití, spíše než aby se spoléhaly na snadno dostupné nebo pohodlné datové sady.
Z výše uvedeného článku se uvádí, že „Algoritmy se spoléhají na data a jejich výsledky bývají tak dobré, jako jsou poskytnutá a označená data a způsob, jakým jsou matematické formulace navrženy. I v neřízeném modelu strojového učení pracujícím se surovými daty by stroj mohl najít diskriminační společenské vzorce a replikovat je.“
Příklad „zkreslení reprezentace“ zmíněného v článku se datuje do raných dob širšího zavádění umělé inteligence. Amazon vytvořil model umělé inteligence, který automaticky kontroluje, analyzuje a hodnotí minulost jednotlivců, kteří se do společnosti ucházeli o zaměstnání. Po zhruba roce používání tohoto systému si však uvědomili, že systém hodnotí muže mnohem výše než ženy (Postřeh – Amazon ruší tajný náborový nástroj s umělou inteligencí, který vykazoval zaujatost vůči ženám | Reuters). Model byl trénován na datech o náboru za posledních 10 let – ve kterých dominovali muži. V podstatě se model sám naučil, že mužští kandidáti jsou „lepší“. Tento model nedokázal držet krok s technologickými rolemi a pracovní silou, která se stávala mnohem populárnější u žen.
Pro korporace existuje skutečné právní a finanční riziko, pokud se v činnostech a výsledcích řízených umělou inteligencí objeví zaujatost. HR platforma Workday je žalována, protože její systém sledování žádostí (ATS) vykazoval zaujatost vůči starším uchazečům (https://styledispatch.com/the-hidden-ageism-in-ai-hiring-tools/Modely umělé inteligence zkoumají minulost s mezerami v životopisech a používají zastaralou terminologii a data promoce (která mohou odvodit věk), což by mohlo znevýhodnit zkušenější (neboli starší) kandidáty.
Jak Kim zmínila v našem podcastu, řízení iniciativ v oblasti umělé inteligence s pomocí mezioborových expertů může pomoci podpořit různé perspektivy a snížit možnost zavádění zkreslení. Usnadněte cvičení, kde členové týmu konkrétně zpochybňují předpoklady a hledají slepá místa v návrhu modelu, získávání dat a implementaci. Zatímco někteří zainteresovaní se mohou zdráhat účastnit, protože se umělá inteligence jeví jako příliš technická, vstupy od netechnických členů týmu jsou často nezbytné pro odhalení zkreslených datových sad a problematických podnětů.
Důkladné testování, validace a průběžná správa budou klíčové pro zavedení a udržování systémů umělé inteligence bez zkreslení. Vyvinout protokoly pro detekci zkreslení, které testují výkon modelu v různých demografických skupinách, případech užití a okrajových podmínkách před nasazením. Implementovat systémy průběžného monitorování, které sledují rozdíly ve výkonu modelu v produkčním prostředí, a usnadňovat tak pravidelné kontroly ze strany týmů pro správu a řízení.
Všechno je to o té promptnosti, promptnosti, promptnosti… optimalizaci
Protože koncoví uživatelé chtějí využívat speciálně vyškolené LLM prostřednictvím rozhraní přirozeného jazyka podobných ChatGPT, může formulace vaší výzvy vést k výrazně odlišným výsledkům. Nedávno jsem vedl interní debatu s kolegou o názvu konkrétního produktu. Dostal jsem externí zpětnou vazbu, že název, který jsme vybrali, by se dal vylepšit. Můj kolega navštívil ChatGPT a dosáhl výsledků, které zdůraznily, proč byl použitý název dobrý. Šel jsem za Claudem a snažil se vytvořit co nejneutrálnější výzvu, připravil půdu pro otázku, uvedl některé podrobnosti o produktu, naše dvě možnosti názvů a požádal jsem ho, aby vybral nejlepší pro trh. Claude doporučil, abychom použili druhý název, který jsme zvažovali.
Ani jeden výsledek nebyl „správný“ ani „špatný“. Jen naprosto odlišné výsledky založené na výzvách. Opravdu jsem vytvořil co nejneutrálnější výzvu? Ne tak docela. Nezahrnul jsem některé atributy produktu, které podporují aktuální název produktu. Vrátil jsem se ke Claudovi, zahrnul původní výzvu, přidal tyto velmi relevantní podrobnosti o produktu a výsledek nám umožnil vybrat si kterýkoli z názvů – a uvést pro každý z nich nějaké výhody/nevýhody.
„Neveďte svědka“. Musíme uživatele proškolit v tom, jak nevědomé zkreslení v návrhu výzev může zkreslovat výsledky, a poskytnout jim pokyny pro neutrální a inkluzivní jazyk. Jak je ukázáno v mém příkladu pojmenování produktu, pokud povedete engine umělé inteligence určitým směrem, například „proč je současný název dobrý“, engine to udělá. Týmy umělé inteligence musí vytvořit šablony výzev a zábrany, které uživatelům pomohou vyhnout se sugestivní otázkám nebo předpokladům, jež by mohly udržovat stereotypy nebo neúmyslně zkreslovat výsledky.
Pohyb vpřed.
Cesta k úspěchu v oblasti umělé inteligence nespočívá jen v vyhýbání se pocitu promeškání (FOMO) nebo v řízení FOMU – jde o to, postavit se skrytému třetímu faktoru, který je jistě součástí 95 % neúspěchů investic do umělé inteligence: BIBO neboli Bias In Bias Out. Od náborového algoritmu Amazonu zaměřeného na muže až po jemné způsoby, jakými naše výzvy mohou zkreslovat výsledky, může zkreslení proniknout do systémů umělé inteligence na všech úrovních a proměnit slibné iniciativy v drahé neúspěchy. Řešení vyžaduje stejnou důslednou správu a řízení, kterou Kim Basile prosazuje, ale s laserovým zaměřením na diverzifikované získávání dat, detekci mezifunkčních zkreslení a školení uživatelů v tvorbě neutrálních výzev, které „nevedou svědka“. Organizace, které zvládnou BIBO, se nejen vyhnou tomu, aby se staly součástí této střízlivé statistiky 95% neúspěchů – odemknou skutečný potenciál umělé inteligence, zatímco jejich konkurenti se potýkají se systémy, které udržují právě ty problémy, k jejichž řešení byla navržena.
