Lepší umělá inteligence s menším množstvím dat: Jak mohou doménově specifická data překonat velké datové sady
Pouze 15 % všech projektů umělé inteligence uspět ve výrobě, zatímco průzkumy ukazují, že průměrná návratnost investic do implementací umělé inteligence v rámci podniku je slabé 1.3% I když jsou tyto statistiky střízlivé, jak jen mohou být, vyvolávají otázku, proč tolik organizací nadále investuje zdroje – peníze, pracovní dobu a výpočetní techniku – do sběru dat a vývoje modelů, aniž by měla jasnou představu o ospravedlnění návratnosti investic.
Nechápejte mě špatně. My v Solixu víme, jaký transformační potenciál může umělá inteligence přinést, pokud se provede správně. Naše teze o úspěšné umělé inteligenci se však liší v tomto. V jádru věříme, více dat není vždy lepší– klíčem je mít správné datové sady vysoké kvality a ve správném množstvíPokud do projektu bez jasné strategie nebo relevance investujete neomezená data (a spoustu peněz), skončíte jen s klesajícími výnosy. V ideálním případě by čárový graf přesnosti modelu v závislosti na velikosti trénovací sady měl vykazovat rostoucí trend, dokud nedosáhne bodu klesajících výnosů. V praxi by i dvojnásobná velikost dat po určitém bodě mohla vést ke zvýšení přesnosti jen o několik procentních bodů.
Zákon klesajících výnosů v umělé inteligenci
Rád bych si umělou inteligenci představil jako něco podobného klasické ekonomii. Jak vysvětluje zákon klesajícího mezního užitku, užitek každé další jednotky klesá s rostoucí spotřebou, dokud rovnice nedosáhne rovnovážného stavu, kde jakékoli další zvýšení vede k nulovému nebo dokonce zápornému meznímu užitku.
Umělá inteligence je na tom velmi podobně. Každý další datový bod dramaticky zvyšuje přesnost v raných fázích trénování modelu. S rostoucím objemem dat se tento efekt snižuje a více dat nemusí nutně poskytnout nové poznatky o tom, jak nejlépe modelovat problém.
Například při trénování modelu klasifikace obrázků by zvýšení počtu označených a tagovaných obrázků ze 100 na 1,000 50,000 mohlo výrazně zlepšit jeho přesnost. Pokud však přejdete z 100,000 100 na XNUMX XNUMX obrázků, pravděpodobně nedojde ke XNUMX% zvýšení přesnosti modelu. Pokud je kapacita modelu omezená, může příliš mnoho dat na něj dokonce mírně snížit výkon, protože model se může přeformulovat na šum místo signálu. Modely umělé inteligence a strojového učení mají svá „optimální místa“, za nimiž by jakékoli zvýšení objemu vedlo k méně než marginálně zlepšenému výkonu. V závislosti na složitosti modelu dosáhnou některé modely této úrovně rychleji než jiné, které slouží složitějším případům užití.
I když je ve většině případů velmi vzácné narazit na problém se správou „příliš velkého množství dat“, zbytečné shromažďování náhodných dat se stále může ukázat jako nákladné. Kromě samotného objemu je mnohem důležitější to, co je v datech obsaženo.
Kvalita vs. kvantita: Data specifická pro danou doménu vítězí!
Oblíbená fráze – „Odpadky dovnitř, odpadky ven“, při aplikaci na umělou inteligenci, se stává „odpadky uvnitř, odpadky na druhou“To zdůrazňuje, že použití zašuměných, irelevantních nebo nereprezentativních dat nepovede k užitečným poznatkům a může být dokonce zavádějící. V praxi čistá, označená a doménově specifická data často překonávají generický korpus.
Kontextová data jsou důležitější než objem. I když jsou objemy výrazně menší, data přímo odrážející daný úkol by fungovala lépe než model široce trénovaný na datech získaných z internetu. Podniky, které se snaží implementovat umělou inteligenci k řešení jednoho problému, by mohly být lepší, kdyby vytvořily „model v malém jazyce“ s daty zaměřenými na danou doménu. To by pomohlo zvýšit přesnost a návratnost investic specifickou pro danou doménu. Podniky, které vytvářejí modely na míru, si musí položit otázku: „Odpovídají tato data skutečně dané oblasti a problému, který je třeba vyřešit?“Pokud ne, může být zpřesnění datových sad hodnotnější než pouhé přidávání dalších dat.
Definování rozsahu: Jak se rozhodnout, jaká data potřebujete?
Každý projekt umělé inteligence by měl začít komplexním definováním jeho rozsahu a metrik úspěšnosti. Potřebná data by závisela na:
- Složitost případu užití/problému:Jak složitý je problém, který se snažíte vyřešit? Pro jednoduchou logistickou regresi by to mohlo znamenat vzorovou datovou sadu s 1000 až 10000 XNUMX příklady, zatímco aplikace jako otevřené dotazování nebo budování autonomní taxislužby, jako je ta od Wayma, by vyžadovaly velmi velké vzorky čítající miliony.
- Model Kapacita a typLadíte model specifický pro danou oblast, založený na malém jazyce, nebo vytváříte další velký LLM založený na transformátoru? Modely specifické pro danou oblast (SLM) v malém jazyce mohou být vysoce přesné, pokud jsou trénovací data vysoce kvalitní. Naopak, větší model by vyžadoval podstatně více dat.
- Související obchodní rizika a návratnost investicPůsobíte ve vysoce regulovaném odvětví? Zabezpečili jste citlivá data a osobní údaje? Má váš model umělé inteligence dostatečné kontroly přístupu, aby se zabránilo neoprávněnému přístupu? Jaké jsou potenciální ztráty, pokud váš model udělá chyby? V odvětvích, jako je zdravotnictví a finanční služby, byste měli mít k dispozici dodatečná ověřovací data, abyste zabránili halucinacím modelu a zároveň zajistili soulad s platnými předpisy.
Získání větší hodnoty z menšího množství dat
S pokrokem technologií mají týmy s umělou inteligencí k dispozici novější nástroje a techniky, které jim pomáhají překonat sběr dat hrubou silou. Zde je několik metod, které vám mohou pomoci zvýšit hodnotu datových sad, které již vlastníte:
- Vytvořte sémantickou vrstvu se strukturovaným kontextem:Vědět, jaká data vlastníte, je nezbytné pro úspěch jakéhokoli projektu umělé inteligence. Mnoho organizací, ať už velkých nebo malých, shromáždilo v průběhu let obrovské množství dat, často s málo nebo žádným jasným obchodním kontextem. Přidání sémantické vrstvy k vašim datům vám může pomoci identifikovat temná data a umožňuje modelům umělé inteligence a strojového učení interpretovat data inteligentněji. Místo pouhé analýzy plochých tabulek nyní váš model dokáže rozumět vztahům mezi datovými sadami, obchodní logikou a omezeními.
- Aktivní učení a inteligentní klasifikace datNechte svůj model rozhodnout, která data bude dále označovat. Aktivní učení se zaměřuje na nejinformativnější vzorky, obvykle v oblastech, kde je model nejméně jistý. Kombinací této funkce s inteligentní klasifikací dat můžete data shlukovat a organizovat na základě relevance, novosti a citlivosti. To vám pomůže soustředit se na označování a zároveň zefektivnit proces označování datových sad, kdy a proč, a zajistit tak, aby každá anotace přidávala hodnotu.
- Přenos učeníVe většině případů může být trénování jazykového modelu od nuly nepraktické a velmi náročné na zdroje. Místo toho začnete s komerčně dostupným modelem a jeho doladěním podle vašich obchodních potřeb snížíte množství označených dat potřebných k dosažení produkční kvality.
- Generování syntetických datPro specifické případy užití může být shromažďování relevantních datových sad náročné. Místo toho mohou organizace generovat syntetické datové sady, které replikují původní charakteristiky relevantní pro jejich obor. Tento přístup může pomoci nastartovat rané prototypy nebo doplnit vzácné, okrajové případy a získat tak počáteční souhlas zúčastněných stran.
Závěrečné myšlenky
Nejde o více dat, ale o přístup ke správným datům!
Jak je zdůrazňováno v celém blogu, kvalita vašich dat je mnohem důležitější než jejich kvantita. Klíčem je zaměřit se na vývoj datových produktů připravených pro daný podnik/případy užití, které jsou přehledné, označené a specifické pro danou oblast. Datová strategie pro umělou inteligenci by se měla vždy zaměřovat na složitost případů užití, výpočetní potřeby, výběr modelu a metriky obchodního úspěchu. Definování těchto údajů by podnikům umožnilo dospět k jasnému plánu, který by mohl vést k úspěchu v oblasti umělé inteligence.
Dalším důležitým aspektem, který je třeba zvážit, jsou celkové postupy v oblasti dodržování předpisů v celém podniku. Správné zásady pro dodržování předpisů a správu dat jsou téměř stejně důležité jako vše ostatní, co bylo zmíněno výše. Vzhledem k tomu, že dodržování předpisů a správa dat pro umělou inteligenci jsou velmi složité, zaslouží si samostatnou diskusi, které se chystám věnovat ve svém dalším blogu, takže zůstaňte naladěni!
V Solixu pomáháme datově orientovaným podnikům maximalizovat svá datová aktiva. Umělá inteligence Solix Enterprise V rámci našeho balíčku poskytujeme komplexní řešení pro přípravu dat, vývoj datových produktů specifických pro danou oblast a pro podniky a umožňuje správu dat s využitím umělé inteligence ve velkém měřítku.
Inteligentní klasifikace dat Solix, klíčová součást sady Solix EAI, je inteligentní sémantická vrstva, která umožňuje definovat obchodní pravidla, obohatit metadata, vylepšit kontext a znovuobjevit data. Pomocí Solix IDC mohou podniky automaticky označovat datové sady metadaty rozšířenými o umělou inteligenci a klasifikovat je na základě relevance, citlivosti a požadavků na dodržování předpisů.
Pokud vás to zaujalo, prosím kontaktujte nás pro naplánování sezení a dozvíte se více o tom, jak vám Solix může pomoci vylepšit vaši stávající datovou strategii.
