Das fehlende Puzzleteil in der KI-Governance: Bias In, Bias Out bekämpfen
8 Minuten gelesen

Das fehlende Puzzleteil in der KI-Governance: Bias In, Bias Out bekämpfen

Wenn Sie meinen letzten Podcast gehört haben (Innovation und Vertrauen im Zeitalter der KI steuern) mit Kim Basile, Kyndryls Chief Information Officer, sprechen, wissen Sie, dass ich gerne mit Abkürzungen arbeite. Angesichts der explodierenden Welt der KI erleben Unternehmen und Führungskräfte FOMO – die Angst, etwas zu verpassen. Als Kyndryl, der weltweit größte Anbieter von IT-Infrastrukturdiensten, war sich Kim darüber im Klaren, dass FOMO real ist – für Kyndryl und seine Kunden. Die Wahrnehmung (Realität?) ist: Wer nicht im KI-Geschäft mitmischt, verliert den Anschluss.

Ich habe mit Kim auch über ein zweites Akronym im Zusammenhang mit KI gesprochen: FOMU – die Angst vor dem Scheitern. Ich glaube, dass dies ein noch wichtigeres Element für den erfolgreichen Start von KI-Initiativen ist. Kim sprach ausführlich über die Governance, die für die ordnungsgemäße Verwaltung von KI-Projekten und den Aufbau funktionsübergreifenden Vertrauens in sie erforderlich ist. Nicht nur eine Person ist für die Governance verantwortlich, sondern ein führendes Aufsichtsteam stellt sicher, dass die richtigen Leitplanken vorhanden sind. KI-Projekte sind wie jedes andere verwaltete Projekt in Unternehmen.

Wenn Sie auf LinkedIn sind und Kontakte im Technologiebereich haben, dann haben Sie sicherlich Beiträge gesehen, die sich auf die MIT-Studie beziehen, in der es heißt, dass „95 % der Unternehmen trotz Unternehmensinvestitionen von 30 bis 40 Milliarden US-Dollar in GenAI keine Rendite erzielten“, wie in Artikeln wie diesem (Laut einer MIT-Studie führten Investitionen in KI bei 95 % der Unternehmen zu Nullrenditen). Angesichts des ganzen Hypes und der damit verbundenen Investitionen ist das eine beängstigende Statistik. Aber warum ist das so?

Ich bin überzeugt, dass FOMO und das Eintauchen in KI-Initiativen ohne umfassende Planung und Governance Teil des Problems sind. Ich denke auch, dass die mangelnde Berücksichtigung von FOMU in diesen Projekten zum Ausbleiben des Erfolgs geführt hat. Ich glaube jedoch, dass ein weiteres Akronym dazu beiträgt, dass KI nicht so erfolgreich ist wie erwartet: BIBO – Bias In Bias Out. Dies lässt sich auf die für das Modelltraining ausgewählten Datenquellen und die zugehörigen Eingabeaufforderungen zur Gewinnung von Modellergebnissen anwenden. Verzerrungen in den Systemen verursachen Probleme, die zu Ausfällen führen.

Was kann getan werden, um BIBO zu minimieren und vorurteilsfreie KI-Systeme anzustreben?

Zuallererst geht es darum, die große Vielfalt an Verzerrungen zu verstehen, die in KI-Systeme eingebracht werden können. Dieser Artikel (KI-Voreingenommenheit: Untersuchung diskriminierender algorithmischer Entscheidungsmodelle und Anwendung möglicher maschinenzentrierter Lösungen, adaptiert aus der Pharmaindustrie – PMC) leistet hervorragende Arbeit bei der Identifizierung der wichtigsten Arten von Voreingenommenheit:

  • Historische Voreingenommenheit
  • Repräsentationsverzerrung
  • Messabweichung
  • Bewertungsverzerrung
  • Simpsons Paradoxon (Subgruppen-Bias)
  • Sampling-Bias
  • Inhaltsproduktionsverzerrung
  • Algorithmischer Bias

Es ist notwendig, Datensätze zu erstellen, die nicht zu einem vorgegebenen Ergebnissatz verzerrt sind. Der Aufbau der richtigen Datengrundlage beginnt mit einer gründlichen Prüfung der Trainingsdatensätze, um Repräsentationslücken, historische Ungleichgewichte und verzerrte Stichproben zu identifizieren, bevor mit der Modellentwicklung begonnen wird. Das Ziel ist einfach: Verzerrungen von Anfang an zu vermeiden. Implementieren Sie vielfältige Datenbeschaffungsstrategien, die aktiv unterrepräsentierte Perspektiven und Anwendungsfälle berücksichtigen, anstatt sich auf leicht zugängliche oder praktische Datensätze zu verlassen.

Aus dem oben genannten Artikel: „Algorithmen basieren auf Daten, und ihre Ergebnisse sind in der Regel so gut wie die bereitgestellten und gekennzeichneten Daten und die Art und Weise, wie die mathematischen Formulierungen entwickelt werden. Selbst in einem unbeaufsichtigten ML-Modell, das mit Rohdaten arbeitet, könnte die Maschine diskriminierende gesellschaftliche Muster finden und diese replizieren.“

Ein Beispiel für den im Artikel erwähnten „Repräsentationsbias“ stammt aus der Anfangszeit der zunehmenden Verbreitung von KI. Amazon entwickelte ein KI-Modell, um den Hintergrund von Bewerbern automatisch zu überprüfen, zu analysieren und zu bewerten. Nach etwa einem Jahr Nutzung dieses Systems stellte das Unternehmen jedoch fest, dass Männer deutlich besser bewertet wurden als Frauen (Einblick – Amazon schafft geheimes KI-Rekrutierungstool ab, das Voreingenommenheit gegenüber Frauen zeigte | Reuters). Das Modell wurde anhand der Einstellungsdaten der letzten zehn Jahre trainiert – die überwiegend von Männern dominiert wurden. Im Wesentlichen trainierte sich das Modell selbst, dass männliche Kandidaten „besser“ seien. Dieses Modell konnte mit den technischen Rollen und der bei Frauen immer beliebter werdenden Belegschaft nicht Schritt halten.

Es besteht ein echtes rechtliches und finanzielles Risiko für Unternehmen, wenn auch bei KI-gesteuerten Aktionen und Ergebnissen Voreingenommenheit auftritt. Die HR-Plattform Workday wird verklagt, weil ihr Bewerbungsverfolgungssystem (ATS) eine Voreingenommenheit gegenüber älteren Bewerbern zeigte (https://styledispatch.com/the-hidden-ageism-in-ai-hiring-tools/). KI-Modelle betrachten Hintergründe mit Lücken im Lebenslauf und verwenden veraltete Terminologie und Abschlussdaten (aus denen sich das Alter ableiten lässt), was einen Nachteil für erfahrenere (d. h. ältere) Kandidaten darstellen könnte.

Wie Kim in unserem Podcast erwähnte, kann die Steuerung von KI-Initiativen durch funktionsübergreifende Experten dazu beitragen, unterschiedliche Perspektiven zu fördern und die Gefahr von Verzerrungen zu verringern. Fördern Sie Übungen, bei denen Teammitglieder Annahmen gezielt hinterfragen und nach blinden Flecken bei Modelldesign, Datenerfassung und Implementierung suchen. Während einige Stakeholder möglicherweise zögern, teilzunehmen, weil KI zu technisch erscheint, ist der Input von nicht-technischen Teammitgliedern oft unerlässlich, um verzerrte Datensätze und problematische Eingaben zu erkennen.

Strenge Tests, Validierung und kontinuierliche Governance sind entscheidend für die Etablierung und Aufrechterhaltung vorurteilsfreier KI-Systeme. Entwickeln Sie Protokolle zur Vorurteilserkennung, die die Modellleistung vor der Bereitstellung in verschiedenen demografischen Gruppen, Anwendungsfällen und unter Randbedingungen testen. Implementieren Sie kontinuierliche Überwachungssysteme, die Leistungsunterschiede in der Produktion erfassen und regelmäßige Überprüfungen durch Governance-Teams ermöglichen.

Es geht nur um die schnelle, schnelle, schnelle … Optimierung

Wenn Endbenutzer speziell trainierte LLMs über natürliche Sprachschnittstellen wie ChatGPT verwenden möchten, kann die Formulierung Ihrer Eingabeaufforderungen zu erheblich unterschiedlichen Ergebnissen führen. Kürzlich hatte ich eine interne Debatte mit einem Kollegen über die Benennung eines bestimmten Produkts. Ich hatte externes Feedback erhalten, dass der von uns gewählte Name verbesserungswürdig sei. Mein Kollege ging zu ChatGPT und erhielt Ergebnisse, die hervorhoben, warum der verwendete Name gut war. Ich ging zu Claude und versuchte, eine möglichst neutrale Eingabeaufforderung zu formulieren. Ich bereitete den Boden für die Frage, nannte einige Produktdetails, unsere beiden Namensvorschläge und bat das Unternehmen, den besten für den Markt auszuwählen. Claude empfahl uns, den anderen Namen zu verwenden, den wir in Erwägung zogen.

Keines der Ergebnisse war „richtig“ oder „falsch“. Es waren einfach völlig unterschiedliche Ergebnisse, die auf den Eingabeaufforderungen basierten. Habe ich wirklich eine möglichst neutrale Eingabeaufforderung erstellt? Nicht ganz. Ich habe vergessen, einige Produktattribute zu berücksichtigen, die die aktuelle Produktbenennung unterstützen. Ich ging zurück zu Claude, fügte die ursprüngliche Eingabeaufforderung hinzu, ergänzte diese sehr relevanten Produktdetails und kam zu dem Ergebnis, dass wir beide Namen wählen konnten – und einige Vor- und Nachteile für jeden.

Lassen Sie sich nicht vom „Zeugen“ beeinflussen. Wir müssen Nutzer darin schulen, wie unbewusste Voreingenommenheit bei der Gestaltung von Eingabeaufforderungen die Ergebnisse verfälschen kann, und ihnen Richtlinien für eine neutrale, inklusive Sprache geben. Wie mein Beispiel zur Produktbenennung zeigt, wird die KI-Engine genau das tun, wenn Sie sie in eine bestimmte Richtung lenken, z. B. „Warum ist der aktuelle Name gut?“. KI-Teams müssen Eingabeaufforderungsvorlagen und Leitplanken erstellen, die Nutzern helfen, Suggestivfragen oder Annahmen zu vermeiden, die Stereotypen verewigen oder Ergebnisse unbeabsichtigt verfälschen könnten.

Vorwärts gehen.

Der Weg zum KI-Erfolg besteht nicht nur darin, FOMO zu vermeiden oder FOMU zu managen – es geht darum, sich dem versteckten dritten Faktor zu stellen, der mit Sicherheit für 95 % der gescheiterten KI-Investitionen verantwortlich ist: BIBO (Bias In Bias Out). Von Amazons männerdominiertem Rekrutierungsalgorithmus bis hin zu den subtilen Methoden, mit denen unsere Eingabeaufforderungen Ergebnisse verfälschen können – Voreingenommenheit kann KI-Systeme auf jeder Ebene infiltrieren und vielversprechende Initiativen in kostspielige Misserfolge verwandeln. Die Lösung erfordert die gleiche rigorose Governance, die Kim Basile befürwortet, jedoch mit einem klaren Fokus auf vielfältige Datenbeschaffung, funktionsübergreifende Voreingenommenheitserkennung und der Schulung der Benutzer zur Erstellung neutraler Eingabeaufforderungen, die nicht „den Zeugen täuschen“. Unternehmen, die BIBO beherrschen, vermeiden es nicht nur, Teil der ernüchternden 95 %-Misserfolgsstatistik zu werden – sie erschließen auch das wahre Potenzial von KI, während ihre Konkurrenten mit Systemen kämpfen, die genau die Probleme aufrechterhalten, für deren Lösung sie entwickelt wurden.