AI 거버넌스의 누락된 부분: 편향의 유입과 유출에 맞서 싸우기
내 최근 팟캐스트를 들으셨다면 (AI 시대의 혁신과 신뢰 탐색) 킨드릴의 최고정보책임자(CIO)인 킴 바실과 함께 일해 보셨다면 제가 약어를 즐겨 사용한다는 것을 아실 겁니다. AI가 폭발적으로 발전하는 세상을 보면서 기업과 경영진은 FOMO(놓치는 것에 대한 두려움), 즉 '놓치는 것에 대한 두려움'을 경험하고 있습니다. 킨드릴은 세계 최대 IT 인프라 서비스 제공업체이기 때문에, 킴 바실은 킨드릴과 고객 모두에게 FOMO가 실제로 존재한다는 것을 분명히 인지하고 있었습니다. AI 분야에 참여하지 않으면 사업이 뒤처진다는 인식(현실일까요?)이 바로 그것입니다.
저는 김 대표와 AI와 관련된 두 번째 약어인 FOMU(Fear Of Messing Up)에 대해서도 이야기를 나누었습니다. 저는 이것이 AI 프로젝트를 성공적으로 시작하는 데 훨씬 더 중요한 요소라고 생각합니다. 김 대표는 AI 프로젝트를 제대로 관리하고 프로젝트 전반에 걸쳐 신뢰를 구축하는 데 필요한 거버넌스에 대해 자세히 설명했습니다. 거버넌스를 담당하는 한 사람이 아니라, 적절한 안전장치를 마련하는 주요 감독팀이 필요하며, AI 프로젝트는 기업 내 다른 관리 활동과 마찬가지로 중요합니다.
LinkedIn을 사용하고 기술 분야에 인맥이 있는 경우 이러한 기사에서 "기업이 GenAI에 95억~30억 달러를 투자했음에도 불구하고 40%의 기업이 수익을 얻지 못했다"는 MIT 연구를 언급하는 게시물을 분명히 보았을 것입니다.MIT 연구에 따르면 AI 투자로 인해 95%의 기업이 수익을 얻지 못했다.). 모든 과대광고와 관련 투자를 고려하면 이는 무서운 통계입니다. 하지만 왜 그럴까요?
FOMO(공포감)와 확장된 계획 및 거버넌스 없이 AI 프로젝트에 뛰어드는 것이 문제의 일부라고 확신합니다. 또한 이러한 프로젝트에서 FOMU(공포감)에 충분히 주의를 기울이지 않은 것이 성공을 거두지 못한 원인이라고 생각합니다. 하지만 AI가 예상만큼 성공적이지 못한 데에는 또 다른 약어가 있다고 생각합니다. 바로 BIBO(Bias In Bias Out, 편향 입력 편향 출력)입니다. 이는 모델 학습을 위해 선택된 데이터 소스와 모델에서 결과를 얻는 데 사용되는 관련 프롬프트에 적용될 수 있습니다. 시스템 전반의 편향은 실패로 이어지는 문제를 야기합니다.
BIBO를 최소화하고 편견 없는 AI 시스템을 구축하기 위해 무엇을 할 수 있을까?
가장 중요한 것은 AI 시스템에 도입될 수 있는 다양한 편향을 이해하는 것입니다. 이 글(AI 편향: 차별적 알고리즘 의사결정 모델 탐색 및 제약 산업에서 차용한 가능한 기계 중심 솔루션 적용 – PMC)는 주요 편견 유형을 식별하는 데 매우 효과적입니다.
- 역사적 편견
- 표현 편향
- 측정 바이어스
- 평가 편향
- 심슨의 역설(하위 집단 편향)
- 샘플링 편향
- 콘텐츠 제작 편향
- 알고리즘 편향
미리 정해진 결과 집합에 편향되지 않는 데이터 세트를 구축하는 것이 필수적입니다. 적절한 데이터 기반을 구축하려면 모델 개발 시작 전에 학습 데이터 세트를 철저히 검토하여 표현 격차, 역사적 불평등, 그리고 편향된 표본을 파악하는 것부터 시작합니다. 목표는 간단합니다. 처음부터 편향을 제거하는 것입니다. 쉽게 접근하거나 편리한 데이터 세트에 의존하기보다는, 소외된 관점과 활용 사례를 적극적으로 발굴하는 다양한 데이터 소싱 전략을 구현해야 합니다.
위에서 언급한 기사에서 "알고리즘은 데이터에 의존하며, 그 결과는 제공된 데이터와 레이블이 지정된 데이터, 그리고 수학적 공식이 고안된 방식만큼 좋은 경향이 있습니다. 원시 데이터를 사용하는 비지도 학습 머신러닝 모델에서도 기계는 차별적인 사회적 패턴을 발견하고 이를 복제할 수 있습니다."라고 언급했습니다.
기사에서 언급된 "대표 편향"의 한 사례는 AI 도입이 확대되던 초기 단계에 있었습니다. 아마존은 회사에 지원한 사람들의 배경을 자동으로 검토, 분석, 평가하는 AI 모델을 구축했습니다. 하지만 이 시스템을 약 1년 동안 사용한 후, 남성이 여성보다 훨씬 더 높은 평가를 받는다는 사실을 깨달았습니다.인사이트 - 아마존, 여성에 대한 편견을 드러낸 비밀 AI 채용 도구 폐기 | 로이터). 이 모델은 지난 10년간의 채용 데이터를 기반으로 학습되었는데, 이 데이터는 남성이 압도적으로 많았습니다. 즉, 모델은 남성 지원자가 "더 낫다"는 결론을 내렸습니다. 이 모델은 여성에게 훨씬 더 인기가 높아지고 있는 기술 직종과 인력 수요를 따라잡을 수 없었습니다.
AI 기반 작업 및 결과에도 편견이 나타난다면 기업은 실질적인 법적, 재정적 위험을 겪게 됩니다. HR 플랫폼 Workday는 자사의 지원 추적 시스템(ATS)에서 고령 지원자에 대한 편견이 드러났다는 이유로 소송을 당했습니다.https://styledispatch.com/the-hidden-ageism-in-ai-hiring-tools/). AI 모델은 이력서에 공백이 있는 배경을 살펴보고, 오래된 용어와 졸업 날짜(나이를 유추할 수 있음)를 사용하여 경험이 많은(즉, 나이가 많은) 지원자에게 불리하게 작용할 수 있습니다.
김 씨가 팟캐스트에서 언급했듯이, 여러 기능 분야의 전문가들과 함께 AI 이니셔티브를 운영하면 다양한 관점을 지원하고 편향 발생 가능성을 줄이는 데 도움이 될 수 있습니다. 팀원들이 특정 가정에 이의를 제기하고 모델 설계, 데이터 수집 및 구현 과정에서 사각지대를 찾는 연습을 진행하도록 하세요. 일부 이해관계자는 AI가 너무 기술적으로 느껴져 참여를 주저할 수 있지만, 편향된 데이터 세트와 문제가 있는 프롬프트를 파악하기 위해서는 비기술적인 팀원의 의견이 필수적인 경우가 많습니다.
엄격한 테스트, 검증, 그리고 지속적인 거버넌스는 편향 없는 AI 시스템을 구축하고 유지하는 데 필수적입니다. 배포 전에 다양한 인구 통계 그룹, 사용 사례 및 경계 조건에서 모델 성능을 테스트하는 편향 감지 프로토콜을 개발하십시오. 운영 환경에서 모델 성능 차이를 추적하는 지속적인 모니터링 시스템을 구축하고 거버넌스 팀의 정기적인 검토를 촉진하십시오.
모든 것은 신속, 신속, 신속…최적화에 관한 것입니다.
최종 사용자가 ChatGPT와 유사한 자연어 인터페이스를 통해 특별히 훈련된 LLM을 활용하고자 함에 따라, 프롬프트를 어떤 방식으로 표현하느냐에 따라 결과가 크게 달라질 수 있습니다. 최근 저는 특정 제품 이름에 대해 동료와 내부적으로 논쟁을 벌였습니다. 저희가 선택한 이름을 개선할 수 있다는 외부 피드백을 받았습니다. 제 동료는 ChatGPT에 가서 해당 이름이 왜 좋은지 강조하는 결과를 얻었습니다. 저는 Claude에게 질문의 배경을 설정하고, 제품 정보와 두 가지 이름 후보를 제시한 후, 시장에 가장 적합한 이름을 선택하도록 요청하면서 최대한 중립적인 프롬프트를 만들려고 노력했습니다. Claude는 저희가 고려 중인 다른 이름을 사용할 것을 권장했습니다.
두 결과 모두 "옳다"거나 "틀렸다"고 할 수 없었습니다. 프롬프트에 따라 완전히 다른 결과가 나왔을 뿐입니다. 제가 정말 최대한 중립적인 프롬프트를 만들었을까요? 전혀 그렇지 않습니다. 현재 제품 이름을 뒷받침하는 제품 속성을 포함하지 못했습니다. Claude로 돌아가서 원래 프롬프트를 추가하고 매우 관련성 높은 제품 세부 정보를 추가했더니, 두 이름 중 하나를 선택할 수 있다는 결과와 각 이름에 대한 장단점을 얻을 수 있었습니다.
"증인을 유도"하지 마세요. 프롬프트 디자인의 무의식적인 편견이 어떻게 결과를 왜곡할 수 있는지 사용자에게 교육하고, 중립적이고 포용적인 언어 사용에 대한 지침을 제공해야 합니다. 제가 제품 명명 예시에서 보여드렸듯이, "현재 이름이 왜 좋은가요?"와 같이 AI 엔진을 특정 방향으로 유도하면 엔진은 바로 그 방향으로 나아갑니다. AI 팀은 사용자가 고정관념을 고착화하거나 의도치 않게 결과를 왜곡할 수 있는 유도 질문이나 가정을 피할 수 있도록 프롬프트 템플릿과 가드레일을 구축해야 합니다.
앞으로 나아가 다.
AI 성공으로 가는 길은 단순히 FOMO(공포심)를 피하거나 FOMU를 관리하는 것만이 아닙니다. AI 투자 실패의 95%를 차지하는 숨겨진 세 번째 요인, 바로 BIBO(Bias In Bias Out, 편향된 정보 입력과 편향된 정보 출력)에 맞서는 것입니다. 아마존의 남성 중심적인 채용 알고리즘부터 우리의 프롬프트가 결과를 왜곡하는 미묘한 방식에 이르기까지, 편견은 AI 시스템의 모든 단계에 침투하여 유망한 계획을 값비싼 실패로 만들 수 있습니다. 이 해결책은 킴 바실이 옹호하는 것과 동일한 엄격한 거버넌스를 필요로 하지만, 다양한 데이터 소싱, 부서 간 편견 탐지, 그리고 "증인을 이끄는" 중립적인 프롬프트를 작성하도록 사용자 교육에 집중해야 합니다. BIBO를 완벽하게 활용하는 조직은 단순히 95%라는 끔찍한 실패 통계에 포함되는 것을 피할 뿐만 아니라, 경쟁사들이 AI가 해결하도록 설계된 바로 그 문제를 지속시키는 시스템으로 고군분투하는 동안 AI의 진정한 잠재력을 발휘할 수 있습니다.
