더 적은 데이터로 더 나은 AI 구현: 도메인별 데이터가 대규모 데이터 세트보다 더 나은 성능을 발휘할 수 있는 방법
전체 AI 프로젝트의 15%만 생산에 성공하는 반면, 설문 조사에서는 AI 구현의 평균 ROI 기업 내부에는 빈약한 1.3%[1]이러한 통계는 매우 충격적이지만, 왜 많은 조직이 투자 수익률(ROI)을 정당화할 명확한 방법도 없이 데이터 수집 및 모델 개발에 자원(돈, 근무 시간, 컴퓨팅)을 계속 쏟아붓는지 의문을 제기합니다.
오해는 하지 마세요. Solix는 AI가 제대로 활용될 경우 가져올 수 있는 혁신적인 잠재력을 잘 알고 있습니다. 하지만 성공적인 AI에 대한 저희의 주장은 다음과 같습니다. 핵심은 다음과 같습니다. 더 많은 데이터가 항상 더 나은 것은 아닙니다– 핵심은 다음과 같습니다. 고품질의 적절한 데이터 세트와 정확한 수량명확한 전략이나 연관성 없이 형편없는 무제한 데이터(그리고 막대한 자금)를 프로젝트에 쏟아붓는다면 결국 수익은 점점 줄어들 것입니다. 이상적으로는 모델 정확도 대 훈련 데이터 크기를 나타낸 선 그래프가 수익이 점점 줄어드는 지점에 도달할 때까지 증가하는 추세를 보여야 합니다. 실제로는 특정 지점 이후 데이터 크기가 두 배로 증가하더라도 정확도는 몇 퍼센트 포인트 정도만 증가할 수 있습니다.
AI의 수확체감 법칙
AI를 고전 경제학과 유사하다고 생각합니다. 한계효용 체감의 법칙에 따르면, 소비가 증가함에 따라 각 단위의 효용은 감소하다가, 방정식이 균형 상태에 도달하면 더 이상 증가하지 않더라도 한계효용이 0이 되거나 심지어 마이너스가 됩니다.
AI도 매우 유사합니다. 모델 학습 초기 단계에서는 데이터 포인트가 추가될 때마다 정확도가 크게 향상됩니다. 데이터 양이 증가함에 따라 이러한 효과는 약해지고, 더 많은 데이터가 반드시 새로운 통찰력을 제공하는 것은 아닙니다. 문제를 가장 잘 모델링하는 방법에 대한 것입니다.
예를 들어, 이미지 분류 모델을 학습할 때 레이블이 지정되고 태그가 지정된 이미지의 수를 100개에서 1,000개로 늘리면 모델의 정확도가 크게 향상될 수 있습니다. 그러나 이미지 수를 50,000개에서 100,000개로 늘리면 모델 정확도가 100% 향상되지 않을 가능성이 높습니다. 모델의 용량이 제한적인 경우, 너무 많은 데이터를 입력하면 모델이 신호 대신 노이즈에 과적합되어 성능이 약간 저하될 수 있습니다. AI 및 머신 러닝 모델에는 "최적 지점"이 있으며, 이 지점을 넘어서면 볼륨이 증가하더라도 성능 향상이 미미합니다. 모델 복잡성에 따라 일부 모델은 더 복잡한 사용 사례를 처리하는 다른 모델보다 이러한 정점에 더 빨리 도달합니다.
대부분의 경우 "너무 많은 데이터"를 관리하는 문제는 매우 드물지만, 무분별하게 무작위 데이터를 수집하는 것은 여전히 큰 비용을 초래할 수 있습니다. 데이터의 양보다 데이터의 내용이 훨씬 더 중요합니다.
질 대 양: 도메인별 데이터가 승리합니다!
인기 있는 문구 - "쓰레기 투입, 쓰레기 배출", AI에 적용하면 다음과 같습니다. "쓰레기통, 쓰레기 제곱"이는 노이즈가 많고, 관련성이 없거나, 대표성이 없는 데이터를 사용하면 유용한 통찰력을 얻을 수 없으며, 오히려 오해의 소지가 있음을 강조합니다. 실제로, 분류되고 정제된 특정 분야에 특화된 데이터는 일반적인 코퍼스보다 성능이 뛰어난 경우가 많습니다.
맥락이 풍부한 데이터는 양보다 중요합니다. 양이 훨씬 적더라도, 작업을 직접적으로 반영하는 데이터는 인터넷에서 수집한 데이터를 기반으로 광범위하게 학습된 모델보다 성능이 더 좋습니다. 단일 문제 해결을 위해 AI를 구현하려는 기업은 도메인 중심 데이터를 기반으로 "소규모 언어 모델"을 구축하는 것이 더 나을 수 있습니다. 이는 도메인별 정확도와 ROI를 높이는 데 도움이 될 것입니다. 맞춤형 모델을 구축하는 기업은 스스로에게 다음과 같은 질문을 던져야 합니다. "이 데이터가 정말로 해당 분야와 해결해야 할 문제를 나타내는가?"그렇지 않다면 단순히 더 많은 데이터를 추가하는 것보다 데이터 세트를 개선하는 것이 더 가치가 있을 수 있습니다.
범위 정의: 어떤 데이터가 필요한지 결정하는 방법은?
모든 AI 프로젝트는 범위와 성공 지표를 포괄적으로 정의하는 것부터 시작해야 합니다. 필요한 데이터는 다음 사항에 따라 달라집니다.
- 사용 사례/문제 복잡성:해결하려는 문제가 얼마나 복잡한가요? 단순 로지스틱 회귀 분석의 경우 1000개에서 10000개의 샘플 데이터셋이 필요할 수 있지만, 오픈 도메인 질의나 Waymo와 같은 자율주행 택시 서비스 구축과 같은 애플리케이션에는 수백만 개에 달하는 매우 큰 샘플이 필요합니다.
- 모델 용량 및 유형소규모 언어 기반 도메인 특화 모델을 미세 조정하고 계신가요? 아니면 차세대 대형 변환기 기반 LLM을 구축하고 계신가요? 도메인 특화 소규모 언어 모델(SLM)은 학습 데이터의 품질이 우수할 경우 매우 정확할 수 있습니다. 반대로, 더 큰 모델은 훨씬 더 많은 데이터가 필요합니다.
- 관련 비즈니스 위험 및 ROI규제가 엄격한 산업에 종사하고 계신가요? 민감한 데이터와 개인 식별 정보(PII)를 안전하게 보호하고 있나요? AI 모델에 무단 접근을 방지하기 위한 적절한 접근 제어 기능이 있나요? 모델에 오류가 발생할 경우 발생할 수 있는 잠재적 손실은 무엇인가요? 의료 및 금융 서비스와 같은 산업의 경우, 관련 규정을 준수하는 동시에 모델 환각을 방지하기 위해 추가 검증 데이터를 확보해야 합니다.
더 적은 데이터로 더 많은 가치 얻기
기술이 발전함에 따라 AI 팀은 이제 무차별 대입 데이터 수집보다 더 나은 성과를 낼 수 있는 새로운 도구와 기술을 보유하고 있습니다. 이미 보유한 데이터 세트의 가치를 극대화하는 데 도움이 되는 몇 가지 방법은 다음과 같습니다.
- 구조화된 맥락을 포함하는 의미 계층을 만듭니다.어떤 데이터를 보유하고 있는지 아는 것은 모든 AI 프로젝트의 성공에 필수적입니다. 규모를 불문하고 많은 조직이 수년간 방대한 양의 데이터를 수집해 왔지만, 명확한 비즈니스 맥락이 거의 없거나 전혀 없는 경우가 많았습니다. 데이터에 시맨틱 계층을 추가하면 다크 데이터를 식별하고 AI 및 머신러닝 모델이 데이터를 더욱 지능적으로 해석할 수 있습니다. 이제 모델은 단순히 플랫 테이블을 파싱하는 데 그치지 않고 데이터 세트, 비즈니스 로직, 제약 조건 간의 관계를 이해할 수 있습니다.
- 능동 학습 및 지능형 데이터 분류모델이 다음에 어떤 데이터에 레이블을 지정할지 스스로 결정하도록 합니다. 능동 학습은 일반적으로 모델이 가장 신뢰도가 낮은 영역에서 가장 유익한 샘플에 집중합니다. 이를 스마트 데이터 분류와 결합하면 관련성, 신규성, 민감도를 기준으로 데이터를 클러스터링하고 구성할 수 있습니다. 이를 통해 레이블링 작업에 집중하는 동시에 데이터 세트에 레이블을 지정하는 프로세스를 간소화하여 각 주석이 가치를 더하도록 할 수 있습니다.
- 전학 학습대부분의 경우 언어 모델을 처음부터 학습하는 것은 비현실적이고 리소스 소모가 매우 클 수 있습니다. 대신, 상용 모델을 기반으로 시작하여 비즈니스 요구에 맞게 미세 조정하면 프로덕션 수준의 성능을 달성하는 데 필요한 레이블이 지정된 데이터의 양을 줄일 수 있습니다.
- 합성 데이터 생성틈새 시장의 경우, 관련 데이터 세트를 수집하는 것이 어려울 수 있습니다. 따라서 기업은 해당 분야에 적합한 원래 특성을 반영하는 합성 데이터 세트를 생성할 수 있습니다. 이러한 접근 방식은 초기 프로토타입을 시작하거나 드물고 예외적인 사례를 보완하여 초기 이해관계자의 승인을 얻는 데 도움이 될 수 있습니다.
생각을 폐쇄
더 많은 데이터가 중요한 것이 아니라, 올바른 데이터에 접근할 수 있는 것이 중요합니다!
블로그 전체에서 강조했듯이, 데이터의 양보다 질이 훨씬 중요합니다. 핵심은 정제되고, 분류되며, 도메인에 특화된 비즈니스/사용 사례에 즉시 적용 가능한 데이터 제품을 개발하는 데 집중하는 것입니다. AI를 위한 데이터 전략은 항상 사용 사례의 복잡성, 컴퓨팅 요구 사항, 모델 선택, 그리고 비즈니스 성공 지표를 중심으로 해야 합니다. 이를 정의함으로써 기업은 AI 성공으로 이어지는 명확한 로드맵을 도출할 수 있습니다.
고려해야 할 또 다른 중요한 측면은 기업 전체에서 준수하는 전반적인 규정 준수 관행입니다. 적절한 규정 준수 및 데이터 거버넌스 가드레일을 갖추는 것은 위에서 언급한 다른 모든 것만큼이나 중요합니다. AI 규정 준수 및 데이터 거버넌스는 매우 복잡하기 때문에 다음 블로그에서 별도로 논의할 예정이니 기대해 주세요!
Solix에서는 데이터 중심 기업이 데이터 자산을 극대화할 수 있도록 지원합니다. 솔릭스 엔터프라이즈 AI 제품군을 통해 데이터 스테이징, 도메인별 비즈니스에 적합한 데이터 제품 개발, 대규모 AI 기반 거버넌스 구현을 위한 포괄적인 솔루션을 제공합니다.
Solix 지능형 데이터 분류Solix EAI 제품군의 핵심 요소인 는 비즈니스 규칙 정의, 메타데이터 보강, 컨텍스트 강화, 데이터 재발견을 지원하는 지능형 시맨틱 레이어입니다. Solix IDC를 사용하면 기업은 AI 기반 메타데이터로 데이터세트에 자동으로 태그를 지정하고 관련성, 민감도 및 규정 준수 요구 사항에 따라 분류할 수 있습니다.
만약 이 글이 흥미로웠다면, 세션 일정을 잡으려면 저희에게 연락하세요 Solix가 기존 데이터 전략을 강화하는 데 어떻게 도움을 줄 수 있는지 자세히 알아보세요.
