데이터 레이크에서 비즈니스 가치 구축: 구성된 데이터 제품의 실제 사례
최근 제가 생각해 온 것을 공유해 드리겠습니다. 데이터 레이크를 대규모 저장소에서 합성된 데이터 제품의 활성 기반으로 이해하는 것으로의 전환입니다. 이는 조직의 실제 데이터 활용 방식을 변화시키고 있는 변화입니다. 제 동료 하리차루안은 최근 데이터 제품의 기본 토대에 대한 좋은 블로그 글을 썼습니다. 데이터 제품 101: 데이터 제품이란 무엇이고, 왜 중요하며, 어떻게 시작해야 할까요? – SOLIX 블로그
우리가 여기서 진짜로 이야기하고 있는 것
"구성된 데이터 제품"이라는 말은 꽤 구체적인 의미를 담고 있습니다. 데이터 레이크 내 여러 소스의 원시 정보를 결합한 큐레이션된 비즈니스용 데이터 세트를 말하며, 이를 비즈니스 및 AI 애플리케이션에서 실제로 활용할 수 있도록 패키징하는 것을 의미합니다. 마치 식료품 저장실에 흩어져 있는 식재료와 미리 조리된 밀키트를 사용하는 것의 차이와 같습니다.
실제로 효과가 있는 실제 사례
소매업에서의 고객 360도 뷰
저는 여러 소매업체들이 "고객 360" 데이터 상품이라고 부르는 것을 구축하는 것을 지켜봤습니다. 한 대형 옴니채널 소매업체의 사례를 들어보겠습니다. 그들은 다음과 같은 것들을 통합하고 있습니다.
- 실제 매장에서의 판매 시점 거래
- 전자상거래 클릭스트림 및 구매 데이터
- 고객 서비스 상호작용 로그
- 로열티 프로그램 참여 지표
- 소셜 미디어 감정 데이터
구성된 데이터 제품은 이 모든 것을 데이터 레이크 환경에 중앙 집중화하여 마케팅 자동화 플랫폼, 고객 서비스 대시보드, 개인화 엔진에 직접 연결되는 통합 고객 프로필을 생성합니다. 비즈니스 애플리케이션은 더 이상 여섯 개의 서로 다른 시스템에 쿼리를 보낼 필요가 없습니다. 강화되고 검증된 하나의 데이터 제품에 액세스하기만 하면 됩니다.
실질적인 효과는 무엇일까요? 마케팅 팀은 이제 특정 채널에서만 발생한 일이 아니라 모든 채널에서 실제 고객 행동을 기반으로 개인화된 캠페인을 실행할 수 있습니다.
제조 분야의 예측 유지보수
다음은 구성의 힘을 실제로 보여주는 사용 사례입니다. 제가 관찰한 한 제조 회사는 다음을 결합하여 예측 유지 관리 데이터 제품을 구축합니다.
- 공장 장비의 IoT 장치에서 수집된 실시간 센서 데이터
- 과거 유지 관리 기록 및 작업 지시
- 부품 재고 및 공급망 정보
- 생산 일정 및 출력 품질 측정 항목
- 장비 성능에 영향을 미치는 날씨 패턴과 같은 외부 요인
이렇게 구성된 데이터 세트는 유지보수 일정 관리 애플리케이션과 생산 계획 시스템에 활용됩니다. 데이터 엔지니어링팀이 센서 데이터 정리, 유지보수 기록 정규화, 상황 정보 보강 등 모든 복잡한 작업을 처리하고, 비즈니스 애플리케이션은 분석에 즉시 활용 가능한 정제된 제품만 사용한다는 점이 장점입니다.
그 결과는? 장비 고장이 발생하기 몇 주 전에 장비 성능 저하 패턴을 파악하여 예상치 못한 가동 중단 시간을 줄였습니다.
재무 위험 평가 제품
금융 서비스 분야에서는 정교한 위험 평가 데이터 상품을 본 적이 있습니다. 중견 은행은 다음을 통합하는 복합 신용 위험 상품을 개발합니다.
- 핵심 뱅킹 시스템의 거래 내역
- 신용 조사 기관 보고서 및 점수
- 시장 변동성 지표
- 고객 인구 통계 및 고용 데이터
- 지리적 지역에 따른 경제 지표
이 중앙 집중식 데이터 제품은 대출 신청 시스템, 포트폴리오 위험 대시보드, 규제 보고 애플리케이션을 지원합니다. 각 비즈니스 애플리케이션은 기본 데이터 레이크 아키텍처를 이해할 필요 없이 필요한 위험 데이터를 정확하게 파악할 수 있습니다.
규정 준수 팀은 각 애플리케이션이 원시 데이터를 어떻게 다르게 변환하는지 추적하는 대신 하나의 데이터 제품을 감사하고 검증할 수 있기 때문에 이러한 접근 방식을 특히 선호합니다.
또한 거버넌스 팀은 데이터 제품 결과를 검토하여 이러한 시스템에 편향이 없는지 확인할 수 있습니다. 이에 대해서는 이전에도 글을 쓴 적이 있습니다.AI 거버넌스의 누락된 부분: 편향의 유입과 유출에 맞서 싸우기 – SOLIX 블로그). 위험 평가와 같이 잠재적으로 민감한 시스템에서는 통합된 데이터 제품 편향을 제거하는 것이 필수적입니다.
헬스케어 분석 사례
제가 접한 가장 설득력 있는 활용 사례 중 하나는 의료 네트워크가 인구 건강 데이터 제품을 구축하는 것입니다. 이들은 다음과 같은 내용을 작성하고 있습니다.
- 여러 병원 시스템의 전자 건강 기록
- 청구 및 청구 데이터
- 약국 조제 기록
- 커뮤니티 데이터 소스에서 얻은 건강의 사회적 결정 요인
- 모바일 앱에서 환자가 보고한 결과
구성된 데이터 제품은 의료 관리 애플리케이션에 데이터를 제공하고, 중재 프로그램을 위한 고위험 환자를 식별하며, 가치 기반 의료 보고를 지원합니다. 임상 애플리케이션은 데이터 엔지니어링 전문 지식을 필요로 하지 않으며, 검증되고 개인정보 보호가 준수되는 데이터 제품만 활용합니다.
여기서 핵심적인 통찰력은 데이터 레이크 환경을 통해 상세한 임상 데이터를 저장 상태로 유지하는 동시에, 구성된 데이터 제품은 다양한 분석 목적에 맞게 적절하게 집계되고 익명화된 뷰를 제공한다는 것입니다. 앞서 언급했듯이, 구성된 데이터 제품으로 구동되는 AI를 사용하는 의료 관련 시스템에서는 거버넌스 팀이 발생할 수 있는 모든 편향을 모니터링하는 것이 필수적입니다.
CPG의 공급망 인텔리전스
소비재 포장재 회사는 다음을 결합한 AI 애플리케이션을 위한 공급망 최적화 데이터 제품을 구축하고 있습니다.
- 공급업체 성과 지표 및 배송 데이터
- 원자재 비용 및 상품 가격 지수
- 생산 용량 및 일정 데이터
- 유통 센터 재고 수준
- 소매 파트너의 수요 예측 신호
이 제품은 조달 애플리케이션, 생산 계획 시스템 및 물류 최적화 도구를 강화합니다. 비즈니스 사용자는 전체 공급망 상황을 반영하는 애플리케이션과 상호 작용하는 반면, 기반 데이터 레이크는 수십 개의 공급업체, 제조 현장 및 유통 파트너의 데이터를 통합하는 복잡한 작업을 처리합니다.
실제로 이러한 작업이 가능한 이유
훌륭한 데이터 제품은 검색 가능(카탈로그화, 태그 지정, 소유), 주소 지정 가능(안정적인 URI 및 버전 관리된 엔드포인트), 보안 가능(최소 권한 액세스, 마스킹, 암호화), 이해 가능(비즈니스 용어집, 계보, 예시), 관리 가능(코드로서의 정책, SLA, 보존 또는 법적 보류), 신뢰성(고품질 SLO, 감사 추적, 재현 가능한 읽기)을 갖추고 있습니다.
하지만 성공적으로 구성된 데이터 제품을 제공하기 위해서는 다음과 같은 다른 주요 속성이 필요합니다.
- 명확한 사업 소유권: 각 데이터 제품에는 사용 사례를 이해하고 구성된 데이터가 실제로 비즈니스 요구 사항을 충족하는지 검증할 수 있는 정의된 비즈니스 소유자가 있습니다.
- 관리되는 데이터 품질: 구성 계층은 검증 규칙을 구현하고, 누락된 데이터를 처리하고, 비즈니스 애플리케이션이 제품을 사용하기 전에 일관성을 보장합니다.
- 버전 제어 및 계보: 소스 데이터가 변경되거나 구성 논리가 진화하는 경우, 변경된 내용과 다운스트림 애플리케이션에 미치는 영향을 명확하게 추적할 수 있습니다.
- 성능 최적화: 구성된 데이터 제품은 비즈니스 애플리케이션의 쿼리 성능과 저장 효율성의 균형을 이루는 형식으로 구조화되고 저장됩니다.
- 접근 제어 및 규정 준수: 보안 및 개인정보 보호 규칙은 데이터 제품 수준에서 적용되므로 비즈니스 애플리케이션은 독립적으로 구현하지 않고도 적절한 액세스 제어를 상속받습니다.
내가 보고 있는 실질적인 이점
이러한 구성된 데이터 제품을 성공적으로 구현한 조직은 몇 가지 실질적인 이점을 보고합니다.
데이터 통합이라는 어려운 작업이 이미 완료되었기 때문에 새로운 비즈니스 및 AI 애플리케이션 개발 시간이 단축됩니다. 비즈니스 인텔리전스 팀은 데이터 정리에 소요되는 시간을 줄이고 인사이트 도출에 더 많은 시간을 할애합니다. 여러 애플리케이션이 자체적으로 변환을 생성하는 대신 동일한 구성 제품을 사용하기 때문에 데이터 일관성이 향상됩니다. 그리고 무엇보다도 중요한 것은 원시 데이터 레이크 콘텐츠에 대한 모든 직접 액세스를 제어하는 대신 큐레이션된 제품을 관리하기 때문에 데이터 거버넌스가 더욱 관리하기 쉬워진다는 것입니다.
기대
내가 보고 있는 패턴은 우리가 수동 저장소처럼 기능하지 않고 Solix Data Lake Plus와 같은 활성 제품 팩토리처럼 기능하는 데이터 레이크 환경으로 이동하고 있음을 시사합니다.SOLIXCloud Data Lake 솔루션 | 데이터 통합). 원시 데이터는 호수에 있지만, 비즈니스 애플리케이션이 실제로 사용하는 것은 신중하게 구성되고 검증된 비즈니스에 바로 적용 가능한 데이터 제품입니다.
이는 미묘하지만 중요한 구분이며, 비즈니스 가치를 제공하는 데이터 레이크와 값비싼 데이터 늪이 되는 데이터 레이크의 차이를 만드는 것으로 입증되었습니다.
