엔터프라이즈 데이터 레이크란?
멀티 클라우드, 데이터 우선 아키텍처의 부상과 그 결과로 등장한 고급 데이터 중심 애플리케이션의 광범위한 포트폴리오는 모든 데이터를 저장하기 위해 데이터 레이크에 의존합니다. 데이터 레이크는 대량의 데이터를 저장하기 위한 오픈 소스 및 산업 표준 저장소입니다. 그 후, 엔터프라이즈 데이터 레이크 데이터를 저장할 뿐만 아니라, 기업 데이터를 수집, 탐색, 관리, 통제, 준비 및 파이프라인을 구축하기 위한 엔터프라이즈급 서비스도 제공합니다.
엔터프라이즈 데이터 레이크는 시간이 많이 걸리고 비용이 많이 드는 ETL 프로세스를 피하기 위해 수집 시점에 데이터를 '있는 그대로' 저장하거나 데이터 준비 서비스를 제공합니다. 이러한 서비스는 특정 애플리케이션 요구 사항을 충족하기 위해 데이터 파이프라인을 프로파일링, 클렌징, 강화, 변환, 모델링하고 생성합니다. 목표는 실시간 데이터 기반 애플리케이션을 활성화하는 것입니다. 데이터 준비는 데이터 품질을 개선하고 고급 분석 및 비즈니스 인텔리전스 애플리케이션을 활성화합니다.
데이터 중심 기업을 위한 데이터 파이프라인
데이터 기반 애플리케이션은 방대하고 복잡한 데이터 및 서비스 네트워크를 활용합니다. 엔터프라이즈 데이터 레이크는 모든 소스에서 모든 대상 위치로 데이터를 이동하는 데 필요한 연결을 제공합니다. 매우 방대한 양의 데이터를 처리하고 수평적으로 확장하기 때문에 상품 클라우드 인프라, 엔터프라이즈 데이터 레이크는 클라우드 데이터 마이그레이션, 엔터프라이즈 아카이빙 및 운영 데이터 스토어(ODS)에 이상적인 플랫폼입니다. 또한 프로덕션 시스템과 다운스트림 분석, SQL 데이터 웨어하우스, 인공 지능(AI) 및 머신 러닝(ML) 애플리케이션 간에 파이프라인을 구축할 수 있는 기능을 갖추고 있습니다.
데이터 파이프라인은 일련의 데이터 흐름입니다. 한 요소의 출력은 다음 요소의 입력이 되고, 이런 식으로 계속됩니다. 엔터프라이즈 데이터 레이크는 데이터 파이프라인에서 수집 및 액세스 지점 역할을 하며 액세스 제어를 담당합니다. 엔터프라이즈 전반에 데이터 파이프라인이 등장함에 따라 엔터프라이즈 데이터 레이크 데이터 레이크 네트워크에서 데이터를 연합하기 위한 중앙 집중식 제어를 갖춘 데이터 배포 허브가 됩니다. 데이터 연합은 메타데이터 관리, 데이터 거버넌스 및 규정 준수 제어를 중앙 집중화하는 동시에 분산형 데이터 레이크 운영을 가능하게 합니다.
물론 이렇게 대규모로 데이터를 관리한다는 것은 데이터 거버넌스 제어가 필수적이라는 것을 의미합니다. 엔터프라이즈 데이터 레이크는 정보 수명 주기 관리(ILM) 정책으로 데이터를 관리합니다. 이는 데이터 보존 정책 및 법적 보류를 포함한 제어 및 비즈니스 규칙 시스템을 수립합니다. NIST 800-53, PCI, HIPAA, GDPR과 같은 보안 및 소비자 데이터 개인 정보 보호 제어는 법적 준수에 필수적일 뿐만 아니라 적절한 구현은 데이터 품질도 개선합니다.
중앙화된 메타데이터 관리
기업 데이터 레이크가 필요합니다 메타 데이터 관리 전체 데이터 환경(구조화된, 반구조화된, 비구조화된 데이터 포함)을 보고 사용자가 데이터를 더 잘 이해하도록 돕습니다. 분석가는 데이터에 대한 일관된 설명과 비즈니스 컨텍스트를 분류, 프로파일링하고 확립합니다. 중앙 집중식 메타데이터 관리를 통해 사용자는 세 가지 방법으로 데이터 환경을 탐색할 수 있습니다.
- 데이터 계보는 사용자가 데이터 이동 및 변환의 이력을 포함한 데이터 수명 주기를 이해하는 데 도움이 됩니다. 이를 통해 데이터 오류를 추적하여 근본 원인 분석을 간소화하고 다운스트림 시스템의 처리에 대한 확신을 향상시킵니다.
- 데이터 카탈로그는 데이터 인벤토리와 데이터 자산의 포트폴리오 뷰입니다. 즉, 사용자는 필요한 데이터를 탐색하고 의도한 용도에 맞게 데이터를 평가할 수 있습니다.
- 비즈니스 용어집은 정의가 포함된 비즈니스 용어 목록입니다. 데이터 거버넌스 프로그램은 조직의 비즈니스 개념을 정의하고 일관되게 사용해야 합니다.
클라우드 데이터 관리 프로그램의 중심
디지털 전환에는 클라우드와 방대한 데이터 및 웹 서비스 네트워크와의 상호 운용성이 필요합니다. 데이터 레이크는 대량의 데이터를 안전하고 보안적으로 수집하고 저장하는 오픈 소스 산업 표준 방식입니다. 또한 엔터프라이즈 데이터 레이크는 엔터프라이즈급 서비스를 제공하여 탐색, 관리, 거버넌스, 준비 및 액세스 제어를 제공합니다. 따라서 이러한 데이터 중심의 이점을 추구하는 관리자는 엔터프라이즈 데이터 레이크를 배포하여 고객 참여를 개선하거나 보다 완전한 이벤트 중심 데이터를 기반으로 개선된 분석을 제공합니다.
결론적으로, 데이터 우선 아키텍처는 엔드투엔드 데이터 파이프라인을 구축하기 위해 저렴하고 효율적인 객체 스토리지, 실시간 액세스, 데이터 거버넌스, 메타데이터 관리, 데이터 준비 및 연결이 필요합니다. 기업 데이터 레이크, 모든 조직은 이러한 중요한 역량을 매우 신속하게 구현하고, 디지털 전환을 달성하고, 데이터 중심 기업이 될 수 있습니다.

