데이터 레이크를 채우고 데이터 제어력을 잃지 않는 방법
읽는 4 분

데이터 레이크를 채우고 데이터 제어력을 잃지 않는 방법

데이터 레이크에 관한 이 게시물은 원래 Forbes에 게재되었습니다.

D이제 클라우드 서비스로 인해 ATA 레이크를 쉽게 시작할 수 있게 되어 ATA 레이크가 어디에나 있습니다. 안전한 클라우드 데이터 레이크 데이터 중심 기업이 되는 데 필요한 모든 데이터를 저장합니다. 그리고 데이터 레이크는 엔터프라이즈 데이터 웨어하우스의 표준 데이터 구조를 분해하여 사용자가 데이터를 더 잘 설명하고, 더 나은 통찰력을 얻고, 더 나은 결정을 내릴 수 있도록 합니다.

데이터 레이크 사용자는 데이터 중심적입니다. 그들은 방대한 양의 과거, 실시간 및 스트리밍 데이터를 요구합니다. 그들은 데이터 카탈로그를 탐색하고 텍스트 검색을 선호하며 고급 분석, 머신 러닝(ML) 및 인공 지능(AI)을 사용하여 비즈니스에 디지털 전환을 추진합니다. 하지만 모든 데이터는 정확히 어디에서 나오는 것일까요?

데이터 레이크에서의 규정 준수 및 거버넌스의 복잡성

데이터 레이크를 채우는 것은 비용이 많이 드는 데이터 준비 및 규정 준수 실패를 피하기 위해 적절하게 수행해야 하는 복잡한 프로세스입니다. 데이터는 모든 곳에서 수집되며 수집에는 IoT, 소셜 미디어, 파일 서버, 구조화 및 비구조화 데이터베이스의 대량의 데이터가 포함됩니다. 이러한 대규모 데이터 교환은 상당한 데이터 가용성 및 데이터 거버넌스 과제를 제기합니다.

빅데이터 거버넌스 데이터 통합, 메타데이터 관리, 데이터 프라이버시 및 데이터 보존을 포함하여 기존 정보 거버넌스와 동일한 분야를 공유합니다. 그러나 중요한 과제 중 하나는 분산 데이터 레이크의 멀티클라우드 네트워크를 통과하는 방대한 양의 데이터에 대한 중앙화된 규정 준수 및 제어를 달성하는 방법입니다.

그리고 긴박감이 있습니다. 디지털 전환이 우선순위가 되면서 데이터 거버넌스, 데이터 보안 및 규정 준수는 항상 제자리에 있어야 합니다. 최근 통과된 법률, 특히 GDPR과 CCPA는 "잊힐 권리"를 포함한 강력한 데이터 개인 정보 보호 제어를 요구합니다. 많은 조직에서 이러한 규정 준수는 겉보기에 간단한 질문인 "데이터가 어디에 있는지 알고 있습니까?"에 답하는 경우에도 실제적인 과제입니다.

연합 데이터 거버넌스

한 가지 해결책은 연방 데이터 거버넌스 모델입니다. 연방 데이터 거버넌스는 중앙 집중화 대 분산화 딜레마를 해결합니다. 데이터 수집 시점에 규정 준수 제어를 확립함으로써 정보 수명 주기 관리(ILM) 정책을 적용하여 수명 주기 전반에 걸쳐 데이터를 분류하고 관리할 수 있습니다. 대량의 데이터가 데이터베이스와 파일 서버에서 이동하여 클라우드 기반 개체 저장소로 변환됨에 따라 정책 기반 규정 준수 제어가 그 어느 때보다 필요합니다.

데이터 레이크 연합 빅 데이터 거버넌스

연합 데이터 거버넌스를 설정하는 모범 사례로서, 컴플라이언스 정책과 절차는 기업 전체에서 표준화되어야 합니다. 적절한 데이터 거버넌스에는 엄격하게 따르는 비즈니스 규칙이 포함됩니다. "준수 또는 설명" 시스템은 감사 기관의 불신으로 이어지고 적절한 시정 조치가 일관되게 적용되도록 엄격한 후속 조치가 필요합니다. 비준수 데이터가 네트워크에 공개되면 리콜이 불가능할 수 있습니다.

엔터프라이즈 데이터 레이크

엔터프라이즈 데이터 레이크는 상호 연결된 데이터 패브릭의 중심입니다. 엔터프라이즈 데이터 레이크는 데이터를 수집하고, 처리하도록 준비하고, 수명 주기 전반에 걸쳐 데이터를 관리하기 위한 연합 데이터 거버넌스 프레임워크를 제공합니다. 중앙 집중화된 정책 기반 데이터 거버넌스 제어는 규정을 준수하는 데이터를 분산된 데이터 레이크 운영에 사용할 수 있도록 보장합니다.

엔터프라이즈 데이터 레이크는 또한 데이터 수집을 가속화합니다. 구조화된, 반구조화된, 구조화되지 않은, 사일로화된 S3 객체 저장소에서 데이터를 가져오기 위한 중앙 집중식 연결은 규정 준수 제어를 간소화합니다. 데이터가 간단한 "복사" 또는 더 복잡한 "이동" 기능(보관용)으로 도착하든, 중앙 집중식 수집을 통해 데이터를 카탈로그화, 레이블 지정, 변환하고 ILM 및 보존 계획으로 관리할 수 있습니다. 수집 중에 데이터가 분류됨에 따라 중앙 집중식 보안 관리 및 액세스 제어도 가능해집니다.

데이터를 이동할지 복사할지에 대한 결정은 중요합니다. 많은 조직에서 데이터 증가는 위기 수준에 도달하고 있습니다. 데이터 세트가 너무 클 경우 대응 시간이 힘들어집니다. 일괄 처리 프로세스가 제 시간에 완료되지 않아 일정이 뒤집힐 수 있습니다. 시스템 업그레이드에 필요한 다운타임 윈도우를 연장해야 할 수 있습니다. 스토리지 비용이 증가하고 재해 복구 프로세스가 더욱 어려워집니다. 이동 프로세스는 소스에서 데이터를 제거하여 프로덕션 시스템의 성능 부담을 덜어주는 반면, 복사 프로세스는 처리할 데이터 양을 두 배로 늘려 인프라 요구 사항을 증가시킵니다.

결론

따라서 조직 내에서 데이터 레이크가 전개될 때, 이를 채우는 것이 가장 어려운 부분일 수 있다는 점을 기억하세요. 연합된 빅 데이터 거버넌스 모델을 갖춘 엔터프라이즈 데이터 레이크는 중앙화된 규정 준수의 보다 안정적인 시스템을 구축하고 분산된 데이터 레이크가 번성할 수 있도록 합니다.