Hadoop을 사용한 엔터프라이즈 애플리케이션 데이터 계층화
읽는 6 분

Hadoop을 사용한 엔터프라이즈 애플리케이션 데이터 계층화

W전 세계 기업에서 광범위한 디지털 전환이 진행됨에 따라 모든 CIO는 인프라가 결과적인 데이터 증가를 처리할 수 있을지 알고 싶어합니다. 사실, Gartner는 조사에서 응답자의 47%가 데이터 센터의 1위 인프라 과제로 데이터 증가를 꼽았다고 제시했습니다.

데이터 증가 위기

데이터 세트가 너무 커지면 애플리케이션 성능 속도가 느려지고 인프라는 따라잡기 위해 고군분투합니다. 데이터 증가는 데이터 센터, 성능, 가용성, 유지 관리, 심지어 규정 준수를 포함하여 모든 곳에서 비용, 규정 준수 및 복잡성을 증가시킵니다.

배치 프로세스가 더 이상 예정된 완료 시간을 충족할 수 없기 때문에 시스템 가용성에 영향을 미칩니다. ERP 업그레이드 주기 동안 데이터를 변환하는 데 필요한 "중단 창"은 몇 시간에서 며칠까지 연장될 수 있습니다. 복제 및 재해 복구와 같은 다른 중요한 프로세스는 더 많은 데이터를 이동하고 복사하는 데 시간이 많이 걸리기 때문에 영향을 받습니다.

데이터가 증가하는 것을 제대로 관리하지 않으면 거버넌스, 위험 및 규정 준수에 문제가 발생할 수도 있습니다. GDPR, CCPA, HIPAA, PCI DSS, FISMA 및 SAS 70 명령은 모두 조직이 데이터 보안 및 규정 준수를 위한 규정 준수 프레임워크를 수립하도록 요구합니다. 매일 엄청난 양의 데이터가 생성되고 기업 전체에서 정기적으로 공유되기 때문에 기업이 규정을 준수하는 것이 매우 어려워집니다.

Gartner는 또한 일반적인 프로덕션 포트폴리오의 최대 80%의 데이터가 비활성 상태일 수 있으며, 따라서 불필요하게 애플리케이션 성능을 방해하고, 비용을 증가시키고, 중단 및 규정 준수 문제를 야기한다고 밝혔습니다. 그렇다면 비활성 데이터가 인프라를 막고 중요한 처리에 영향을 미치지 않도록 데이터를 어떻게 관리할 수 있을까요?

데이터 계층화 통계

우리가 만들 수 있는 한 가지 상관관계는 데이터의 가치가 그 나이에 반비례한다는 것입니다. 즉, 과거 데이터/비활성 데이터는 액세스 및 처리가 적기 때문에 최신 데이터에 비해 가치가 낮습니다. 그렇다면 왜 그러한 비활성 데이터가 프로덕션 환경을 계속 막아야 할까요?

효과적인 ILM 전략을 구현하면 도움이 됩니다.

정보 수명 주기 관리(ILM) 생성부터 삭제, 폐기까지 데이터의 수명 주기를 관리하는 모범 사례입니다.

ILM의 목표는 다음과 같습니다.

  • 애플리케이션 성능 최적화
  • 데이터 보안, 위험 및 규정 준수 관리
  • 인프라 비용 절감
  • 유지보수 시간 및 비용 절감
  • 데이터 준수 관리(GDPR)
  • 중요한 데이터 분석 보고서를 분석하고 생성합니다.
  • 스트리밍 데이터 관리(실시간 또는 Twitter)
  • 데이터 준비
  • 추출, 변환 및 로드

ILM은 데이터 연령과 같은 보존 정책에 따라 데이터를 가장 적합한 인프라 계층으로 이동하여 이러한 목표를 달성합니다. 오래된 데이터는 액세스 빈도가 낮기 때문에 가치가 낮고 제한된 1계층 성능 및 용량을 받을 자격이 없습니다. ILM은 데이터베이스, SharePoint, NFS, CIFS, 이메일 등과 같은 다양한 소스에서 구조화된 데이터, 문서, 파일, 이미지, 문서를 이동하여 이러한 목표를 달성합니다.

1계층 인프라는 비용이 많이 들고 대용량 플래시 메모리 어레이와 고속 스토리지 영역 네트워크가 있는 멀티 프로세서 서버를 포함할 수 있습니다. 1계층 인프라에 배치된 데이터는 이상적으로 3년 이하이어야 합니다. 오래되고 덜 활성화된 데이터는 저비용 인프라 계층에 할당하여 전체 비용을 줄이면서도 데이터에 대한 적절한 액세스를 제공해야 하지만 1계층 성능 수준은 아닙니다.

비활성 데이터를 위한 새로운 시대의 저장 대안

Apache Hadoop은 대규모 확장성과 성능을 제공하면서도 더 낮은 계층에서 강력하고 새로운 저비용 인프라를 운영하도록 설계된 무료 오픈 소스 컴퓨팅 프레임워크입니다. 고도로 확장 가능한 워크로드 성능과 매우 낮은 비용의 대량 데이터 스토리지를 제공합니다. Hadoop은 상용 인프라, 분산 컴퓨팅 모델을 활용하여 Hadoop 파일 시스템(HDFS)에서 병렬로 대용량 데이터 세트를 처리합니다. 이 모든 것은 Hadoop이 기존의 1계층 인프라에 비해 극적인 비용 절감을 제공한다는 것을 의미합니다.

반면, 객체 저장소는 페타바이트 스토리지 범위로 확장하고 기존 파일 시스템 스토리지 아키텍처의 한계를 훨씬 적은 비용으로 극복하는 데 도움이 될 수 있습니다. 객체 저장소를 사용하면 조직이 클라우드/온프레미스에 대용량 데이터를 저장할 수 있으며 데이터의 고가용성을 보장하여 향상된 성능을 제공합니다. 객체에 저장된 객체는 빅데이터 분석 도구를 사용하여 컨텍스트/텍스트를 기반으로 검색, 시각화 및 검색할 수 있습니다.

다음 비교를 고려해 보세요.

Monash Research에 따르면 60,000티어 데이터베이스 인프라 비용은 TB당 1달러가 넘습니다. 동시에 Amazon Web Services(미국 서부-북부 캘리포니아)의 3TB S26 버킷 스토리지는 월 XNUMX달러입니다. 최근 가격표즉, Hadoop은 64계층 인프라보다 기본적으로 XNUMX배 저렴합니다.

Hadoop은 기본적으로 64계층 인프라보다 XNUMX배 저렴합니다.

데이터 계층화 설명

ERP, CRM, HCM과 같은 엔터프라이즈 애플리케이션은 애플리케이션 데이터 계층화를 통해 성능을 개선하고 비용을 절감할 수 있는 탁월한 기회를 제공합니다.

엔터프라이즈 아카이빙 3가지 처리 계층을 지원하여 성능을 개선하고 비용을 절감하기 위한 ILM 접근 방식을 따릅니다.

데이터 계층화 설명

엔터프라이즈 애플리케이션 데이터 계층화의 이점은 향상된 인프라 성능, 절감된 비용 및 더 높은 가용성과 관련하여 상당합니다. 비즈니스 가치에 따라 데이터를 배치함으로써 인프라 활용이 더 효율적이 되고 적절한 액세스를 제공합니다.

Solix Common Data Platform – 현대 데이터 중심 조직을 위한 차세대 데이터 계층화 및 관리 플랫폼

Solix 공통 데이터 플랫폼 구조화되고 구조화되지 않은 데이터를 위한 균일한 데이터 수집, 보존 관리, 데이터 계층화 및 대량 데이터 저장 솔루션입니다. Solix CDP는 엔터프라이즈 아카이빙, 데이터 레이크, 데이터 거버넌스 및 고급 분석 애플리케이션을 제공하여 조직이 데이터 중심 비즈니스 결과를 달성하도록 돕습니다.

Solix CDP는 정보 수명 주기 관리(ILM) 프레임워크를 지원합니다. ILM 프레임워크는 비즈니스 규칙, 연령 및 데이터 가치에 따라 적절한 계층으로 데이터를 보관/마이그레이션하는 데 도움이 됩니다. 또한 데이터 거버넌스를 제공하여 위험 및 규정 준수 목표를 충족하고 데이터 보존 및 분류를 위한 모범 사례가 배포되도록 합니다. ILM 정책 및 비즈니스 규칙은 업계 표준 규정 준수 목표를 충족하도록 미리 구성하거나 보다 구체적인 요구 사항을 충족하도록 맞춤 설계할 수 있습니다. 데이터 보안을 보장하기 위해 Solix Common Data Platform(CDP)은 비즈니스 규칙에 따라 민감한 데이터를 검색하고 분류하여 마스킹하거나 암호화합니다. 레코드 수준에서 데이터 액세스에 대한 역할 기반 액세스도 지원됩니다.