エンタープライズ データ レイクとは何ですか?
読む4分

エンタープライズ データ レイクとは何ですか?

マルチクラウド、データファーストアーキテクチャの台頭と、その結果として登場した高度なデータ駆動型アプリケーションの幅広いポートフォリオは、すべてのデータを保存するためにデータレイクに依存しています。データレイクは、大量のデータを保存するためのオープンソースで業界標準のリポジトリです。その後、 エンタープライズデータレイク データを保存するだけでなく、エンタープライズ データの収集、調査、管理、統制、準備、パイプラインの構築を行うエンタープライズ グレードのサービスも提供します。

エンタープライズ データ レイクは、時間とコストのかかる ETL プロセスを回避するために、取り込み時にデータを「そのまま」保存するか、データ準備サービスを提供します。これらのサービスは、特定のアプリケーション要件を満たすために、データ パイプラインのプロファイル、クレンジング、エンリッチ、変換、モデル化、作成を行います。目標は、リアルタイムのデータ駆動型アプリケーションを実現することです。データ準備により、データ品質が向上し、高度な分析とビジネス インテリジェンス アプリケーションが可能になります。

データ駆動型企業向けのデータ パイプライン

データ駆動型アプリケーションは、広大で複雑なデータとサービスのネットワークを活用します。エンタープライズデータレイクは、あらゆるソースからあらゆるターゲットの場所にデータを移動するために必要な接続を提供します。非常に大量のデータを処理し、 コモディティクラウドインフラストラクチャエンタープライズ データ レイクは、クラウド データ移行、エンタープライズ アーカイブ、運用データ ストア (ODS) に最適なプラットフォームです。さらに、運用システムと下流の分析、SQL データ ウェアハウス、人工知能 (AI)、機械学習 (ML) アプリケーション間のパイプラインを構築する機能も備えています。

エンタープライズデータレイクとは?SOLIXCloud Data Lake

データパイプラインは一連のデータフローです。1つの要素の出力は次の要素の入力となり、これが繰り返されます。エンタープライズデータレイクは、データパイプラインの収集およびアクセスポイントとして機能し、アクセス制御を担当します。データパイプラインが企業全体に広がるにつれて、 エンタープライズデータレイク データ レイクのネットワーク全体でデータを統合するための集中管理機能を備えたデータ配信ハブになります。データ フェデレーションにより、メタデータ管理、データ ガバナンス、コンプライアンス制御が集中化されると同時に、分散型データ レイク操作が可能になります。

もちろん、このような大規模なデータを管理するには、データ ガバナンス制御が不可欠です。エンタープライズ データ レイクは、情報ライフサイクル管理 (ILM) ポリシーを使用してデータを管理します。これにより、データ保持ポリシーや訴訟ホールドなどの制御システムとビジネス ルールが確立されます。NIST 800-53、PCI、HIPAA、GDPR などのセキュリティおよび消費者データ プライバシー制御は、法令遵守に不可欠であるだけでなく、適切に実装することでデータ品質も向上します。

集中メタデータ管理

エンタープライズデータレイクには メタデータ管理 データ ランドスケープ全体 (構造化データ、半構造化データ、非構造化データを含む) を表示し、ユーザーがデータをより深く理解できるようにします。アナリストは、データの分類、プロファイル作成、一貫した説明とビジネス コンテキストの確立を行います。一元化されたメタデータ管理により、ユーザーは次の 3 つの方法でデータ ランドスケープを探索できます。

  • データ リネージは、データの移動や変換の履歴を含むデータ ライフサイクルをユーザーが理解するのに役立ちます。これにより、データ エラーをトレースして根本原因の分析が簡素化され、下流のシステムによる処理の信頼性が向上します。
  • データ カタログは、データ インベントリとデータ資産のポートフォリオ ビューです。つまり、ユーザーは必要なデータを参照し、意図した用途に合わせてデータを評価できます。
  • ビジネス用語集は、ビジネス用語とその定義のリストです。データ ガバナンス プログラムでは、組織のビジネス コンセプトを定義し、一貫して使用する必要があります。

クラウドデータ管理プログラムの中心

デジタル変革には、クラウドとその広大なデータおよび Web サービス ネットワークとの相互運用性が求められます。データ レイクは、大量のデータを安全かつ確実に収集して保存するためのオープン ソースの業界標準アプローチです。さらに、エンタープライズ データ レイクは、探索、管理、統制、準備、アクセス制御の提供を行うエンタープライズ グレードのサービスを提供します。したがって、これらのデータ主導の利点を求める管理者は、エンタープライズ データ レイクを導入して顧客エンゲージメントを向上させたり、より完全なイベント主導のデータに基づいて分析を改善したりします。

結論として、データファーストアーキテクチャには、エンドツーエンドのデータパイプラインを構築するために、低コストで効率的なオブジェクトストレージ、リアルタイムアクセス、データガバナンス、メタデータ管理、データ準備、接続性が必要です。 エンタープライズデータレイク、 あらゆる組織がこれらの重要な機能を迅速に実装し、デジタル変革を実現し、データ主導の企業になることができます。