データレイクを埋めてデータの制御を失わない方法
データ レイクに関するこの投稿は、もともと Forbes に掲載されていました。
Dクラウド サービスによって ata レイクを簡単に起動できるようになったため、ata レイクは今やどこにでもあります。 安全なクラウドデータレイク データ駆動型企業になるために必要なすべてのデータを保存します。また、データ レイクはエンタープライズ データ ウェアハウスの標準的なデータ構造を分解し、ユーザーがデータをより適切に記述し、より優れた洞察を得て、より適切な意思決定を行えるようにします。
データレイクのユーザーはデータ主導型です。膨大な量の履歴データ、リアルタイムデータ、ストリーミングデータを要求します。データカタログを閲覧し、テキスト検索を好み、 高度な分析、機械学習 (ML)、人工知能 (AI) を活用して、ビジネスにデジタル変革を推進します。しかし、データは一体どこから来るのでしょうか?
データレイクにおけるコンプライアンスとガバナンスの複雑さ
データ レイクへのデータの充填は複雑なプロセスであり、コストのかかるデータ準備やコンプライアンス違反を回避するために適切に実行する必要があります。データはあらゆる場所から収集され、その取り込みには IoT、ソーシャル メディア、ファイル サーバー、構造化データベースと非構造化データベースからの大量のデータが含まれます。このような大規模なデータ交換は、データの可用性とデータ ガバナンスの大きな課題をもたらします。
ビッグデータガバナンス データ統合、メタデータ管理、データ プライバシー、データ保持など、従来の情報ガバナンスと同じ規律を共有しています。しかし、重要な課題の 1 つは、分散データ レイクのマルチクラウド ネットワークを通過する膨大な量のデータに対して、一元的なコンプライアンスと制御をどのように実現するかということです。
そして、切迫感があります。デジタル変革が優先事項となるにつれて、データ ガバナンス、データ セキュリティ、コンプライアンスを常に実施する必要があります。最近可決された法律、具体的には GDPR と CCPA では、「忘れられる権利」を含む強力なデータ プライバシー管理が求められています。多くの組織にとって、このようなコンプライアンスは、一見単純な「データがどこにあるか知っていますか?」という質問に答えることになっても、本当に難しい課題です。
フェデレーテッドデータガバナンス
1 つの解決策は、フェデレーテッド データ ガバナンス モデルです。フェデレーテッド データ ガバナンスは、集中型と分散型のジレンマを解決します。データ取り込み時点でコンプライアンス制御を確立することで、情報ライフサイクル管理 (ILM) ポリシーを適用し、ライフサイクル全体にわたってデータを分類および管理できます。大量のデータがデータベースやファイル サーバーから移動され、クラウドベースのオブジェクト ストレージに変換されるため、これまでにないほどポリシー主導のコンプライアンス制御が必要になります。
フェデレーション データ ガバナンスを設定するためのベスト プラクティスとして、コンプライアンス ポリシーと手順を企業全体で標準化する必要があります。適切なデータ ガバナンスには、厳格かつ迅速に遵守されるビジネス ルールが含まれます。「順守するか説明するか」のシステムは監査機関の不信感を招き、適切な対策が一貫して適用されるようにするために厳格なフォローアップが必要になります。非準拠のデータがネットワークにリリースされると、取り消すことが不可能になる場合があります。
エンタープライズ データ レイク
エンタープライズ データ レイクは、相互接続されたデータ ファブリックの中心です。エンタープライズ データ レイクは、データを取り込み、処理のために準備し、ライフサイクル全体にわたってデータを管理するためのフェデレーション データ ガバナンス フレームワークを提供します。集中化されたポリシー主導のデータ ガバナンス制御により、分散型データ レイク操作で準拠したデータを利用できるようになります。
エンタープライズ データ レイクは、データ取り込みのスピードも上げます。構造化、半構造化、非構造化、サイロ化された S3 オブジェクト ストアからデータをインポートするための集中接続により、コンプライアンス管理が簡素化されます。データが単純な「コピー」として到着するか、より複雑な「移動」機能 (アーカイブ用) として到着するかに関係なく、集中取り込みにより、データをカタログ化し、ラベル付けし、変換し、ILM および保持計画で管理できます。取り込み中にデータが分類されるため、集中セキュリティ管理とアクセス制御も可能になります。
データを移動するかコピーするかの決定は重要です。多くの組織では、データの増加が危機的な状況に達しています。データセットが大きすぎると、応答時間の実行が困難になります。バッチ プロセスが時間内に完了せず、スケジュールが混乱する場合があります。システムのアップグレードに必要なダウンタイム ウィンドウを延長する必要がある場合があります。ストレージ コストが増加し、災害復旧プロセスがさらに困難になります。移動プロセスではソースでデータが消去されるため、運用システムのパフォーマンス プレッシャーが軽減されますが、コピー プロセスでは処理するデータ量が 2 倍になるため、インフラストラクチャ要件が増加します。
結論
したがって、データ レイクを組織内に展開する際は、データ レイクを埋めることが最も難しい部分になる可能性があることを覚えておいてください。フェデレーション ビッグ データ ガバナンス モデルを備えたエンタープライズ データ レイクは、より信頼性の高い集中型コンプライアンス システムを確立し、分散型データ レイクの繁栄を可能にします。

