データレイクに関する3つのよくある誤解
読む4分

データレイクに関する3つのよくある誤解

Tエンタープライズ データ レイクは、今や初期段階をはるかに超えています。全組織の 4 分の 1 以上がデータ レイクを運用しています。しかし、成熟するにつれて、新たな発見、批判、データ レイクに関する誤解が生まれ、「データ レイクはビジネス価値を実証しなければ消滅する」といった見出しが付けられています。

データ レイクに対する批判の多​​くはまったくの虚偽です。そこで、データ レイクに関するよくある誤解を 3 つ明らかにして、真実を明らかにしたいと思います。

データウェアハウスの代替となる

一部の人々は データ湖 次世代のデータ ウェアハウス、または単にデータ ウェアハウス 2.0 とも呼ばれます。ただし、これは真実からかけ離れています。両方のテクノロジの核となる部分は、データの処理、操作、保護が可能なデータ ストレージ リポジトリですが、目的がそれぞれ異なるため、共存させると最も効率的になります。

重要な違いは、データ レイクは構造化、非構造化、半構造化を問わず、あらゆる種類のデータを保存できるのに対し、データ ウェアハウスは構造化データのみを保存できる点です。わかりやすく言えば、Pentaho の CTO である James Dixon (「データ レイク」という造語の考案者) は、「データ マートやデータ ウェアハウスは、消費しやすいように洗浄、パッケージ化、構造化されたボトル入りの水に似ていますが、データ レイクは、自然のままの水の塊に似ています」と語っています。

データレイクはあらゆる種類のデータを保存して処理することを目的としているため、 データサイエンスとビッグデータ分析プロジェクト一方、データ ウェアハウスは、セキュリティとパフォーマンスが最も重視される主要なアプリケーションに適しています。データ レイクとデータ ウェアハウスを組み合わせることで、企業はデータを管理し、データに基づいたより適切な意思決定を行うことができます。

データに基づいたより良い意思決定

データレイクは安全ではない

データ レイクの誤解のリストにもう 1 つ追加します。データ レイクとデータ ウェアハウスの主な比較はセキュリティです。データ ウェアハウスの方が長く存在しており、データのセキュリティ保護に関してははるかに成熟していると考えられていますが、データ レイクも同様に安全です。重要なのはテクノロジーではなく、全体的なデータ管理戦略です。

データレイクを保護するには、取り込みから分析までのデータレイクパイプラインを理解し、 適切なデータガバナンスとセキュリティ戦略を実装する それに応じて。

データレイクは最終的に「データ沼」になる

データレイクはあらゆる種類のデータを取り込むため、組織はデータレイクが「データスワンプ」、つまり整理されていない、管理が不十分なデータでいっぱいの巨大なリポジトリに変わることを心配することがよくあります。データスワンプを回避する鍵は、フル機能の適切な実装を確実にすることです。 情報ライフサイクル管理 データ レイクの戦略。

データの取り込み時または作成時にデータを分類し、個々のレコード ベースに適切な保持ポリシーを適用するためのツールを活用します。これにより、データがその有用性を失って保持されることがなくなり、システムからの削除が削除時に完全に監査されます。データ保持に加えて、データ レイクは「データ階層化」をサポートするように構成し、企業がその使用法と長期的な寿命に適したレイヤーにデータを保存できるようにする必要があります。

ソリックスCDPの オブジェクトワークベンチデータガバナンスワークベンチ データ レイクがデータ スワンプに変わるのを防ぎ、ビッグ データ分析、機械学習、人工知能などの高度なタスクに向けてデータをより適切に準備するために必要なすべての情報ライフサイクル管理ツールが組み込まれています。

まとめ:

企業における他のテクノロジーの導入と同様に、 データレイクの導入を成功させるには、「構築すれば顧客が集まる」だけでは不十分です。データ レイクを成功させるには、企業が徹底したデータ管理戦略を作成する必要がありますが、幸いなことに、企業がそれを実行できるように支援するソリューションが数多く用意されています。