データ製品の基礎: データ製品とは何か、なぜ重要なのか、どのように始めるのか?
ほとんどの組織ではデータが不足することはめったにありませんが、データリーダーが「ペタバイト規模のデータを管理しているにもかかわらず、正確な洞察を得るのに時間がかかります」と言うのをよく耳にします。ほとんどのデータチームに不足しているのはデータではなく、信頼性が高く再利用可能な出力です。その兆候は至る所に見られます。高コスト、プロセスの遅延、不正確な洞察、重複した作業、雑然としたダッシュボードなどです。キュレーションされ「製品化された」アプローチがなければ、生データは負債となり、収益向上につながるどころか、企業にとって負担となることがよくあります。
データ プロダクトとは何ですか?
データプロダクトとは、定義上、キュレーションされ、信頼性が高く、文書化されたデータ資産のセットであり、実際のユーザーの問題を解決するものです。データプロダクトはソフトウェアのようなものだと考えてください。所有者、契約、バージョン、そしてSLOが存在します。優れたデータプロダクトは、すぐに利用でき、完全にガバナンスが効き、再利用可能です。
データ製品の主な属性
優れたデータ製品は、検出可能(カタログ化、タグ付け、所有権)、アドレス指定可能(安定したURIとバージョン管理されたエンドポイント)、安全(最小権限アクセス、マスキング、暗号化)、理解可能(ビジネス用語集、リネージ、事例)、ガバナンス(ポリシー・アズ・コード、SLA、保持または法的保留)、信頼性(品質SLO、監査証跡、再現可能な読み取り)を備えています。入力、セマンティクス、ストレージ、アクセス、サービス提供、ドキュメントにわたるこれらのデータ製品の属性は、消費者が安心して見つけ、利用し、信頼できる、信頼性と回復力に優れたデータ製品を作成するために不可欠です。
データ製品が重要な理由
データ管理ワークフローにおけるキュレーションされたデータ製品は、意思決定までの時間を短縮し、コンプライアンスリスクを軽減し、データの作成者と利用者を分離するとともに、契約によるデータの再利用性を促進し、バージョン管理による安全な変更を実現します。組織的には、明確な所有権を確立することでプロセスを合理化し、アドホックなデータ問題の解決を回避します。
優れたデータ製品の構造
優れたソフトウェアと同様に、優れたデータ製品は、その内部で複数のレイヤーとコンポーネントが連携して動作します。ここでは、データ製品の大まかな構造を主要な要素ごとに説明します。
- データ入力: すべてのデータ製品には、オペレーショナルデータベース、イベントストリーム、サードパーティのデータセットなど、関連するデータ入力があります。データ製品は、入力データの利用方法を明確に定義するとともに、データプロデューサーとコンシューマー間のデータ交換に関するスキーマ、データ品質の期待値、SLAを確立します。
- セマンティクスと変換: これはデータ製品内のコアロジックです。入力データに適用されるあらゆる変換、ビジネスルール、アルゴリズムに加え、メタデータ、基本的なセマンティクス、そして定義が文書化された明確に定義されたビジネス用語集が含まれます。
- ストレージおよびサービング層: 変換されたデータはどこに保存され、消費者はどのようにアクセスするのでしょうか?複雑さやビジネスユースケースに応じて、これはデータマート、ウェアハウス、レイク、あるいは レイクハウス建築ストレージ層は、パフォーマンスを最適化し、ビジネスの成長ニーズに対応するために、効果的に拡張可能で、低レイテンシ、高スループットである必要があります。
- データガバナンス、セキュリティ、プライバシー: すべてのエンタープライズ製品は、適切なデータガバナンスとセキュリティフレームワークを基盤として確保する必要があります。これには、アクセス制御、API認証、マスキングや難読化などのプライバシー対策、保持と消去に関する組み込みプライバシーポリシー、監査ログが含まれます。
- アクセスインターフェース: 優れたデータ製品は、さまざまなユーザー向けに複数のインターフェースを提供します。例えば、メトリクス製品ではSQLを利用できるようにし、機械学習データセットではノートブックを利用できるようにし、外部アプリケーションでは安全なAPIを介してデータ製品にアクセスできるような仕組みです。データ製品は、少なくとも1つの明確に定義されたインターフェースを備え、製品の進化に合わせて安定性または後方互換性を維持する必要があります。
- ドキュメント: データ製品に何が含まれているのか誰も理解していなければ、利用されることはありません。優れたデータ製品は、徹底的に文書化され、簡単にアクセスできます。文書には、データ製品の目的、スキーマ、API仕様、サンプルクエリ、所有者/連絡先、更新頻度などが記載されている必要があります。ほとんどのデータ製品はこれらの情報をデータカタログに保存し、ユーザーが検索を通じてデータ製品を見つけられるようにしています。
Solix Data Lake Plus を使用した AI 対応データ製品の構築
お客様は、Solix Data Lake Plus (Solix Common Data Platform (CDP) の一部) を使用して、取り込み、ガバナンス、提供に必要なコア機能をプラットフォームに集約することで、AI 対応データ製品をより迅速に作成できます。
- バッチとリアルタイムの統合取り込み: Solix は継続的なデータフローとリアルタイム ストリーミングをサポートし、夜間のバッチ処理を待たずにトランザクション、IoT イベント、ログ、ソーシャル フィードをキャプチャします。これは、低レイテンシ信号に依存する運用および ML 製品にとって重要です。
- 組み込みカタログとメタデータ: すぐに使用できるデータカタログ/メタデータ管理により、製品化されたデータのバックボーンとなる、検出可能で文書化されたインターフェース (スキーマ、所有者、例) を公開できます。
- ガバナンス、プライバシー、アクセス制御: 当学校区の Solix 共通データプラットフォーム ビジネス用語集、データ検出とプロファイリング、分類、マスキング、ロールベースビュー、ワークフロー、ポリシー管理などの機能を提供します。これにより、契約の履行、個人情報の保護、コンプライアンス遵守が容易になり、幅広い再利用が可能になります。
- クラウドネイティブ基盤における AI/ML の準備: CDP は、分析と機械学習/AI 向けに構造化データ、半構造化データ、非構造化データを統合し、ILM によって現在のデータと履歴データの両方を準拠した状態に保ち、モデルのトレーニングと評価に利用できるようにします。
- 最新のデータアーキテクチャ: ソリックスデータレイクプラス クラウド、ハイブリッド、オンプレミスのシステムに展開可能な安全でスケーラブルなプラットフォーム上でのエンドツーエンドのデータ統合とエンジニアリングを重視しており、データ製品を MVP から企業全体での採用に移行する必要がある場合に役立ちます。
閉じた思考
管理対象データに製品が重点を置くことは非常に重要です。明確な所有権、契約、SLO、テスト、そしてドキュメントを確立することで、高品質なデータ製品が実現します。プロジェクトを成功させるには、まず小規模に開始し、影響力の大きい意思決定を1つに絞り、最小限ながらも本番環境レベルの製品をエンドツーエンドで提供し、導入率とインサイト取得までの時間を測定し、その後は意図的に反復することでリスクを軽減し、ダッシュボードの無秩序な広がりを、安全でガバナンスが行き届き、再利用可能な製品化されたデータに置き換えます。
好きなプラットフォーム ソリックスデータレイクプラス 取り込み、ガバナンス、カタログ作成、アクセスを統合することで、お客様のビジネスを加速させることができます。これにより、データチームはパイプラインの構築ではなく、データ品質のキュレーションに集中できるようになります。
電話予約 詳しく見る Solix がデータ管理業務の強化と拡大にどのように役立つかについて説明します。

