より少ないデータでより優れたAIを実現:ドメイン固有のデータが大規模データセットを上回るパフォーマンスを発揮する方法
読む8分

より少ないデータでより優れたAIを実現:ドメイン固有のデータが大規模データセットを上回るパフォーマンスを発揮する方法

AIプロジェクトのわずか15% 生産に成功している一方で、調査によると、 AI導入の平均ROI 企業内には わずか1.3%【1]これらの統計は非常に厳しいものですが、多くの組織がROIを正当化する明確な道筋がないまま、なぜ資金、労働時間、コンピューティングといったリソースをデータ収集とモデル開発に投入し続けているのかという疑問が生じます。

誤解しないでください。Solixは、AIが適切に活用されれば変革をもたらす可能性を認識しています。しかし、成功するAIに関する私たちの考え方は、他のAIと異なります。私たちは、 データが多いほど良いとは限らない–鍵となるのは 高品質で適切な量の適切なデータセット明確な戦略や関連性のないプロジェクトに、質の低い無制限のデータ(と多額の資金)を投入しても、結局は収穫逓減に陥るだけです。理想的には、モデル精度とトレーニングセットのサイズの関係を示す折れ線グラフは、収穫逓減点に達するまで増加傾向を示す必要があります。実際には、ある点以降、データサイズが2倍になったとしても、精度はわずか数パーセントしか向上しない可能性があります。

AIにおける収穫逓減の法則

AIは古典経済学に似ていると考えたい。限界効用逓減の法則で説明されるように、消費量が増加するにつれて、追加される単位ごとの効用は減少し、均衡状態に達すると、それ以上消費量を増加させると限界効用はゼロ、あるいはマイナスになる。

AIも非常に似ています。モデルの学習初期段階では、データポイントを追加するごとに精度が劇的に向上します。データ量が増えると、この効果は減少し、 より多くのデータが必ずしも新しい洞察をもたらすわけではない 問題を最もよくモデル化する方法について。

例えば、画像分類モデルをトレーニングする場合、ラベル付けされたタグ付き画像の数を100枚から1,000枚に増やすと、モデルの精度が大幅に向上する可能性があります。しかし、50,000枚から100,000枚に増やしても、モデルの精度が100%向上することはないでしょう。モデルのキャパシティが限られている場合、過剰なデータを入力すると、モデルが信号ではなくノイズに過剰適合し、パフォーマンスがわずかに低下する可能性があります。AIおよび機械学習モデルには「スイートスポット」があり、それを超えると、データ量を増やしてもパフォーマンスの向上はわずかになります。モデルの複雑さによっては、より複雑なユースケースに対応するモデルよりも早くこのプラトーに達してしまうモデルもあります。

ほとんどの場合、「データ量が多すぎる」という問題に直面することは非常に稀ですが、無駄にランダムなデータを収集することは依然としてコストの増加につながる可能性があります。データの量だけでなく、そのデータに何が含まれているかがはるかに重要です。

品質 vs 量: ドメイン固有のデータが勝利します!

よく聞くフレーズは 「ゴミを入れればゴミが出る」をAIに適用すると、 「ゴミを入れればゴミが2乗する」これは、ノイズが多く、関連性が低く、代表性に欠けるデータを使用しても、有用な洞察は得られず、誤解を招く可能性さえあることを強調しています。実際には、クリーンでラベル付けされた、分野固有のデータは、一般的なコーパスよりも優れたパフォーマンスを発揮することがよくあります。

コンテキストリッチなデータは量よりも重要です。たとえ量が大幅に少なかったとしても、タスクを直接反映したデータは、インターネットから収集したデータで広範に学習させたモデルよりも優れたパフォーマンスを発揮します。特定の課題を解決するためにAIを導入しようとしている企業は、ドメインに特化したデータを用いた「小規模言語モデル」を構築する方が良いかもしれません。これは、ドメイン固有の精度とROIの向上に役立ちます。カスタムモデルを構築する企業は、以下の点を自問する必要があります。 「このデータは、解決すべき分野と問題を本当に表しているでしょうか?」そうでない場合は、単にデータを追加するよりも、データセットを改良する方が価値があるかもしれません。

スコープの定義: 必要なデータをどのように決定するか?

あらゆるAIプロジェクトは、そのスコープと成功指標を包括的に定義することから始める必要があります。必要なデータは、以下の要因によって異なります。

  • ユースケース/問題の複雑さ:解決しようとしている問題はどれほど複雑ですか?単純なロジスティック回帰であれば、1000~10000件のサンプルデータセットで十分でしょう。一方、オープンドメイン質問やWaymoのような自動運転タクシーサービスの構築といったアプリケーションでは、数百万件に及ぶ非常に大規模なサンプルが必要になります。
  • モデル容量とタイプ小規模言語のドメイン特化型モデルを微調整中ですか?それとも、次世代の大規模なTransformerベースのLLMを構築中でしょうか?ドメイン特化型の小規模言語モデル(SLM)は、学習データが高品質であれば、高い精度を実現できます。逆に、大規模なモデルでは、はるかに多くのデータが必要になります。
  • 関連するビジネスリスクとROI規制の厳しい業界に携わっていますか?機密データや個人情報(PII)は保護されていますか?AIモデルには、不正アクセスを防ぐための適切なアクセス制御が備わっていますか?モデルが誤った動作をした場合、どのような損失が発生する可能性がありますか?ヘルスケアや金融サービスなどの業界では、適用される規制への準拠を確保しながら、モデルの誤動作を防ぐために、追加の検証データが必要です。

より少ないデータからより多くの価値を引き出す

テクノロジーの進歩により、AIチームは、力ずくのデータ収集よりも優れたパフォーマンスを発揮できる新しいツールや手法を活用できるようになりました。ここでは、既に保有しているデータセットの価値を高めるのに役立つ方法をいくつかご紹介します。

  • 構造化されたコンテキストを持つセマンティック レイヤーを作成します。あらゆるAIプロジェクトの成功には、保有するデータを把握することが不可欠です。規模の大小を問わず、多くの組織は長年にわたり膨大な量のデータを収集してきましたが、多くの場合、明確なビジネスコンテキストがほとんど、あるいは全くない状態です。データにセマンティックレイヤーを追加することで、ダークデータを特定し、AIや機械学習モデルによるデータの解釈をよりインテリジェントに行うことができます。モデルは、単にフラットなテーブルを解析するだけでなく、データセット、ビジネスロジック、制約間の関係性を理解できるようになります。
  • アクティブラーニングとインテリジェントデータ分類次にどのデータをラベル付けするかをモデルに任せましょう。能動学習は、通常、モデルが最も信頼できない領域において、最も情報量の多いサンプルに焦点を当てます。これをスマートなデータ分類と組み合わせることで、関連性、新規性、機密性に基づいてデータをクラスタリングおよび整理できます。これにより、データセットに何を、いつ、なぜラベル付けするかというプロセスを効率化し、ラベル付けの作業に集中できるようになります。これにより、各アノテーションが付加価値を高めることが可能になります。
  • 転移学習多くの場合、言語モデルをゼロから学習させるのは非現実的で、膨大なリソースを消費します。しかし、市販のモデルをベースにビジネスニーズに合わせて微調整することで、本番環境レベルのパフォーマンスを実現するために必要なラベル付きデータの量を削減できます。
  • 合成データの生成ニッチなユースケースでは、関連データセットの収集が困難な場合があります。組織は、代わりに、ドメインに関連する元の特性を再現した合成データセットを生成することができます。このアプローチは、初期のプロトタイプの開発を加速させたり、稀なエッジケースを補完してステークホルダーの初期承認を得たりするのに役立ちます。

閉じた思考

より多くのデータを持つことではなく、適切なデータにアクセスできるようになることが重要です。

ブログ全体を通して強調されているように、データの質は量よりもはるかに重要です。重要なのは、ビジネス/ユースケースに対応可能な、クリーンでラベル付けされ、ドメイン特化型のデータ製品の開発に注力することです。AIのためのデータ戦略は、ユースケースの複雑さ、コンピューティングニーズ、モデルの選択、そしてビジネスの成功指標を常に中心に据えるべきです。これらを明確に定義することで、企業はAIの成功につながる明確なロードマップを策定できるようになります。

考慮すべきもう一つの重要な側面は、企業全体で遵守されているコンプライアンス慣行です。適切なコンプライアンスとデータガバナンスのガードレールを整備することは、上記で説明した他のすべてのことと同様に重要です。AIのコンプライアンスとデータガバナンスは非常に複雑なため、別途議論する価値があります。次回のブログで取り上げる予定ですので、どうぞお楽しみに!

Solixでは、データドリブンな企業がデータ資産を最大限に活用できるよう支援しています。 ソリックスエンタープライズAI スイートでは、データのステージング、ドメイン固有のビジネス対応データ製品の開発、大規模な AI を活用したガバナンスの実現のための包括的なソリューションを提供します。

Solixインテリジェントデータ分類Solix EAIスイートの主要部分であるは、ビジネスルールの定義、メタデータの拡充、コンテキストの強化、データの再発見を可能にするインテリジェントなセマンティックレイヤーです。Solix IDCを活用することで、企業はAI拡張メタデータでデータセットを自動的にタグ付けし、関連性、機密性、コンプライアンス要件に基づいて分類することができます。

もしこれが興味深いと思ったら セッションのスケジュールについてはお問い合わせください Solix が既存のデータ戦略の強化にどのように役立つかについて詳しくご覧ください。


【1] https://www.equalexperts.com/blog/tech-focus/ive-spent-1million-on-data-scientists-why-arent-i-seeing-a-return-on-my-investment/#:~:text=using%20cutting,generate%20a%20profit%20at%20all