AIシリーズ面接9：知識質問応答システムの精度をどう考えるか？

精度は知識質問応答システムの核心的な生命線であり、特に医療、法律、企業内サポートなどの深刻なシナリオに適用しようとする場合に顕著です。私の見解は次のようにまとめられます。精度は多次元的な概念であり、単一の数字だけを見るのではなく、システムの能力、タスクの難易度、エラーコストを総合的に評価する必要があります。

以下、4つのレベルから詳しく説明します。

一、精度は単なる「正解/不正解」ではない

従来の分類問題（画像認識など）では精度は明確ですが、知識質問応答システムでは異なります。一般的な細分化の次元は以下の通りです。

次元	意味	評価例
検索ヒット率	システムがナレッジベースから回答を含むドキュメントブロックを取得できるか？	ユーザーが「A社の2024年の売上」と尋ねたとき、そのデータを含む財務報告セクションを検索できるか？
生成忠実度	モデルが生成した回答が厳密に検索された内容に基づいており、自分で作り出していないか？	検索資料に「成長率」が記載されていないのに、モデルが「5%増加した」と言う → 不忠実
回答正確性	最終的な回答が事実（または参照回答）と一致するか？	正解が「42億円」の場合、モデルが「42億円」または「約42億元」と出力すれば正解とみなせる
拒否率	ナレッジベースに関連情報がない場合、システムが積極的に「わかりません」と言い、推測しないか？	検索結果が空または信頼度が低い場合、「申し訳ありませんが、関連情報が見つかりませんでした」と出力

あるシステムは検索ヒット率が非常に高くても（常に関連段落を見つけられる）、生成忠実度が低い（常に脚色する）ため、最終的な精度は依然として低い可能性があります。したがって、精度を考える際には、どの段階を測定しているのかを明確にする必要があります。

二、現在の技術レベルで、RAGシステムの精度はどの程度か？

統一された数字はありませんが、公開された研究や実践を参考にできます。

単純な事実型QA（1ホップ、回答が1つの資料に直接現れる）：
検索ヒット率は90〜98%（ナレッジベースの品質と検索器に依存）、生成忠実度は慎重に設計されたプロンプトで95%以上、総合精度は85〜95%の範囲。
マルチホップ推論（2つ以上の異なる資料の情報を組み合わせる必要がある）：
検索精度は50〜70%に急落し、生成回答の正確性は40〜60%しかない可能性がある。これは現在のRAGの主要な課題である。
オープンドメイン＋ノイズの多いナレッジベース（大量のウェブページなど）：
精度は著しく低下する。検索がノイズを導入し、モデルが干渉を受けやすいため。

結論：制御された環境（クリーンで構造化され、文書の粒度が適切）では、RAGは90%以上の精度を達成できるが、複雑でオープンなマルチステップ推論が必要なシナリオでは、精度はしばしば不十分であり、多くの最適化が必要。

三、精度に影響を与える中核要因

RAGシステムの精度が期待通りでない場合、通常は以下の4つの段階で問題を切り分けることができます。

ナレッジベース自体
データが古かったり、不完全だったり、エラーが含まれていないか？
ドキュメントが乱れていないか（スキャン文書がOCR未処理、テーブルが文字化けなど）？
分割とインデックス
テキストブロックが短すぎる → コンテキスト喪失；長すぎる → ノイズ混入。
埋め込みモデルが対象ドメインに適しているか（汎用モデルは法律用語で性能が低い可能性）？
検索戦略
ベクトル検索のみだと、正確なキーワード（製品型番など）を見逃す可能性。
リランキングなしで、上位結果に関連性の低いコンテンツが混入。
生成段階
プロンプトで「提供された資料のみに基づいて回答し、不十分な場合は拒否する」と明確に指定しているか？
モデルの能力が十分か（小規模モデルは長いコンテキストの詳細を見落としやすい）？

よくある誤解：低い精度を直接LLMの能力不足のせいにするが、実際には問題のほとんどは「検索」と「プロンプト設計」にある。

四、精度を「正しく考える」ための実践的な重要な姿勢

1. 合理的なベンチマークと期待値を設定する

高リスク領域（医療診断、法的助言）では、90%の精度でも不十分であり、人間によるレビューや多重検証が必要。
低リスクシナリオ（カスタマーサービス補助、社内知識検索）では、80%の精度と親切な「わからない」応答で、効率を大幅に向上できる可能性がある。

2. 100%を追求せず、「検証可能な精度」を目指す

システムに自動で引用元（出典）を添付させる（どの記事、どの段落を参照したか）。
ユーザーは原文を確認でき、回答が時々間違っていても、透明性が信頼を築く。
信頼度スコアを追加し、低スコアの場合は「この回答の信頼性は低いため、原文をご確認ください」と積極的に通知する。

3. 精度を一度きりの目標ではなく、継続的な最適化の対象とする

評価パイプラインを構築する：定期的に人手でアノテーションされた質問を抽出し、検索ヒット率と生成忠実度を自動評価する。
RAGAS、TruLensなどのツールを使用して体系的な評価を行い、いくつかの事例だけで判断しない。
bad caseに基づいて分割方法、検索器パラメータ、リランキングモデル、プロンプトを随時調整する。

4. 「システムエラー」と「人間の基準の不一致」を区別する

システムの回答がユーザーの期待と異なる場合でも、ナレッジベース内の資料に基づけば正しいことがある（ナレッジベース自体に限界や論争があるため）。
この場合、精度は「ナレッジベースの事実」を基準とするのか、「外部の一般的事実」を基準とするのかを定義する必要がある。

最後にまとめ

知識質問応答システムの精度は静的な満点指標ではなく、「知識カバレッジ + 検索精度 + 生成忠実度 + 拒否能力」を示す総合的な能力値です。 これを考える際には、現在の技術では完璧を達成できないことを理性的に認識しつつ、引用の追跡、信頼度表示、人間と機械の協調などの設計を通じて、ビジネスで実際に価値を発揮させる必要があります。