← 返回列表

Серия интервью AI 9: Как оценивать точность системы вопросов-ответов?

Точность — ключевая характеристика системы вопросов-ответов, особенно при попытке применить её в серьёзных сценариях (например, медицина, юриспруденция, внутренняя поддержка предприятия). Моё мнение можно обобщить так: точность — многомерное понятие, нельзя смотреть только на одно число; необходимо оценивать в комплексе с учётом возможностей системы, сложности задачи и цены ошибки.

Ниже рассмотрю четыре аспекта:


1. Точность — не просто «правильно/неправильно»

У традиционных задач классификации (например, распознавание изображений) точность очевидна. Но у систем вопросов-ответов есть дополнительные измерения:

Измерение Значение Пример оценки
Доля попадания при поиске Может ли система извлечь из базы знаний фрагмент, содержащий правильный ответ? Пользователь спрашивает «Выручка компании A за 2024 год» — сможет ли система найти тот абзац отчёта, где содержатся эти данные?
Верность генерации Строго ли ответ модели основан на найденном содержимом, а не придуман ею? В извлечённых материалах нет упоминания «темп роста», но модель говорит «вырос на 5%» — это неверно.
Правильность ответа Соответствует ли финальный ответ фактам (или эталонному ответу)? Правильный ответ — «4,2 млрд», модель выдаёт «4,2 млрд» или «около 4,2 миллиарда юаней» — можно считать правильным.
Доля отказов Когда в базе знаний нет информации, может ли система активно сказать «не знаю», а не гадать? При пустом результате поиска или низкой уверенности вывести «Извините, информация не найдена».

Система может иметь высокую долю попадания при поиске (всегда находит релевантные абзацы), но низкую верность генерации (постоянно приукрашивает), и итоговая точность всё равно будет низкой. Поэтому, оценивая точность, нужно чётко понимать, какое звено вы измеряете.


2. При текущем уровне технологий, какой точности можно достичь в RAG-системах?

Единой цифры нет, но можно опираться на некоторые открытые исследования и практику:

  • Простые фактологические вопросы (один шаг, ответ прямо содержится в одном фрагменте):
    Доля попадания при поиске может достигать 90–98% (в зависимости от качества базы знаний и поисковика), верность генерации при хорошо разработанном промпте — 95%+, общая точность — 85–95%.
  • Многошаговые рассуждения (требуется комбинировать информацию из двух и более разных фрагментов):
    Точность поиска падает до 50–70%, правильность ответа может быть только 40–60%. Это главная сложность современных RAG.
  • Открытая область + зашумлённая база знаний (например, огромное количество веб-страниц):
    Точность значительно снижается, так как поиск может внести шум, модель легко отвлекается.

Вывод: в контролируемой среде (чистые, структурированные данные, подходящий размер фрагментов) RAG может достигать точности выше 90%; в сложных, открытых сценариях с многошаговыми рассуждениями точность часто оставляет желать лучшего и требует огромных усилий по оптимизации.


3. Ключевые факторы, влияющие на точность

Если вы обнаружили, что точность вашей RAG-системы неудовлетворительна, обычно стоит проверить следующие четыре звена:

  1. Сама база знаний
  2. Устарели ли данные? Неполны? Содержат ошибки?
  3. Не запутан ли документ (например, отсканированный без OCR, таблица разбита на бессмысленные куски)?

  4. Разделение и индексация

  5. Слишком короткие текстовые блоки → потеря контекста; слишком длинные → добавление шума.
  6. Подходит ли модель эмбеддингов для вашей области (универсальная модель может плохо работать с юридическими терминами)?

  7. Стратегия поиска

  8. Только векторный поиск может упустить точные ключевые слова (например, модель продукта).
  9. Отсутствие реранжировщика приводит к тому, что в топе появляются нерелевантные результаты.

  10. Этап генерации

  11. Чётко ли в промпте указано «отвечай только на основе предоставленных материалов, если недостаточно — откажись»?
  12. Достаточна ли мощность модели (маленькие модели легко упускают детали в длинном контексте)?

Распространённое заблуждение: считать низкую точность следствием недостаточной мощности LLM, хотя на самом деле большинство проблем связано с «поиском» и «дизайном промпта».


4. Как правильно «относиться» к точности — несколько ключевых установок на практике

1. Установите разумные ориентиры и ожидания

  • Для областей с высоким риском (медицинская диагностика, юридические консультации) точность 90% тоже недостаточна — необходима ручная проверка или многократная верификация.
  • Для сценариев с низким риском (поддержка клиентов как запасной вариант, внутренний поиск знаний) точность 80% в сочетании с дружественным ответом «не знаю» уже может значительно повысить эффективность.

2. Не стремитесь к 100% — стремитесь к «проверяемой точности»

  • Пусть система автоматически прикрепляет источники (какую статью, какой абзац).
    Пользователи могут сами проверить оригинал; даже если ответ иногда ошибочен, прозрачность создаёт доверие.
  • Добавьте оценку уверенности — при низкой уверенности система предупредит: «Этот ответ может быть ненадёжным, рекомендуется обратиться к исходному документу».

3. Рассматривайте точность как объект непрерывной оптимизации, а не разовую цель

  • Создайте пайплайн оценки: регулярно выбирайте набор размеченных вручную вопросов и автоматически оценивайте долю попадания при поиске и верность генерации.
  • Используйте инструменты вроде RAGAS, TruLens для систематической оценки, а не полагайтесь на несколько кейсов.
  • На основе bad case постоянно корректируйте: способ разделения, параметры поиска, модель реранжировщика, промпты.

4. Различайте «системную ошибку» и «несовпадение с человеческими стандартами»

  • Иногда ответ системы отличается от ожиданий пользователя, но по данным базы знаний он верен (поскольку база имеет ограничения или содержит спорные моменты).
    Здесь нужно определить: точность считается относительно «фактов базы знаний» или «общепризнанных внешних фактов»?

Итоговое резюме

Точность системы вопросов-ответов — это не статический показатель «на отлично», а комплексная характеристика, отражающая «покрытие знаний + точность поиска + верность генерации + способность отказать». Оценивая её, следует трезво понимать, что современные технологии не могут быть идеальными, и одновременно с помощью ссылок на источники, индикаторов уверенности, человеко-машинного взаимодействия и других приёмов извлекать из неё реальную пользу для бизнеса.

评论

暂无已展示的评论。

发表评论(匿名)