Серия интервью AI 9: Как оценивать точность системы вопросов-ответов?
Точность — ключевая характеристика системы вопросов-ответов, особенно при попытке применить её в серьёзных сценариях (например, медицина, юриспруденция, внутренняя поддержка предприятия). Моё мнение можно обобщить так: точность — многомерное понятие, нельзя смотреть только на одно число; необходимо оценивать в комплексе с учётом возможностей системы, сложности задачи и цены ошибки.
Ниже рассмотрю четыре аспекта:
1. Точность — не просто «правильно/неправильно»
У традиционных задач классификации (например, распознавание изображений) точность очевидна. Но у систем вопросов-ответов есть дополнительные измерения:
| Измерение | Значение | Пример оценки |
|---|---|---|
| Доля попадания при поиске | Может ли система извлечь из базы знаний фрагмент, содержащий правильный ответ? | Пользователь спрашивает «Выручка компании A за 2024 год» — сможет ли система найти тот абзац отчёта, где содержатся эти данные? |
| Верность генерации | Строго ли ответ модели основан на найденном содержимом, а не придуман ею? | В извлечённых материалах нет упоминания «темп роста», но модель говорит «вырос на 5%» — это неверно. |
| Правильность ответа | Соответствует ли финальный ответ фактам (или эталонному ответу)? | Правильный ответ — «4,2 млрд», модель выдаёт «4,2 млрд» или «около 4,2 миллиарда юаней» — можно считать правильным. |
| Доля отказов | Когда в базе знаний нет информации, может ли система активно сказать «не знаю», а не гадать? | При пустом результате поиска или низкой уверенности вывести «Извините, информация не найдена». |
Система может иметь высокую долю попадания при поиске (всегда находит релевантные абзацы), но низкую верность генерации (постоянно приукрашивает), и итоговая точность всё равно будет низкой. Поэтому, оценивая точность, нужно чётко понимать, какое звено вы измеряете.
2. При текущем уровне технологий, какой точности можно достичь в RAG-системах?
Единой цифры нет, но можно опираться на некоторые открытые исследования и практику:
- Простые фактологические вопросы (один шаг, ответ прямо содержится в одном фрагменте):
Доля попадания при поиске может достигать 90–98% (в зависимости от качества базы знаний и поисковика), верность генерации при хорошо разработанном промпте — 95%+, общая точность — 85–95%. - Многошаговые рассуждения (требуется комбинировать информацию из двух и более разных фрагментов):
Точность поиска падает до 50–70%, правильность ответа может быть только 40–60%. Это главная сложность современных RAG. - Открытая область + зашумлённая база знаний (например, огромное количество веб-страниц):
Точность значительно снижается, так как поиск может внести шум, модель легко отвлекается.
Вывод: в контролируемой среде (чистые, структурированные данные, подходящий размер фрагментов) RAG может достигать точности выше 90%; в сложных, открытых сценариях с многошаговыми рассуждениями точность часто оставляет желать лучшего и требует огромных усилий по оптимизации.
3. Ключевые факторы, влияющие на точность
Если вы обнаружили, что точность вашей RAG-системы неудовлетворительна, обычно стоит проверить следующие четыре звена:
- Сама база знаний
- Устарели ли данные? Неполны? Содержат ошибки?
-
Не запутан ли документ (например, отсканированный без OCR, таблица разбита на бессмысленные куски)?
-
Разделение и индексация
- Слишком короткие текстовые блоки → потеря контекста; слишком длинные → добавление шума.
-
Подходит ли модель эмбеддингов для вашей области (универсальная модель может плохо работать с юридическими терминами)?
-
Стратегия поиска
- Только векторный поиск может упустить точные ключевые слова (например, модель продукта).
-
Отсутствие реранжировщика приводит к тому, что в топе появляются нерелевантные результаты.
-
Этап генерации
- Чётко ли в промпте указано «отвечай только на основе предоставленных материалов, если недостаточно — откажись»?
- Достаточна ли мощность модели (маленькие модели легко упускают детали в длинном контексте)?
Распространённое заблуждение: считать низкую точность следствием недостаточной мощности LLM, хотя на самом деле большинство проблем связано с «поиском» и «дизайном промпта».
4. Как правильно «относиться» к точности — несколько ключевых установок на практике
1. Установите разумные ориентиры и ожидания
- Для областей с высоким риском (медицинская диагностика, юридические консультации) точность 90% тоже недостаточна — необходима ручная проверка или многократная верификация.
- Для сценариев с низким риском (поддержка клиентов как запасной вариант, внутренний поиск знаний) точность 80% в сочетании с дружественным ответом «не знаю» уже может значительно повысить эффективность.
2. Не стремитесь к 100% — стремитесь к «проверяемой точности»
- Пусть система автоматически прикрепляет источники (какую статью, какой абзац).
Пользователи могут сами проверить оригинал; даже если ответ иногда ошибочен, прозрачность создаёт доверие. - Добавьте оценку уверенности — при низкой уверенности система предупредит: «Этот ответ может быть ненадёжным, рекомендуется обратиться к исходному документу».
3. Рассматривайте точность как объект непрерывной оптимизации, а не разовую цель
- Создайте пайплайн оценки: регулярно выбирайте набор размеченных вручную вопросов и автоматически оценивайте долю попадания при поиске и верность генерации.
- Используйте инструменты вроде RAGAS, TruLens для систематической оценки, а не полагайтесь на несколько кейсов.
- На основе bad case постоянно корректируйте: способ разделения, параметры поиска, модель реранжировщика, промпты.
4. Различайте «системную ошибку» и «несовпадение с человеческими стандартами»
- Иногда ответ системы отличается от ожиданий пользователя, но по данным базы знаний он верен (поскольку база имеет ограничения или содержит спорные моменты).
Здесь нужно определить: точность считается относительно «фактов базы знаний» или «общепризнанных внешних фактов»?
Итоговое резюме
Точность системы вопросов-ответов — это не статический показатель «на отлично», а комплексная характеристика, отражающая «покрытие знаний + точность поиска + верность генерации + способность отказать». Оценивая её, следует трезво понимать, что современные технологии не могут быть идеальными, и одновременно с помощью ссылок на источники, индикаторов уверенности, человеко-машинного взаимодействия и других приёмов извлекать из неё реальную пользу для бизнеса.
评论
暂无已展示的评论。
发表评论(匿名)