Серия интервью AI 9: Как оценивать точность системы вопросов-ответов?

Точность — ключевая характеристика системы вопросов-ответов, особенно при попытке применить её в серьёзных сценариях (например, медицина, юриспруденция, внутренняя поддержка предприятия). Моё мнение можно обобщить так: точность — многомерное понятие, нельзя смотреть только на одно число; необходимо оценивать в комплексе с учётом возможностей системы, сложности задачи и цены ошибки.

Ниже рассмотрю четыре аспекта:

1. Точность — не просто «правильно/неправильно»

У традиционных задач классификации (например, распознавание изображений) точность очевидна. Но у систем вопросов-ответов есть дополнительные измерения:

Измерение	Значение	Пример оценки
Доля попадания при поиске	Может ли система извлечь из базы знаний фрагмент, содержащий правильный ответ?	Пользователь спрашивает «Выручка компании A за 2024 год» — сможет ли система найти тот абзац отчёта, где содержатся эти данные?
Верность генерации	Строго ли ответ модели основан на найденном содержимом, а не придуман ею?	В извлечённых материалах нет упоминания «темп роста», но модель говорит «вырос на 5%» — это неверно.
Правильность ответа	Соответствует ли финальный ответ фактам (или эталонному ответу)?	Правильный ответ — «4,2 млрд», модель выдаёт «4,2 млрд» или «около 4,2 миллиарда юаней» — можно считать правильным.
Доля отказов	Когда в базе знаний нет информации, может ли система активно сказать «не знаю», а не гадать?	При пустом результате поиска или низкой уверенности вывести «Извините, информация не найдена».

Система может иметь высокую долю попадания при поиске (всегда находит релевантные абзацы), но низкую верность генерации (постоянно приукрашивает), и итоговая точность всё равно будет низкой. Поэтому, оценивая точность, нужно чётко понимать, какое звено вы измеряете.

2. При текущем уровне технологий, какой точности можно достичь в RAG-системах?

Единой цифры нет, но можно опираться на некоторые открытые исследования и практику:

Простые фактологические вопросы (один шаг, ответ прямо содержится в одном фрагменте):
Доля попадания при поиске может достигать 90–98% (в зависимости от качества базы знаний и поисковика), верность генерации при хорошо разработанном промпте — 95%+, общая точность — 85–95%.
Многошаговые рассуждения (требуется комбинировать информацию из двух и более разных фрагментов):
Точность поиска падает до 50–70%, правильность ответа может быть только 40–60%. Это главная сложность современных RAG.
Открытая область + зашумлённая база знаний (например, огромное количество веб-страниц):
Точность значительно снижается, так как поиск может внести шум, модель легко отвлекается.

Вывод: в контролируемой среде (чистые, структурированные данные, подходящий размер фрагментов) RAG может достигать точности выше 90%; в сложных, открытых сценариях с многошаговыми рассуждениями точность часто оставляет желать лучшего и требует огромных усилий по оптимизации.

3. Ключевые факторы, влияющие на точность

Если вы обнаружили, что точность вашей RAG-системы неудовлетворительна, обычно стоит проверить следующие четыре звена:

Сама база знаний
Устарели ли данные? Неполны? Содержат ошибки?
Не запутан ли документ (например, отсканированный без OCR, таблица разбита на бессмысленные куски)?
Разделение и индексация
Слишком короткие текстовые блоки → потеря контекста; слишком длинные → добавление шума.
Подходит ли модель эмбеддингов для вашей области (универсальная модель может плохо работать с юридическими терминами)?
Стратегия поиска
Только векторный поиск может упустить точные ключевые слова (например, модель продукта).
Отсутствие реранжировщика приводит к тому, что в топе появляются нерелевантные результаты.
Этап генерации
Чётко ли в промпте указано «отвечай только на основе предоставленных материалов, если недостаточно — откажись»?
Достаточна ли мощность модели (маленькие модели легко упускают детали в длинном контексте)?

Распространённое заблуждение: считать низкую точность следствием недостаточной мощности LLM, хотя на самом деле большинство проблем связано с «поиском» и «дизайном промпта».

4. Как правильно «относиться» к точности — несколько ключевых установок на практике

1. Установите разумные ориентиры и ожидания

Для областей с высоким риском (медицинская диагностика, юридические консультации) точность 90% тоже недостаточна — необходима ручная проверка или многократная верификация.
Для сценариев с низким риском (поддержка клиентов как запасной вариант, внутренний поиск знаний) точность 80% в сочетании с дружественным ответом «не знаю» уже может значительно повысить эффективность.

2. Не стремитесь к 100% — стремитесь к «проверяемой точности»

Пусть система автоматически прикрепляет источники (какую статью, какой абзац).
Пользователи могут сами проверить оригинал; даже если ответ иногда ошибочен, прозрачность создаёт доверие.
Добавьте оценку уверенности — при низкой уверенности система предупредит: «Этот ответ может быть ненадёжным, рекомендуется обратиться к исходному документу».

3. Рассматривайте точность как объект непрерывной оптимизации, а не разовую цель

Создайте пайплайн оценки: регулярно выбирайте набор размеченных вручную вопросов и автоматически оценивайте долю попадания при поиске и верность генерации.
Используйте инструменты вроде RAGAS, TruLens для систематической оценки, а не полагайтесь на несколько кейсов.
На основе bad case постоянно корректируйте: способ разделения, параметры поиска, модель реранжировщика, промпты.

4. Различайте «системную ошибку» и «несовпадение с человеческими стандартами»

Иногда ответ системы отличается от ожиданий пользователя, но по данным базы знаний он верен (поскольку база имеет ограничения или содержит спорные моменты).
Здесь нужно определить: точность считается относительно «фактов базы знаний» или «общепризнанных внешних фактов»?

Итоговое резюме

Точность системы вопросов-ответов — это не статический показатель «на отлично», а комплексная характеристика, отражающая «покрытие знаний + точность поиска + верность генерации + способность отказать». Оценивая её, следует трезво понимать, что современные технологии не могут быть идеальными, и одновременно с помощью ссылок на источники, индикаторов уверенности, человеко-машинного взаимодействия и других приёмов извлекать из неё реальную пользу для бизнеса.