AI серия интервюта 9: Как да гледаме на точността на системите за въпроси и отговори?

Точността е основната жизнена линия на системите за въпроси и отговори, особено когато се опитвате да ги приложите в сериозни сценарии (като здравеопазване, право, вътрешна подкрепа в предприятие). Моето виждане може да се обобщи така: Точността е многомерна концепция, която не трябва да се гледа само като единично число, а да се оценява комплексно, като се вземат предвид възможностите на системата, трудността на задачата и разходите за грешки.

По-долу разглеждам темата от четири нива:

1. Точността не е просто „правилно/грешно“

При традиционните класификационни проблеми (като разпознаване на изображения) точността е ясна. Но при системите за въпроси и отговори, общите подразделения включват:

Измерение	Значение	Пример за оценка
процент на попадение при извличане	Дали системата може да извлече от базата знания документния блок, съдържащ правилния отговор?	Потребителят пита „Приходите на компания А за 2024 г.“, може ли системата да извлече този финансов отчет, съдържащ данните?
вярност на генерацията	Дали генерираният от модела отговор е строго базиран на извлеченото съдържание, а не измислен?	Извлеченият материал не споменава „темп на растеж“, но моделът казва „ръст от 5%“ → невярно
правилност на отговора	Дали крайният отговор съвпада с фактите (или референтния отговор)?	Правилният отговор е „4,2 милиарда“, моделът извежда „4,2 милиарда“ или „около 4,2 милиарда юана“ – може да се счита за правилно
процент на отказ	Когато в базата знания няма информация, може ли системата активно да каже „не знам“, вместо да предполага?	При празно извличане или ниска увереност, извежда „Съжалявам, не е намерена съответна информация“

Една система може да има висок процент на попадение при извличане (винаги намира съответния параграф), но ниска вярност на генерацията (винаги добавя излишни неща) и в крайна сметка точността е ниска. Затова, когато гледаме точността, първо трябва да уточним кой етап измерваме.

2. При текущото ниво на технологията, каква точност могат да постигнат RAG системите?

Няма единна цифра, но може да се позовем на някои публични изследвания и практики:

Прости фактически въпроси (едно прескачане, отговорът се появява директно в един документ):
Процент на попадение при извличане: 90-98% (в зависимост от качеството на базата знания и извличащия), вярност на генерацията при внимателно проектирани подкани: 95%+, обща точност: 85-95%.
Многопрескокови разсъждения (изисква комбиниране на информация от два или повече различни документа):
Точността на извличане спада рязко до 50-70%, правилността на генерирания отговор може да е само 40-60%. Това е основната трудност на текущите RAG системи.
Отворена област + шумна база знания (като огромно количество уеб страници):
Точността значително намалява, защото извличането може да внесе шум и моделът лесно се смущава.

Заключение: В контролирана среда (чиста, структурирана, с подходяща грануларност на документите) RAG може да постигне точност над 90%; но в сложни, отворени сценарии, изискващи многопрескокови разсъждения, точността често е незадоволителна и изисква много оптимизации.

3. Основни фактори, влияещи върху точността

Ако установите, че точността на вашата RAG система не е задоволителна, обикновено може да проверите следните четири етапа:

Самата база знания
Данните остарели ли са, непълни или с грешки?
Документите объркани ли са (например сканирани без OCR, таблици разбити в безсмислени знаци)?
Разделяне и индексиране
Текстовите блокове твърде къси ли са → загуба на контекст; твърде дълги ли са → примесен шум.
Моделът на вграждане подходящ ли е за вашата област (общите модели може да се представят зле с правни термини)?
Стратегия на извличане
Само векторно извличане може да пропусне точни ключови думи (като модел на продукт).
Липса на повторно класиране, което води до примесване на несвързано съдържание в топ резултатите.
Етап на генерация
Изрично ли се изисква в подканата „отговаряй само въз основа на предоставения материал, ако не е достатъчно, откажи“?
Достатъчни ли са възможностите на модела (малките модели лесно пропускат детайли в дълъг контекст)?

Често срещано заблуждение: Ниската точност се приписва директно на недостатъчните възможности на LLM, но в повечето случаи проблемът е в „извличането“ и „проектирането на подкани“.

4. Как да „гледаме“ правилно на точността – няколко ключови нагласи в практиката

1. Задайте разумни базови линии и очаквания

За високорискови области (медицинска диагноза, правен съвет) дори 90% точност не е достатъчна; трябва да се въведе човешка проверка или многократна верификация.
За нискорискови сценарии (поддръжка на клиенти, вътрешно търсене на знания) 80% точност, съчетана с приятелски отговор „не знам“, може вече значително да повиши ефективността.

2. Не се стремете към 100%, стремете се към „проверима точност“

Накарайте системата автоматично да прикаже източници (кой документ, кой параграф).
Потребителят може да види оригинала и сам да провери; дори ако отговорът понякога е грешен, прозрачността изгражда доверие.
Добавете оценка на увереността, като при ниска увереност активно предупреждавайте „Този отговор е с ниска надеждност, препоръчваме да се консултирате с оригиналния документ“.

3. Отнасяйте се към точността като към обект на непрекъсната оптимизация, а не като еднократна цел

Създайте тръбопровод за оценка: редовно вземайте партида от ръчно анотирани въпроси, автоматизирано оценявайте процента на попадение при извличане и вярността на генерацията.
Използвайте инструменти като RAGAS, TruLens за систематична оценка, вместо да разчитате на няколко случайни примера.
Постоянно настройвайте въз основа на лоши случаи: метод на разделяне, параметри на извличане, модел за повторно класиране, подкани.

4. Разграничете „системна грешка“ и „несъответствие с човешките стандарти“

Понякога отговорът, даден от системата, се различава от очакванията на потребителя, но според данните в базата знания е правилен (защото самата база знания има ограничения или противоречия).
Тогава трябва да се определи: точността се измерва спрямо „фактите в базата знания“ или спрямо „външно признатите факти“?

Заключение

**Точността на системата за въпроси и отговори не е статичен показател за пълно съвпадение, а комплексна стойност, отразяваща „покритие на знанията + прецизност на извличане + вярност на генерация + способност за отказ“. ** Когато я гледате, трябва рационално да осъзнаете, че текущата технология не може да постигне съвършенство, но чрез проектиране на проследяване на източници, индикация на увереност, човешко-машинно сътрудничество и т.н., можете да реализирате реална стойност в бизнеса.