Интервју од серијата за вештачка интелигенција 9: Како да се гледа на точноста на системите за прашања и одговори?

Точноста е главната животна линија на системите за прашања и одговори, особено кога се обидувате да ги примените во сериозни сценарија (како медицина, право, внатрешна поддршка на компании). Моето гледиште може да се сумира како: точноста е повеќедимензионален концепт, не треба да се гледа само на една бројка, туку да се оценува комбинација од способности на системот, тежината на задачата и трошоците за грешки.

Подолу се разработува на четири нивоа:

1. Точноста не е само „точно/неточно“

Кај традиционалните проблеми за класификација (како препознавање слики) точноста е јасна. Но, кај системите за прашања и одговори, вообичаените потдимензии вклучуваат:

Димензија	Значење	Пример за евалуација
Стапка на погодок при пребарување	Дали системот може да пронајде документи што го содржат точниот одговор од базата на знаење?	Корисникот прашува „Приход на компанијата А за 2024“, дали системот ќе го пронајде тој извештај со податокот?
Верност на генерирањето	Дали генерираниот одговор е строго базиран на пронајдената содржина, а не измислен?	Во пронајдените материјали не се споменува „стапка на раст“, но моделот вели „раст од 5%“ → неверно
Точност на одговорот	Дали конечниот одговор се совпаѓа со фактот (или референтниот одговор)?	Точниот одговор е „4,2 милијарди“, моделот дава „4,2 милијарди“ или „околу 4,2 милијарди јуани“ → може да се смета за точно
Стапка на одбивање	Кога базата на знаење нема релевантни информации, дали системот активно вели „не знам“ наместо да погоди?	Кога пребарувањето е празно или довербата е ниска, излезот е „Извинете, не е пронајдена релевантна информација“

Системот може да има висока стапка на погодок при пребарување (секогаш наоѓа релевантни параграфи), но ниска верност на генерирањето (секогаш додава), па крајната точност сепак е лоша. Затоа, кога гледате на точноста, прво определете кој дел го мерите.

2. Под моменталната технологија, колкава е точноста на RAG системите?

Нема универзален број, но може да се осврнеме на некои јавни истражувања и практики:

Едноставни фактички прашања (еден скок, одговорот директно се појавува во еден материјал):
Стапка на погодок при пребарување: 90-98% (во зависност од квалитетот на базата на знаење и пребарувачот), верност на генерирањето: над 95% со добро дизајниран поттик, севкупна точност: 85-95%.
Повеќескокно расудување (потреба да се комбинираат информации од два или повеќе различни материјали):
Точноста на пребарувањето паѓа на 50-70%, точноста на генерираниот одговор може да биде само 40-60%. Тоа е главниот предизвик на RAG во моментов.
Отворен домен + бучна база на знаење (како огромен број веб-страници):
Точноста значително опаѓа, бидејќи пребарувањето може да внесе шум, а моделот лесно се замара.

Заклучок: Во контролирана средина (чиста, структурирана, со соодветна големина на документи), RAG може да постигне над 90% точност; но во сложени, отворени сценарија што бараат повеќескокно расудување, точноста често е незадоволителна и бара многу оптимизација.

3. Клучни фактори што влијаат на точноста

Ако откриете дека точноста на вашиот RAG систем не е идеална, обично можете да проверите четири аспекти:

Самата база на знаење
Дали податоците се застарени, нецелосни или дури погрешни?
Дали документите се неуредни (на пр., скенирани без OCR, табели претворени во хаотичен текст)?
Поделба и индексирање
Ако блоковите се премногу кратки → се губи контекст; ако се премногу долги → се додава шум.
Дали моделот за вградување е соодветен за вашата област (општите модели може да се лоши за правни термини)?
Стратегија за пребарување
Користењето само векторско пребарување може да ги игнорира точните клучни зборови (како модели на производи).
Недостатокот на повторно рангирање води до мешање на нерелевантни содржини во првите резултати.
Фаза на генерирање
Дали поттикот јасно наложува „одговарај само врз основа на дадените материјали, ако недоволно одбиј“?
Дали способноста на моделот е доволна (малите модели лесно ги пропуштаат деталите во долг контекст)?

Честа грешка: Директно вината за ниската точност се припишува на недостаток на способноста на LLM, но всушност повеќето проблеми се во „пребарувањето“ и „дизајнот на поттикот“.

4. Како правилно да се „гледа“ на точноста – неколку клучни ставови во практиката

1. Поставете разумни основи и очекувања

За високоризични области (медицинска дијагностика, правни совети), дури и 90% точност е далеку од доволна; мора да се воведе човечка проверка или повеќекратна верификација.
За сценарија со низок ризик (поддршка за клиенти, внатрешно пребарување на знаење), 80% точност плус пријателски „не знам“ одговор може значително да ја зголеми ефикасноста.

2. Не стремете се кон 100%, туку кон „проверлива точност“

Натерајте го системот автоматски да прикачува извори (која статија, кој параграф).
Корисниците можат да го видат оригиналниот текст и сами да го проверат; дури и ако одговорот повремено греши, транспарентноста гради доверба.
Додајте оценка на доверба, при ниски резултати активно предупредувајте „Овој одговор има ниска веродостојност, препорачуваме да го проверите оригиналниот документ“.

3. Гледајте на точноста како на предмет за континуирана оптимизација, а не како еднократна цел

Воспоставете евалуациски цевковод: редовно земајте примерок од рачно означени прашања, автоматски оценувајте стапка на погодок при пребарување и верност на генерирањето.
Користете алатки како RAGAS, TruLens за систематско оценување, наместо да се потпирате на неколку случаи.
Врз основа на лошите случаи постојано прилагодувајте: начин на поделба, параметри на пребарувачот, модел за повторно рангирање, поттик.

4. Разликувајте „системска грешка“ од „неусогласеност со човечките стандарди“

Понекогаш системот дава одговор што се разликува од очекувањата на корисникот, но според базата на знаење е точен (бидејќи базата има ограничувања или контроверзии).
Тогаш треба да се определи: дали точноста се однесува на „фактите од базата на знаење“ или на „општо признатите факти“?

Конечен заклучок

Точноста на системите за прашања и одговори не е статична максимална мерка, туку комбинирана вредност што ја одразува „покриеноста на знаењето + прецизноста на пребарувањето + верноста на генерирањето + способноста за одбивање“. Кога ја гледате, треба рационално да сфатите дека моменталната технологија не може да биде совршена, но преку наведување извори, индикација на доверба и соработка човек-машина можете да извлечете практична вредност во работењето.