Интервју од серијата за вештачка интелигенција 9: Како да се гледа на точноста на системите за прашања и одговори?
Точноста е главната животна линија на системите за прашања и одговори, особено кога се обидувате да ги примените во сериозни сценарија (како медицина, право, внатрешна поддршка на компании). Моето гледиште може да се сумира како: точноста е повеќедимензионален концепт, не треба да се гледа само на една бројка, туку да се оценува комбинација од способности на системот, тежината на задачата и трошоците за грешки.
Подолу се разработува на четири нивоа:
1. Точноста не е само „точно/неточно“
Кај традиционалните проблеми за класификација (како препознавање слики) точноста е јасна. Но, кај системите за прашања и одговори, вообичаените потдимензии вклучуваат:
| Димензија | Значење | Пример за евалуација |
|---|---|---|
| Стапка на погодок при пребарување | Дали системот може да пронајде документи што го содржат точниот одговор од базата на знаење? | Корисникот прашува „Приход на компанијата А за 2024“, дали системот ќе го пронајде тој извештај со податокот? |
| Верност на генерирањето | Дали генерираниот одговор е строго базиран на пронајдената содржина, а не измислен? | Во пронајдените материјали не се споменува „стапка на раст“, но моделот вели „раст од 5%“ → неверно |
| Точност на одговорот | Дали конечниот одговор се совпаѓа со фактот (или референтниот одговор)? | Точниот одговор е „4,2 милијарди“, моделот дава „4,2 милијарди“ или „околу 4,2 милијарди јуани“ → може да се смета за точно |
| Стапка на одбивање | Кога базата на знаење нема релевантни информации, дали системот активно вели „не знам“ наместо да погоди? | Кога пребарувањето е празно или довербата е ниска, излезот е „Извинете, не е пронајдена релевантна информација“ |
Системот може да има висока стапка на погодок при пребарување (секогаш наоѓа релевантни параграфи), но ниска верност на генерирањето (секогаш додава), па крајната точност сепак е лоша. Затоа, кога гледате на точноста, прво определете кој дел го мерите.
2. Под моменталната технологија, колкава е точноста на RAG системите?
Нема универзален број, но може да се осврнеме на некои јавни истражувања и практики:
- Едноставни фактички прашања (еден скок, одговорот директно се појавува во еден материјал):
Стапка на погодок при пребарување: 90-98% (во зависност од квалитетот на базата на знаење и пребарувачот), верност на генерирањето: над 95% со добро дизајниран поттик, севкупна точност: 85-95%. - Повеќескокно расудување (потреба да се комбинираат информации од два или повеќе различни материјали):
Точноста на пребарувањето паѓа на 50-70%, точноста на генерираниот одговор може да биде само 40-60%. Тоа е главниот предизвик на RAG во моментов. - Отворен домен + бучна база на знаење (како огромен број веб-страници):
Точноста значително опаѓа, бидејќи пребарувањето може да внесе шум, а моделот лесно се замара.
Заклучок: Во контролирана средина (чиста, структурирана, со соодветна големина на документи), RAG може да постигне над 90% точност; но во сложени, отворени сценарија што бараат повеќескокно расудување, точноста често е незадоволителна и бара многу оптимизација.
3. Клучни фактори што влијаат на точноста
Ако откриете дека точноста на вашиот RAG систем не е идеална, обично можете да проверите четири аспекти:
- Самата база на знаење
- Дали податоците се застарени, нецелосни или дури погрешни?
-
Дали документите се неуредни (на пр., скенирани без OCR, табели претворени во хаотичен текст)?
-
Поделба и индексирање
- Ако блоковите се премногу кратки → се губи контекст; ако се премногу долги → се додава шум.
-
Дали моделот за вградување е соодветен за вашата област (општите модели може да се лоши за правни термини)?
-
Стратегија за пребарување
- Користењето само векторско пребарување може да ги игнорира точните клучни зборови (како модели на производи).
-
Недостатокот на повторно рангирање води до мешање на нерелевантни содржини во првите резултати.
-
Фаза на генерирање
- Дали поттикот јасно наложува „одговарај само врз основа на дадените материјали, ако недоволно одбиј“?
- Дали способноста на моделот е доволна (малите модели лесно ги пропуштаат деталите во долг контекст)?
Честа грешка: Директно вината за ниската точност се припишува на недостаток на способноста на LLM, но всушност повеќето проблеми се во „пребарувањето“ и „дизајнот на поттикот“.
4. Како правилно да се „гледа“ на точноста – неколку клучни ставови во практиката
1. Поставете разумни основи и очекувања
- За високоризични области (медицинска дијагностика, правни совети), дури и 90% точност е далеку од доволна; мора да се воведе човечка проверка или повеќекратна верификација.
- За сценарија со низок ризик (поддршка за клиенти, внатрешно пребарување на знаење), 80% точност плус пријателски „не знам“ одговор може значително да ја зголеми ефикасноста.
2. Не стремете се кон 100%, туку кон „проверлива точност“
- Натерајте го системот автоматски да прикачува извори (која статија, кој параграф).
Корисниците можат да го видат оригиналниот текст и сами да го проверат; дури и ако одговорот повремено греши, транспарентноста гради доверба. - Додајте оценка на доверба, при ниски резултати активно предупредувајте „Овој одговор има ниска веродостојност, препорачуваме да го проверите оригиналниот документ“.
3. Гледајте на точноста како на предмет за континуирана оптимизација, а не како еднократна цел
- Воспоставете евалуациски цевковод: редовно земајте примерок од рачно означени прашања, автоматски оценувајте стапка на погодок при пребарување и верност на генерирањето.
- Користете алатки како RAGAS, TruLens за систематско оценување, наместо да се потпирате на неколку случаи.
- Врз основа на лошите случаи постојано прилагодувајте: начин на поделба, параметри на пребарувачот, модел за повторно рангирање, поттик.
4. Разликувајте „системска грешка“ од „неусогласеност со човечките стандарди“
- Понекогаш системот дава одговор што се разликува од очекувањата на корисникот, но според базата на знаење е точен (бидејќи базата има ограничувања или контроверзии).
Тогаш треба да се определи: дали точноста се однесува на „фактите од базата на знаење“ или на „општо признатите факти“?
Конечен заклучок
Точноста на системите за прашања и одговори не е статична максимална мерка, туку комбинирана вредност што ја одразува „покриеноста на знаењето + прецизноста на пребарувањето + верноста на генерирањето + способноста за одбивање“. Кога ја гледате, треба рационално да сфатите дека моменталната технологија не може да биде совршена, но преку наведување извори, индикација на доверба и соработка човек-машина можете да извлечете практична вредност во работењето.
评论
暂无已展示的评论。
发表评论(匿名)