AI интервју серија 9: Како гледати на тачност система за одговоре на питања?

Тачност је централна животна линија система за одговоре на питања, посебно када покушавате да га примените у озбиљним сценаријима (као што су медицина, право, интерна подршка предузећа). Моје виђење се може сажети: Тачност је вишедимензионални концепт, не треба гледати само један број, већ је комбиновати са могућностима система, тежином задатка и трошковима грешака за свеобухватну процену.

У наставку разрађујем из четири нивоа:

1. Тачност није само „тачно/нетачно”

Тачност традиционалних проблема класификације (као што је препознавање слика) је јасна. Али системи за одговоре на питања су другачији; уобичајене димензије укључују:

Димензија	Значење	Пример евалуације
Погоци претраге	Да ли систем може да пронађе блок докумената који садржи тачан одговор из базе знања?	Корисник пита „Приход компаније А за 2024”, да ли систем може да пронађе онај део финансијског извештаја који садржи те податке?
Верност генерације	Да ли одговор генерисан од стране модела стриктно заснован на пронађеном садржају, а не измишљен?	Претражени материјал не помиње „стопу раста”, али модел каже „порасло 5%” → неверно
Тачност одговора	Да ли се коначни одговор поклапа са чињеницом (или референтним одговором)?	Тачан одговор је „4,2 милијарде”, модел излази „4,2 милијарде” или „око 4,2 милијарде јуана” се може сматрати тачним
Стопа одбијања	Када база знања не садржи релевантне информације, да ли систем може активно да каже „не знам”, а да не нагађа?	Када је претрага празна или је поузданост ниска, излаз „Извините, нису пронађене релевантне информације”

Систем може имати високу стопу погона претраге (увек пронађе релевантне пасусе), али веома ниску верност генерације (увек додаје сопствене детаље), па је коначна тачност и даље лоша. Стога, када гледате на тачност, прво треба да разјасните који корак мерите.

2. Колико тачности RAG системи могу да постигну са тренутним нивоом технологије?

Не постоји јединствени број, али можемо се ослонити на нека јавна истраживања и праксу:

Једноставна чињенична питања (један скок, одговор се директно појављује у једном документу):
Стопа погона претраге може достићи 90-98% (зависи од квалитета базе знања и претраживача), верност генерације може бити преко 95% уз пажљиво осмишљене упите, а укупна тачност може бити између 85-95%.
Вишескоковно резоновање (потребно комбиновати информације из два или више различитих докумената):
Тачност претраге нагло пада на 50-70%, а тачност одговора може бити само 40-60%. Ово је тренутно главни изазов RAG-а.
Отворена домена + бучна база знања (као што су огромне веб странице):
Тачност значајно опада јер претрага може унети шум, а модел је лако ометен.

Закључак: У контролисаном окружењу (чисто, структурирано, одговарајућа грануларност докумената) RAG може постићи преко 90% тачности; али у сложеним, отвореним сценаријима који захтевају вишескоковно резоновање, тачност је често незадовољавајућа и захтева велику оптимизацију.

3. Кључни фактори који утичу на тачност

Ако приметите да је тачност вашег RAG система незадовољавајућа, обично можете проверити следећа четири корака:

Сама база знања
Да ли су подаци застарели, непотпуни или чак садрже грешке?
Да ли су документи неорганизовани (нпр. скенирани документи без OCR-а, табеле разбијене у нечитљив текст)?
Подела и индексирање
Да ли су блокови текста превише кратки → губи се контекст; превише дуги → уносе шум.
Да ли је модел уградње (embedding model) прилагођен вашој области (општи модели могу лоше радити на правним терминима)?
Стратегија претраге
Коришћење само векторске претраге може занемарити тачне кључне речи (као што су модели производа).
Недовољно рангирање (reranking) доводи до мешања нерелевантног садржаја у прве резултате.
Корак генерисања
Да ли упит изричито захтева „одговарај само на основу датих информација, ако није довољно, одбиј”?
Да ли је способност модела довољна (мали модели лако превиђају детаље у дугом контексту)?

Уобичајена заблуда: Директно приписивање ниске тачности недовољној способности LLM-а, али заправо већина проблема лежи у „претрази” и „дизајну упита”.

4. Како „правилно гледати” на тачност – неколико кључних ставова у пракси

1. Поставите разумне основе и очекивања

За високоризичне области (медицинска дијагноза, правни савети), чак 90% тачности није довољно; мора се увести људска провера или вишеструка верификација.
За нискоризичне сценарије (подршка корисницима, интерно претраживање знања), 80% тачности уз пријатељски „не знам” одговор може значајно повећати ефикасност.

2. Не тежите 100%, тежите „проверљивој тачности”

Нека систем аутоматски приложи изворе (који чланак, који пасус).
Корисник може видети оригинални текст и сам проверити; чак и ако одговор повремено погреши, транспарентност гради поверење.
Додајте оцену поузданости; када је ниска, активно покажите „Овај одговор има ниску поузданост, препоручујемо да погледате оригинални документ”.

3. Третирајте тачност као објекат континуиране оптимизације, а не као једнократни циљ

Успоставите евалуациони цевовод: редовно узоркујте скуп ручно означених питања, аутоматски процењујте стопу погона претраге и верност генерације.
Користите алате као што су RAGAS, TruLens за систематску евалуацију, уместо импровизовања на основу неколико примера.
Непрекидно прилагођавајте на основу лоших случајева: начин поделе, параметри претраживача, модел за поновно рангирање, упити.

4. Разликујте „грешке система” и „неподударање са људским стандардима”

Понекад систем даје одговор који се разликује од очекивања корисника, али је заправо тачан према садржају базе знања (јер база знања има ограничења или контроверзе).
Тада је потребно дефинисати: да ли се тачност мери према „чињеницама у бази знања” или према „спољашњим општеприхваћеним чињеницама”?

Коначни закључак

Тачност система за одговоре на питања није статични савршени показатељ, већ вредност која одражава комбинацију „покривеност знања + прецизност претраге + верност генерације + способност одбијања”. Када је посматрате, треба и рационално схватити да тренутна технологија не може бити савршена, али и кроз дизајн као што су цитирање извора, индикатори поузданости и сарадња човека и машине, остварити стварну вредност у пословању.