AI сериясы сұхбат 9: Білім сұрақ-жауап жүйесінің дәлдігін қалай қарау керек?

Дәлдік - білім сұрақ-жауап жүйесінің негізгі өмірлік желісі, әсіресе оны маңызды салаларда (медицина, құқық, кәсіпорын ішкі қолдауы) қолдануға тырысқанда. Менің көзқарасымды қысқаша: Дәлдік - көп өлшемді ұғым, тек бір санға қарап қана қоймай, жүйе мүмкіндіктері, тапсырма қиындығы және қателік құнын ескере отырып кешенді бағалау керек.

Төменде төрт деңгейде талданады:

I. Дәлдік «дұрыс/қате» дегеннен әлдеқайда күрделі

Дәстүрлі классификация мәселелеріндегі (мысалы, суретті тану) дәлдік анық. Бірақ білім сұрақ-жауап жүйелерінде жиі кездесетін бөлу өлшемдері:

Өлшем	Мағынасы	Бағалау мысалы
Іздеу тиімділігі	Жүйе білім қорынан дұрыс жауабы бар құжат бөлігін таба ала ма?	Қолданушы «А компаниясының 2024 жылғы кірісі» деп сұраса, жүйе сол деректі қамтитын қаржылық есеп бөлігін іздей ала ма?
Генерация адалдығы	Модель жауабы ізделген мазмұнға негізделген бе, әлде өзі ойдан шығара ма?	Ізделген материалда «өсу қарқыны» жоқ, бірақ модель «5% өсті» деп айтса → адал емес
Жауап дұрыстығы	Соңғы жауап фактіге (немесе эталонға) сәйкес пе?	Дұрыс жауап «4,2 млрд», модель «4,2 млрд» немесе «шамамен 4,2 млрд юань» деп шығарса, дұрыс деп санауға болады
Бас тарту деңгейі	Білім қорында ақпарат болмаса, жүйе «білмеймін» дей ала ма, әлде болжай ма?	Іздеу нәтижесі бос немесе сенімділік төмен болса, «Кешіріңіз, ақпарат табылмады» деп шығару

Жүйе іздеу тиімділігінде жоғары болуы мүмкін (әрқашан тиісті абзацтарды табады), бірақ генерация адалдығы төмен (әрқашан қосып жазады), нәтижесінде жалпы дәлдік әлі де нашар. Сондықтан дәлдікті бағалағанда, қай сатыны өлшеп жатқаныңызды нақтылаңыз.

II. Қазіргі технология деңгейінде RAG жүйелерінің дәлдігі қанша?

Бірыңғай сан жоқ, бірақ кейбір зерттеулер мен тәжірибелерге сілтеме жасауға болады:

Қарапайым фактілік сұрақ-жауап (бір секіру, жауап бір құжатта тікелей беріледі):
Іздеу тиімділігі 90-98% жетуі мүмкін (білім қорының сапасы мен іздегішке байланысты), генерация адалдығы мұқият жасалған нұсқаулармен 95%+ болуы мүмкін, жалпы дәлдік 85-95% аралығында.
Көп секірулі ойлау (екі немесе одан да көп әртүрлі құжаттағы ақпаратты біріктіру қажет):
Іздеу дәлдігі 50-70% дейін төмендейді, жауаптың дұрыстығы тек 40-60% болуы мүмкін. Бұл қазіргі RAG-тың негізгі қиындығы.
Ашық сала + шулы білім қоры (мысалы, үлкен веб-парақтар):
Дәлдік айтарлықтай төмендейді, себебі іздеу шу енгізуі мүмкін, модель оңай бұзылады.

Қорытынды: Басқарылатын ортада (таза, құрылымды, құжат бөліктері қолайлы) RAG 90% жоғары дәлдікке жете алады; бірақ күрделі, ашық, көп сатылы ойлауды қажет ететін сценарийлерде дәлдік көңіл қуантпайды және көптеген оңтайландыруды қажет етеді.

III. Дәлдікке әсер ететін негізгі факторлар

Егер RAG жүйеңіздің дәлдігі қанағаттанарлықсыз болса, әдетте келесі төрт сатыны тексеруге болады:

Білім қорының өзі
Деректер ескірген, толық емес немесе қателігі бар ма?
Құжаттар ретсіз бе (мысалы, сканерленген мәтіндер OCR-ден өтпеген, кестелер бұзылған)?
Бөлу және индекстеу
Мәтін бөліктері тым қысқа → контекст жоғалады; тым ұзын → шу қосылады.
Кірістіру моделі сіздің салаңызға сай ма (жалпы модель заң терминдерінде нашар болуы мүмкін)?
Іздеу стратегиясы
Тек векторлық іздеуді қолдану нақты кілт сөздерді (мысалы, өнім үлгілерін) елемеуі мүмкін.
Қайта реттеу болмаса, алдыңғы нәтижелерге маңызсыз мазмұн кіреді.
Генерация сатысы
Нұсқауда «тек берілген материалдарға сүйене отырып жауап бер, жеткіліксіз болса бас тарт» деп нақты айтылған ба?
Модельдің қабілеті жеткілікті ме (кішкентай модельдер ұзақ контекстегі майда мәліметтерді жіберіп алуы мүмкін)?

Жиі кездесетін қате түсінік: төмен дәлдікті LLM қабілетінің жеткіліксіздігіне байлау, бірақ көп жағдайда мәселе «іздеу» және «нұсқау дизайнында» болады.

IV. Дәлдікті қалай дұрыс «қарау» керек – тәжірибедегі бірнеше негізгі көзқарас

1. Ақылға қонымды базалық сызықтар мен күтулерді орнату

Жоғары тәуекелді салаларда (медициналық диагностика, заңгерлік кеңес) 90% дәлдік те жеткіліксіз, міндетті түрде адам бақылауы немесе бірнеше рет тексеру енгізу керек.
Төмен тәуекелді сценарийлерде (клиенттерге қолдау, ішкі білім іздеу) 80% дәлдік және «білмеймін» деп жақсы жауап беру тиімділікті айтарлықтай арттыруы мүмкін.

2. 100% дәлдікті емес, «тексерілетін дәлдікті» көздеу

Жүйеге дереккөздерге сілтемелерді автоматты түрде қосу (қандай мақала, қай абзац).
Қолданушы түпнұсқа мәтінді көріп, өзі тексере алады, жауап кейде қате болса да, ашықтық сенім орнатады.
Сенімділік көрсеткішін қосу, төмен болса «Бұл жауаптың сенімділігі төмен, құжатты тексеруді ұсынамыз» деп хабарлау.

3. Дәлдікті бір реттік мақсат емес, үздіксіз оңтайландыру объектісі ретінде қарастыру

Бағалау құбырын құру: мезгіл-мезгіл адам белгілеген сұрақтар жинағын алып, іздеу тиімділігі мен генерация адалдығын автоматты түрде бағалау.
RAGAS, TruLens сияқты құралдарды қолданып жүйелі бағалау жүргізу, бірнеше мысалға сүйеніп шешім қабылдамау.
Жаман жағдайларға байланысты үздіксіз түзету: бөлу әдісі, іздеу параметрлері, қайта реттеу моделі, нұсқаулар.

4. «Жүйе қатесі» мен «адам стандартының сәйкес келмеуін» ажырату

Кейде жүйе жауабы қолданушының күткенінен өзгеше болады, бірақ білім қорындағы материал бойынша дұрыс (білім қорының шектеуі немесе даулы болуына байланысты).
Мұнда нақтылау керек: дәлдік «білім қорындағы фактілерге» негізделген бе, әлде «сыртқы жалпыға белгілі фактілерге» негізделген бе?

Қорытынды

Білім сұрақ-жауап жүйесінің дәлдігі - статикалық көрсеткіш емес, «білімді қамту + іздеу дәлдігі + генерация адалдығы + бас тарту мүмкіндігі» біріктірілген кешенді қабілет. Оны қараған кезде қазіргі технологияның мінсіз бола алмайтынын ұтымды түсіну керек, сонымен қатар дереккөзге сілтеме, сенімділік көрсеткіші, адам-машина ынтымақтастығы сияқты дизайн арқылы бизнесте нақты құндылық әкелу керек.