AI շարքի հարցազրույց 9. Ինչպե՞ս վերաբերվել գիտելիքի հարց-պատասխան համակարգի ճշգրտությանը:

Ճշգրտությունը գիտելիքի հարց-պատասխան համակարգի հիմնական կենսագիծն է, հատկապես երբ փորձում եք այն կիրառել լուրջ սցենարներում (օրինակ՝ բժշկություն, իրավունք, ներքին կորպորատիվ աջակցություն): Իմ տեսակետը կարելի է ամփոփել հետևյալ կերպ. ճշգրտությունը բազմաչափ հասկացություն է, այն չի կարելի դիտել միայն մեկ թվով, այլ պետք է գնահատել համակարգի հնարավորությունների, առաջադրանքի բարդության և սխալի արժեքի համակցությամբ:

Ստորև ներկայացված է չորս մակարդակներով.

1. Ճշգրտությունը միայն «ճիշտ/սխալ» չէ

Ավանդական դասակարգման խնդիրներում (օրինակ՝ պատկերների ճանաչում) ճշգրտությունը պարզ է: Սակայն գիտելիքի հարց-պատասխան համակարգերը տարբեր են, ընդհանուր ենթաչափերը ներառում են.

Չափ	Իմաստ	Գնահատման օրինակ
Որոնման հարվածի մակարդակ	Համակարգը կարո՞ղ է գիտելիքի բազայից գտնել ճիշտ պատասխան պարունակող փաստաթղթային բլոկը:	Օգտագործողը հարցնում է «A ընկերության 2024թ. եկամուտը», համակարգը կարո՞ղ է որոնել այդ տվյալը պարունակող ֆինանսական հաշվետվության հատվածը:
Ստեղծման հավատարմություն	Մոդելի ստեղծած պատասխանը խստորեն հիմնվա՞ծ է որոնված բովանդակության վրա, թե՞ ինքն է հորինում:	Որոնված նյութում «աճի տեմպ» չի նշված, բայց մոդելն ասում է «աճել է 5%-ով» → անհավատարիմ:
Պատասխանի ճշտություն	Վերջնական պատասխանը համընկնո՞ւմ է փաստի (կամ հղման պատասխանի) հետ:	Ճիշտ պատասխանը «42 մլրդ» է, մոդելի ելքը «42 մլրդ» կամ «մոտ 42 մլրդ RMB» կարող է ճիշտ համարվել:
Մերժման մակարդակ	Երբ գիտելիքի բազայում չկա համապատասխան տեղեկատվություն, համակարգը կարո՞ղ է ակտիվորեն ասել «չգիտեմ», այլ ոչ թե գուշակել:	Որոնումը դատարկ է կամ վստահության ցածր մակարդակ, ելքը «Ներեցեք, համապատասխան տեղեկություն չի գտնվել»:

Համակարգը կարող է ունենալ բարձր որոնման հարվածի մակարդակ (միշտ գտնել համապատասխան պարբերություն), բայց ցածր ստեղծման հավատարմություն (միշտ ավելացնել սեփական մեկնաբանություններ), և վերջնական ճշգրտությունը մնում է ցածր: Ուստի ճշգրտությունը դիտելիս պետք է պարզել, թե որ փուլն եք չափում:

2. Ներկա տեխնոլոգիական մակարդակում, RAG համակարգերի ճշգրտությունը որքա՞ն է:

Միասնական թիվ չկա, բայց կարելի է հղվել հրապարակային հետազոտություններին և պրակտիկային.

Պարզ փաստային հարց-պատասխան (մեկ քայլ, պատասխանն ուղղակիորեն առկա է մեկ նյութում).
Որոնման հարվածի մակարդակը կարող է հասնել 90-98%-ի (կախված գիտելիքի բազայի որակից և որոնիչից), ստեղծման հավատարմությունը լավ ձևավորված հուշումներով կարող է լինել 95%+, համակցված ճշգրտությունը կարող է լինել 85-95%:
Բազմաքայլ տրամաբանություն (պահանջում է երկու կամ ավելի տարբեր նյութերի տեղեկատվության համադրում).
Որոնման ճշգրտությունը կտրուկ նվազում է մինչև 50-70%, ստեղծվող պատասխանի ճշտությունը կարող է լինել միայն 40-60%: Սա RAG-ի հիմնական դժվարությունն է:
Բաց տիրույթ + աղմկոտ գիտելիքի բազա (օրինակ՝ հսկայական վեբ էջեր).
Ճշգրտությունը զգալիորեն նվազում է, քանի որ որոնումը կարող է աղմուկ ներմուծել, մոդելը հեշտությամբ շեղվում է:

Եզրակացություն. վերահսկվող միջավայրում (մաքուր, կառուցվածքային, փաստաթղթերի համապատասխան մանրամասնություն) RAG-ը կարող է հասնել 90%+ ճշգրտության; բարդ, բաց, բազմաքայլ տրամաբանություն պահանջող սցենարներում ճշգրտությունը հաճախ անբավարար է և պահանջում է մեծ օպտիմալացում:

3. Ճշգրտության վրա ազդող հիմնական գործոններ

Եթե նկատում եք, որ ձեր RAG համակարգի ճշգրտությունը ցանկալի չէ, սովորաբար կարող եք ստուգել հետևյալ չորս օղակները.

Գիտելիքի բազան ինքնին
Արդյո՞ք տվյալները հնացած են, թերի, կամ նույնիսկ սխալ:
Փաստաթղթերը խառնված են (օրինակ՝ սկանավորված պատկերներ առանց OCR, աղյուսակները կոտրված են):
Բաժանում և ինդեքսավորում
Տեքստային բլոկները շատ կարճ են → կորցնում են համատեքստը; շատ երկար են → աղմուկ են ավելացնում:
Ներկառուցման մոդելը հարմա՞ր է ձեր ոլորտին (ընդհանուր մոդելները կարող են վատ աշխատել իրավական տերմինաբանությամբ):
Որոնման ռազմավարություն
Միայն վեկտորային որոնումը կարող է անտեսել ճշգրիտ հիմնաբառերը (օրինակ՝ ապրանքի մոդել):
Վերադասակարգման բացակայությունը հանգեցնում է առաջին արդյունքներում անհամապատասխան բովանդակության հայտնվելուն:
Ստեղծման փուլ
Հուշումը հստակ պահանջո՞ւմ է «պատասխանել միայն տրամադրված նյութի հիման վրա, եթե բավարար չէ՝ մերժել»:
Մոդելի հնարավորությունները բավարա՞ր են (փոքր մոդելները հեշտությամբ անտեսում են երկար համատեքստի մանրամասները):

Տարածված սխալ. ցածր ճշգրտությունը վերագրել LLM-ի անբավարար հնարավորություններին, բայց իրականում խնդիրների մեծ մասը գալիս է «որոնումից» և «հուշումի ձևավորումից»:

4. Ինչպես ճիշտ «վերաբերվել» ճշգրտությանը – մի քանի հիմնական վերաբերմունք պրակտիկայում

1. Սահմանել ողջամիտ չափորոշիչներ և ակնկալիքներ

Բարձր ռիսկի ոլորտների համար (բժշկական ախտորոշում, իրավական խորհուրդ) 90% ճշգրտությունը նույնպես բավարար չէ, պետք է ներդնել մարդկային ստուգում կամ բազմակի վավերացում:
Ցածր ռիսկի սցենարների համար (հաճախորդների սպասարկման աջակցություն, ներքին գիտելիքի որոնում) 80% ճշգրտությունը՝ զուգորդված «չգիտեմ»-ի բարեկամական պատասխանով, արդեն կարող է զգալիորեն բարձրացնել արդյունավետությունը:

2. Մի ձգտեք 100%-ի, ձգտեք «ստուգելի ճշգրտության»

Թույլ տվեք համակարգին ավտոմատ կերպով կցել աղբյուրի հղումներ (որ հոդվածից, որ պարբերությունից է վերցված):
Օգտագործողը կարող է տեսնել բնօրինակը և ինքնուրույն ստուգել, նույնիսկ եթե պատասխանը երբեմն սխալ է, թափանցիկությունը կառուցում է վստահություն:
Ավելացրեք վստահության գնահատական, ցածր միավորների դեպքում ակտիվորեն նշեք «այս պատասխանի հավաստիությունը ցածր է, խորհուրդ է տրվում ծանոթանալ բնօրինակ փաստաթղթին»:

3. Ճշգրտությունը դիտարկեք որպես շարունակական օպտիմալացման օբյեկտ, ոչ թե մեկանգամյա նպատակ

Ստեղծեք գնահատման խողովակաշար. պարբերաբար վերցրեք ձեռքով նշված հարցերի նմուշ, ավտոմատ գնահատեք որոնման հարվածի մակարդակը և ստեղծման հավատարմությունը:
Օգտագործեք գործիքներ, ինչպիսիք են RAGAS-ը, TruLens-ը համակարգված գնահատման համար, այլ ոչ թե մի քանի դեպքերի հիման վրա իմպրովիզացիա անել:
Բացասական դեպքերի հիման վրա անընդհատ ճշգրտումներ կատարեք. բաժանման եղանակ, որոնիչի պարամետրեր, վերադասակարգման մոդել, հուշում:

4. Տարբերակել «համակարգային սխալը» և «մարդկային չափանիշների անհամապատասխանությունը»

Երբեմն համակարգի պատասխանը տարբերվում է օգտագործողի սպասելիքից, բայց գիտելիքի բազայի տվյալների համաձայն այն ճիշտ է (քանի որ գիտելիքի բազան ինքնին ունի սահմանափակումներ կամ վիճելի է):
Այս դեպքում պետք է սահմանել. ճշգրտությունը հիմնվում է «գիտելիքի բազայի փաստերի՞ վրա», թե՞ «արտաքին ընդունված փաստերի»:

Վերջնական ամփոփում

Գիտելիքի հարց-պատասխան համակարգի ճշգրտությունը ստատիկ ամբողջական միավոր չէ, այլ «գիտելիքի ծածկույթ + որոնման ճշգրտություն + ստեղծման հավատարմություն + մերժելու ունակություն» համակցված ունակության արժեք է: Այն դիտելիս պետք է ռացիոնալ գիտակցել, որ ներկա տեխնոլոգիան չի կարող կատարյալ լինել, բայց նաև հղումների հետագծման, վստահության ցուցիչների, մարդ-համակարգ համագործակցության նախագծման միջոցով կարելի է իրական արժեք բերել բիզնեսին: