AI շարքի հարցազրույց 9. Ինչպե՞ս վերաբերվել գիտելիքի հարց-պատասխան համակարգի ճշգրտությանը:
Ճշգրտությունը գիտելիքի հարց-պատասխան համակարգի հիմնական կենսագիծն է, հատկապես երբ փորձում եք այն կիրառել լուրջ սցենարներում (օրինակ՝ բժշկություն, իրավունք, ներքին կորպորատիվ աջակցություն): Իմ տեսակետը կարելի է ամփոփել հետևյալ կերպ. ճշգրտությունը բազմաչափ հասկացություն է, այն չի կարելի դիտել միայն մեկ թվով, այլ պետք է գնահատել համակարգի հնարավորությունների, առաջադրանքի բարդության և սխալի արժեքի համակցությամբ:
Ստորև ներկայացված է չորս մակարդակներով.
1. Ճշգրտությունը միայն «ճիշտ/սխալ» չէ
Ավանդական դասակարգման խնդիրներում (օրինակ՝ պատկերների ճանաչում) ճշգրտությունը պարզ է: Սակայն գիտելիքի հարց-պատասխան համակարգերը տարբեր են, ընդհանուր ենթաչափերը ներառում են.
| Չափ | Իմաստ | Գնահատման օրինակ |
|---|---|---|
| Որոնման հարվածի մակարդակ | Համակարգը կարո՞ղ է գիտելիքի բազայից գտնել ճիշտ պատասխան պարունակող փաստաթղթային բլոկը: | Օգտագործողը հարցնում է «A ընկերության 2024թ. եկամուտը», համակարգը կարո՞ղ է որոնել այդ տվյալը պարունակող ֆինանսական հաշվետվության հատվածը: |
| Ստեղծման հավատարմություն | Մոդելի ստեղծած պատասխանը խստորեն հիմնվա՞ծ է որոնված բովանդակության վրա, թե՞ ինքն է հորինում: | Որոնված նյութում «աճի տեմպ» չի նշված, բայց մոդելն ասում է «աճել է 5%-ով» → անհավատարիմ: |
| Պատասխանի ճշտություն | Վերջնական պատասխանը համընկնո՞ւմ է փաստի (կամ հղման պատասխանի) հետ: | Ճիշտ պատասխանը «42 մլրդ» է, մոդելի ելքը «42 մլրդ» կամ «մոտ 42 մլրդ RMB» կարող է ճիշտ համարվել: |
| Մերժման մակարդակ | Երբ գիտելիքի բազայում չկա համապատասխան տեղեկատվություն, համակարգը կարո՞ղ է ակտիվորեն ասել «չգիտեմ», այլ ոչ թե գուշակել: | Որոնումը դատարկ է կամ վստահության ցածր մակարդակ, ելքը «Ներեցեք, համապատասխան տեղեկություն չի գտնվել»: |
Համակարգը կարող է ունենալ բարձր որոնման հարվածի մակարդակ (միշտ գտնել համապատասխան պարբերություն), բայց ցածր ստեղծման հավատարմություն (միշտ ավելացնել սեփական մեկնաբանություններ), և վերջնական ճշգրտությունը մնում է ցածր: Ուստի ճշգրտությունը դիտելիս պետք է պարզել, թե որ փուլն եք չափում:
2. Ներկա տեխնոլոգիական մակարդակում, RAG համակարգերի ճշգրտությունը որքա՞ն է:
Միասնական թիվ չկա, բայց կարելի է հղվել հրապարակային հետազոտություններին և պրակտիկային.
- Պարզ փաստային հարց-պատասխան (մեկ քայլ, պատասխանն ուղղակիորեն առկա է մեկ նյութում).
Որոնման հարվածի մակարդակը կարող է հասնել 90-98%-ի (կախված գիտելիքի բազայի որակից և որոնիչից), ստեղծման հավատարմությունը լավ ձևավորված հուշումներով կարող է լինել 95%+, համակցված ճշգրտությունը կարող է լինել 85-95%: - Բազմաքայլ տրամաբանություն (պահանջում է երկու կամ ավելի տարբեր նյութերի տեղեկատվության համադրում).
Որոնման ճշգրտությունը կտրուկ նվազում է մինչև 50-70%, ստեղծվող պատասխանի ճշտությունը կարող է լինել միայն 40-60%: Սա RAG-ի հիմնական դժվարությունն է: - Բաց տիրույթ + աղմկոտ գիտելիքի բազա (օրինակ՝ հսկայական վեբ էջեր).
Ճշգրտությունը զգալիորեն նվազում է, քանի որ որոնումը կարող է աղմուկ ներմուծել, մոդելը հեշտությամբ շեղվում է:
Եզրակացություն. վերահսկվող միջավայրում (մաքուր, կառուցվածքային, փաստաթղթերի համապատասխան մանրամասնություն) RAG-ը կարող է հասնել 90%+ ճշգրտության; բարդ, բաց, բազմաքայլ տրամաբանություն պահանջող սցենարներում ճշգրտությունը հաճախ անբավարար է և պահանջում է մեծ օպտիմալացում:
3. Ճշգրտության վրա ազդող հիմնական գործոններ
Եթե նկատում եք, որ ձեր RAG համակարգի ճշգրտությունը ցանկալի չէ, սովորաբար կարող եք ստուգել հետևյալ չորս օղակները.
- Գիտելիքի բազան ինքնին
- Արդյո՞ք տվյալները հնացած են, թերի, կամ նույնիսկ սխալ:
-
Փաստաթղթերը խառնված են (օրինակ՝ սկանավորված պատկերներ առանց OCR, աղյուսակները կոտրված են):
-
Բաժանում և ինդեքսավորում
- Տեքստային բլոկները շատ կարճ են → կորցնում են համատեքստը; շատ երկար են → աղմուկ են ավելացնում:
-
Ներկառուցման մոդելը հարմա՞ր է ձեր ոլորտին (ընդհանուր մոդելները կարող են վատ աշխատել իրավական տերմինաբանությամբ):
-
Որոնման ռազմավարություն
- Միայն վեկտորային որոնումը կարող է անտեսել ճշգրիտ հիմնաբառերը (օրինակ՝ ապրանքի մոդել):
-
Վերադասակարգման բացակայությունը հանգեցնում է առաջին արդյունքներում անհամապատասխան բովանդակության հայտնվելուն:
-
Ստեղծման փուլ
- Հուշումը հստակ պահանջո՞ւմ է «պատասխանել միայն տրամադրված նյութի հիման վրա, եթե բավարար չէ՝ մերժել»:
- Մոդելի հնարավորությունները բավարա՞ր են (փոքր մոդելները հեշտությամբ անտեսում են երկար համատեքստի մանրամասները):
Տարածված սխալ. ցածր ճշգրտությունը վերագրել LLM-ի անբավարար հնարավորություններին, բայց իրականում խնդիրների մեծ մասը գալիս է «որոնումից» և «հուշումի ձևավորումից»:
4. Ինչպես ճիշտ «վերաբերվել» ճշգրտությանը – մի քանի հիմնական վերաբերմունք պրակտիկայում
1. Սահմանել ողջամիտ չափորոշիչներ և ակնկալիքներ
- Բարձր ռիսկի ոլորտների համար (բժշկական ախտորոշում, իրավական խորհուրդ) 90% ճշգրտությունը նույնպես բավարար չէ, պետք է ներդնել մարդկային ստուգում կամ բազմակի վավերացում:
- Ցածր ռիսկի սցենարների համար (հաճախորդների սպասարկման աջակցություն, ներքին գիտելիքի որոնում) 80% ճշգրտությունը՝ զուգորդված «չգիտեմ»-ի բարեկամական պատասխանով, արդեն կարող է զգալիորեն բարձրացնել արդյունավետությունը:
2. Մի ձգտեք 100%-ի, ձգտեք «ստուգելի ճշգրտության»
- Թույլ տվեք համակարգին ավտոմատ կերպով կցել աղբյուրի հղումներ (որ հոդվածից, որ պարբերությունից է վերցված):
Օգտագործողը կարող է տեսնել բնօրինակը և ինքնուրույն ստուգել, նույնիսկ եթե պատասխանը երբեմն սխալ է, թափանցիկությունը կառուցում է վստահություն: - Ավելացրեք վստահության գնահատական, ցածր միավորների դեպքում ակտիվորեն նշեք «այս պատասխանի հավաստիությունը ցածր է, խորհուրդ է տրվում ծանոթանալ բնօրինակ փաստաթղթին»:
3. Ճշգրտությունը դիտարկեք որպես շարունակական օպտիմալացման օբյեկտ, ոչ թե մեկանգամյա նպատակ
- Ստեղծեք գնահատման խողովակաշար. պարբերաբար վերցրեք ձեռքով նշված հարցերի նմուշ, ավտոմատ գնահատեք որոնման հարվածի մակարդակը և ստեղծման հավատարմությունը:
- Օգտագործեք գործիքներ, ինչպիսիք են RAGAS-ը, TruLens-ը համակարգված գնահատման համար, այլ ոչ թե մի քանի դեպքերի հիման վրա իմպրովիզացիա անել:
- Բացասական դեպքերի հիման վրա անընդհատ ճշգրտումներ կատարեք. բաժանման եղանակ, որոնիչի պարամետրեր, վերադասակարգման մոդել, հուշում:
4. Տարբերակել «համակարգային սխալը» և «մարդկային չափանիշների անհամապատասխանությունը»
- Երբեմն համակարգի պատասխանը տարբերվում է օգտագործողի սպասելիքից, բայց գիտելիքի բազայի տվյալների համաձայն այն ճիշտ է (քանի որ գիտելիքի բազան ինքնին ունի սահմանափակումներ կամ վիճելի է):
Այս դեպքում պետք է սահմանել. ճշգրտությունը հիմնվում է «գիտելիքի բազայի փաստերի՞ վրա», թե՞ «արտաքին ընդունված փաստերի»:
Վերջնական ամփոփում
Գիտելիքի հարց-պատասխան համակարգի ճշգրտությունը ստատիկ ամբողջական միավոր չէ, այլ «գիտելիքի ծածկույթ + որոնման ճշգրտություն + ստեղծման հավատարմություն + մերժելու ունակություն» համակցված ունակության արժեք է: Այն դիտելիս պետք է ռացիոնալ գիտակցել, որ ներկա տեխնոլոգիան չի կարող կատարյալ լինել, բայց նաև հղումների հետագծման, վստահության ցուցիչների, մարդ-համակարգ համագործակցության նախագծման միջոցով կարելի է իրական արժեք բերել բիզնեսին:
评论
暂无已展示的评论。
发表评论(匿名)