Serje ta' Intervisti AI 9: X'inhuma l-ideat dwar il-preċiżjoni ta' sistemi ta' mistoqsija u tweġiba tal-għarfien?
Il-preċiżjoni hija l-linja tal-ħajja ċentrali ta' sistema ta' mistoqsija u tweġiba tal-għarfien, speċjalment meta tipprova tapplikaha f'xenarji serji (bħal mediċina, liġi, appoġġ intern ta' kumpanija). L-opinjoni tiegħi tista' tiġi mqassra bħala: Il-preċiżjoni hija kunċett multidimensjonali, li ma tistax tħares lejn numru wieħed biss, iżda trid tiġi evalwata flimkien mal-kapaċità tas-sistema, il-kumplessità tal-kompitu u l-ispiża tat-tolleranza tal-iżbalji.
Hawn taħt nespandi fuq erba' livelli:
I. Il-preċiżjoni mhix sempliċement "wieġeb sew/ wieġeb ħażin"
Għal problemi ta' klassifikazzjoni tradizzjonali (bħal rikonoxximent ta' immaġni), il-preċiżjoni hija ċara. Iżda għal sistemi ta' mistoqsija u tweġiba tal-għarfien, huwa differenti; id-dimensjonijiet komuni ta' suddiviżjoni jinkludu:
| Dimensjoni | Tifsira | Eżempju ta' evalwazzjoni |
|---|---|---|
| Rata ta' laqgħa tal-irkupru | Is-sistema tista' ssib id-dokumenti li fihom it-tweġiba korretta mill-bażi tal-għarfien? | L-utent jistaqsi "id-dħul tal-kumpanija A fl-2024", is-sistema tista' ssib is-segment tar-rapport finanzjarju li fih dik id-dejta? |
| Fedeltà tal-ġenerazzjoni | It-tweġiba ġġenerata mill-mudell hija strettament ibbażata fuq il-kontenut irkuprat, mhux ivvintata minnu? | Il-materjal irkuprat ma jsemmix "rata ta' tkabbir", iżda l-mudell jgħid "tkabbir ta' 5%" → mhux leali |
| Korrettezza tat-tweġiba | It-tweġiba finali hija konsistenti mal-fatti (jew mat-tweġiba ta' referenza)? | It-tweġiba korretta hija "4.2 biljun", il-mudell joħroġ "4.2 biljun" jew "madwar 4.2 biljun wan" jista' jitqies korrett |
| Rata ta' rifjut | Meta l-bażi tal-għarfien ma fihiex informazzjoni rilevanti, is-sistema tista' voluntarily tgħid "ma nafx", minflok ma taħseb? | Meta l-irkupru jkun vojt jew il-kunfidenza tkun baxxa, joħroġ "Jiddispjacini, ma sibt l-ebda informazzjoni rilevanti" |
Sistema jista' jkollha rata ta' laqgħa tal-irkupru għolja ħafna (dejjem issib paragrafu rilevanti), iżda fedeltà tal-ġenerazzjoni baxxa ħafna (dejjem iżżid affarijiet żejda), u finalment il-preċiżjoni għadha ħażina. Għalhekk, meta tħares lejn il-preċiżjoni, l-ewwel trid tikkjarifika liema stadju qed tkejjel.
II. Sotto l-livell attwali tat-teknoloġija, kemm tista' tilħaq il-preċiżjoni ta' sistemi RAG?
M'hemm l-ebda numru unifikat, iżda tista' tirreferi għal xi riċerka u prattika pubblika:
- Mistoqsijiet sempliċi bbażati fuq fatti (qabża waħda, it-tweġiba tidher direttament f'paragrafu wieħed):
Ir-rata ta' laqgħa tal-irkupru tista' tilħaq 90-98% (skont il-kwalità tal-bażi tal-għarfien u l-irkupru), il-fedeltà tal-ġenerazzjoni tista' tilħaq 95%+ b'disinn bir-reqqa ta' prompts, u l-preċiżjoni ġenerali tista' tkun bejn 85-95%. - Raġunament b'ħafna qabżiet (jeħtieġ tgħaqqad informazzjoni minn żewġ paragrafi jew aktar):
Il-preċiżjoni tal-irkupru tinżel għal 50-70%, u l-korrettezza tat-tweġiba tista' tkun biss 40-60%. Dan huwa l-aktar punt diffiċli għal RAG bħalissa. - Dominju miftuħ + bażi tal-għarfien storbjuża (eż., paġni web immensi):
Il-preċiżjoni tonqos b'mod sinifikanti, għax l-irkupru jista' jintroduċi storbju u l-mudell jista' jiġi mfixkel faċilment.
Konklużjoni: F'ambjent ikkontrollat (nadif, strutturat, b'daqs xieraq tad-dokumenti), RAG jista' jikseb preċiżjoni ta' aktar minn 90%; iżda f'xenarji kumplessi, miftuħa u li jeħtieġu raġunament b'ħafna passi, il-preċiżjoni spiss ma tkunx sodisfaċenti u teħtieġ ħafna ottimizzazzjoni.
III. Fatturi ċentrali li jaffettwaw il-preċiżjoni
Jekk issib li l-preċiżjoni tas-sistema RAG tiegħek mhix ideali, ġeneralment tista' tiċċekkja minn dawn l-erba' stadji:
- Il-bażi tal-għarfien innifisha
- Id-dejta hija skaduta, mhux kompluta, jew saħansitra żbaljata?
-
Id-dokumenti huma mħawda (eż., skans mhux OCR, tabelli maqsuma f'kodiċi li ma jinqrawx)?
-
Segmentazzjoni u indiċjar
- Il-blokok tat-test maqtugħin qosra wisq → jitilfu l-kuntest; twal wisq → iżidu storbju.
-
Il-mudell ta' inkorporazzjoni huwa adattat għad-dominju tiegħek (mudelli ġenerali jistgħu jkunu ħżiena f'termini legali)?
-
Strateġija ta' rkupru
- Użu biss ta' rkupru vettorjali jista' jinjora kliem ewlieni preċiż (eż., mudell ta' prodott).
-
Nuqqas ta' ranking mill-ġdid jista' jwassal għal riżultati mhux rilevanti fl-ewwel pożizzjonijiet.
-
L-istadju tal-ġenerazzjoni
- Il-prompt huwa ċar li jgħid "wieġeb biss abbażi tal-materjal ipprovdut, jekk mhux biżżejjed, irrifjuta"?
- Il-kapaċità tal-mudell hija biżżejjed (mudelli żgħar faċilment jinjoraw dettalji f'kuntest twil)?
Żball komuni: Li wieħed jattribwixxi preċiżjoni baxxa direttament għall-kapaċità insuffiċjenti tal-LLM, iżda fil-fatt ħafna mill-problemi jinsabu fl-irkupru u d-disinn tal-prompt.
IV. Kif "tħares" b'mod korrett lejn il-preċiżjoni — xi attitudnijiet ewlenin fil-prattika
1. Issettja bażi u aspettattivi raġonevoli
- Għal oqsma ta' riskju għoli (dijanjożi medika, parir legali), preċiżjoni ta' 90% mhix biżżejjed; trid tintroduċi reviżjoni umana jew verifika multipla.
- Għal xenarji ta' riskju baxx (appoġġ bażiku għall-klijenti, tfittxija ta' għarfien intern), preċiżjoni ta' 80% flimkien ma' rispons ta' "ma nafx" amikevoli diġà tista' ttejjeb ħafna l-effiċjenza.
2. Tfittixx 100%, iżda tfittex "preċiżjoni verifikabbli"
- Ħalli s-sistema awtomatikament twaħħal sorsi ta' referenza (liema artiklu, liema paragrafu qed tiċċita).
L-utent jista' jara t-test oriġinali u jivverifika; anki jekk it-tweġiba kultant tkun żbaljata, it-trasparenza tibni fiduċja. - Żid punteġġ ta' kunfidenza, u għal punteġġ baxx indika b'mod attiv "Din it-tweġiba mhix affidabbli ħafna, jekk jogħġbok irreferi għad-dokument oriġinali".
3. Ħu l-preċiżjoni bħala oġġett ta' ottimizzazzjoni kontinwa, mhux għan ta' darba
- Stabbilixxi pipeline ta' evalwazzjoni: regolarment ħu kampjun ta' mistoqsijiet annotati b'mod manwali, evalwa awtomatikament ir-rata ta' laqgħa tal-irkupru u l-fedeltà tal-ġenerazzjoni.
- Uża għodod bħal RAGAS, TruLens għal evalwazzjoni sistematika, mhux ibbażata fuq ġwienaħ ta' ftit każijiet.
- Aġġusta kontinwament abbażi ta' każijiet ħżiena: metodu ta' segmentazzjoni, parametri tal-irkupru, mudell ta' ranking mill-ġdid, prompts.
4. Iddistingwi bejn "żball tas-sistema" u "inkonsistenza mal-istandard uman"
- Kultant it-tweġiba mogħtija mis-sistema hija differenti minn dak li jistenna l-utent, iżda skont il-materjal fil-bażi tal-għarfien, hija fil-fatt korretta (għax il-bażi tal-għarfien għandha limitazzjonijiet jew kontroversji).
F'dan il-każ, trid tiddefinixxi: il-preċiżjoni hija bbażata fuq "il-fatti fil-bażi tal-għarfien" jew fuq "il-fatti rikonoxxuti esternament"?
Sommarju finali
Il-preċiżjoni ta' sistema ta' mistoqsija u tweġiba tal-għarfien mhix indikatur statiku ta' punteġġ sħiħ, iżda valur ta' kapaċità kompost li jirrifletti "kopertura tal-għarfien + preċiżjoni tal-irkupru + fedeltà tal-ġenerazzjoni + kapaċità ta' rifjut". Meta tħares lejha, minn naħa, trid tirrikonoxxi b'mod razzjonali li t-teknoloġija attwali ma tistax tikseb perfezzjoni; min-naħa l-oħra, permezz ta' disinji bħal referenzi bi traċċa, indikazzjoni ta' kunfidenza, u kollaborazzjoni bejn il-bniedem u l-magna, tista' fil-fatt toħloq valur fin-negozju.
评论
暂无已展示的评论。
发表评论(匿名)