← 返回列表

Serje ta' Intervisti AI 9: X'inhuma l-ideat dwar il-preċiżjoni ta' sistemi ta' mistoqsija u tweġiba tal-għarfien?

Il-preċiżjoni hija l-linja tal-ħajja ċentrali ta' sistema ta' mistoqsija u tweġiba tal-għarfien, speċjalment meta tipprova tapplikaha f'xenarji serji (bħal mediċina, liġi, appoġġ intern ta' kumpanija). L-opinjoni tiegħi tista' tiġi mqassra bħala: Il-preċiżjoni hija kunċett multidimensjonali, li ma tistax tħares lejn numru wieħed biss, iżda trid tiġi evalwata flimkien mal-kapaċità tas-sistema, il-kumplessità tal-kompitu u l-ispiża tat-tolleranza tal-iżbalji.

Hawn taħt nespandi fuq erba' livelli:


I. Il-preċiżjoni mhix sempliċement "wieġeb sew/ wieġeb ħażin"

Għal problemi ta' klassifikazzjoni tradizzjonali (bħal rikonoxximent ta' immaġni), il-preċiżjoni hija ċara. Iżda għal sistemi ta' mistoqsija u tweġiba tal-għarfien, huwa differenti; id-dimensjonijiet komuni ta' suddiviżjoni jinkludu:

Dimensjoni Tifsira Eżempju ta' evalwazzjoni
Rata ta' laqgħa tal-irkupru Is-sistema tista' ssib id-dokumenti li fihom it-tweġiba korretta mill-bażi tal-għarfien? L-utent jistaqsi "id-dħul tal-kumpanija A fl-2024", is-sistema tista' ssib is-segment tar-rapport finanzjarju li fih dik id-dejta?
Fedeltà tal-ġenerazzjoni It-tweġiba ġġenerata mill-mudell hija strettament ibbażata fuq il-kontenut irkuprat, mhux ivvintata minnu? Il-materjal irkuprat ma jsemmix "rata ta' tkabbir", iżda l-mudell jgħid "tkabbir ta' 5%" → mhux leali
Korrettezza tat-tweġiba It-tweġiba finali hija konsistenti mal-fatti (jew mat-tweġiba ta' referenza)? It-tweġiba korretta hija "4.2 biljun", il-mudell joħroġ "4.2 biljun" jew "madwar 4.2 biljun wan" jista' jitqies korrett
Rata ta' rifjut Meta l-bażi tal-għarfien ma fihiex informazzjoni rilevanti, is-sistema tista' voluntarily tgħid "ma nafx", minflok ma taħseb? Meta l-irkupru jkun vojt jew il-kunfidenza tkun baxxa, joħroġ "Jiddispjacini, ma sibt l-ebda informazzjoni rilevanti"

Sistema jista' jkollha rata ta' laqgħa tal-irkupru għolja ħafna (dejjem issib paragrafu rilevanti), iżda fedeltà tal-ġenerazzjoni baxxa ħafna (dejjem iżżid affarijiet żejda), u finalment il-preċiżjoni għadha ħażina. Għalhekk, meta tħares lejn il-preċiżjoni, l-ewwel trid tikkjarifika liema stadju qed tkejjel.


II. Sotto l-livell attwali tat-teknoloġija, kemm tista' tilħaq il-preċiżjoni ta' sistemi RAG?

M'hemm l-ebda numru unifikat, iżda tista' tirreferi għal xi riċerka u prattika pubblika:

  • Mistoqsijiet sempliċi bbażati fuq fatti (qabża waħda, it-tweġiba tidher direttament f'paragrafu wieħed):
    Ir-rata ta' laqgħa tal-irkupru tista' tilħaq 90-98% (skont il-kwalità tal-bażi tal-għarfien u l-irkupru), il-fedeltà tal-ġenerazzjoni tista' tilħaq 95%+ b'disinn bir-reqqa ta' prompts, u l-preċiżjoni ġenerali tista' tkun bejn 85-95%.
  • Raġunament b'ħafna qabżiet (jeħtieġ tgħaqqad informazzjoni minn żewġ paragrafi jew aktar):
    Il-preċiżjoni tal-irkupru tinżel għal 50-70%, u l-korrettezza tat-tweġiba tista' tkun biss 40-60%. Dan huwa l-aktar punt diffiċli għal RAG bħalissa.
  • Dominju miftuħ + bażi tal-għarfien storbjuża (eż., paġni web immensi):
    Il-preċiżjoni tonqos b'mod sinifikanti, għax l-irkupru jista' jintroduċi storbju u l-mudell jista' jiġi mfixkel faċilment.

Konklużjoni: F'ambjent ikkontrollat (nadif, strutturat, b'daqs xieraq tad-dokumenti), RAG jista' jikseb preċiżjoni ta' aktar minn 90%; iżda f'xenarji kumplessi, miftuħa u li jeħtieġu raġunament b'ħafna passi, il-preċiżjoni spiss ma tkunx sodisfaċenti u teħtieġ ħafna ottimizzazzjoni.


III. Fatturi ċentrali li jaffettwaw il-preċiżjoni

Jekk issib li l-preċiżjoni tas-sistema RAG tiegħek mhix ideali, ġeneralment tista' tiċċekkja minn dawn l-erba' stadji:

  1. Il-bażi tal-għarfien innifisha
  2. Id-dejta hija skaduta, mhux kompluta, jew saħansitra żbaljata?
  3. Id-dokumenti huma mħawda (eż., skans mhux OCR, tabelli maqsuma f'kodiċi li ma jinqrawx)?

  4. Segmentazzjoni u indiċjar

  5. Il-blokok tat-test maqtugħin qosra wisq → jitilfu l-kuntest; twal wisq → iżidu storbju.
  6. Il-mudell ta' inkorporazzjoni huwa adattat għad-dominju tiegħek (mudelli ġenerali jistgħu jkunu ħżiena f'termini legali)?

  7. Strateġija ta' rkupru

  8. Użu biss ta' rkupru vettorjali jista' jinjora kliem ewlieni preċiż (eż., mudell ta' prodott).
  9. Nuqqas ta' ranking mill-ġdid jista' jwassal għal riżultati mhux rilevanti fl-ewwel pożizzjonijiet.

  10. L-istadju tal-ġenerazzjoni

  11. Il-prompt huwa ċar li jgħid "wieġeb biss abbażi tal-materjal ipprovdut, jekk mhux biżżejjed, irrifjuta"?
  12. Il-kapaċità tal-mudell hija biżżejjed (mudelli żgħar faċilment jinjoraw dettalji f'kuntest twil)?

Żball komuni: Li wieħed jattribwixxi preċiżjoni baxxa direttament għall-kapaċità insuffiċjenti tal-LLM, iżda fil-fatt ħafna mill-problemi jinsabu fl-irkupru u d-disinn tal-prompt.


IV. Kif "tħares" b'mod korrett lejn il-preċiżjoni — xi attitudnijiet ewlenin fil-prattika

1. Issettja bażi u aspettattivi raġonevoli

  • Għal oqsma ta' riskju għoli (dijanjożi medika, parir legali), preċiżjoni ta' 90% mhix biżżejjed; trid tintroduċi reviżjoni umana jew verifika multipla.
  • Għal xenarji ta' riskju baxx (appoġġ bażiku għall-klijenti, tfittxija ta' għarfien intern), preċiżjoni ta' 80% flimkien ma' rispons ta' "ma nafx" amikevoli diġà tista' ttejjeb ħafna l-effiċjenza.

2. Tfittixx 100%, iżda tfittex "preċiżjoni verifikabbli"

  • Ħalli s-sistema awtomatikament twaħħal sorsi ta' referenza (liema artiklu, liema paragrafu qed tiċċita).
    L-utent jista' jara t-test oriġinali u jivverifika; anki jekk it-tweġiba kultant tkun żbaljata, it-trasparenza tibni fiduċja.
  • Żid punteġġ ta' kunfidenza, u għal punteġġ baxx indika b'mod attiv "Din it-tweġiba mhix affidabbli ħafna, jekk jogħġbok irreferi għad-dokument oriġinali".

3. Ħu l-preċiżjoni bħala oġġett ta' ottimizzazzjoni kontinwa, mhux għan ta' darba

  • Stabbilixxi pipeline ta' evalwazzjoni: regolarment ħu kampjun ta' mistoqsijiet annotati b'mod manwali, evalwa awtomatikament ir-rata ta' laqgħa tal-irkupru u l-fedeltà tal-ġenerazzjoni.
  • Uża għodod bħal RAGAS, TruLens għal evalwazzjoni sistematika, mhux ibbażata fuq ġwienaħ ta' ftit każijiet.
  • Aġġusta kontinwament abbażi ta' każijiet ħżiena: metodu ta' segmentazzjoni, parametri tal-irkupru, mudell ta' ranking mill-ġdid, prompts.

4. Iddistingwi bejn "żball tas-sistema" u "inkonsistenza mal-istandard uman"

  • Kultant it-tweġiba mogħtija mis-sistema hija differenti minn dak li jistenna l-utent, iżda skont il-materjal fil-bażi tal-għarfien, hija fil-fatt korretta (għax il-bażi tal-għarfien għandha limitazzjonijiet jew kontroversji).
    F'dan il-każ, trid tiddefinixxi: il-preċiżjoni hija bbażata fuq "il-fatti fil-bażi tal-għarfien" jew fuq "il-fatti rikonoxxuti esternament"?

Sommarju finali

Il-preċiżjoni ta' sistema ta' mistoqsija u tweġiba tal-għarfien mhix indikatur statiku ta' punteġġ sħiħ, iżda valur ta' kapaċità kompost li jirrifletti "kopertura tal-għarfien + preċiżjoni tal-irkupru + fedeltà tal-ġenerazzjoni + kapaċità ta' rifjut". Meta tħares lejha, minn naħa, trid tirrikonoxxi b'mod razzjonali li t-teknoloġija attwali ma tistax tikseb perfezzjoni; min-naħa l-oħra, permezz ta' disinji bħal referenzi bi traċċa, indikazzjoni ta' kunfidenza, u kollaborazzjoni bejn il-bniedem u l-magna, tista' fil-fatt toħloq valur fin-negozju.

评论

暂无已展示的评论。

发表评论(匿名)