AI Serye nga Interbyu 9: Giunsa Pagtan-aw ang Katukma sa Sistema sa Pangutana ug Tubag sa Kahibalo?
Ang katukma mao ang kinauyokan nga lifeline sa mga sistema sa pangutana ug tubag sa kahibalo, ilabina kon imong sulayan nga gamiton kini sa seryosong mga sitwasyon (sama sa medikal, legal, o internal nga suporta sa negosyo). Ang akong panglantaw mahimong gisumada: Ang katukma usa ka multidimensional nga konsepto, dili lang usa ka numero, kondili kinahanglang imong tan-awon ang kombinasyon sa kapabilidad sa sistema, kakomplikado sa buluhaton, ug gasto sa sayop.
Ania ang upat ka ang-ang sa pagpalapad:
Unang: Dili Lang “Sakto/Sayop” ang Katukma
Ang klasiko nga mga problema sa klasipikasyon (sama sa pag-ila sa imahe) tin-aw ang ilang katukma. Apan lahi ang sistema sa pangutana ug tubag sa kahibalo. Kasagarang mga dimensyon naglakip sa:
| Dimensyon | Kahulogan | Pananglitan sa Pagsusi |
|---|---|---|
| Hit rate sa pag-kuha | Makuha ba sa sistema ang dokumentong bloke nga adunay hustong tubag gikan sa base sa kahibalo? | Ang tiggamit mipangutana “2024 nga kita sa Kompanya A”, makuha ba sa sistema kadtong bahin sa ulat nga adunay datos? |
| Pagkamatinud-anon sa pagmugna | Ang tubag ba sa modelo gibase sa nakuha nga sulod, dili lang hinimo? | Ang nakuha nga materyal wala maghisgot og “growth rate”, pero ang modelo miingon “growth rate is 5%” → dili matinud-anon. |
| Pagkahusto sa tubag | Ang katapusang tubag ba pareho sa kamatuoran (o reference nga tubag)? | Ang hustong tubag kay “42 billion”, ang output sa modelo “42 billion” o “around 42 billion yuan” parehong pwedeng isipon nga husto. |
| Rejection rate | Kung walay may kalambuan nga impormasyon sa base sa kahibalo, moingon ba ang sistema nga “wala ko kabalo” imbes magtagna? | Kung ang pag-kuha walay resulta o ubos ang pagsalig, output “Pasayloa, wala nakit-ang may kalambuan nga impormasyon.” |
Usa ka sistema mahimong taas ang hit rate sa pag-kuha (kanunay makit-an ang may kalambuan nga parapo), pero ubos ang pagkamatinud-anon sa pagmugna (kanunay magdugang-daghan), busa ang katukma gihapon ubos. Busa, sa pagtan-aw sa katukma, kinahanglang klaro ka kon unsang yugto ang imong gisukod.
Ikaduha: Ubos sa Kasamtangang Teknolohiya, Unsa Ka Taas ang Katukma sa mga Sistema sa RAG?
Wala'y pinag-isang numero, pero mahimong mag-refer sa pipila ka publiko nga mga pagtuon ug praktis:
- Simple factoid nga pangutana (single-hop, ang tubag direktang makita sa usa ka materyal):
Hit rate sa pag-kuha mahimong 90-98% (depende sa kalidad sa base sa kahibalo ug retrieve), pagkamatinud-anon sa pagmugna hangtod sa 95%+ kung maayo ang prompt; kinatibuk-ang katukma mahimong 85-95%. - Multi-hop nga pangatarungan (kinahanglang magkombinar og impormasyon gikan sa duha o labaw pang lain-laing materyal):
Katukma sa pag-kuha moubos sa 50-70%, pagkahusto sa tubag mahimong 40-60% lang. Kini ang nag-unang hagit sa kasamtangang RAG. - Open domain + saba nga base sa kahibalo (sama sa daghang web pages):
Katukma moubos pag-ayo, tungod kay ang pag-kuha mahimong magpaila og noise, ug ang modelo daling madisturbo.
Konklusyon: Sa kontroladong palibot (limpyo, structured, angkop nga dokumento granularity), ang RAG mahimong moabot og 90%+ katukma; pero sa komplikado, open-domain, ug multi-step nga pangatarungan, ang katukma sagad dili makapatagbaw, ug nagkinahanglan og daghang optimisasyon.
Ikatulo: Pangunang mga Butang nga Makaapekto sa Katukma
Kung imong makit-an nga ang katukma sa imong RAG nga sistema dili maayo, kasagarang mahimong magsusi sa mosunod nga upat ka yugto:
- Ang base sa kahibalo mismo
- Ang datos ba outdated, dili kompleto, o sayop?
-
Ang mga dokumento ba gubot (sama ang scanned documents nga wala ma-OCR, o mga table nga nabungkag)?
-
Pagputol ug indeks
- Ang mga chunk ba giputol og mubo kaayo → nawala ang konteksto; o taas kaayo → nagdugang og noise.
-
Ang embedding model ba haom sa imong dominyo (ang generic model mahimong daot sa legal terms)?
-
Estratehiya sa pag-kuha
- Ang vector retrieval lang mahimong makalaktaw sa exact keywords (sama sa product model number).
-
Kung walay reranking, ang top results mahimong adunay dili may kalambuan nga sulod.
-
Yugto sa pagmugna
- Ang prompt ba klaro nga nagsulti “tubaga lang base sa gihatag nga materyal, kung dili igo, isalikway”?
- Igo ba ang gahom sa modelo (ang gagmay nga modelo daling malimot sa mga detalye sa taas nga konteksto)?
Usa ka kasagarang sayop: ang pagbasol sa LLM nga walay igo nga kapabilidad sa dihang ubos ang katukma, pero sa tinuod kadaghanan sa problema naa sa “pag-kuha” ug “pagdisenyo sa prompt”.
Ikaupat: Unsaon Pagtan-aw sa Katukma sa Husto – Pipila ka Importante nga Pagtugot sa Praktika
1. Itakda ang Makataronganon nga Baseline ug Expectation
- Para sa taas-risgo nga dominyo (medical diagnosis, legal advice), ang 90% nga katukma layo ra, kinahanglan nga magpaila og tawhanong pagsusi o multi-validation.
- Para sa ubos-risgo nga sitwasyon (customer support fallback, internal knowledge search), ang 80% nga katukma plus mahigalaon nga “wala ko kabalo” nga tubag, mahimong dakog ikatabang sa pagtaas sa efficiency.
2. Ayaw Pag-apas sa 100%, Apasa ang “Mapamatud-ang Katukma”
- Himoa nga ang sistema awtomatikong magbutang og citation (gikan sa unsang artikulo, unsang parapo).
Makita sa tiggamit ang orihinal nga teksto aron sila mismo mag-validate; bisan usahay ang tubag sayop, ang transparency makatukod og pagsalig. - Magdugang og confidence score, ug kung ubos, hatagi og pasidaan “Kini nga tubag adunay ubos nga kasaligan, palihog susiha ang orihinal nga dokumento.”
3. I-trato ang Katukma isip Butang nga Padayong Gi-optimize, Dili Usa ka Higayon nga Target
- Pagtukod og evaluation pipeline: regularly magkuha og sample sa tawhanong gi-label nga mga pangutana, awtomatikong susihon ang hit rate sa pag-kuha ug pagkamatinud-anon sa pagmugna.
- Gamita ang mga himan sama sa RAGAS, TruLens alang sa sistematikong pagsusi, dili lang mag-decide base sa pipila ka cases.
- Base sa bad cases padayong i-adjust: pamaagi sa pagputol, parameter sa retriever, reranking model, prompt.
4. Ilain ang “Sayop sa Sistema” ug “Dili Pagkauyon sa Tawhanong Standard”
- Usahay ang tubag sa sistema lahi sa gidahom sa tiggamit, pero base sa datos sa base sa kahibalo, kini sa tinuod husto (tungod ang base sa kahibalo may limitasyon o kontrobersiya).
Niini nga panahon, kinahanglang itakda: ang katukma ba base sa “facts sa base sa kahibalo” o “external agreed facts”?
Kataposang Sumada
Ang katukma sa sistema sa pangutana ug tubag sa kahibalo dili usa ka static nga perfect score indicator, kundi usa ka composite capability value nga nagpakita sa “knowledge coverage + retrieval accuracy + generation faithfulness + rejection ability.” Sa pagtan-aw niini, kinahanglang makataronganon nga maamgohan nga ang kasamtangang teknolohiya dili perpekto, ug pinaagi sa disenyo sama sa pagsitar sa tinubdan, confidence prompt, ug human-machine collaboration, mahimo kining maghatag og tinuod nga bili sa negosyo.
评论
暂无已展示的评论。
发表评论(匿名)