Maswali ya Mahojiano ya AI 11: Jinsi ya Kuboresha RAG?
Uboreshaji wa RAG si marekebisho ya sehemu moja tu, bali ni mchakato wa kuboresha msururu mzima. Hapo chini, kutoka kwa upande wa kuhifadhi data, upande wa utafutaji, upande wa uzalishaji, na upande wa tathmini, natoa mikakati ya utaratibu wa kuboresha, na pia kuongeza uzoefu wa vitendo unaoweza kutajwa kwenye mahojiano.
1. Uboreshaji wa Upande wa Kufunga Data (Kuongeza Ubora wa "Maktaba ya Maarifa")
Hii ndiyo sehemu inayopuuzwa zaidi lakini inayotoa matokeo ya haraka.
| Hatua ya Uboreshaji | Tatizo | Njia Mahususi | Kipimo cha Matokeo |
|---|---|---|---|
| Kuchanganua Hati | Majedwali, michoro ya mtiririko katika PDF hupuuzwa, au herufi zina mchafuko au mpangilio umekoseka. | Badilisha kutumia maktaba bora zaidi (kama unstructured, hali ya kuhifadhi mpangilio wa pypdf); kwa majedwali tumia pandas kuyatoa kisha yabadilishe kuwa Markdown. |
Kiwango cha kumbukumbu +5~15% |
| Ukubwa wa Sehemu za Maandishi | Sehemu ndogo sana hupoteza muktadha (k.m. "ongezeko la mapato yake mwaka huu" - rejeleo la "yake" linapotea); sehemu kubwa sana huleta kelele nyingi kwenye utafutaji. | Jaribu ukubwa tofauti wa sehemu (256/512/768 token), uweke mwingiliano 10~20%; kwa hati ndefu, kata kwenye mipaka ya semantic (aya/kichwa) badala ya urefu uliowekwa. | Kiwango cha kugusa / uaminifu |
| Nyongeza ya Metadata | Sehemu inayohusika inapatikana, lakini chanzo au wakati hauwezi kufuatiliwa, au kichujio cha eneo kinahitajika. | Ongeza metadata kwa kila sehemu: source (jina la faili/URL), timestamp, page_num, doc_type. Wakati wa utafutaji tumia vichujio (k.m. doc_type == 'sheria'). |
Usahihi wa uchujaji |
| Uchaguzi wa Kielelezo cha Kuweka | Embedding ya jumla inafanya vibaya katika maeneo maalum (matibabu, msimbo, sheria). | Tumia modeli zilizoboreshwa kwa eneo husika (BGE-large-zh, GTE-Qwen2-7B-instruct); au boresha modeli yako mwenyewe ya kuweka (kwa kutumia triplet loss). | MRR@10 ya utafutaji +10~20% |
2. Uboreshaji wa Upande wa Utafutaji (Kufanya "Kukata Vitabu" Kuwa Sahihi Zaidi)
Utafutaji huamua ubora wa "nyenzo za marejeleo" zinazotumwa kwa LLM.
| Hatua ya Uboreshaji | Tatizo | Njia Mahususi | Matokeo |
|---|---|---|---|
| Utafutaji Mseto | Utafutaji wa vekta hauwezi kulinganisha istilahi sahihi (k.m. nambari ya bidhaa ABC-123), utafutaji wa maneno muhimu hauelewi visawe. |
Tumia wakati huo huo utafutaji wa vekta (semantiki) na BM25 (maneno muhimu), kwa uzani (k.m. 0.7vekta + 0.3BM25) au kwa kuunganisha kwa kupanga upya. | Kiwango cha kumbukumbu +10~25% |
| Kupanga Upya (Rerank) | Matokeo ya juu kutoka kwa utafutaji wa vekta si lazima yanayofaa zaidi; ya 10 ndiyo bora. | Tumia modeli ya cross-encoder (kama BGE-reranker-v2, Cohere Rerank) kupanga upya orodha ya wagombea (k.m. 20 ya kwanza), kisha chukua top-K. |
Kiwango cha kugusa kinaongezeka sana (hasa top-1) |
| Kuandika Upya Hoja | Swali la mtumiaji lina utata au kwenye mazungumzo mengi rejeleo linakosekana ("Bei yake?"). | Tumia LLM kuandika upya swali la asili katika umbo linalofaa zaidi kwa utafutaji (k.m. "Bei ya iPhone 15 ni kiasi gani?"); au tumia historia ya mazungumzo kukamilisha. | Kiwango cha kumbukumbu +5~15% |
| HyDE | Swali la mtumiaji ni fupi mno au lina mwelekeo wa kufikirika (k.m. "Eleza usanisinuru"), utafutaji wa moja kwa moja haufanyi vizuri. | Kwanza mwambie LLM kutoa jibu la kudhania, kisha tumia jibu hilo kutafuta hati. | Inafaa kwa maeneo huru, lakini si kwa maswali ya ukweli sahihi |
| Marekebisho ya Idadi ya Top-K | K kidogo sana kunaweza kukosa taarifa muhimu; K kubwa sana huongeza matumizi ya token na kelele. | Jaribu K=3/5/10, angalia uwiano kati ya kiwango cha kumbukumbu na usahihi wa jibu. | Ubora wa ufanisi dhidi ya matokeo |
3. Uboreshaji wa Upande wa Uzalishaji (Kufanya LLM Itumie Nyenzo za Marejeleo Vizuri)
Hata kama utafutaji uko sahihi, kama maagizo si mazuri au modeli si nzuri, haifanyi kazi.
| Hatua ya Uboreshaji | Tatizo | Njia Mahususi | Matokeo |
|---|---|---|---|
| Uhandisi wa Maagizo | LLM inapuuzia maudhui yaliyotafutwa, au inazua uwongo. | Toa maagizo wazi: "Jibu swali kwa kutumia nyenzo za marejeleo zilizotolewa pekee. Ikiwa nyenzo hazitoshi au hazihusiani, jibu 'Hakuna taarifa za kutosha.'" Ongeza mifano ya few-shot kuonyesha jinsi ya kutaja vyanzo. | Uaminifu +20~40% |
| Mfinyazo wa Muktadha | Maudhui yaliyotafutwa ni marefu sana (yanazidi dirisha la muktadha wa modeli), au yana kelele nyingi. | Tumia LLMLingua au Mfinyazo wa Muktadha wa Kuchagua ili kubakiza sentensi zinazohusiana zaidi kabla ya kumpeleka LLM. |
Punguza hatari ya kupoteza taarifa |
| Kusasisha Modeli ya LLM | Modeli ndogo (7B) haiwezi kufanya mawazo changamano, au kukumbuka muktadha mrefu. | Badilisha kwa modeli yenye nguvu zaidi (GPT-4o, Claude 3.5 Sonnet, Qwen2.5-72B). | Usahihi wa mawazo unaongezeka sana |
| Mtiririko na Kunuku | Mtumiaji hawezi kuhakiki uaminifu wa jibu. | Wakati wa uzalishaji, mwambie LLM itoe [citation:1] inayolingana na nambari ya hati iliyotafutwa. Sehemu ya nyuma ongeza kiungo cha hati asili. |
Uaminifu wa mtumiaji + utatuzi |
| Kurekebisha Kukataa Kujibu | Modeli huzua uwongo wakati isipaswi, au inasema haijui wakati inapaswa kujibu. | Weka kikomo cha ufanano: ikiwa ufanano wa cosine kati ya sehemu ya juu ya top-1 na swali ni chini ya 0.7, mwambie LLM "Nyenzo hazihusiani". | Punguza kiwango cha udanganyifu |
4. Tathmini na Urudiaji (Kujua Pa Kurekebisha)
Bila kipimo, hakuna uboreshaji.
| Hatua ya Uboreshaji | Njia | Kipimo |
|---|---|---|
| Kuanzisha Seti ya Tathmini | Andaa maswali 100~300 ya watumiaji halisi + majibu ya kawaida + vitambulisho sahihi vya hati zilizotafutwa. | Funika ugumu tofauti, nia tofauti. |
| Tathmini Kiotomatiki | Tumia RAGAS (Faithfulness, Answer Relevance, Context Recall) au TruLens. | Vipimo vitatu muhimu: uaminifu, umuhimu wa jibu, kiwango cha kumbukumbu cha muktadha. |
| Tathmini ya Kibinadamu | Kila wiki chunguza kesi 20 mbaya, chambua aina za makosa (kushindwa kwa utafutaji / kosa la uzalishaji / kukosa katika maktaba ya maarifa). | Panga vipaumbele vya uboreshaji. |
| Jaribio la A/B | Katika mazingira ya uzalishaji, jaribu mikakati tofauti ya utafutaji kwenye vikundi (k.m. BM25 dhidi ya utafutaji mseto). | Vipimo vya mtandaoni: kuridhika kwa watumiaji, kiwango cha kutokuwepo kwa jibu. |
5. "Uzoefu wa Vitendo" Unaoweza Kutajwa kwenye Mahojiano (Alama Zaidi)
"Katika mradi wangu wa RAG, mwanzoni kiwango cha msingi cha kugusa kilikuwa 67% tu. Nilifanya mambo matatu:
1. Badilisha ukataji kutoka 1024 maalum hadi ukataji wa semantic wenye nguvu (kwa kichwa+aya), kiwango cha kugusa kikapanda hadi 74%;
2. Nikaongeza utafutaji mseto (vekta + BM25) na modeli ndogo ya kupanga upya, kiwango cha kugusa kikapanda hadi 83%;
3. Nikaongeza maagizo na kulazimisha '[Hakuna taarifa zinazohusika]', kiwango cha udanganyifu kikashuka kutoka 22% hadi chini ya 5%.Pia, tulianzisha mfululizo wa tathmini ya kuendelea, kila wakati kabla ya mabadiliko tulikimbia alama za RAGAS kwa maswali 200, kuhakikisha hakuna kushuka kwa ubora."
Muhtasari wa Mwisho: Ramani Kamili ya Njia ya Kuboresha RAG
Safu ya Data ─→ Usafishaji wa hati, uboreshaji wa ukataji, uboreshaji wa metadata, embedding ya eneo
Safu ya Utafutaji ─→ Utafutaji mseto, kupanga upya, kuandika upya hoja, HyDE, marekebisho ya Top-K
Safu ya Uzalishaji ─→ Kuongeza nguvu za maagizo, mahitaji ya maagizo, mfinyazo, kunuku, kikomo cha kukataa
Safu ya Tathmini ─→ Seti ya tathmini, RAGAS, uchambuzi wa kibinadamu, majaribio ya A/B
评论
暂无已展示的评论。
发表评论(匿名)