የ AI ተከታታይ ቃለመጠይቅ ጥያቄ 11፡ RAG እንዴት ማሻሻል ይቻላል?

የ RAG ማሻሻያ ነጠላ ደረጃ ማስተካከያ ሳይሆን፣ ሙሉ ሰንሰለት ማመቻቸት ሂደት ነው። ከታች በውሂብ መረጃ ጠቋሚ በኩል፣ በፍለጋ በኩል፣ በማመንጨት በኩል፣ በግምገማ በኩል አራት ልኬቶች ላይ ስልታዊ የማሻሻያ ስልቶችን እሰጣለሁ፣ እንዲሁም በቃለመጠይቅ ውስጥ መጠቀስ የሚችሉትን ተግባራዊ ልምዶችን አያይዣለሁ።

አንድ፡ በውሂብ መረጃ ጠቋሚ በኩል ማሻሻል (የ"እውቀት ክምር" ጥራት ማሳደግ)

ይህ በጣም በቀላሉ ችላ የሚባል ነገር ግን ፈጣን ውጤት የሚሰጥ ቦታ ነው።

የማሻሻያ ነጥብ	የችግሩ ምልክት	የሚደረግ ነገር	የውጤት አመላካች
ሰነድ ማስተንተን	በ PDF ውስጥ ያሉ ሰንጠረዦች፣ ፍሰት ገበታዎች ችላ ይባላሉ፣ ወይም ፊደላት የተዛቡ ናቸው።	የተሻሉ ትንተና ቤተመጻሕፍት ይጠቀሙ (ለምሳሌ `unstructured`፣ የ `pypdf` አቀማመጥ ጥበቃ ሁነታ)፤ ለሰንጠረዦች `pandas` በመጠቀም ወደ Markdown ይለውጡ።	መልሶ ማግኛ መጠን +5~15%
የጽሁፍ ክፍልፋይ መጠን	ትንሽ ክፍልፋይ አውድ ያጣል (ለምሳሌ "እሱ ዘንድሮ ገቢው አድጓል" ውስጥ ያለው "እሱ" ጠፍቷል)፤ ትልቅ ክፍልፋይ ብዙ ጫጫታ ያስከትላል።	የተለያዩ ክፍልፋይ መጠኖችን ይሞክሩ (256/512/768 token)፣ መደራረቅን 10~20% ያድርጉ፤ ረጅም ሰነዶችን በትርጉም ወሰን (አንቀጽ/ርዕስ) ይቁረጡ።	የመምታት መጠን / ታማኝነት
ሜታዳታ ማያያዝ	ተዛማጅ አንቀጽ ተገኝቷል ነገር ግን ምንጩን ወይም ጊዜውን መከታተል አይቻልም።	ለእያንዳንዱ ክፍልፋይ ሜታዳታ ያክሉ፦ `source` (የፋይል ስም/URL)፣ `timestamp`፣ `page_num`፣ `doc_type`። በሚፈልጉበት ጊዜ ማጣሪያዎችን ይጠቀሙ።	የማጣሪያ ትክክለኛነት
የኢምቤዲንግ ሞዴል ምርጫ	አጠቃላይ ኢምቤዲንግ በልዩ ዘርፎች ደካማ ነው።	የዘርፍ-የተስተካከሉ ሞዴሎችን ይጠቀሙ (BGE-large-zh፣ GTE-Qwen2-7B-instruct)፤ ወይም የራስዎን ኢምቤዲንግ ሞዴል ያሰለጥኑ።	የፍለጋ MRR@10 +10~20%

ሁለት፡ በፍለጋ በኩል ማሻሻል ("መጽሐፍ መፈለግ"ን የበለጠ ትክክለኛ ማድረግ)

ፍለጋ ለ LLM የሚቀርበውን "ማጣቀሻ" ጥራት ይወስናል።

የማሻሻያ ነጥብ	የችግሩ ምልክት	የሚደረግ ነገር	ውጤት
ድብልቅ ፍለጋ	የቬክተር ፍለጋ ትክክለኛ ቃላትን መመሳሰል አይችልም፣ የቁልፍ ቃል ፍለጋ ተመሳሳይ ቃላትን አይረዳም።	ሁለቱንም የቬክተር ፍለጋ እና BM25 ይጠቀሙ፣ በክብደት ወይም በሪራንክ ያዋህዱ።	መልሶ ማግኛ መጠን +10~25%
እንደገና ማስተካከል (Rerank)	የቬክተር ፍለጋ ውጤቶች የመጀመሪያዎቹ የግድ በጣም ተዛማጅ አይደሉም።	ተሻጋሪ-ኢንኮደር ሞዴል ይጠቀሙ (ለምሳሌ BGE-reranker-v2) እጩዎችን እንደገና ለማስተካከል።	የመምታት መጠን በከፍተኛ ሁኔታ ይሻሻላል (በተለይ top-1)
የጥያቄ እንደገና መጻፍ	የተጠቃሚ ጥያቄ ግልጽ አይደለም ወይም በብዙ ዙር ውይይት ውስጥ ግልጽ ያልሆነ ማጣቀሻ አለ።	LLM ን ይጠቀሙ ዋናውን ጥያቄ ለፍለጋ በሚመች ቅጽ እንደገና ለመጻፍ።	መልሶ ማግኛ መጠን +5~15%
HyDE	የተጠቃሚ ጥያቄ በጣም አጭር ወይም ረቂቅ ነው።	መጀመሪያ LLM መላምታዊ መልስ እንዲያመነጭ ያድርጉ፣ ከዚያ ያንን መልስ ሰነዶችን ለመፈለግ ይጠቀሙ።	ለክፍት ዘርፍ ተስማሚ ነው፣ ግን ለእውነታዊ ትክክለኛ ጥያቄ-መልስ ተስማሚ አይደለም
የፍለጋ ብዛት Top-K ማስተካከል	ትንሽ K ወሳኝ መረጃ ሊያጣ ይችላል፤ ትልቅ K የ token ፍጆታ እና ጫጫታ ይጨምራል።	K=3/5/10 ይሞክሩ፣ የመልሶ ማግኛ መጠን እና የመልስ ታማኝነት ሚዛን ይመልከቱ።	የብቃት እና ውጤት ሚዛን

ሦስት፡ በማመንጨት በኩል ማሻሻል (LLM የማጣቀሻ መረጃን በአግባቡ እንዲጠቀም ማድረግ)

ፍለጋ ምንም ያህል ትክክለኛ ቢሆን፣ ፕሮምፕቱ ጥሩ ካልሆነ ወይም ሞዴሉ ካልሆነ ምንም አይጠቅምም።

የማሻሻያ ነጥብ	የችግሩ ምልክት	የሚደረግ ነገር	ውጤት
የፕሮምፕት ምህንድስና	LLM የተገኘውን ይዘት ችላ ይላል ወይም ውሸት ይፈጥራል።	ግልጽ መመሪያ ይስጡ፦ "በተሰጡት የማጣቀሻ ቁሳቁሶች ላይ ብቻ ተመስርተው መልስ ይስጡ።" እና ጥቂት ምሳሌዎችን ያክሉ።	ታማኝነት +20~40%
የአውድ መጨናነቅ	የተገኘው ይዘት በጣም ረጅም ነው ወይም በአብዛኛው ጫጫታ ነው።	LLMLingua ወይም መራጭ አውድ መጨናነቅ ይጠቀሙ።	የመረጃ ማጣት ስጋትን ይቀንሳል
LLM ሞዴል ማሻሻል	ትንሽ ሞዴል ውስብስብ ምክንያትን ማከናወን አይችልም።	ወደ ጠንካራ ሞዴል ይቀይሩ (GPT-4o, Claude 3.5 Sonnet, Qwen2.5-72B)።	የምክንያት ትክክለኛነት በከፍተኛ ሁኔታ ይሻሻላል
ዥረት እና ማጣቀሻ	ተጠቃሚ የመልሱን አስተማማኝነት ማረጋገጥ አይችልም።	LLM ን እንዲያመነጭ ያድርጉ `[citation:1]`፣ ከጀርባ የዋናውን ሰነድ ማገናኛ ያክሉ።	የተጠቃሚ እምነት + መስተካከል
መልስ ላለመስጠት ውሳኔ ማስተካከል	ሞዴሉ መልስ መስጠት በሌለበት ጊዜ ይሠራል።	የመመሳሰል ደረጃ በር ያዘጋጁ፦ የ top-1 ክፍልፋይ ከጥያቄው ጋር ያለው የኮሳይን ተመሳሳይነት ከ0.7 በታች ከሆነ LLM ን "ወቅታዊ መረጃ የለም" እንዲል ያድርጉ።	የሐሰት መጠን ይቀንሳል

አራት፡ የግምገማ እና የድግግሞሽ አቅጣጫ (ወዴት ማስተካከል እንዳለብን ይወቁ)

ያለ መለኪያ ማሻሻል አይቻልም።

የማሻሻያ ነጥብ	የሚደረግ ነገር	አመላካች
የግምገማ ስብስብ መፍጠር	100~300 እውነተኛ የተጠቃሚ ጥያቄዎች + መደበኛ መልሶች + ትክክለኛ የሰነድ መለያዎች ያዘጋጁ።	የተለያዩ ችግሮችን እና ዓላማዎችን ይሸፍኑ።
ራስ-ሰር ግምገማ	RAGAS (Faithfulness, Answer Relevance, Context Recall) ወይም TruLens ይጠቀሙ።	ሦስት ዋና አመላካቾች፦ ታማኝነት፣ የመልስ ተዛማጅነት፣ የአውድ መልሶ ማግኛ መጠን።
የሰው ግምገማ	በሳምንት 20 መጥፎ አጋጣሚዎችን ይፈትሹ፣ የስህተት አይነቶችን ይተንትኑ።	የማሻሻያ ቅድሚያ ቅደም ተከተል።
A/B ሙከራ	በምርት አከባቢ ውስጥ የተለያዩ የፍለጋ ስልቶችን ይሞክሩ።	የመስመር ላይ አመላካቾች፦ የተጠቃሚ እርካታ፣ መልስ የማግኘት መጠን።

አምስት፡ በቃለመጠይቅ ውስጥ መናገር የሚችሏቸው "ተግባራዊ ልምዶች" (ተጨማሪ ነጥቦች)

"በእኔ ኃላፊነት ስር በነበረው RAG ፕሮጀክት ውስጥ፣ መጀመሪያ ላይ የመምታት መጠኑ 67% ብቻ ነበር። ሦስት ነገሮችን አደረግሁ፦
1. ክፍልፋይን ከቋሚ 1024 ወደ ተለዋዋጭ ትርጉማዊ መቁረጥ ቀየርሁ (በርዕስ+አንቀጽ)፣ የመምታት መጠኑ 74% ሆነ፤
2. ድብልቅ ፍለጋ (ቬክተር + BM25) እና ትንሽ እንደገና ማስተካከያ ሞዴል አከልሁ፣ የመምታት መጠኑ 83% ደረሰ፤
3. ፕሮምፕቱን አሻሻልሁ እና [የሚመለከተው መረጃ አልተገኘም] እንዲል አስገደድሁ፣ የሐሰት መጠኑ ከ22% ወደ 5% በታች ወርዷል።

በተጨማሪም፣ ቀጣይነት ያለው የግምገማ ቧንቧ መስመር አቋቋምን፣ እያንዳንዱ ለውጥ በፊት 200 ጥያቄዎች ላይ የ RAGAS ውጤት እናሄዳለን፣ ውድቀት እንዳለመኖሩ ለማረጋገጥ።"

የመጨረሻ ማጠቃለያ፦ ሙሉ የ RAG ማሻሻያ መንገድ ካርታ

የውሂብ ንብርብር ─→ ሰነድ ማጽዳት፣ ክፍልፋይ ማሻሻል፣ ሜታዳታ ማሳደግ፣ የዘርፍ ኢምቤዲንግ
የፍለጋ ንብርብር ─→ ድብልቅ ፍለጋ፣ እንደገና ማስተካከል፣ የጥያቄ እንደገና መጻፍ፣ HyDE፣ Top-K ማስተካከል
የማመንጨት ንብርብር ─→ ፕሮምፕት ማጠናከር፣ መመሪያ መስፈርቶች፣ መጨናነቅ፣ ማጣቀሻዎች፣ የመቀበል ደረጃ
የግምገማ ንብርብር ─→ የግምገማ ስብስብ፣ RAGAS፣ የሰው ትንተና፣ A/B ሙከራ