AI தொடர் நேர்காணல் கேள்விகள் 11: RAG ஐ எவ்வாறு மேம்படுத்துவது?

RAG இன் மேம்படுத்தல் ஒரு ஒற்றை கட்டத்தின் சரிசெய்தல் அல்ல, மாறாக ஒரு முழு சங்கிலி உகப்பாக்கம் செயல்முறை ஆகும். கீழே நான் தரவு குறியீட்டு பக்கம், மீட்டெடுப்பு பக்கம், உருவாக்கம் பக்கம், மதிப்பீடு பக்கம் என்ற நான்கு பரிமாணங்களில் இருந்து முறையான மேம்படுத்தல் உத்திகளை வழங்குகிறேன், மேலும் நேர்காணலில் குறிப்பிடக்கூடிய நடைமுறை அனுபவங்களையும் இணைக்கிறேன்.

一、தரவு குறியீட்டு பக்கம் மேம்படுத்தல் ("அறிவுத் தளத்தின்" தரத்தை மேம்படுத்துதல்)

இது மிகவும் புறக்கணிக்கப்பட்டாலும் மிகவும் விரைவான பலனைத் தரும் பகுதியாகும்.

மேம்படுத்தல் புள்ளி	பிரச்சினை காட்சி	குறிப்பிட்ட செயல்முறை	விளைவு குறியீடு
ஆவண பாகுபடுத்தல்	PDF இல் உள்ள அட்டவணைகள், ஓட்ட விளக்கப்படங்கள் புறக்கணிக்கப்படுதல், அல்லது உரை குழப்பம், வரிசை தவறு.	சிறந்த பாகுபடுத்தல் நூலகங்களைப் பயன்படுத்தவும் (எ.கா., `unstructured`, `pypdf` இன் தளவமைப்பு பாதுகாப்பு முறை); அட்டவணைகளுக்கு `pandas` ஐப் பயன்படுத்தி பிரித்தெடுத்து Markdown ஆக மாற்றவும்.	மீட்டெடுப்பு விகிதம் +5~15%
உரை துண்டு அளவு	chunk மிகவும் சிறியதாக இருந்தால் சூழல் இழக்கப்படும் (எ.கா., "அவரது இந்த ஆண்டு வருவாய் வளர்ச்சி" என்பதில் "அவரது" குறிப்பு இழப்பு); chunk மிகவும் பெரியதாக இருந்தால் மீட்டெடுப்பில் சத்தம் அதிகம்.	வெவ்வேறு chunk size (256/512/768 token) ஐ சோதித்துப் பாருங்கள், overlap ஐ 10~20% ஆக அமைக்கவும்; நீண்ட ஆவணங்களுக்கு, நிலையான நீளத்திற்குப் பதிலாக சொற்பொருள் எல்லைகளில் (பத்திகள்/தலைப்புகள்) பிரிக்கவும்.	தாக்குதல் விகிதம் / நம்பகத்தன்மை
மெட்டாடேட்டா சேர்த்தல்	தொடர்புடைய பத்தி மீட்டெடுக்கப்பட்டாலும், மூலம் அல்லது நேரத்தைக் கண்டறிய முடியாமல், அல்லது துறையின் படி வடிகட்ட வேண்டியிருத்தல்.	ஒவ்வொரு chunk க்கும் மெட்டாடேட்டா சேர்க்கவும்: `source` (கோப்பு பெயர்/URL), `timestamp`, `page_num`, `doc_type`. மீட்டெடுக்கும்போது வடிப்பான்களைப் பயன்படுத்தவும் (எ.கா., `doc_type == 'legal'`).	வடிகட்டல் துல்லியம்
உட்பொதிப்பு மாதிரி தேர்வு	பொதுவான embedding செங்குத்து துறைகளில் (மருத்துவம், குறியீடு, சட்டம்) மோசமாக செயல்படுகிறது.	துறை சார்ந்த சிறப்பு மாதிரிகளைப் பயன்படுத்தவும் (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); அல்லது உங்கள் சொந்த embedding மாதிரியை triplet loss மூலம் சரிசெய்யவும்.	மீட்டெடுப்பு MRR@10 +10~20%

二、மீட்டெடுப்பு பக்கம் மேம்படுத்தல் ("புத்தகத்தைப் புரட்டுதல்" மிகவும் துல்லியமாக)

மீட்டெடுப்பு LLM க்கு வழங்கப்படும் "குறிப்பு பொருட்களின்" தரத்தை தீர்மானிக்கிறது.

மேம்படுத்தல் புள்ளி	பிரச்சினை காட்சி	குறிப்பிட்ட செயல்முறை	விளைவு
கலப்பு மீட்டெடுப்பு	திசையன் மீட்டெடுப்பு துல்லியமான சொற்களை (எ.கா., தயாரிப்பு மாதிரி `ABC-123`) பொருத்த முடியாது; முக்கிய சொல் மீட்டெடுப்பு ஒத்த சொற்களைப் புரிந்து கொள்ள முடியாது.	திசையன் மீட்டெடுப்பு (சொற்பொருள்) மற்றும் BM25 (முக்கிய சொல்) ஆகிய இரண்டையும் ஒரே நேரத்தில் பயன்படுத்தவும், எடையிடல் (எ.கா., 0.7திசையன் + 0.3BM25) அல்லது rerank மூலம் இணைக்கவும்.	மீட்டெடுப்பு விகிதம் +10~25%
மறு தரவரிசை (Rerank)	திசையன் மீட்டெடுப்பின் முதல் சில முடிவுகள் மிகவும் தொடர்புடையதாக இருக்காது; 10வது முடிவே சிறந்ததாக இருக்கலாம்.	cross‑encoder மாதிரியைப் (எ.கா., `BGE‑reranker-v2`, Cohere Rerank) பயன்படுத்தி வேட்பாளர் தொகுப்பை (முதல் 20) மறு மதிப்பெண் செய்து, top‑K ஐ எடுக்கவும்.	தாக்குதல் விகிதம் கணிசமாக மேம்படுகிறது (குறிப்பாக top‑1)
கேள்வி மறு எழுதுதல்	பயனர் கேள்வி தெளிவற்றதாக அல்லது பல சுற்று உரையாடலில் குறிப்பு தெளிவற்றதாக இருத்தல் ("அதன் விலை என்ன?").	LLM ஐப் பயன்படுத்தி அசல் கேள்வியை மீட்டெடுப்புக்கு மிகவும் பொருத்தமான வடிவத்தில் மாற்றவும் (எ.கா., "iPhone 15 இன் விலை என்ன?"); அல்லது உரையாடல் வரலாற்றைப் பயன்படுத்தி நிறைவு செய்யவும்.	மீட்டெடுப்பு விகிதம் +5~15%
HyDE	பயனர் கேள்வி மிகவும் சுருக்கமாக அல்லது மிகவும் பொதுவானதாக இருத்தல் (எ.கா., "ஒளிச்சேர்க்கை பற்றி சொல்லுங்கள்"), நேரடி மீட்டெடுப்பு மோசமாக இருக்கும்.	முதலில் LLM ஊக பதிலை உருவாக்க வைத்து, பின்னர் அந்த பதிலை ஆவணத்தை மீட்டெடுக்க பயன்படுத்தவும்.	திறந்த களத்திற்கு பொருத்தமானது, ஆனால் துல்லியமான உண்மை வினாக்களுக்கு பொருந்தாது
மீட்டெடுப்பு எண்ணிக்கை Top‑K சரிசெய்தல்	K மிகவும் சிறியதாக இருந்தால் முக்கிய தகவல் தவறவிடப்படலாம்; K மிகவும் பெரியதாக இருந்தால் token நுகர்வு மற்றும் சத்தம் அதிகரிக்கும்.	K=3/5/10 என்று சோதித்து, மீட்டெடுப்பு விகிதம் மற்றும் பதில் நம்பகத்தன்மையின் சமநிலையை கவனிக்கவும்.	செயல்திறன் மற்றும் விளைவு இடையே பரிமாற்றம்

三、உருவாக்கம் பக்கம் மேம்படுத்தல் (LLM குறிப்பு பொருட்களை சரியாகப் பயன்படுத்த வைத்தல்)

மீட்டெடுப்பு எவ்வளவு துல்லியமாக இருந்தாலும், prompt சரியாக இல்லாவிட்டால் அல்லது மாதிரி நன்றாக இல்லாவிட்டால் பயனில்லை.

மேம்படுத்தல் புள்ளி	பிரச்சினை காட்சி	குறிப்பிட்ட செயல்முறை	விளைவு
prompt பொறியியல்	LLM மீட்டெடுக்கப்பட்ட உள்ளடக்கத்தை புறக்கணித்தல், அல்லது பொய்யானவற்றை உருவாக்குதல்.	தெளிவான அறிவுறுத்தல்: "கீழே வழங்கப்பட்ட குறிப்பு பொருட்களை மட்டுமே பயன்படுத்தி கேள்விக்கு பதிலளிக்கவும். பொருட்கள் போதுமானதாக இல்லாவிட்டால் அல்லது தொடர்பில்லாததாக இருந்தால், 'போதுமான தகவல் இல்லை' என்று பதிலளிக்கவும்." மூலத்தை எவ்வாறு குறிப்பிடுவது என்பதைக் காட்ட சில எடுத்துக்காட்டுகளை சேர்க்கவும்.	நம்பகத்தன்மை +20~40%
சூழல் சுருக்கம்	மீட்டெடுக்கப்பட்ட உள்ளடக்கம் மிகவும் நீளமாக (மாதிரியின் சூழல் சாளரத்தை மீறுதல்) அல்லது பெரும்பாலும் சத்தமாக இருத்தல்.	`LLMLingua` அல்லது `தேர்ந்தெடுக்கப்பட்ட சூழல்` சுருக்கத்தைப் பயன்படுத்தி, மிகவும் தொடர்புடைய வாக்கியங்களை மட்டும் வைத்து LLM க்கு அனுப்பவும்.	தகவல் இழப்பு அபாயத்தை குறைக்கிறது
LLM மாதிரி மேம்பாடு	சிறிய மாதிரி (7B) சிக்கலான பகுத்தறிவை செய்ய முடியாமல், அல்லது நீண்ட சூழலை நினைவில் வைத்திருக்க முடியாமல்.	வலுவான மாதிரிகளுக்கு மாற்றவும் (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B).	பகுத்தறிவு துல்லியம் பெரிதும் மேம்படுகிறது
ஸ்ட்ரீமிங் மற்றும் மேற்கோள்	பயனர் பதிலின் நம்பகத்தன்மையை சரிபார்க்க முடியாமல்.	உருவாக்கும்போது LLM `[citation:1]` வெளியிட வைக்கவும், இது மீட்டெடுக்கப்பட்ட ஆவணத்தின் எண்ணுடன் தொடர்புடையது. பின்புறத்தில் அசல் இணைப்பை இணைக்கவும்.	பயனர் நம்பிக்கை + பிழைத்திருத்தம்
மறுத்து பதில் அளவீடு	மாதிரி பதில் சொல்லக் கூடாத இடத்தில் பொய் சொல்வது, அல்லது பதில் சொல்ல வேண்டிய இடத்தில் தெரியாது என்று சொல்வது.	ஒத்திசைவு வரம்பை அமைக்கவும்: மீட்டெடுக்கப்பட்ட top‑1 chunk இன் கேள்வியுடன் cosine similarity 0.7 க்கும் குறைவாக இருந்தால், LLM க்கு "தொடர்பில்லாத தகவல்" என்று குறிப்பிடவும்.	மாயத்தோற்ற விகிதத்தை குறைக்கிறது

四、மதிப்பீடு மற்றும் மறுசெயல் பக்கம் (எங்கு மேம்படுத்துவது என்பதை அறிதல்)

அளவீடு இல்லாமல் உகப்பாக்கம் சாத்தியமில்லை.

மேம்படுத்தல் புள்ளி	செயல்முறை	குறியீடு
மதிப்பீட்டு தொகுப்பை உருவாக்குதல்	100~300 உண்மையான பயனர் கேள்விகள் + நிலையான பதில்கள் + சரியான மீட்டெடுப்பு ஆவண ID களை தயார் செய்யவும்.	வெவ்வேறு சிரமம் மற்றும் நோக்கங்களை உள்ளடக்கியதாக இருக்க வேண்டும்.
தானியங்கி மதிப்பீடு	RAGAS (Faithfulness, Answer Relevance, Context Recall) அல்லது TruLens பயன்படுத்தவும்.	மூன்று முக்கிய குறியீடுகள்: நம்பகத்தன்மை, பதில் தொடர்பு, சூழல் மீட்டெடுப்பு விகிதம்.
மனித மதிப்பீடு	வாரத்திற்கு 20 bad case களை தேர்ந்தெடுத்து, பிழை வகையை பகுப்பாய்வு செய்யவும் (மீட்டெடுப்பு தோல்வி / உருவாக்கம் பிழை / அறிவுத் தளம் இல்லாமை).	மேம்பாட்டு முன்னுரிமை வரிசைப்படுத்துதல்.
A/B சோதனை	உற்பத்தி சூழலில் வெவ்வேறு மீட்டெடுப்பு உத்திகளை (எ.கா., BM25 vs கலப்பு மீட்டெடுப்பு) வாளிகளாக பிரித்து சோதிக்கவும்.	ஆன்லைன் குறியீடுகள்: பயனர் திருப்தி, பதில் இல்லாத விகிதம்.

五、நேர்காணலில் கூறக்கூடிய "நடைமுறை அனுபவங்கள்" (கூடுதல் புள்ளிகள்)

"நான் பொறுப்பேற்ற RAG திட்டத்தில், ஆரம்பத்தில் அடிப்படை தாக்குதல் விகிதம் 67% ஆக இருந்தது. நான் மூன்று விஷயங்களைச் செய்தேன்:
1. துண்டுகளை நிலையான 1024 இலிருந்து மாறும் சொற்பொருள் பிரிப்புக்கு மாற்றினேன் (தலைப்பு+பத்தி அடிப்படையில்), தாக்குதல் விகிதம் 74% ஆக உயர்ந்தது;
2. கலப்பு மீட்டெடுப்பு (திசையன் + BM25) மற்றும் ஒரு சிறிய rerank மாதிரியைச் சேர்த்தேன், தாக்குதல் விகிதம் 83% ஆக உயர்ந்தது;
3. prompt ஐ மேம்படுத்தி, [தகவல் இல்லை] ஐ கட்டாயமாக்கினேன், மாயத்தோற்ற விகிதம் 22% இலிருந்து 5% க்கும் கீழே குறைந்தது.

கூடுதலாக, நாங்கள் ஒரு தொடர்ச்சியான மதிப்பீட்டு குழாயை உருவாக்கினோம், ஒவ்வொரு மாற்றத்திற்கும் முன் 200 கேள்விகளுக்கான RAGAS மதிப்பெண்களை இயக்கி, எந்த சீரழிவும் இல்லை என்பதை உறுதி செய்தோம்."

இறுதி சுருக்கம்: ஒரு முழுமையான RAG மேம்படுத்தல் பாதை வரைபடம்

தரவு அடுக்கு → ஆவண சுத்திகரிப்பு, துண்டு உகப்பாக்கம், மெட்டாடேட்டா மேம்பாடு, கள embedding
மீட்டெடுப்பு அடுக்கு → கலப்பு மீட்டெடுப்பு, rerank, கேள்வி மறு எழுதுதல், HyDE, Top‑K சரிசெய்தல்
உருவாக்கம் அடுக்கு → prompt வலுப்படுத்துதல், அறிவுறுத்தல் தேவைகள், சுருக்கம், மேற்கோள், மறுப்பு வரம்பு
மதிப்பீடு அடுக்கு → மதிப்பீட்டு தொகுப்பு, RAGAS, மனித பகுப்பாய்வு, A/B பரிசோதனைகள்