AI श्रृंखला साक्षात्कार प्रश्न 11: RAG को कैसे अनुकूलित करें?

RAG का अनुकूलन एकल चरण का समायोजन नहीं है, बल्कि एक पूर्ण श्रृंखला अनुकूलन प्रक्रिया है। नीचे मैं डेटा इंडेक्सिंग पक्ष, खोज पक्ष, जनरेशन पक्ष, मूल्यांकन पक्ष चार आयामों से व्यवस्थित अनुकूलन रणनीतियाँ दे रहा हूँ, और साक्षात्कार में उल्लेख करने योग्य व्यावहारिक अनुभव भी संलग्न कर रहा हूँ।

एक, डेटा इंडेक्सिंग पक्ष अनुकूलन (ज्ञानकोष की गुणवत्ता बढ़ाना)

यह सबसे अधिक अनदेखा किया जाने वाला लेकिन सबसे तेज़ प्रभाव दिखाने वाला क्षेत्र है।

अनुकूलन बिंदु	समस्या लक्षण	विशिष्ट कार्यविधि	प्रभाव संकेतक
दस्तावेज़ पार्सिंग	PDF में तालिकाएँ, फ़्लोचार्ट अनदेखा किए जाते हैं, या टेक्स्ट गड़बड़ और क्रम गड़बड़ होता है।	बेहतर पार्सिंग लाइब्रेरी (जैसे `unstructured`, `pypdf` का लेआउट संरक्षण मोड) का उपयोग करें; तालिकाओं के लिए `pandas` से निकालकर Markdown में बदलें।	पुनर्प्राप्ति दर +5~15%
टेक्स्ट चंक आकार	चंक बहुत छोटा होने पर संदर्भ खो जाता है (जैसे "उसका इस वर्ष राजस्व वृद्धि" में "उसका" संदर्भ खो जाता है); बहुत बड़ा होने पर खोज में शोर बढ़ता है।	विभिन्न चंक आकार (256/512/768 टोकन) प्रयोग करें, ओवरलैप 10~20% रखें; लंबे दस्तावेज़ों के लिए शब्दार्थ सीमा (पैराग्राफ/शीर्षक) के अनुसार काटें, न कि निश्चित लंबाई के अनुसार।	हिट दर / निष्ठा
मेटाडेटा जोड़ना	प्रासंगिक अनुच्छेद मिल गया लेकिन स्रोत या समय का पता नहीं चलता, या क्षेत्र के अनुसार फ़िल्टर करने की आवश्यकता होती है।	प्रत्येक चंक में मेटाडेटा जोड़ें: `source` (फ़ाइल नाम/URL), `timestamp`, `page_num`, `doc_type`। खोज में फ़िल्टर का उपयोग करें (जैसे `doc_type == 'legal'`)।	फ़िल्टर सटीकता
एम्बेडिंग मॉडल चयन	सामान्य एम्बेडिंग विशेष क्षेत्रों (चिकित्सा, कोड, कानून) में खराब प्रदर्शन करती है।	क्षेत्र-विशिष्ट फ़ाइन-ट्यून मॉडल (BGE-large-zh, GTE-Qwen2-7B-instruct) का उपयोग करें; या अपने स्वयं के एम्बेडिंग मॉडल को फ़ाइन-ट्यून करें (triple loss के साथ)।	खोज MRR@10 +10~20%

दो, खोज पक्ष अनुकूलन (पुस्तक पलटना अधिक सटीक बनाना)

खोज LLM को दिए जाने वाले संदर्भ सामग्री की गुणवत्ता निर्धारित करता है।

अनुकूलन बिंदु	समस्या लक्षण	विशिष्ट कार्यविधि	प्रभाव
मिश्रित खोज	वेक्टर खोज सटीक शब्दों (जैसे उत्पाद मॉडल `ABC-123`) से मेल नहीं खा सकती, कीवर्ड खोज समानार्थी शब्दों को समझ नहीं पाती।	एक साथ वेक्टर खोज (शब्दार्थ) और BM25 (कीवर्ड) का उपयोग करें, भारांक (जैसे 0.7वेक्टर + 0.3BM25) या रिरैंक द्वारा संयोजित करें।	पुनर्प्राप्ति दर +10~25%
पुनः क्रमबद्धता (Rerank)	वेक्टर खोज के पहले कुछ परिणाम सबसे प्रासंगिक नहीं हो सकते, 10वाँ परिणाम सबसे अच्छा हो सकता है।	क्रॉस-एन्कोडर मॉडल (जैसे `BGE-reranker-v2`, Cohere Rerank) का उपयोग करके उम्मीदवार सेट (जैसे पहले 20) को पुनः स्कोर करें, शीर्ष-K लें।	हिट दर में महत्वपूर्ण सुधार (विशेषकर शीर्ष-1)
क्वेरी पुनर्लेखन	उपयोगकर्ता प्रश्न अस्पष्ट या बहुवार्ता में संदर्भ स्पष्ट नहीं होता (जैसे "इसकी कीमत क्या है?")।	LLM का उपयोग करके मूल प्रश्न को खोज के लिए अधिक उपयुक्त रूप में लिखें (जैसे "iPhone 15 की कीमत क्या है?"); या वार्ता इतिहास का उपयोग करके पूर्ण करें।	पुनर्प्राप्ति दर +5~15%
HyDE	उपयोगकर्ता प्रश्न बहुत छोटा या अमूर्त है (जैसे "प्रकाश संश्लेषण के बारे में बताएं"), सीधी खोज खराब प्रदर्शन करती है।	पहले LLM से एक काल्पनिक उत्तर उत्पन्न करवाएं, फिर इस उत्तर का उपयोग दस्तावेज़ खोजने के लिए करें।	खुले डोमेन के लिए उपयुक्त, लेकिन सटीक तथ्यात्मक प्रश्नों के लिए नहीं
खोज संख्या Top-K समायोजन	K बहुत छोटा होने पर महत्वपूर्ण जानकारी छूट सकती है; बहुत बड़ा होने पर टोकन खपत और शोर बढ़ता है।	K=3/5/10 प्रयोग करें, पुनर्प्राप्ति दर और उत्तर निष्ठा का संतुलन देखें।	क्षमता और प्रभाव में व्यापार-बंद

तीन, जनरेशन पक्ष अनुकूलन (LLM को संदर्भ सामग्री का उचित उपयोग कराना)

खोज कितनी भी सटीक हो, यदि प्रॉम्प्ट अच्छा नहीं या मॉडल कमजोर है तो व्यर्थ।

अनुकूलन बिंदु	समस्या लक्षण	विशिष्ट कार्यविधि	प्रभाव
प्रॉम्प्ट इंजीनियरिंग	LLM खोजी गई सामग्री को अनदेखा करता है या मनघड़ंत बनाता है।	स्पष्ट निर्देश: "केवल नीचे दिए गए संदर्भों के आधार पर प्रश्न का उत्तर दें। यदि सामग्री अपर्याप्त या अप्रासंगिक है, तो 'पर्याप्त जानकारी नहीं' कहें।" कुछ उदाहरण संलग्न करें जो स्रोत संदर्भ दिखाते हैं।	निष्ठा +20~40%
संदर्भ संपीड़न	खोजी गई सामग्री बहुत लंबी है (मॉडल संदर्भ विंडो से अधिक), या अधिकतर शोर है।	`LLMLingua` या `चयनात्मक संदर्भ` का उपयोग करके संपीड़ित करें, सबसे प्रासंगिक वाक्यों को बनाए रखते हुए LLM को भेजें।	सूचना खोने का जोखिम कम करता है
LLM मॉडल उन्नयन	छोटे मॉडल (7B) जटिल तर्क करने में असमर्थ, या लंबे संदर्भ याद नहीं रख पाते।	मजबूत मॉडल (GPT-4o, Claude 3.5 Sonnet, Qwen2.5-72B) पर स्विच करें।	तर्क सटीकता में अत्यधिक सुधार
स्ट्रीमिंग और संदर्भ	उपयोगकर्ता उत्तर की विश्वसनीयता नहीं जांच सकते।	जनरेशन के दौरान LLM को `[citation:1]` आउटपुट करने दें, जो खोजे गए दस्तावेज़ के क्रमांक से संबंधित हो। बैकएंड पर मूल लिंक संलग्न करें।	उपयोगकर्ता विश्वास + डिबगिंग क्षमता
उत्तर देने से इनकार कैलिब्रेशन	मॉडल अनुचित समय पर गढ़ता है, या उचित समय पर अनजान कहता है।	एक समानता सीमा निर्धारित करें: यदि शीर्ष-1 चंक का कोसाइन समानता 0.7 से कम है, तो LLM को "सामग्री अप्रासंगिक" बताने का निर्देश दें।	भ्रम दर कम करता है

चार, मूल्यांकन और पुनरावृत्ति पक्ष (जानें कहाँ अनुकूलित करना है)

बिना माप के अनुकूलन संभव नहीं।

अनुकूलन बिंदु	कार्यविधि	संकेतक
मूल्यांकन सेट बनाना	100~300 वास्तविक उपयोगकर्ता प्रश्न + मानक उत्तर + सही खोज दस्तावेज़ ID तैयार करें।	विभिन्न कठिनाई और आशय को कवर करें।
स्वचालित मूल्यांकन	RAGAS (Faithfulness, Answer Relevance, Context Recall) या TruLens का उपयोग करें।	तीन मुख्य संकेतक: निष्ठा, उत्तर प्रासंगिकता, संदर्भ पुनर्प्राप्ति दर।
मानव मूल्यांकन	साप्ताहिक 20 खराब मामलों की जाँच करें, त्रुटि प्रकार (खोज विफलता / जनरेशन त्रुटि / ज्ञानकोष कमी) का विश्लेषण करें।	सुधार प्राथमिकता क्रम निर्धारित करें।
A/B परीक्षण	उत्पादन वातावरण में विभिन्न खोज रणनीतियों का परीक्षण करें (जैसे BM25 बनाम मिश्रित खोज)।	ऑनलाइन संकेतक: उपयोगकर्ता संतुष्टि, उत्तरहीन दर।

पाँच, साक्षात्कार में कहने योग्य व्यावहारिक अनुभव (अतिरिक्त अंक)

"मेरे द्वारा संभाले गए RAG प्रोजेक्ट में, शुरुआत में आधाररेखा हिट दर 67% थी। मैंने तीन काम किए:
1. फिक्स्ड 1024 से डायनामिक शब्दार्थ कटिंग पर स्विच किया (शीर्षक+पैराग्राफ के अनुसार), हिट दर 74% हो गई;
2. मिश्रित खोज (वेक्टर + BM25) और एक छोटा रिरैंक मॉडल जोड़ा, हिट दर 83% तक पहुँच गई;
3. प्रॉम्प्ट को अनुकूलित किया और [जानकारी नहीं मिली] को अनिवार्य किया, भ्रम दर 22% से घटकर 5% से नीचे आ गई।

इसके अलावा, हमने एक सतत मूल्यांकन पाइपलाइन स्थापित की, प्रत्येक बदलाव से पहले 200 प्रश्नों पर RAGAS स्कोर चलाया, ताकि यह सुनिश्चित किया जा सके कि कोई गिरावट न हो।"

अंतिम सारांश: एक पूर्ण RAG अनुकूलन रोडमैप

डेटा स्तर → दस्तावेज़ सफाई, चंक अनुकूलन, मेटाडेटा वृद्धि, क्षेत्र एम्बेडिंग
खोज स्तर → मिश्रित खोज, रिरैंक, क्वेरी पुनर्लेखन, HyDE, शीर्ष-K अनुकूलन
जनरेशन स्तर → प्रॉम्प्ट सुदृढीकरण, निर्देश आवश्यकता, संपीड़न, संदर्भ, इनकार सीमा
मूल्यांकन स्तर → मूल्यांकन सेट, RAGAS, मानव विश्लेषण, A/B प्रयोग