AI श्रृंखला साक्षात्कार प्रश्न 11: RAG को कैसे अनुकूलित करें?
RAG का अनुकूलन एकल चरण का समायोजन नहीं है, बल्कि एक पूर्ण श्रृंखला अनुकूलन प्रक्रिया है। नीचे मैं डेटा इंडेक्सिंग पक्ष, खोज पक्ष, जनरेशन पक्ष, मूल्यांकन पक्ष चार आयामों से व्यवस्थित अनुकूलन रणनीतियाँ दे रहा हूँ, और साक्षात्कार में उल्लेख करने योग्य व्यावहारिक अनुभव भी संलग्न कर रहा हूँ।
एक, डेटा इंडेक्सिंग पक्ष अनुकूलन (ज्ञानकोष की गुणवत्ता बढ़ाना)
यह सबसे अधिक अनदेखा किया जाने वाला लेकिन सबसे तेज़ प्रभाव दिखाने वाला क्षेत्र है।
| अनुकूलन बिंदु | समस्या लक्षण | विशिष्ट कार्यविधि | प्रभाव संकेतक |
|---|---|---|---|
| दस्तावेज़ पार्सिंग | PDF में तालिकाएँ, फ़्लोचार्ट अनदेखा किए जाते हैं, या टेक्स्ट गड़बड़ और क्रम गड़बड़ होता है। | बेहतर पार्सिंग लाइब्रेरी (जैसे unstructured, pypdf का लेआउट संरक्षण मोड) का उपयोग करें; तालिकाओं के लिए pandas से निकालकर Markdown में बदलें। |
पुनर्प्राप्ति दर +5~15% |
| टेक्स्ट चंक आकार | चंक बहुत छोटा होने पर संदर्भ खो जाता है (जैसे "उसका इस वर्ष राजस्व वृद्धि" में "उसका" संदर्भ खो जाता है); बहुत बड़ा होने पर खोज में शोर बढ़ता है। | विभिन्न चंक आकार (256/512/768 टोकन) प्रयोग करें, ओवरलैप 10~20% रखें; लंबे दस्तावेज़ों के लिए शब्दार्थ सीमा (पैराग्राफ/शीर्षक) के अनुसार काटें, न कि निश्चित लंबाई के अनुसार। | हिट दर / निष्ठा |
| मेटाडेटा जोड़ना | प्रासंगिक अनुच्छेद मिल गया लेकिन स्रोत या समय का पता नहीं चलता, या क्षेत्र के अनुसार फ़िल्टर करने की आवश्यकता होती है। | प्रत्येक चंक में मेटाडेटा जोड़ें: source (फ़ाइल नाम/URL), timestamp, page_num, doc_type। खोज में फ़िल्टर का उपयोग करें (जैसे doc_type == 'legal')। |
फ़िल्टर सटीकता |
| एम्बेडिंग मॉडल चयन | सामान्य एम्बेडिंग विशेष क्षेत्रों (चिकित्सा, कोड, कानून) में खराब प्रदर्शन करती है। | क्षेत्र-विशिष्ट फ़ाइन-ट्यून मॉडल (BGE-large-zh, GTE-Qwen2-7B-instruct) का उपयोग करें; या अपने स्वयं के एम्बेडिंग मॉडल को फ़ाइन-ट्यून करें (triple loss के साथ)। | खोज MRR@10 +10~20% |
दो, खोज पक्ष अनुकूलन (पुस्तक पलटना अधिक सटीक बनाना)
खोज LLM को दिए जाने वाले संदर्भ सामग्री की गुणवत्ता निर्धारित करता है।
| अनुकूलन बिंदु | समस्या लक्षण | विशिष्ट कार्यविधि | प्रभाव |
|---|---|---|---|
| मिश्रित खोज | वेक्टर खोज सटीक शब्दों (जैसे उत्पाद मॉडल ABC-123) से मेल नहीं खा सकती, कीवर्ड खोज समानार्थी शब्दों को समझ नहीं पाती। |
एक साथ वेक्टर खोज (शब्दार्थ) और BM25 (कीवर्ड) का उपयोग करें, भारांक (जैसे 0.7वेक्टर + 0.3BM25) या रिरैंक द्वारा संयोजित करें। | पुनर्प्राप्ति दर +10~25% |
| पुनः क्रमबद्धता (Rerank) | वेक्टर खोज के पहले कुछ परिणाम सबसे प्रासंगिक नहीं हो सकते, 10वाँ परिणाम सबसे अच्छा हो सकता है। | क्रॉस-एन्कोडर मॉडल (जैसे BGE-reranker-v2, Cohere Rerank) का उपयोग करके उम्मीदवार सेट (जैसे पहले 20) को पुनः स्कोर करें, शीर्ष-K लें। |
हिट दर में महत्वपूर्ण सुधार (विशेषकर शीर्ष-1) |
| क्वेरी पुनर्लेखन | उपयोगकर्ता प्रश्न अस्पष्ट या बहुवार्ता में संदर्भ स्पष्ट नहीं होता (जैसे "इसकी कीमत क्या है?")। | LLM का उपयोग करके मूल प्रश्न को खोज के लिए अधिक उपयुक्त रूप में लिखें (जैसे "iPhone 15 की कीमत क्या है?"); या वार्ता इतिहास का उपयोग करके पूर्ण करें। | पुनर्प्राप्ति दर +5~15% |
| HyDE | उपयोगकर्ता प्रश्न बहुत छोटा या अमूर्त है (जैसे "प्रकाश संश्लेषण के बारे में बताएं"), सीधी खोज खराब प्रदर्शन करती है। | पहले LLM से एक काल्पनिक उत्तर उत्पन्न करवाएं, फिर इस उत्तर का उपयोग दस्तावेज़ खोजने के लिए करें। | खुले डोमेन के लिए उपयुक्त, लेकिन सटीक तथ्यात्मक प्रश्नों के लिए नहीं |
| खोज संख्या Top-K समायोजन | K बहुत छोटा होने पर महत्वपूर्ण जानकारी छूट सकती है; बहुत बड़ा होने पर टोकन खपत और शोर बढ़ता है। | K=3/5/10 प्रयोग करें, पुनर्प्राप्ति दर और उत्तर निष्ठा का संतुलन देखें। | क्षमता और प्रभाव में व्यापार-बंद |
तीन, जनरेशन पक्ष अनुकूलन (LLM को संदर्भ सामग्री का उचित उपयोग कराना)
खोज कितनी भी सटीक हो, यदि प्रॉम्प्ट अच्छा नहीं या मॉडल कमजोर है तो व्यर्थ।
| अनुकूलन बिंदु | समस्या लक्षण | विशिष्ट कार्यविधि | प्रभाव |
|---|---|---|---|
| प्रॉम्प्ट इंजीनियरिंग | LLM खोजी गई सामग्री को अनदेखा करता है या मनघड़ंत बनाता है। | स्पष्ट निर्देश: "केवल नीचे दिए गए संदर्भों के आधार पर प्रश्न का उत्तर दें। यदि सामग्री अपर्याप्त या अप्रासंगिक है, तो 'पर्याप्त जानकारी नहीं' कहें।" कुछ उदाहरण संलग्न करें जो स्रोत संदर्भ दिखाते हैं। | निष्ठा +20~40% |
| संदर्भ संपीड़न | खोजी गई सामग्री बहुत लंबी है (मॉडल संदर्भ विंडो से अधिक), या अधिकतर शोर है। | LLMLingua या चयनात्मक संदर्भ का उपयोग करके संपीड़ित करें, सबसे प्रासंगिक वाक्यों को बनाए रखते हुए LLM को भेजें। |
सूचना खोने का जोखिम कम करता है |
| LLM मॉडल उन्नयन | छोटे मॉडल (7B) जटिल तर्क करने में असमर्थ, या लंबे संदर्भ याद नहीं रख पाते। | मजबूत मॉडल (GPT-4o, Claude 3.5 Sonnet, Qwen2.5-72B) पर स्विच करें। | तर्क सटीकता में अत्यधिक सुधार |
| स्ट्रीमिंग और संदर्भ | उपयोगकर्ता उत्तर की विश्वसनीयता नहीं जांच सकते। | जनरेशन के दौरान LLM को [citation:1] आउटपुट करने दें, जो खोजे गए दस्तावेज़ के क्रमांक से संबंधित हो। बैकएंड पर मूल लिंक संलग्न करें। |
उपयोगकर्ता विश्वास + डिबगिंग क्षमता |
| उत्तर देने से इनकार कैलिब्रेशन | मॉडल अनुचित समय पर गढ़ता है, या उचित समय पर अनजान कहता है। | एक समानता सीमा निर्धारित करें: यदि शीर्ष-1 चंक का कोसाइन समानता 0.7 से कम है, तो LLM को "सामग्री अप्रासंगिक" बताने का निर्देश दें। | भ्रम दर कम करता है |
चार, मूल्यांकन और पुनरावृत्ति पक्ष (जानें कहाँ अनुकूलित करना है)
बिना माप के अनुकूलन संभव नहीं।
| अनुकूलन बिंदु | कार्यविधि | संकेतक |
|---|---|---|
| मूल्यांकन सेट बनाना | 100~300 वास्तविक उपयोगकर्ता प्रश्न + मानक उत्तर + सही खोज दस्तावेज़ ID तैयार करें। | विभिन्न कठिनाई और आशय को कवर करें। |
| स्वचालित मूल्यांकन | RAGAS (Faithfulness, Answer Relevance, Context Recall) या TruLens का उपयोग करें। | तीन मुख्य संकेतक: निष्ठा, उत्तर प्रासंगिकता, संदर्भ पुनर्प्राप्ति दर। |
| मानव मूल्यांकन | साप्ताहिक 20 खराब मामलों की जाँच करें, त्रुटि प्रकार (खोज विफलता / जनरेशन त्रुटि / ज्ञानकोष कमी) का विश्लेषण करें। | सुधार प्राथमिकता क्रम निर्धारित करें। |
| A/B परीक्षण | उत्पादन वातावरण में विभिन्न खोज रणनीतियों का परीक्षण करें (जैसे BM25 बनाम मिश्रित खोज)। | ऑनलाइन संकेतक: उपयोगकर्ता संतुष्टि, उत्तरहीन दर। |
पाँच, साक्षात्कार में कहने योग्य व्यावहारिक अनुभव (अतिरिक्त अंक)
"मेरे द्वारा संभाले गए RAG प्रोजेक्ट में, शुरुआत में आधाररेखा हिट दर 67% थी। मैंने तीन काम किए:
1. फिक्स्ड 1024 से डायनामिक शब्दार्थ कटिंग पर स्विच किया (शीर्षक+पैराग्राफ के अनुसार), हिट दर 74% हो गई;
2. मिश्रित खोज (वेक्टर + BM25) और एक छोटा रिरैंक मॉडल जोड़ा, हिट दर 83% तक पहुँच गई;
3. प्रॉम्प्ट को अनुकूलित किया और[जानकारी नहीं मिली]को अनिवार्य किया, भ्रम दर 22% से घटकर 5% से नीचे आ गई।इसके अलावा, हमने एक सतत मूल्यांकन पाइपलाइन स्थापित की, प्रत्येक बदलाव से पहले 200 प्रश्नों पर RAGAS स्कोर चलाया, ताकि यह सुनिश्चित किया जा सके कि कोई गिरावट न हो।"
अंतिम सारांश: एक पूर्ण RAG अनुकूलन रोडमैप
डेटा स्तर → दस्तावेज़ सफाई, चंक अनुकूलन, मेटाडेटा वृद्धि, क्षेत्र एम्बेडिंग
खोज स्तर → मिश्रित खोज, रिरैंक, क्वेरी पुनर्लेखन, HyDE, शीर्ष-K अनुकूलन
जनरेशन स्तर → प्रॉम्प्ट सुदृढीकरण, निर्देश आवश्यकता, संपीड़न, संदर्भ, इनकार सीमा
मूल्यांकन स्तर → मूल्यांकन सेट, RAGAS, मानव विश्लेषण, A/B प्रयोग
评论
暂无已展示的评论。
发表评论(匿名)