← 返回列表

AI श्रृंखला साक्षात्कार प्रश्न 11: RAG को कैसे अनुकूलित करें?

RAG का अनुकूलन एकल चरण का समायोजन नहीं है, बल्कि एक पूर्ण श्रृंखला अनुकूलन प्रक्रिया है। नीचे मैं डेटा इंडेक्सिंग पक्ष, खोज पक्ष, जनरेशन पक्ष, मूल्यांकन पक्ष चार आयामों से व्यवस्थित अनुकूलन रणनीतियाँ दे रहा हूँ, और साक्षात्कार में उल्लेख करने योग्य व्यावहारिक अनुभव भी संलग्न कर रहा हूँ।


एक, डेटा इंडेक्सिंग पक्ष अनुकूलन (ज्ञानकोष की गुणवत्ता बढ़ाना)

यह सबसे अधिक अनदेखा किया जाने वाला लेकिन सबसे तेज़ प्रभाव दिखाने वाला क्षेत्र है।

अनुकूलन बिंदु समस्या लक्षण विशिष्ट कार्यविधि प्रभाव संकेतक
दस्तावेज़ पार्सिंग PDF में तालिकाएँ, फ़्लोचार्ट अनदेखा किए जाते हैं, या टेक्स्ट गड़बड़ और क्रम गड़बड़ होता है। बेहतर पार्सिंग लाइब्रेरी (जैसे unstructured, pypdf का लेआउट संरक्षण मोड) का उपयोग करें; तालिकाओं के लिए pandas से निकालकर Markdown में बदलें। पुनर्प्राप्ति दर +5~15%
टेक्स्ट चंक आकार चंक बहुत छोटा होने पर संदर्भ खो जाता है (जैसे "उसका इस वर्ष राजस्व वृद्धि" में "उसका" संदर्भ खो जाता है); बहुत बड़ा होने पर खोज में शोर बढ़ता है। विभिन्न चंक आकार (256/512/768 टोकन) प्रयोग करें, ओवरलैप 10~20% रखें; लंबे दस्तावेज़ों के लिए शब्दार्थ सीमा (पैराग्राफ/शीर्षक) के अनुसार काटें, न कि निश्चित लंबाई के अनुसार। हिट दर / निष्ठा
मेटाडेटा जोड़ना प्रासंगिक अनुच्छेद मिल गया लेकिन स्रोत या समय का पता नहीं चलता, या क्षेत्र के अनुसार फ़िल्टर करने की आवश्यकता होती है। प्रत्येक चंक में मेटाडेटा जोड़ें: source (फ़ाइल नाम/URL), timestamp, page_num, doc_type। खोज में फ़िल्टर का उपयोग करें (जैसे doc_type == 'legal')। फ़िल्टर सटीकता
एम्बेडिंग मॉडल चयन सामान्य एम्बेडिंग विशेष क्षेत्रों (चिकित्सा, कोड, कानून) में खराब प्रदर्शन करती है। क्षेत्र-विशिष्ट फ़ाइन-ट्यून मॉडल (BGE-large-zh, GTE-Qwen2-7B-instruct) का उपयोग करें; या अपने स्वयं के एम्बेडिंग मॉडल को फ़ाइन-ट्यून करें (triple loss के साथ)। खोज MRR@10 +10~20%

दो, खोज पक्ष अनुकूलन (पुस्तक पलटना अधिक सटीक बनाना)

खोज LLM को दिए जाने वाले संदर्भ सामग्री की गुणवत्ता निर्धारित करता है।

अनुकूलन बिंदु समस्या लक्षण विशिष्ट कार्यविधि प्रभाव
मिश्रित खोज वेक्टर खोज सटीक शब्दों (जैसे उत्पाद मॉडल ABC-123) से मेल नहीं खा सकती, कीवर्ड खोज समानार्थी शब्दों को समझ नहीं पाती। एक साथ वेक्टर खोज (शब्दार्थ) और BM25 (कीवर्ड) का उपयोग करें, भारांक (जैसे 0.7वेक्टर + 0.3BM25) या रिरैंक द्वारा संयोजित करें। पुनर्प्राप्ति दर +10~25%
पुनः क्रमबद्धता (Rerank) वेक्टर खोज के पहले कुछ परिणाम सबसे प्रासंगिक नहीं हो सकते, 10वाँ परिणाम सबसे अच्छा हो सकता है। क्रॉस-एन्कोडर मॉडल (जैसे BGE-reranker-v2, Cohere Rerank) का उपयोग करके उम्मीदवार सेट (जैसे पहले 20) को पुनः स्कोर करें, शीर्ष-K लें। हिट दर में महत्वपूर्ण सुधार (विशेषकर शीर्ष-1)
क्वेरी पुनर्लेखन उपयोगकर्ता प्रश्न अस्पष्ट या बहुवार्ता में संदर्भ स्पष्ट नहीं होता (जैसे "इसकी कीमत क्या है?")। LLM का उपयोग करके मूल प्रश्न को खोज के लिए अधिक उपयुक्त रूप में लिखें (जैसे "iPhone 15 की कीमत क्या है?"); या वार्ता इतिहास का उपयोग करके पूर्ण करें। पुनर्प्राप्ति दर +5~15%
HyDE उपयोगकर्ता प्रश्न बहुत छोटा या अमूर्त है (जैसे "प्रकाश संश्लेषण के बारे में बताएं"), सीधी खोज खराब प्रदर्शन करती है। पहले LLM से एक काल्पनिक उत्तर उत्पन्न करवाएं, फिर इस उत्तर का उपयोग दस्तावेज़ खोजने के लिए करें। खुले डोमेन के लिए उपयुक्त, लेकिन सटीक तथ्यात्मक प्रश्नों के लिए नहीं
खोज संख्या Top-K समायोजन K बहुत छोटा होने पर महत्वपूर्ण जानकारी छूट सकती है; बहुत बड़ा होने पर टोकन खपत और शोर बढ़ता है। K=3/5/10 प्रयोग करें, पुनर्प्राप्ति दर और उत्तर निष्ठा का संतुलन देखें। क्षमता और प्रभाव में व्यापार-बंद

तीन, जनरेशन पक्ष अनुकूलन (LLM को संदर्भ सामग्री का उचित उपयोग कराना)

खोज कितनी भी सटीक हो, यदि प्रॉम्प्ट अच्छा नहीं या मॉडल कमजोर है तो व्यर्थ।

अनुकूलन बिंदु समस्या लक्षण विशिष्ट कार्यविधि प्रभाव
प्रॉम्प्ट इंजीनियरिंग LLM खोजी गई सामग्री को अनदेखा करता है या मनघड़ंत बनाता है। स्पष्ट निर्देश: "केवल नीचे दिए गए संदर्भों के आधार पर प्रश्न का उत्तर दें। यदि सामग्री अपर्याप्त या अप्रासंगिक है, तो 'पर्याप्त जानकारी नहीं' कहें।" कुछ उदाहरण संलग्न करें जो स्रोत संदर्भ दिखाते हैं। निष्ठा +20~40%
संदर्भ संपीड़न खोजी गई सामग्री बहुत लंबी है (मॉडल संदर्भ विंडो से अधिक), या अधिकतर शोर है। LLMLingua या चयनात्मक संदर्भ का उपयोग करके संपीड़ित करें, सबसे प्रासंगिक वाक्यों को बनाए रखते हुए LLM को भेजें। सूचना खोने का जोखिम कम करता है
LLM मॉडल उन्नयन छोटे मॉडल (7B) जटिल तर्क करने में असमर्थ, या लंबे संदर्भ याद नहीं रख पाते। मजबूत मॉडल (GPT-4o, Claude 3.5 Sonnet, Qwen2.5-72B) पर स्विच करें। तर्क सटीकता में अत्यधिक सुधार
स्ट्रीमिंग और संदर्भ उपयोगकर्ता उत्तर की विश्वसनीयता नहीं जांच सकते। जनरेशन के दौरान LLM को [citation:1] आउटपुट करने दें, जो खोजे गए दस्तावेज़ के क्रमांक से संबंधित हो। बैकएंड पर मूल लिंक संलग्न करें। उपयोगकर्ता विश्वास + डिबगिंग क्षमता
उत्तर देने से इनकार कैलिब्रेशन मॉडल अनुचित समय पर गढ़ता है, या उचित समय पर अनजान कहता है। एक समानता सीमा निर्धारित करें: यदि शीर्ष-1 चंक का कोसाइन समानता 0.7 से कम है, तो LLM को "सामग्री अप्रासंगिक" बताने का निर्देश दें। भ्रम दर कम करता है

चार, मूल्यांकन और पुनरावृत्ति पक्ष (जानें कहाँ अनुकूलित करना है)

बिना माप के अनुकूलन संभव नहीं।

अनुकूलन बिंदु कार्यविधि संकेतक
मूल्यांकन सेट बनाना 100~300 वास्तविक उपयोगकर्ता प्रश्न + मानक उत्तर + सही खोज दस्तावेज़ ID तैयार करें। विभिन्न कठिनाई और आशय को कवर करें।
स्वचालित मूल्यांकन RAGAS (Faithfulness, Answer Relevance, Context Recall) या TruLens का उपयोग करें। तीन मुख्य संकेतक: निष्ठा, उत्तर प्रासंगिकता, संदर्भ पुनर्प्राप्ति दर।
मानव मूल्यांकन साप्ताहिक 20 खराब मामलों की जाँच करें, त्रुटि प्रकार (खोज विफलता / जनरेशन त्रुटि / ज्ञानकोष कमी) का विश्लेषण करें। सुधार प्राथमिकता क्रम निर्धारित करें।
A/B परीक्षण उत्पादन वातावरण में विभिन्न खोज रणनीतियों का परीक्षण करें (जैसे BM25 बनाम मिश्रित खोज)। ऑनलाइन संकेतक: उपयोगकर्ता संतुष्टि, उत्तरहीन दर।

पाँच, साक्षात्कार में कहने योग्य व्यावहारिक अनुभव (अतिरिक्त अंक)

"मेरे द्वारा संभाले गए RAG प्रोजेक्ट में, शुरुआत में आधाररेखा हिट दर 67% थी। मैंने तीन काम किए:
1. फिक्स्ड 1024 से डायनामिक शब्दार्थ कटिंग पर स्विच किया (शीर्षक+पैराग्राफ के अनुसार), हिट दर 74% हो गई;
2. मिश्रित खोज (वेक्टर + BM25) और एक छोटा रिरैंक मॉडल जोड़ा, हिट दर 83% तक पहुँच गई;
3. प्रॉम्प्ट को अनुकूलित किया और [जानकारी नहीं मिली] को अनिवार्य किया, भ्रम दर 22% से घटकर 5% से नीचे आ गई।

इसके अलावा, हमने एक सतत मूल्यांकन पाइपलाइन स्थापित की, प्रत्येक बदलाव से पहले 200 प्रश्नों पर RAGAS स्कोर चलाया, ताकि यह सुनिश्चित किया जा सके कि कोई गिरावट न हो।"


अंतिम सारांश: एक पूर्ण RAG अनुकूलन रोडमैप

डेटा स्तर → दस्तावेज़ सफाई, चंक अनुकूलन, मेटाडेटा वृद्धि, क्षेत्र एम्बेडिंग
खोज स्तर → मिश्रित खोज, रिरैंक, क्वेरी पुनर्लेखन, HyDE, शीर्ष-K अनुकूलन
जनरेशन स्तर → प्रॉम्प्ट सुदृढीकरण, निर्देश आवश्यकता, संपीड़न, संदर्भ, इनकार सीमा
मूल्यांकन स्तर → मूल्यांकन सेट, RAGAS, मानव विश्लेषण, A/B प्रयोग

评论

暂无已展示的评论。

发表评论(匿名)