AI श्रृंखला साक्षात्कार 9: ज्ञान प्रश्नोत्तर प्रणाली की सटीकता को कैसे देखें?

सटीकता ज्ञान प्रश्नोत्तर प्रणाली की मुख्य जीवन रेखा है, विशेषकर जब आप इसे गंभीर परिदृश्यों (जैसे चिकित्सा, कानून, आंतरिक उद्यम समर्थन) में लागू करने का प्रयास करते हैं। मेरा दृष्टिकोण संक्षेप में यह है: सटीकता एक बहुआयामी अवधारणा है, इसे केवल एक संख्या से नहीं देखा जा सकता, बल्कि सिस्टम क्षमता, कार्य कठिनाई और त्रुटि सहनशीलता लागत के संयोजन से मूल्यांकन किया जाना चाहिए।

नीचे चार स्तरों पर विस्तार से बताया गया है:

एक: सटीकता केवल "सही/गलत" जितनी सरल नहीं है

पारंपरिक वर्गीकरण समस्याओं (जैसे छवि पहचान) में सटीकता स्पष्ट होती है। लेकिन ज्ञान प्रश्नोत्तर प्रणाली में, सामान्य विभाजन आयाम निम्नलिखित हैं:

आयाम	अर्थ	मूल्यांकन उदाहरण
पुनर्प्राप्ति हिट दर	क्या सिस्टम ज्ञानकोष से सही उत्तर वाले दस्तावेज़ खंड को पुनः प्राप्त कर सकता है?	उपयोगकर्ता पूछता है "कंपनी A का 2024 राजस्व", क्या सिस्टम उस डेटा वाले वित्तीय रिपोर्ट खंड को पुनः प्राप्त कर सकता है?
जनन निष्ठा	क्या मॉडल द्वारा उत्पन्न उत्तर कड़ाई से पुनर्प्राप्त सामग्री पर आधारित है, न कि स्वयं गढ़ा गया?	पुनर्प्राप्त सामग्री में "वृद्धि दर" का उल्लेख नहीं है, लेकिन मॉडल कहता है "5% की वृद्धि" → अविश्वसनीय
उत्तर शुद्धता	क्या अंतिम उत्तर तथ्य (या संदर्भ उत्तर) से मेल खाता है?	सही उत्तर "4.2 बिलियन" है, मॉडल आउटपुट "4.2 बिलियन" या "लगभग 4.2 बिलियन युआन" दोनों सही माने जा सकते हैं
अस्वीकार दर	जब ज्ञानकोष में प्रासंगिक जानकारी नहीं है, तो क्या सिस्टम सक्रिय रूप से "पता नहीं" कह सकता है, बजाय अनुमान लगाने के?	जब पुनर्प्राप्ति खाली है या विश्वास कम है, तो आउटपुट "क्षमा करें, प्रासंगिक जानकारी नहीं मिली"

एक सिस्टम की पुनर्प्राप्ति हिट दर बहुत अधिक हो सकती है (हमेशा प्रासंगिक पैराग्राफ ढूंढ सकता है), लेकिन जनन निष्ठा बहुत कम हो सकती है (हमेशा अतिरिक्त जोड़ता है), और अंतिम सटीकता अभी भी खराब होगी। इसलिए, सटीकता को देखने से पहले स्पष्ट करें कि आप किस चरण को माप रहे हैं।

दो: वर्तमान तकनीकी स्तर पर, RAG सिस्टम की सटीकता कितनी हो सकती है?

कोई एकल संख्या नहीं है, लेकिन कुछ सार्वजनिक शोध और अभ्यास का संदर्भ लिया जा सकता है:

सरल तथ्यात्मक प्रश्नोत्तर (एकल-छलांग, उत्तर सीधे एक दस्तावेज़ में दिखाई देता है):
पुनर्प्राप्ति हिट दर 90-98% तक पहुँच सकती है (ज्ञानकोष गुणवत्ता और पुनर्प्राप्तिकर्ता पर निर्भर), जनन निष्ठा सावधानीपूर्वक डिज़ाइन किए गए संकेतों के साथ 95%+ हो सकती है, समग्र सटीकता 85-95% के बीच हो सकती है।
बहु-छलांग तर्क (दो या अधिक विभिन्न दस्तावेज़ों की जानकारी को संयोजित करने की आवश्यकता):
पुनर्प्राप्ति सटीकता 50-70% तक गिर जाती है, उत्तर शुद्धता केवल 40-60% हो सकती है। यह वर्तमान RAG का मुख्य कठिन बिंदु है।
खुला डोमेन + शोरगुल भरा ज्ञानकोष (जैसे विशाल वेब पेज):
सटीकता काफी गिर जाती है, क्योंकि पुनर्प्राप्ति शोर ला सकती है, मॉडल आसानी से प्रभावित होता है।

निष्कर्ष: नियंत्रित वातावरण (स्वच्छ, संरचित, उपयुक्त दस्तावेज़ ग्रैन्युलैरिटी) में, RAG 90% से अधिक सटीकता प्राप्त कर सकता है; लेकिन जटिल, खुले, बहु-चरणीय तर्क की आवश्यकता वाले परिदृश्यों में, सटीकता अक्सर असंतोषजनक होती है और बहुत अधिक अनुकूलन की आवश्यकता होती है।

तीन: सटीकता को प्रभावित करने वाले मुख्य कारक

यदि आप पाते हैं कि आपके RAG सिस्टम की सटीकता असंतोषजनक है, तो आमतौर पर निम्नलिखित चार चरणों से जांच कर सकते हैं:

ज्ञानकोष स्वयं
क्या डेटा पुराना, अधूरा, या त्रुटिपूर्ण है?
क्या दस्तावेज़ अव्यवस्थित हैं (जैसे स्कैन की गई फ़ाइलें जिनका OCR नहीं हुआ, तालिकाएँ विकृत)?
विभाजन और अनुक्रमण
क्या टेक्स्ट खंड बहुत छोटे काटे गए → संदर्भ खोना; बहुत बड़े → शोर शामिल होना।
क्या एम्बेडिंग मॉडल आपके डोमेन के लिए उपयुक्त है (सामान्य मॉडल कानूनी शब्दावली पर खराब प्रदर्शन कर सकता है)?
पुनर्प्राप्ति रणनीति
केवल वेक्टर पुनर्प्राप्ति सटीक कीवर्ड (जैसे उत्पाद मॉडल) को अनदेखा कर सकती है।
पुनः रैंकिंग के बिना, शीर्ष परिणामों में अप्रासंगिक सामग्री मिल सकती है।
जनन चरण
क्या संकेत स्पष्ट रूप से कहता है "केवल प्रदान की गई सामग्री के आधार पर उत्तर दें, पर्याप्त न होने पर अस्वीकार करें"?
क्या मॉडल क्षमता पर्याप्त है (छोटे मॉडल लंबे संदर्भ में विवरण को अनदेखा कर सकते हैं)?

एक सामान्य गलतफहमी: कम सटीकता को सीधे LLM की अपर्याप्त क्षमता पर दोष देना, जबकि अधिकांश समस्याएं "पुनर्प्राप्ति" और "संकेत डिज़ाइन" में होती हैं।

चार: सटीकता को सही ढंग से "देखना" — अभ्यास में कई महत्वपूर्ण दृष्टिकोण

1. उचित आधार रेखा और अपेक्षाएँ निर्धारित करें

उच्च जोखिम वाले क्षेत्रों (चिकित्सा निदान, कानूनी सलाह) में, 90% सटीकता भी पर्याप्त नहीं है, मानव समीक्षा या बहु-स्तरीय सत्यापन शामिल करना आवश्यक है।
कम जोखिम वाले परिदृश्यों (ग्राहक सहायता बैकअप, आंतरिक ज्ञान खोज) में, 80% सटीकता और मैत्रीपूर्ण "पता नहीं" प्रतिक्रिया पहले से ही दक्षता में काफी सुधार कर सकती है।

2. 100% का लक्ष्य न रखें, बल्कि "सत्यापन योग्य सटीकता" का लक्ष्य रखें

सिस्टम को स्वचालित रूप से स्रोत उद्धरण संलग्न करने दें (किस लेख, किस पैराग्राफ का उल्लेख किया गया)।
उपयोगकर्ता मूल पाठ देख सकता है और स्वयं सत्यापित कर सकता है, भले ही उत्तर कभी-कभी गलत हो, पारदर्शिता विश्वास बना सकती है।
विश्वास स्कोर जोड़ें, कम स्कोर पर सक्रिय रूप से संकेत दें "यह उत्तर कम विश्वसनीय है, कृपया मूल दस्तावेज़ देखें"।

3. सटीकता को एक सतत अनुकूलन वस्तु के रूप में मानें, एक बार का लक्ष्य नहीं

मूल्यांकन पाइपलाइन स्थापित करें: नियमित रूप से मानव-एनोटेटेड प्रश्नों का एक बैच निकालें, स्वचालित रूप से पुनर्प्राप्ति हिट दर और जनन निष्ठा का मूल्यांकन करें।
RAGAS, TruLens जैसे उपकरणों का उपयोग करके व्यवस्थित मूल्यांकन करें, न कि कुछ मामलों पर आधारित।
बैड केस के अनुसार लगातार समायोजन करें: विभाजन विधि, पुनर्प्राप्तिकर्ता पैरामीटर, पुनः रैंकिंग मॉडल, संकेत।

4. "सिस्टम त्रुटि" और "मानव मानक असंगति" के बीच अंतर करें

कभी-कभी सिस्टम द्वारा दिया गया उत्तर उपयोगकर्ता की अपेक्षा से भिन्न होता है, लेकिन ज्ञानकोष की सामग्री के अनुसार वास्तव में सही होता है (क्योंकि ज्ञानकोष की सीमाएँ या विवाद हैं)।
ऐसे में यह सीमांकित करना आवश्यक है: क्या सटीकता "ज्ञानकोष तथ्य" पर आधारित है या "बाहरी सर्वमान्य तथ्य" पर?

अंतिम सारांश

ज्ञान प्रश्नोत्तर प्रणाली की सटीकता एक स्थिर पूर्ण अंक संकेतक नहीं है, बल्कि एक समग्र क्षमता मूल्य है जो "ज्ञान कवरेज + पुनर्प्राप्ति सटीकता + जनन निष्ठा + अस्वीकार क्षमता" को दर्शाती है। इसे देखते समय, तर्कसंगत रूप से यह समझना आवश्यक है कि वर्तमान तकनीक पूर्णता प्राप्त नहीं कर सकती, और साथ ही स्रोत अनुरेखण, विश्वास संकेत, मानव-मशीन सहयोग जैसे डिज़ाइनों के माध्यम से व्यावसायिक रूप से वास्तविक मूल्य उत्पन्न करना चाहिए।