← 返回列表

AI श्रृंखला साक्षात्कार 9: ज्ञान प्रश्नोत्तर प्रणाली की सटीकता को कैसे देखें?

सटीकता ज्ञान प्रश्नोत्तर प्रणाली की मुख्य जीवन रेखा है, विशेषकर जब आप इसे गंभीर परिदृश्यों (जैसे चिकित्सा, कानून, आंतरिक उद्यम समर्थन) में लागू करने का प्रयास करते हैं। मेरा दृष्टिकोण संक्षेप में यह है: सटीकता एक बहुआयामी अवधारणा है, इसे केवल एक संख्या से नहीं देखा जा सकता, बल्कि सिस्टम क्षमता, कार्य कठिनाई और त्रुटि सहनशीलता लागत के संयोजन से मूल्यांकन किया जाना चाहिए।

नीचे चार स्तरों पर विस्तार से बताया गया है:


एक: सटीकता केवल "सही/गलत" जितनी सरल नहीं है

पारंपरिक वर्गीकरण समस्याओं (जैसे छवि पहचान) में सटीकता स्पष्ट होती है। लेकिन ज्ञान प्रश्नोत्तर प्रणाली में, सामान्य विभाजन आयाम निम्नलिखित हैं:

आयाम अर्थ मूल्यांकन उदाहरण
पुनर्प्राप्ति हिट दर क्या सिस्टम ज्ञानकोष से सही उत्तर वाले दस्तावेज़ खंड को पुनः प्राप्त कर सकता है? उपयोगकर्ता पूछता है "कंपनी A का 2024 राजस्व", क्या सिस्टम उस डेटा वाले वित्तीय रिपोर्ट खंड को पुनः प्राप्त कर सकता है?
जनन निष्ठा क्या मॉडल द्वारा उत्पन्न उत्तर कड़ाई से पुनर्प्राप्त सामग्री पर आधारित है, न कि स्वयं गढ़ा गया? पुनर्प्राप्त सामग्री में "वृद्धि दर" का उल्लेख नहीं है, लेकिन मॉडल कहता है "5% की वृद्धि" → अविश्वसनीय
उत्तर शुद्धता क्या अंतिम उत्तर तथ्य (या संदर्भ उत्तर) से मेल खाता है? सही उत्तर "4.2 बिलियन" है, मॉडल आउटपुट "4.2 बिलियन" या "लगभग 4.2 बिलियन युआन" दोनों सही माने जा सकते हैं
अस्वीकार दर जब ज्ञानकोष में प्रासंगिक जानकारी नहीं है, तो क्या सिस्टम सक्रिय रूप से "पता नहीं" कह सकता है, बजाय अनुमान लगाने के? जब पुनर्प्राप्ति खाली है या विश्वास कम है, तो आउटपुट "क्षमा करें, प्रासंगिक जानकारी नहीं मिली"

एक सिस्टम की पुनर्प्राप्ति हिट दर बहुत अधिक हो सकती है (हमेशा प्रासंगिक पैराग्राफ ढूंढ सकता है), लेकिन जनन निष्ठा बहुत कम हो सकती है (हमेशा अतिरिक्त जोड़ता है), और अंतिम सटीकता अभी भी खराब होगी। इसलिए, सटीकता को देखने से पहले स्पष्ट करें कि आप किस चरण को माप रहे हैं।


दो: वर्तमान तकनीकी स्तर पर, RAG सिस्टम की सटीकता कितनी हो सकती है?

कोई एकल संख्या नहीं है, लेकिन कुछ सार्वजनिक शोध और अभ्यास का संदर्भ लिया जा सकता है:

  • सरल तथ्यात्मक प्रश्नोत्तर (एकल-छलांग, उत्तर सीधे एक दस्तावेज़ में दिखाई देता है):
    पुनर्प्राप्ति हिट दर 90-98% तक पहुँच सकती है (ज्ञानकोष गुणवत्ता और पुनर्प्राप्तिकर्ता पर निर्भर), जनन निष्ठा सावधानीपूर्वक डिज़ाइन किए गए संकेतों के साथ 95%+ हो सकती है, समग्र सटीकता 85-95% के बीच हो सकती है।
  • बहु-छलांग तर्क (दो या अधिक विभिन्न दस्तावेज़ों की जानकारी को संयोजित करने की आवश्यकता):
    पुनर्प्राप्ति सटीकता 50-70% तक गिर जाती है, उत्तर शुद्धता केवल 40-60% हो सकती है। यह वर्तमान RAG का मुख्य कठिन बिंदु है।
  • खुला डोमेन + शोरगुल भरा ज्ञानकोष (जैसे विशाल वेब पेज):
    सटीकता काफी गिर जाती है, क्योंकि पुनर्प्राप्ति शोर ला सकती है, मॉडल आसानी से प्रभावित होता है।

निष्कर्ष: नियंत्रित वातावरण (स्वच्छ, संरचित, उपयुक्त दस्तावेज़ ग्रैन्युलैरिटी) में, RAG 90% से अधिक सटीकता प्राप्त कर सकता है; लेकिन जटिल, खुले, बहु-चरणीय तर्क की आवश्यकता वाले परिदृश्यों में, सटीकता अक्सर असंतोषजनक होती है और बहुत अधिक अनुकूलन की आवश्यकता होती है।


तीन: सटीकता को प्रभावित करने वाले मुख्य कारक

यदि आप पाते हैं कि आपके RAG सिस्टम की सटीकता असंतोषजनक है, तो आमतौर पर निम्नलिखित चार चरणों से जांच कर सकते हैं:

  1. ज्ञानकोष स्वयं
  2. क्या डेटा पुराना, अधूरा, या त्रुटिपूर्ण है?
  3. क्या दस्तावेज़ अव्यवस्थित हैं (जैसे स्कैन की गई फ़ाइलें जिनका OCR नहीं हुआ, तालिकाएँ विकृत)?

  4. विभाजन और अनुक्रमण

  5. क्या टेक्स्ट खंड बहुत छोटे काटे गए → संदर्भ खोना; बहुत बड़े → शोर शामिल होना।
  6. क्या एम्बेडिंग मॉडल आपके डोमेन के लिए उपयुक्त है (सामान्य मॉडल कानूनी शब्दावली पर खराब प्रदर्शन कर सकता है)?

  7. पुनर्प्राप्ति रणनीति

  8. केवल वेक्टर पुनर्प्राप्ति सटीक कीवर्ड (जैसे उत्पाद मॉडल) को अनदेखा कर सकती है।
  9. पुनः रैंकिंग के बिना, शीर्ष परिणामों में अप्रासंगिक सामग्री मिल सकती है।

  10. जनन चरण

  11. क्या संकेत स्पष्ट रूप से कहता है "केवल प्रदान की गई सामग्री के आधार पर उत्तर दें, पर्याप्त न होने पर अस्वीकार करें"?
  12. क्या मॉडल क्षमता पर्याप्त है (छोटे मॉडल लंबे संदर्भ में विवरण को अनदेखा कर सकते हैं)?

एक सामान्य गलतफहमी: कम सटीकता को सीधे LLM की अपर्याप्त क्षमता पर दोष देना, जबकि अधिकांश समस्याएं "पुनर्प्राप्ति" और "संकेत डिज़ाइन" में होती हैं।


चार: सटीकता को सही ढंग से "देखना" — अभ्यास में कई महत्वपूर्ण दृष्टिकोण

1. उचित आधार रेखा और अपेक्षाएँ निर्धारित करें

  • उच्च जोखिम वाले क्षेत्रों (चिकित्सा निदान, कानूनी सलाह) में, 90% सटीकता भी पर्याप्त नहीं है, मानव समीक्षा या बहु-स्तरीय सत्यापन शामिल करना आवश्यक है।
  • कम जोखिम वाले परिदृश्यों (ग्राहक सहायता बैकअप, आंतरिक ज्ञान खोज) में, 80% सटीकता और मैत्रीपूर्ण "पता नहीं" प्रतिक्रिया पहले से ही दक्षता में काफी सुधार कर सकती है।

2. 100% का लक्ष्य न रखें, बल्कि "सत्यापन योग्य सटीकता" का लक्ष्य रखें

  • सिस्टम को स्वचालित रूप से स्रोत उद्धरण संलग्न करने दें (किस लेख, किस पैराग्राफ का उल्लेख किया गया)।
    उपयोगकर्ता मूल पाठ देख सकता है और स्वयं सत्यापित कर सकता है, भले ही उत्तर कभी-कभी गलत हो, पारदर्शिता विश्वास बना सकती है।
  • विश्वास स्कोर जोड़ें, कम स्कोर पर सक्रिय रूप से संकेत दें "यह उत्तर कम विश्वसनीय है, कृपया मूल दस्तावेज़ देखें"।

3. सटीकता को एक सतत अनुकूलन वस्तु के रूप में मानें, एक बार का लक्ष्य नहीं

  • मूल्यांकन पाइपलाइन स्थापित करें: नियमित रूप से मानव-एनोटेटेड प्रश्नों का एक बैच निकालें, स्वचालित रूप से पुनर्प्राप्ति हिट दर और जनन निष्ठा का मूल्यांकन करें।
  • RAGAS, TruLens जैसे उपकरणों का उपयोग करके व्यवस्थित मूल्यांकन करें, न कि कुछ मामलों पर आधारित।
  • बैड केस के अनुसार लगातार समायोजन करें: विभाजन विधि, पुनर्प्राप्तिकर्ता पैरामीटर, पुनः रैंकिंग मॉडल, संकेत।

4. "सिस्टम त्रुटि" और "मानव मानक असंगति" के बीच अंतर करें

  • कभी-कभी सिस्टम द्वारा दिया गया उत्तर उपयोगकर्ता की अपेक्षा से भिन्न होता है, लेकिन ज्ञानकोष की सामग्री के अनुसार वास्तव में सही होता है (क्योंकि ज्ञानकोष की सीमाएँ या विवाद हैं)।
    ऐसे में यह सीमांकित करना आवश्यक है: क्या सटीकता "ज्ञानकोष तथ्य" पर आधारित है या "बाहरी सर्वमान्य तथ्य" पर?

अंतिम सारांश

ज्ञान प्रश्नोत्तर प्रणाली की सटीकता एक स्थिर पूर्ण अंक संकेतक नहीं है, बल्कि एक समग्र क्षमता मूल्य है जो "ज्ञान कवरेज + पुनर्प्राप्ति सटीकता + जनन निष्ठा + अस्वीकार क्षमता" को दर्शाती है। इसे देखते समय, तर्कसंगत रूप से यह समझना आवश्यक है कि वर्तमान तकनीक पूर्णता प्राप्त नहीं कर सकती, और साथ ही स्रोत अनुरेखण, विश्वास संकेत, मानव-मशीन सहयोग जैसे डिज़ाइनों के माध्यम से व्यावसायिक रूप से वास्तविक मूल्य उत्पन्न करना चाहिए।

评论

暂无已展示的评论。

发表评论(匿名)