AI সিরিজ সাক্ষাৎকার ৯: জ্ঞান-প্রশ্নোত্তর সিস্টেমের নির্ভুলতাকে কীভাবে দেখা উচিত?

নির্ভুলতা হলো জ্ঞান-প্রশ্নোত্তর সিস্টেমের মূল জীবনরেখা, বিশেষ করে যখন আপনি এটিকে গুরুতর প্রয়োগে (যেমন চিকিৎসা, আইন, প্রতিষ্ঠানের অভ্যন্তরীণ সহায়তা) ব্যবহার করতে চান। আমার দৃষ্টিভঙ্গি সংক্ষেপে বলা যায়: নির্ভুলতা একটি বহুমাত্রিক ধারণা; এটি একটি একক সংখ্যা দিয়ে দেখা যায় না, বরং সিস্টেমের ক্ষমতা, কাজের জটিলতা এবং ভুলের খরচ মিলিয়ে সামগ্রিকভাবে মূল্যায়ন করতে হবে।

নিচে চারটি স্তর থেকে ব্যাখ্যা দেওয়া হলো:

এক: নির্ভুলতা শুধু "সঠিক/ভুল" নয়

ঐতিহ্যগত শ্রেণিবিন্যাস সমস্যা (যেমন চিত্র শনাক্তকরণ) এর নির্ভুলতা স্পষ্ট। কিন্তু জ্ঞান-প্রশ্নোত্তর সিস্টেম ভিন্ন; সাধারণ সূক্ষ্ম মাত্রাগুলি হলো:

মাত্রা	অর্থ	মূল্যায়নের উদাহরণ
পুনরুদ্ধার নির্ভুলতা	সিস্টেম কি জ্ঞানভান্ডার থেকে সঠিক উত্তরযুক্ত ডকুমেন্ট অংশ খুঁজে পেতে পারে?	ব্যবহারকারী জিজ্ঞাসা করে "A কোম্পানির ২০২৪ সালের আয়", সিস্টেম কি সেই তথ্য সম্বলিত আর্থিক প্রতিবেদনের অংশ পুনরুদ্ধার করতে পারে?
উৎপাদন বিশ্বস্ততা	মডেলের উত্তর কি কঠোরভাবে পুনরুদ্ধার করা বিষয়বস্তুর উপর ভিত্তি করে, নিজে থেকে তৈরি না?	পুনরুদ্ধারকৃত তথ্যে "বৃদ্ধির হার" উল্লেখ নেই, কিন্তু মডেল বলে "৫% বৃদ্ধি পেয়েছে" → অবিশ্বস্ত
উত্তরের সঠিকতা	চূড়ান্ত উত্তর কি বাস্তবতার (বা রেফারেন্স উত্তর) সাথে মেলে?	সঠিক উত্তর "৪.২ বিলিয়ন", মডেল আউটপুট "৪.২ বিলিয়ন" বা "প্রায় ৪.২ বিলিয়ন টাকা" উভয়ই সঠিক ধরা যেতে পারে
অস্বীকারের হার	জ্ঞানভান্ডারে প্রাসঙ্গিক তথ্য না থাকলে, সিস্টেম কি সক্রিয়ভাবে "জানি না" বলতে পারে, এলোমেলো অনুমান না করে?	পুনরুদ্ধার খালি বা আত্মবিশ্বাস কম হলে, আউটপুট "দুঃখিত, প্রাসঙ্গিক তথ্য পাওয়া যায়নি"

একটি সিস্টেমের পুনরুদ্ধার নির্ভুলতা উচ্চ হতে পারে (সবসময় প্রাসঙ্গিক অনুচ্ছেদ খুঁজে পায়), কিন্তু উৎপাদন বিশ্বস্ততা কম (সবসময় অতিরঞ্জিত করে), ফলে চূড়ান্ত নির্ভুলতা খারাপ হয়। তাই নির্ভুলতা দেখার আগে আপনি কোন পর্যায়টি মাপছেন তা স্পষ্ট করতে হবে।

দুই: বর্তমান প্রযুক্তিগত স্তরে, RAG সিস্টেমের নির্ভুলতা কত হতে পারে?

কোনো একক সংখ্যা নেই, তবে কিছু প্রকাশ্য গবেষণা ও অনুশীলন থেকে ধারণা পাওয়া যেতে পারে:

সরল তথ্যভিত্তিক প্রশ্নোত্তর (এক লাফ, উত্তর সরাসরি একটি উৎসে):
পুনরুদ্ধার নির্ভুলতা ৯০-৯৮% হতে পারে (জ্ঞানভান্ডারের গুণমান এবং পুনরুদ্ধারকারীর উপর নির্ভর করে), যত্নশীল প্রম্পট ডিজাইনে উৎপাদন বিশ্বস্ততা ৯৫%+ হতে পারে, সামগ্রিক নির্ভুলতা ৮৫-৯৫% এর মধ্যে হতে পারে।
মাল্টি-হপ যুক্তি (দুই বা ততোধিক ভিন্ন উৎস থেকে তথ্য একত্রিত করতে হবে):
পুনরুদ্ধার নির্ভুলতা দ্রুত ৫০-৭০% এ নেমে যায়, এবং উত্তর সঠিকতা মাত্র ৪০-৬০% হতে পারে। এটি বর্তমান RAG-এর প্রধান চ্যালেঞ্জ।
ওপেন ডোমেন + গোলমালপূর্ণ জ্ঞানভান্ডার (যেমন বিশাল ওয়েব পৃষ্ঠা):
নির্ভুলতা উল্লেখযোগ্যভাবে কমে যায়, কারণ পুনরুদ্ধার শব্দ প্রবর্তন করতে পারে এবং মডেল সহজেই বিভ্রান্ত হয়।

উপসংহার : নিয়ন্ত্রিত পরিবেশে (পরিষ্কার, কাঠামোবদ্ধ, উপযুক্ত ডকুমেন্ট আকার) RAG ৯০% এর বেশি নির্ভুলতা অর্জন করতে পারে; কিন্তু জটিল, উন্মুক্ত এবং বহু-পদক্ষেপ যুক্তির প্রয়োজন এমন পরিস্থিতিতে, নির্ভুলতা প্রায়ই প্রত্যাশা পূরণ করে না এবং প্রচুর অপ্টিমাইজেশন প্রয়োজন।

তিন: নির্ভুলতাকে প্রভাবিত করার মূল কারণ

যদি আপনার RAG সিস্টেমের নির্ভুলতা অপর্যাপ্ত মনে হয়, সাধারণত নিচের চারটি পর্যায় থেকে সমস্যা চিহ্নিত করা যেতে পারে:

জ্ঞানভান্ডার নিজেই
ডেটা কি পুরনো, অসম্পূর্ণ, বা এমনকি ত্রুটিপূর্ণ?
ডকুমেন্ট কি বিশৃঙ্খল (যেমন স্ক্যান করা ছবি যার OCR হয়নি, টেবিল বিভক্ত)?
বিভাজন ও সূচীকরণ
টেক্সট ব্লক খুব ছোট করলে প্রসঙ্গ হারায়; খুব বড় করলে শব্দ মিশে যায়।
এম্বেডিং মডেল কি আপনার ডোমেনের জন্য উপযুক্ত (সাধারণ মডেল আইনি পরিভাষায় দুর্বল হতে পারে)?
পুনরুদ্ধার কৌশল
শুধু ভেক্টর অনুসন্ধান ব্যবহার করলে সঠিক কীওয়ার্ড (যেমন পণ্য মডেল) উপেক্ষিত হতে পারে।
রি-র্যাঙ্কিং না করলে শীর্ষ ফলাফলে অপ্রাসঙ্গিক বিষয় মিশে যেতে পারে।
উৎপাদন পর্যায়
প্রম্পটে কি স্পষ্টভাবে বলা আছে "শুধু প্রদত্ত তথ্যের ভিত্তিতে উত্তর দাও, যথেষ্ট না হলে প্রত্যাখ্যান করো"?
মডেলের ক্ষমতা কি যথেষ্ট (ছোট মডেল দীর্ঘ প্রসঙ্গে বিস্তারিত উপেক্ষা করতে পারে)?

একটি সাধারণ ভুল ধারণা : কম নির্ভুলতার জন্য সরাসরি LLM-এর অক্ষমতাকে দোষারোপ করা, কিন্তু বেশিরভাগ সমস্যা আসলে "পুনরুদ্ধার" এবং "প্রম্পট ডিজাইন" থেকে উদ্ভূত হয়।

চার: কীভাবে সঠিকভাবে "নির্ভুলতা" দেখা উচিত – অনুশীলনে কয়েকটি গুরুত্বপূর্ণ মনোভাব

১. যুক্তিসঙ্গত বেসলাইন ও প্রত্যাশা নির্ধারণ

উচ্চ ঝুঁকির ক্ষেত্রে (চিকিৎসা নির্ণয়, আইনি পরামর্শ), ৯০% নির্ভুলতাও যথেষ্ট নয়; ম্যানুয়াল পর্যালোচনা বা একাধিক যাচাই বাধ্যতামূলক।
কম ঝুঁকির পরিস্থিতিতে (গ্রাহক সহায়তার ব্যাকআপ, অভ্যন্তরীণ জ্ঞান অনুসন্ধান), ৮০% নির্ভুলতা এবং বন্ধুত্বপূর্ণ "জানি না" উত্তর দেওয়া ইতিমধ্যে দক্ষতা ব্যাপকভাবে বাড়াতে পারে।

২. ১০০% এর পিছনে না ছোটা, বরং "যাচাইযোগ্য নির্ভুলতা" লক্ষ্য করুন

সিস্টেমকে স্বয়ংক্রিয়ভাবে উৎস উল্লেখ করতে দিন (কোন নিবন্ধের কোন অংশ থেকে নেওয়া)।
ব্যবহারকারী নিজে মূল উৎস দেখে যাচাই করতে পারে, এমনকি উত্তর মাঝে মাঝে ভুল হলেও, স্বচ্ছতা আস্থা তৈরি করে।
আত্মবিশ্বাসের স্কোর যোগ করুন, কম হলে সক্রিয়ভাবে বলুন "এই উত্তরটি কম নির্ভরযোগ্য, মূল ডকুমেন্ট দেখার পরামর্শ দেওয়া হচ্ছে"।

৩. নির্ভুলতাকে একটি চলমান অপ্টিমাইজেশানের বিষয় হিসেবে দেখুন, একবারের লক্ষ্য নয়

একটি মূল্যায়ন পাইপলাইন তৈরি করুন: নিয়মিতভাবে কৃত্রিম লেবেলযুক্ত প্রশ্নের একটি সেট টেনে আনুন এবং স্বয়ংক্রিয়ভাবে পুনরুদ্ধার নির্ভুলতা ও উৎপাদন বিশ্বস্ততা মূল্যায়ন করুন।
RAGAS, TruLens এর মতো টুল ব্যবহার করে পদ্ধতিগত মূল্যায়ন করুন, কয়েকটি উদাহরণের ভিত্তিতে সিদ্ধান্ত নেবেন না।
খারাপ কেস অনুযায়ী ক্রমাগত সমন্বয় করুন: বিভাজন পদ্ধতি, পুনরুদ্ধারকারী প্যারামিটার, রি-র্যাঙ্কিং মডেল, প্রম্পট।

৪. "সিস্টেম ত্রুটি" এবং "মানুষের মান不一致" এর মধ্যে পার্থক্য করুন

কখনও কখনও সিস্টেমের দেওয়া উত্তর ব্যবহারকারীর প্রত্যাশার থেকে ভিন্ন হয়, কিন্তু জ্ঞানভান্ডারের তথ্য অনুসারে সেটি সঠিক (কারণ জ্ঞানভান্ডারের সীমাবদ্ধতা বা বিতর্ক থাকতে পারে)।
তখন সীমা নির্ধারণ করতে হবে: নির্ভুলতা কি "জ্ঞানভান্ডারের তথ্য" অনুযায়ী মাপা হবে নাকি "বহির্বিশ্বের স্বীকৃত তথ্য" অনুযায়ী?

চূড়ান্ত সারসংক্ষেপ

জ্ঞান-প্রশ্নোত্তর সিস্টেমের নির্ভুলতা একটি স্থির পূর্ণ স্কোর নয়, বরং এটি "জ্ঞান কভারেজ + পুনরুদ্ধার নির্ভুলতা + উৎপাদন বিশ্বস্ততা + প্রত্যাখ্যান ক্ষমতা" এর একটি সমন্বিত দক্ষতার মান। এটি দেখার সময় বাস্তববাদীভাবে স্বীকার করতে হবে যে বর্তমান প্রযুক্তি নিখুঁত নয়, তবে উৎস উল্লেখ, আত্মবিশ্বাস সূচক, মানব-মেশিন সহযোগিতার মতো ডিজাইনের মাধ্যমে ব্যবসায়িকভাবে মূল্য সৃষ্টি করা সম্ভব।