مصاحبه سری AI 9: چگونه نرخ دقت سیستم پرسش و پاسخ دانش را ارزیابی کنیم؟

نرخ دقت، خط حیاتی اصلی سیستم‌های پرسش و پاسخ دانش است، به‌ویژه زمانی که سعی در استفاده از آن در سناریوهای جدی (مانند پزشکی، حقوقی، پشتیبانی داخلی شرکت) دارید. دیدگاه من را می‌توان به صورت زیر خلاصه کرد: نرخ دقت یک مفهوم چندبعدی است و نباید تنها به یک عدد نگاه کرد، بلکه باید با ترکیب قابلیت سیستم، دشواری وظیفه و هزینه تحمل خطا به طور جامع ارزیابی شود.

در زیر از چهار سطح توضیح داده می‌شود:

یک: نرخ دقت فقط «درست/غلط» ساده نیست

دقت مسائل طبقه‌بندی سنتی (مانند تشخیص تصویر) واضح است. اما سیستم‌های پرسش و پاسخ دانش متفاوت هستند. ابعاد رایج زیرمجموعه عبارتند از:

بعد	معنا	مثال ارزیابی
نرخ بازیابی	آیا سیستم می‌تواند بلوک سندی حاوی پاسخ صحیح را از پایگاه دانش بازیابی کند؟	کاربر می‌پرسد «درآمد شرکت A در سال 2024»، آیا سیستم می‌تواند آن بخش از گزارش مالی حاوی این داده را بازیابی کند؟
وفاداری تولید	آیا پاسخ تولید شده توسط مدل به طور دقیق بر اساس محتوای بازیابی شده است، نه اینکه خودش اختراع کند؟	مواد بازیابی شده به «نرخ رشد» اشاره نکرده، اما مدل می‌گوید «5٪ رشد کرده» → غیر وفادار
صحت پاسخ	آیا پاسخ نهایی با واقعیت (یا پاسخ مرجع) مطابقت دارد؟	پاسخ صحیح «4.2 میلیارد» است، مدل «4.2 میلیارد» یا «حدود 4.2 میلیارد یوان» را خروجی دهد، هر دو صحیح محسوب می‌شوند
نرخ امتناع	هنگامی که اطلاعات مرتبط در پایگاه دانش وجود ندارد، آیا سیستم می‌تواند فعالانه بگوید «نمی‌دانم» به جای حدس زدن؟	هنگامی که بازیابی خالی است یا اطمینان پایین است، خروجی «متأسفانه، اطلاعات مرتبط یافت نشد»

یک سیستم ممکن است نرخ بازیابی بالایی داشته باشد (همیشه می‌تواند پاراگراف مرتبط را پیدا کند)، اما وفاداری تولید پایین (همیشه اغراق می‌کند)، در نتیجه نرخ دقت نهایی همچنان پایین است. بنابراین، هنگام بررسی نرخ دقت ابتدا باید مشخص کنید که کدام مرحله را اندازه‌گیری می‌کنید.

دو: تحت سطح فنی فعلی، نرخ دقت سیستم‌های RAG چقدر است؟

عدد واحدی وجود ندارد، اما می‌توان به برخی تحقیقات و شیوه‌های عمومی اشاره کرد:

پرسش و پاسخ ساده واقعی (تک پرش، پاسخ مستقیماً در یک بخش از داده ظاهر می‌شود):
نرخ بازیابی می‌تواند به 90-98٪ برسد (بسته به کیفیت پایگاه دانش و بازیاب)، وفاداری تولید تحت پرامپت‌های精心 طراحی شده می‌تواند بیش از 95٪ باشد، نرخ دقت ترکیبی می‌تواند بین 85-95٪ باشد.
استدلال چند پرشی (نیاز به ترکیب اطلاعات از دو یا چند بخش مختلف):
دقت بازیابی به شدت به 50-70٪ کاهش می‌یابد، صحت پاسخ تولید شده ممکن است فقط 40-60٪ باشد. این چالش اصلی فعلی RAG است.
دامنه باز + پایگاه دانش پر سر و صدا (مانند صفحات وب عظیم):
نرخ دقت به طور قابل توجهی کاهش می‌یابد، زیرا بازیابی ممکن است نویز ایجاد کند و مدل به راحتی تحت تأثیر قرار گیرد.

نتیجه: در محیط کنترل شده (تمیز، ساختاریافته، با دانه‌بندی مناسب سند)، RAG می‌تواند به نرخ دقت بالای 90٪ دست یابد؛ اما در سناریوهای پیچیده، باز و نیازمند استدلال چند مرحله‌ای، نرخ دقت اغلب رضایت‌بخش نیست و نیاز به بهینه‌سازی زیادی دارد.

سه: عوامل اصلی مؤثر بر نرخ دقت

اگر متوجه شدید که نرخ دقت سیستم RAG شما ایده‌آل نیست، معمولاً می‌توان از چهار مرحله زیر عیب‌یابی کرد:

خود پایگاه دانش
آیا داده‌ها قدیمی، ناقص یا حتی دارای خطا هستند؟
آیا اسناد به هم ریخته هستند (مثلاً اسکن‌های OCR نشده، جداول به هم ریخته)؟
تقسیم و نمایه‌سازی
قطعات متن خیلی کوتاه → از دست دادن زمینه؛ خیلی بلند → آلودگی با نویز.
آیا مدل تعبیه برای حوزه شما مناسب است (مدل عمومی ممکن است در اصطلاحات حقوقی عملکرد ضعیفی داشته باشد)؟
استراتژی بازیابی
استفاده تنها از بازیابی برداری ممکن است کلمات کلیدی دقیق (مانند مدل محصول) را نادیده بگیرد.
عدم استفاده از مرتب‌سازی مجدد باعث می‌شود نتایج نامرتبط در رتبه‌های بالایی قرار گیرند.
مرحله تولید
آیا پرامپت به وضوح می‌گوید «فقط بر اساس مطالب ارائه شده پاسخ بده، اگر کافی نیست، امتناع کن»؟
آیا توانایی مدل کافی است (مدل‌های کوچک به راحتی جزئیات زمینه طولانی را نادیده می‌گیرند)؟

یک تصور غلط رایج: نسبت دادن نرخ دقت پایین به ناتوانی LLM، اما در واقع بیشتر مشکلات به «بازیابی» و «طراحی پرامپت» مربوط می‌شود.

چهار: چگونه درست به نرخ دقت «نگاه کنیم» – چند نگرش کلیدی در عمل

1. تعیین معیار و انتظار منطقی

برای حوزه‌های پرخطر (تشخیص پزشکی، مشاوره حقوقی)، نرخ دقت 90٪ نیز کافی نیست و باید بررسی دستی یا تأیید چندگانه معرفی شود.
برای سناریوهای کم خطر (پشتیبانی مشتری، جستجوی دانش داخلی)، نرخ دقت 80٪ به همراه پاسخ دوستانه «نمی‌دانم» ممکن است به طور قابل توجهی کارایی را افزایش دهد.

2. به دنبال دقت 100٪ نباشید، به دنبال «دقت قابل تأیید» باشید

از سیستم بخواهید به طور خودکار منبع را ضمیمه کند (به کدام مقاله، کدام بخش ارجاع داده است).
کاربر می‌تواند متن اصلی را ببیند و خود تأیید کند، حتی اگر پاسخ گاهی اشتباه باشد، شفافیت می‌تواند اعتماد ایجاد کند.
امتیاز اطمینان اضافه کنید، در امتیاز پایین به طور فعال提示 «این پاسخ از قابلیت اطمینان پایینی برخوردار است، توصیه می‌شود سند اصلی را بررسی کنید».

3. نرخ دقت را به عنوان هدف بهینه‌سازی مداوم در نظر بگیرید، نه هدف یکباره

یک خط لوله ارزیابی ایجاد کنید: به طور دوره‌ای مجموعه‌ای از پرسش‌های برچسب‌گذاری شده دستی استخراج کنید، و به طور خودکار نرخ بازیابی و وفاداری تولید را ارزیابی کنید.
از ابزارهایی مانند RAGAS، TruLens برای ارزیابی سیستماتیک استفاده کنید، نه اینکه بر اساس چند مورد تصمیم بگیرید.
بر اساس موارد بد به طور مداوم تنظیم کنید: روش تقسیم، پارامترهای بازیاب، مدل مرتب‌سازی مجدد، پرامپت.

4. بین «خطای سیستم» و «عدم تطابق با استاندارد انسانی» تفاوت قائل شوید

گاهی پاسخ سیستم با انتظار کاربر متفاوت است، اما بر اساس داده‌های پایگاه دانش درست است (زیرا خود پایگاه دانش محدودیت یا اختلاف دارد).
در اینجا باید تعریف کرد: دقت بر اساس «واقعیت پایگاه دانش» است یا «واقعیت شناخته شده خارجی»؟

خلاصه نهایی

نرخ دقت سیستم پرسش و پاسخ دانش یک شاخص ایستا و کامل نیست، بلکه یک مقدار توانایی ترکیبی است که «پوشش دانش + دقت بازیابی + وفاداری تولید + توانایی امتناع» را نشان می‌دهد. هنگام بررسی آن، باید هم به طور منطقی درک کرد که فناوری فعلی قادر به کمال نیست، و هم از طریق طراحی‌هایی مانند ردیابی منبع،提示 اطمینان، همکاری انسان و ماشین، در کسب و کار ارزش عملی ایجاد کرد.