مصاحبه سری AI 9: چگونه نرخ دقت سیستم پرسش و پاسخ دانش را ارزیابی کنیم؟
نرخ دقت، خط حیاتی اصلی سیستمهای پرسش و پاسخ دانش است، بهویژه زمانی که سعی در استفاده از آن در سناریوهای جدی (مانند پزشکی، حقوقی، پشتیبانی داخلی شرکت) دارید. دیدگاه من را میتوان به صورت زیر خلاصه کرد: نرخ دقت یک مفهوم چندبعدی است و نباید تنها به یک عدد نگاه کرد، بلکه باید با ترکیب قابلیت سیستم، دشواری وظیفه و هزینه تحمل خطا به طور جامع ارزیابی شود.
در زیر از چهار سطح توضیح داده میشود:
یک: نرخ دقت فقط «درست/غلط» ساده نیست
دقت مسائل طبقهبندی سنتی (مانند تشخیص تصویر) واضح است. اما سیستمهای پرسش و پاسخ دانش متفاوت هستند. ابعاد رایج زیرمجموعه عبارتند از:
| بعد | معنا | مثال ارزیابی |
|---|---|---|
| نرخ بازیابی | آیا سیستم میتواند بلوک سندی حاوی پاسخ صحیح را از پایگاه دانش بازیابی کند؟ | کاربر میپرسد «درآمد شرکت A در سال 2024»، آیا سیستم میتواند آن بخش از گزارش مالی حاوی این داده را بازیابی کند؟ |
| وفاداری تولید | آیا پاسخ تولید شده توسط مدل به طور دقیق بر اساس محتوای بازیابی شده است، نه اینکه خودش اختراع کند؟ | مواد بازیابی شده به «نرخ رشد» اشاره نکرده، اما مدل میگوید «5٪ رشد کرده» → غیر وفادار |
| صحت پاسخ | آیا پاسخ نهایی با واقعیت (یا پاسخ مرجع) مطابقت دارد؟ | پاسخ صحیح «4.2 میلیارد» است، مدل «4.2 میلیارد» یا «حدود 4.2 میلیارد یوان» را خروجی دهد، هر دو صحیح محسوب میشوند |
| نرخ امتناع | هنگامی که اطلاعات مرتبط در پایگاه دانش وجود ندارد، آیا سیستم میتواند فعالانه بگوید «نمیدانم» به جای حدس زدن؟ | هنگامی که بازیابی خالی است یا اطمینان پایین است، خروجی «متأسفانه، اطلاعات مرتبط یافت نشد» |
یک سیستم ممکن است نرخ بازیابی بالایی داشته باشد (همیشه میتواند پاراگراف مرتبط را پیدا کند)، اما وفاداری تولید پایین (همیشه اغراق میکند)، در نتیجه نرخ دقت نهایی همچنان پایین است. بنابراین، هنگام بررسی نرخ دقت ابتدا باید مشخص کنید که کدام مرحله را اندازهگیری میکنید.
دو: تحت سطح فنی فعلی، نرخ دقت سیستمهای RAG چقدر است؟
عدد واحدی وجود ندارد، اما میتوان به برخی تحقیقات و شیوههای عمومی اشاره کرد:
- پرسش و پاسخ ساده واقعی (تک پرش، پاسخ مستقیماً در یک بخش از داده ظاهر میشود):
نرخ بازیابی میتواند به 90-98٪ برسد (بسته به کیفیت پایگاه دانش و بازیاب)، وفاداری تولید تحت پرامپتهای精心 طراحی شده میتواند بیش از 95٪ باشد، نرخ دقت ترکیبی میتواند بین 85-95٪ باشد. - استدلال چند پرشی (نیاز به ترکیب اطلاعات از دو یا چند بخش مختلف):
دقت بازیابی به شدت به 50-70٪ کاهش مییابد، صحت پاسخ تولید شده ممکن است فقط 40-60٪ باشد. این چالش اصلی فعلی RAG است. - دامنه باز + پایگاه دانش پر سر و صدا (مانند صفحات وب عظیم):
نرخ دقت به طور قابل توجهی کاهش مییابد، زیرا بازیابی ممکن است نویز ایجاد کند و مدل به راحتی تحت تأثیر قرار گیرد.
نتیجه: در محیط کنترل شده (تمیز، ساختاریافته، با دانهبندی مناسب سند)، RAG میتواند به نرخ دقت بالای 90٪ دست یابد؛ اما در سناریوهای پیچیده، باز و نیازمند استدلال چند مرحلهای، نرخ دقت اغلب رضایتبخش نیست و نیاز به بهینهسازی زیادی دارد.
سه: عوامل اصلی مؤثر بر نرخ دقت
اگر متوجه شدید که نرخ دقت سیستم RAG شما ایدهآل نیست، معمولاً میتوان از چهار مرحله زیر عیبیابی کرد:
- خود پایگاه دانش
- آیا دادهها قدیمی، ناقص یا حتی دارای خطا هستند؟
-
آیا اسناد به هم ریخته هستند (مثلاً اسکنهای OCR نشده، جداول به هم ریخته)؟
-
تقسیم و نمایهسازی
- قطعات متن خیلی کوتاه → از دست دادن زمینه؛ خیلی بلند → آلودگی با نویز.
-
آیا مدل تعبیه برای حوزه شما مناسب است (مدل عمومی ممکن است در اصطلاحات حقوقی عملکرد ضعیفی داشته باشد)؟
-
استراتژی بازیابی
- استفاده تنها از بازیابی برداری ممکن است کلمات کلیدی دقیق (مانند مدل محصول) را نادیده بگیرد.
-
عدم استفاده از مرتبسازی مجدد باعث میشود نتایج نامرتبط در رتبههای بالایی قرار گیرند.
-
مرحله تولید
- آیا پرامپت به وضوح میگوید «فقط بر اساس مطالب ارائه شده پاسخ بده، اگر کافی نیست، امتناع کن»؟
- آیا توانایی مدل کافی است (مدلهای کوچک به راحتی جزئیات زمینه طولانی را نادیده میگیرند)؟
یک تصور غلط رایج: نسبت دادن نرخ دقت پایین به ناتوانی LLM، اما در واقع بیشتر مشکلات به «بازیابی» و «طراحی پرامپت» مربوط میشود.
چهار: چگونه درست به نرخ دقت «نگاه کنیم» – چند نگرش کلیدی در عمل
1. تعیین معیار و انتظار منطقی
- برای حوزههای پرخطر (تشخیص پزشکی، مشاوره حقوقی)، نرخ دقت 90٪ نیز کافی نیست و باید بررسی دستی یا تأیید چندگانه معرفی شود.
- برای سناریوهای کم خطر (پشتیبانی مشتری، جستجوی دانش داخلی)، نرخ دقت 80٪ به همراه پاسخ دوستانه «نمیدانم» ممکن است به طور قابل توجهی کارایی را افزایش دهد.
2. به دنبال دقت 100٪ نباشید، به دنبال «دقت قابل تأیید» باشید
- از سیستم بخواهید به طور خودکار منبع را ضمیمه کند (به کدام مقاله، کدام بخش ارجاع داده است).
کاربر میتواند متن اصلی را ببیند و خود تأیید کند، حتی اگر پاسخ گاهی اشتباه باشد، شفافیت میتواند اعتماد ایجاد کند. - امتیاز اطمینان اضافه کنید، در امتیاز پایین به طور فعال提示 «این پاسخ از قابلیت اطمینان پایینی برخوردار است، توصیه میشود سند اصلی را بررسی کنید».
3. نرخ دقت را به عنوان هدف بهینهسازی مداوم در نظر بگیرید، نه هدف یکباره
- یک خط لوله ارزیابی ایجاد کنید: به طور دورهای مجموعهای از پرسشهای برچسبگذاری شده دستی استخراج کنید، و به طور خودکار نرخ بازیابی و وفاداری تولید را ارزیابی کنید.
- از ابزارهایی مانند RAGAS، TruLens برای ارزیابی سیستماتیک استفاده کنید، نه اینکه بر اساس چند مورد تصمیم بگیرید.
- بر اساس موارد بد به طور مداوم تنظیم کنید: روش تقسیم، پارامترهای بازیاب، مدل مرتبسازی مجدد، پرامپت.
4. بین «خطای سیستم» و «عدم تطابق با استاندارد انسانی» تفاوت قائل شوید
- گاهی پاسخ سیستم با انتظار کاربر متفاوت است، اما بر اساس دادههای پایگاه دانش درست است (زیرا خود پایگاه دانش محدودیت یا اختلاف دارد).
در اینجا باید تعریف کرد: دقت بر اساس «واقعیت پایگاه دانش» است یا «واقعیت شناخته شده خارجی»؟
خلاصه نهایی
نرخ دقت سیستم پرسش و پاسخ دانش یک شاخص ایستا و کامل نیست، بلکه یک مقدار توانایی ترکیبی است که «پوشش دانش + دقت بازیابی + وفاداری تولید + توانایی امتناع» را نشان میدهد. هنگام بررسی آن، باید هم به طور منطقی درک کرد که فناوری فعلی قادر به کمال نیست، و هم از طریق طراحیهایی مانند ردیابی منبع،提示 اطمینان، همکاری انسان و ماشین، در کسب و کار ارزش عملی ایجاد کرد.
评论
暂无已展示的评论。
发表评论(匿名)