مقابلة سلسلة AI 9: كيف تنظر إلى دقة أنظمة الإجابة على الأسئلة؟

الدقة هي شريان الحياة الأساسي لأنظمة الإجابة على الأسئلة، خاصة عند محاولة تطبيقها في سيناريوهات جادة (مثل الرعاية الصحية، القانون، الدعم الداخلي للشركات). يمكن تلخيص وجهة نظري على النحو التالي: الدقة مفهوم متعدد الأبعاد، لا يمكن النظر إليه كرقم واحد فقط، بل يجب تقييمه بشكل شامل من خلال الجمع بين قدرات النظام وصعوبة المهمة وتكلفة الخطأ.

سأشرح ذلك على أربعة مستويات:

أولاً: الدقة ليست مجرد "إجابة صحيحة/خاطئة"

في مشاكل التصنيف التقليدية (مثل التعرف على الصور)، تكون الدقة واضحة. لكن في أنظمة الإجابة على الأسئلة، تختلف الأبعاد الشائعة وتشمل:

البعد	المعنى	مثال التقييم
معدل دقة الاسترجاع	هل يستطيع النظام استرداد كتلة المستند التي تحتوي على الإجابة الصحيحة من قاعدة المعرفة؟	يسأل المستخدم "إيرادات الشركة A في 2024"، هل يستطيع النظام استرداد جزء التقرير المالي الذي يحتوي على تلك البيانات؟
دقة التوليد	هل الإجابة التي يولدها النموذج مبنية بدقة على المحتوى المسترد، وليس من اختراعه الخاص؟	المواد المستردة لا تذكر "معدل النمو"، لكن النموذج يقول "نمو بنسبة 5%" ← غير دقيق
صحة الإجابة	هل تتطابق الإجابة النهائية مع الحقيقة (أو الإجابة المرجعية)؟	الإجابة الصحيحة هي "4.2 مليار"، النموذج يخرج "4.2 مليار" أو "حوالي 4.2 مليار يوان صيني" يمكن اعتباره صحيحًا
معدل رفض الإجابة	عندما لا توجد معلومات ذات صلة في قاعدة المعرفة، هل يستطيع النظام أن يقول "لا أعرف" بدلاً من التخمين؟	عند عدم وجود استرجاع أو انخفاض الثقة، يخرج "عذرًا، لم يتم العثور على معلومات ذات صلة"

قد يكون النظام عاليًا في معدل دقة الاسترجاع (يجد دائمًا الفقرات ذات الصلة)، لكنه منخفضًا في دقة التوليد (يضيف دائمًا تفاصيل غير موجودة)، وبالتالي تكون الدقة النهائية سيئة. لذلك، عند النظر إلى الدقة، يجب أولاً تحديد أي مرحلة تقيسها.

ثانيًا: تحت المستوى التكنولوجي الحالي، ما هي دقة أنظمة RAG؟

لا يوجد رقم موحد، ولكن يمكن الرجوع إلى بعض الأبحاث والممارسات العامة:

أسئلة بسيطة قائمة على الحقائق (قفزة واحدة، الإجابة تظهر مباشرة في مقطع واحد):
يمكن أن يصل معدل دقة الاسترجاع إلى 90-98% (اعتمادًا على جودة قاعدة المعرفة والمسترد)، ويمكن أن تصل دقة التوليد إلى 95%+ في ظل التوجيه المصمم جيدًا، ويمكن أن تكون الدقة الإجمالية بين 85-95%.
الاستدلال متعدد الخطوات (يتطلب دمج معلومات من مقطعين مختلفين أو أكثر):
تنخفض دقة الاسترجاع بشكل حاد إلى 50-70%، وقد تكون صحة الإجابة الناتجة 40-60% فقط. هذه هي الصعوبة الرئيسية الحالية لـ RAG.
المجال المفتوح + قاعدة المعرفة المزعجة (مثل صفحات الويب الضخمة):
تنخفض الدقة بشكل ملحوظ، لأن الاسترجاع قد يُدخل ضوضاء، والنموذج يتأثر بسهولة.

الخلاصة: في البيئات الخاضعة للرقابة (نظيفة، منظمة، حجم مستند مناسب)، يمكن لـ RAG تحقيق دقة تزيد عن 90%؛ ولكن في السيناريوهات المعقدة والمفتوحة والتي تتطلب استدلالًا متعدد الخطوات، غالبًا ما تكون الدقة غير مرضية وتحتاج إلى تحسين كبير.

ثالثًا: العوامل الأساسية المؤثرة على الدقة

إذا وجدت أن دقة نظام RAG الخاص بك غير مرضية، يمكنك عادةً التحقق من المراحل الأربع التالية:

قاعدة المعرفة نفسها
هل البيانات قديمة أو غير مكتملة أو حتى خاطئة؟
هل المستندات فوضوية (مثل الماسحات الضوئية غير المعالجة بـ OCR، أو الجداول المقطوعة إلى نصوص غير مفهومة)؟
التجزئة والفهرسة
قطع النص قصيرة جدًا → فقدان السياق؛ طويلة جدًا → تضمين ضوضاء.
هل نموذج التضمين مناسب لمجالك (النماذج العامة قد تكون ضعيفة في المصطلحات القانونية)؟
استراتيجية الاسترجاع
الاعتماد فقط على الاسترجاع المتجه قد يتجاهل الكلمات الرئيسية الدقيقة (مثل أرقام المنتجات).
عدم إعادة الترتيب قد يؤدي إلى وجود نتائج غير ذات صلة في الصفوف الأولى.
مرحلة التوليد
هل التوجيه يطلب بوضوح "الإجابة فقط بناءً على المواد المقدمة، إذا لم تكن كافية فرفض"؟
هل قدرة النموذج كافية (النماذج الصغيرة قد تغفل التفاصيل في السياقات الطويلة)؟

خطأ شائع: إلقاء اللوم على ضعف قدرة LLM في انخفاض الدقة، بينما في الواقع معظم المشاكل تكمن في "الاسترجاع" و"تصميم التوجيه".

رابعًا: كيف تنظر إلى الدقة بشكل صحيح؟— عدة مواقف رئيسية في الممارسة

1. وضع معايير وتوقعات معقولة

بالنسبة للمجالات عالية المخاطر (التشخيص الطبي، الاستشارات القانونية)، حتى 90% دقة غير كافية، يجب إدخال مراجعة بشرية أو تحقق متعدد.
بالنسبة للسيناريوهات منخفضة المخاطر (الدعم الفني الأساسي، البحث الداخلي عن المعرفة)، 80% دقة مع ردود "لا أعرف" ودية قد تكون كافية لتحسين الكفاءة بشكل كبير.

2. لا تسعى إلى 100%، بل إلى "دقة قابلة للتحقق"

اجعل النظام يضيف تلقائيًا المصادر المرجعية (أي مقال، أي فقرة).
يمكن للمستخدم رؤية النص الأصلي والتحقق بنفسه، حتى لو كانت الإجابة خاطئة أحيانًا، فإن الشفافية تبني الثقة.
أضف تقييم ثقة، عند الدرجات المنخفضة، قم بالإشارة تلقائيًا "هذه الإجابة منخفضة الموثوقية، يوصى بمراجعة المستند الأصلي".

3. اعتبر الدقة هدفًا للتحسين المستمر، وليس هدفًا لمرة واحدة

أنشئ خط أنابيب تقييم: استخرج بانتظام مجموعة من الأسئلة المصنفة يدويًا، وقم بتقييم آلية معدل دقة الاسترجاع ودقة التوليد.
استخدم أدوات مثل RAGAS، TruLens للتقييم المنهجي، بدلاً من الاعتماد على بضع حالات عشوائية.
بناءً على الحالات السيئة، قم بتعديل: طريقة التجزئة، معلمات المسترد، نموذج إعادة الترتيب، التوجيه.

4. فرق بين "خطأ النظام" و"عدم تطابق المعايير البشرية"

أحيانًا تكون الإجابة التي يقدمها النظام مختلفة عن توقعات المستخدم، ولكن وفقًا للمعلومات الموجودة في قاعدة المعرفة تكون صحيحة (لأن قاعدة المعرفة نفسها محدودة أو مثيرة للجدل).
في هذه الحالة، يجب تحديد: هل الدقة تقاس بـ "حقائق قاعدة المعرفة" أم "الحقائق المعترف بها خارجيًا"؟

الخلاصة النهائية

دقة أنظمة الإجابة على الأسئلة ليست مؤشرًا ثابتًا للكمال، بل هي قيمة شاملة تعكس "تغطية المعرفة + دقة الاسترجاع + دقة التوليد + قدرة الرفض". عند النظر إليها، يجب أن ندرك عقلانيًا أن التكنولوجيا الحالية لا يمكنها تحقيق الكمال، ولكن من خلال تصميم مثل تتبع المصادر، إشارات الثقة، والتعاون بين الإنسان والآلة، يمكننا تحقيق قيمة عملية في الأعمال.