← 返回列表

سلسلة أسئلة مقابلات الذكاء الاصطناعي 11: كيفية تحسين RAG؟

تحسين RAG ليس مجرد تعديل في خطوة واحدة، بل هو عملية تحسين شاملة للسلسلة الكاملة. فيما يلي أقدم استراتيجيات تحسين منهجية من أربعة أبعاد: جانب فهرسة البيانات، جانب الاسترجاع، جانب التوليد، وجانب التقييم، مع إرفاق خبرات عملية يمكن ذكرها في المقابلات.


1. تحسين جانب فهرسة البيانات (رفع جودة "قاعدة المعرفة")

هذا هو المجال الأكثر تجاهلاً ولكنه الأسرع في تحقيق النتائج.

نقطة التحسين الظاهرة الإجراء المحدد مؤشر التأثير
تحليل المستندات تجاهل الجداول والرسوم البيانية في PDF، أو أحرف مشوشة، أو ترتيب خاطئ. استبدال مكتبة تحليل أفضل (مثل unstructured، وضع الحفاظ على التخطيط في pypdf)؛ استخراج الجداول باستخدام pandas وتحويلها إلى Markdown. زيادة معدل الاسترجاع بنسبة +5~15%
حجم تقسيم النص chunk صغير جدًا يفقد السياق (مثل ضمير "هو" في "زاد إيراده هذا العام")؛ chunk كبير جدًا يسبب ضوضاء في الاسترجاع. تجربة أحجام chunk مختلفة (256/512/768 رمز)، مع تداخل بنسبة 10~20%؛ بالنسبة للمستندات الطويلة، التقسيم حسب الحدود الدلالية (فقرة/عنوان) بدلاً من الطول الثابت. معدل الدقة / الإخلاص
إضافة البيانات الوصفية استرجاع فقرة ذات صلة ولكن لا يمكن تتبع مصدرها أو وقتها، أو الحاجة إلى التصفية حسب المجال. إضافة بيانات وصفية لكل chunk: source (اسم ملف/URL)، timestamp، page_num، doc_type. استخدام عوامل تصفية أثناء الاسترجاع (مثل doc_type == 'legal'). دقة التصفية
اختيار نموذج التضمين أداء التضمين العام ضعيف في المجالات التخصصية (الطب، البرمجة، القانون). استخدام نموذج مضبوط دقيقًا للمجال (BGE‑large‑zh، GTE‑Qwen2‑7B‑instruct)؛ أو ضبط نموذج التضمين الخاص بك (باستخدام triplet loss). تحسين MRR@10 بنسبة +10~20%

2. تحسين جانب الاسترجاع (جعل "تصفح الكتب" أكثر دقة)

الاسترجاع يحدد جودة "المواد المرجعية" التي تُغذى لنموذج اللغة الكبير.

نقطة التحسين الظاهرة الإجراء المحدد التأثير
الاسترجاع المختلط الاسترجاع المتجهي لا يطابق المصطلحات الدقيقة (مثل رقم المنتج ABC-123)، والاسترجاع بالكلمات المفتاحية لا يفهم المرادفات. استخدام الاسترجاع المتجهي (دلالي) وBM25 (كلمات مفتاحية) معًا، والدمج عبر الترجيح (مثل 0.7متجه + 0.3BM25) أو إعادة الترتيب. زيادة معدل الاسترجاع بنسبة +10~25%
إعادة الترتيب (Rerank) النتائج القليلة الأولى من الاسترجاع المتجهي ليست بالضرورة الأكثر صلة، بل النتيجة العاشرة قد تكون الأفضل. استخدام نموذج cross‑encoder (مثل BGE‑reranker-v2، Cohere Rerank) لإعادة تقييم المرشحين (مثل أول 20) واختيار top‑K. تحسين كبير في معدل الدقة (خاصة top‑1)
إعادة كتابة الاستعلام أسئلة المستخدم غامضة أو ضمائر غير واضحة في الحوار متعدد الأدوار ("ما هو سعره؟"). استخدام LLM لإعادة صياغة السؤال الأصلي إلى شكل أكثر ملاءمة للاسترجاع (مثل "ما هو سعر iPhone 15؟")؛ أو إكمال تاريخ الحوار. زيادة معدل الاسترجاع بنسبة +5~15%
HyDE أسئلة المستخدم قصيرة جدًا أو مجردة (مثل "اشرح عملية التمثيل الضوئي")، الاسترجاع المباشر ضعيف. أولاً، اجعل LLM يولد إجابة افتراضية، ثم استخدم هذه الإجابة لاسترجاع المستندات. مناسب للمجالات المفتوحة، ولكنه غير مناسب للأسئلة الواقعية الدقيقة
ضبط عدد الاسترجاع Top‑K K صغير جدًا قد يفقد معلومات رئيسية؛ K كبير جدًا يزيد من استهلاك الرموز والضوضاء. تجربة K=3/5/10، ومراقبة التوازن بين معدل الاسترجاع ودقة الإجابة. مفاضلة بين الكفاءة والتأثير

3. تحسين جانب التوليد (جعل LLM يستخدم المواد المرجعية بشكل جيد)

حتى مع استرجاع دقيق، إذا كانت التعليمات سيئة أو النموذج ضعيفًا، فلن ينجح.

نقطة التحسين الظاهرة الإجراء المحدد التأثير
هندسة التعليمات LLM يتجاهل المحتوى المسترجع أو يختلق. تعليمات واضحة: "أجب فقط بناءً على المواد المرجعية المقدمة. إذا كانت المعلومات غير كافية أو غير ذات صلة، أجب بـ 'لا توجد معلومات كافية'." أضف أمثلة قليلة توضح كيفية الاستشهاد بالمصادر. زيادة الإخلاص بنسبة +20~40%
ضغط السياق المحتوى المسترجع طويل جدًا (يتجاوز نافذة سياق النموذج) أو يحتوي على ضوضاء. استخدام LLMLingua أو السياق الانتقائي للضغط، مع الاحتفاظ بالجمل الأكثر صلة قبل إرسالها إلى LLM. تقليل خطر فقدان المعلومات
ترقية نموذج LLM النماذج الصغيرة (7B) غير قادرة على التفكير المعقد أو تذكر السياق الطويل. استبدال بنموذج أقوى (GPT‑4o، Claude 3.5 Sonnet، Qwen2.5‑72B). تحسين كبير في دقة التفكير
التدفق والاستشهاد لا يمكن للمستخدم التحقق من مصداقية الإجابة. جعل LLM يخرج [citation:1] أثناء التوليد، مقابل رقم المستند المسترجع. أرفق رابط النص الأصلي في الواجهة الخلفية. ثقة المستخدم + قابلية التصحيح
معايرة رفض الإجابة النموذج يختلق عندما لا ينبغي، أو يقول لا يعرف عندما يجب أن يجيب. تعيين عتبة تشابه: إذا كان التشابه余弦 بين top‑1 chunk والسؤال أقل من 0.7، أشر إلى LLM بأن "المعلومات غير ذات صلة". تقليل معدل الهلوسة

4. جانب التقييم والتكرار (معرفة أين يتم التعديل)

لا يمكن التحسين بدون قياس.

نقطة التحسين الإجراء المؤشر
إنشاء مجموعة تقييم إعداد 100~300 سؤال مستخدم حقيقي + إجابات قياسية + معرفات المستندات المسترجعة الصحيحة. تغطية مستويات صعوبة ونوايا مختلفة.
التقييم الآلي استخدام RAGAS (الإخلاص، صلة الإجابة، استدعاء السياق) أو TruLens. ثلاثة مؤشرات أساسية: الإخلاص، صلة الإجابة، معدل استدعاء السياق.
التقييم البشري أخذ 20 حالة سيئة أسبوعيًا، وتحليل نوع الخطأ (فشل استرجاع / خطأ توليد / نقص في قاعدة المعرفة). ترتيب أولويات التحسين.
اختبار A/B في بيئة الإنتاج، اختبار استراتيجيات استرجاع مختلفة (مثل BM25 مقابل الاسترجاع المختلط) في مجموعات منفصلة. مؤشرات عبر الإنترنت: رضا المستخدم، معدل عدم الإجابة.

5. خبرات عملية يمكن ذكرها في المقابلة (نقاط إضافية)

"في مشروع RAG الذي كنت مسؤولاً عنه، كان معدل الدقة الأولي 67% فقط. قمت بثلاثة إجراءات:
1. تغيير التقسيم من 1024 ثابت إلى تقسيم دلالي ديناميكي (حسب العنوان + الفقرة)، ارتفع معدل الدقة إلى 74%؛
2. إضافة استرجاع مختلط (متجه + BM25) ونموذج إعادة ترتيب صغير، ارتفع معدل الدقة إلى 83%؛
3. تحسين التعليمات وإجبار النموذج على قول [لم يتم العثور على معلومات ذات صلة]، انخفض معدل الهلوسة من 22% إلى أقل من 5%.

بالإضافة إلى ذلك، أنشأنا خط أنابيب تقييم مستمر، حيث نقوم بتشغيل 200 سؤال عبر RAGAS قبل كل تغيير لضمان عدم حدوث تدهور."


الخلاصة: خريطة طريق كاملة لتحسين RAG

طبقة البيانات ← تنظيف المستندات، تحسين التقسيم، تعزيز البيانات الوصفية، تضمين المجال
طبقة الاسترجاع ← استرجاع مختلط، إعادة ترتيب، إعادة كتابة الاستعلام، HyDE، ضبط Top-K
طبقة التوليد ← تعزيز التعليمات، توجيه الطلب، الضغط، الاستشهاد، عتبة الرفض
طبقة التقييم ← مجموعة تقييم، RAGAS، تحليل بشري، اختبار A/B

评论

暂无已展示的评论。

发表评论(匿名)