Ερωτήσεις Συνέντευξης Σειράς AI 11: Πώς να βελτιστοποιήσετε το RAG;

Η βελτιστοποίηση του RAG δεν είναι μια προσαρμογή ενός μόνο βήματος, αλλά μια διαδικασία βελτιστοποίησης ολόκληρης της αλυσίδας. Παρακάτω δίνω συστηματικές στρατηγικές βελτιστοποίησης από τέσσερις διαστάσεις: πλευρά ευρετηρίου δεδομένων, πλευρά ανάκτησης, πλευρά δημιουργίας, πλευρά αξιολόγησης, συνοδευόμενες από πρακτική εμπειρία που μπορεί να αναφερθεί σε συνεντεύξεις.

I. Βελτιστοποίηση πλευράς ευρετηρίου δεδομένων (βελτίωση ποιότητας «βάσης γνώσεων»)

Αυτό είναι το πιο συχνά παραβλέπεται αλλά και το πιο γρήγορο σε αποτελέσματα σημείο.

Σημείο βελτιστοποίησης	Σύμπτωμα προβλήματος	Συγκεκριμένη ενέργεια	Μετρική αποτελέσματος
Ανάλυση εγγράφων	Πίνακες, διαγράμματα ροής σε PDF αγνοούνται, ή κείμενο εμφανίζεται με σκουπίδια, σειρά λανθασμένη.	Χρήση καλύτερης βιβλιοθήκης ανάλυσης (π.χ. `unstructured`, λειτουργία διατήρησης διάταξης `pypdf`). Εξαγωγή πινάκων με `pandas` και μετατροπή σε Markdown.	Ποσοστό ανάκλησης +5~15%
Μέγεθος τμήματος κειμένου	Πολύ μικρό τμήμα χάνει συμφραζόμενα (π.χ. «η φετινή αύξηση εσόδων» χάνει αναφορά σε «αυτός»). Πολύ μεγάλο οδηγεί σε θόρυβο ανάκτησης.	Πειραματισμός με διαφορετικά μεγέθη τμημάτων (256/512/768 tokens), επικάλυψη 10~20%. Για μεγάλα έγγραφα, τεμαχισμός βάσει σημασιολογικών ορίων (παράγραφος/τίτλος) αντί σταθερού μήκους.	Ποσοστό επιτυχίας / πιστότητα
Προσθήκη μεταδεδομένων	Ανάκτηση σχετικής παραγράφου αλλά αδυναμία εντοπισμού πηγής ή χρόνου, ή ανάγκη φιλτραρίσματος ανά τομέα.	Προσθήκη μεταδεδομένων σε κάθε τμήμα: `source` (όνομα αρχείου/URL), `timestamp`, `page_num`, `doc_type`. Χρήση φίλτρων κατά την ανάκτηση (π.χ. `doc_type == 'legal'`).	Ακρίβεια φιλτραρίσματος
Επιλογή μοντέλου ενσωμάτωσης	Γενική ενσωμάτωση αποδίδει άσχημα σε κάθετους τομείς (ιατρική, κώδικας, νομική).	Χρήση μοντέλων λεπτής ρύθμισης τομέα (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct). Εναλλακτικά, λεπτή ρύθμιση δικού σας μοντέλου (με triplet loss).	MRR@10 ανάκτησης +10~20%

II. Βελτιστοποίηση πλευράς ανάκτησης (κάντε το «ξεφύλλισμα» πιο ακριβές)

Η ανάκτηση καθορίζει την ποιότητα των «πηγών αναφοράς» που τροφοδοτούνται στο LLM.

Σημείο βελτιστοποίησης	Σύμπτωμα προβλήματος	Συγκεκριμένη ενέργεια	Αποτέλεσμα
Υβριδική ανάκτηση	Διανυσματική ανάκτηση δεν μπορεί να αντιστοιχίσει ακριβή όρους (π.χ. μοντέλο προϊόντος `ABC-123`). Λεκτική ανάκτηση δεν κατανοεί συνώνυμα.	Ταυτόχρονη χρήση διανυσματικής ανάκτησης (σημασιολογική) και BM25 (λέξεις-κλειδιά), με σταθμισμένη (π.χ. 0.7διανυσματική + 0.3BM25) ή σύντηξη μέσω rerank.	Ποσοστό ανάκλησης +10~25%
Επαναδιάταξη (Rerank)	Τα πρώτα αποτελέσματα διανυσματικής ανάκτησης δεν είναι απαραίτητα τα πιο σχετικά. Το 10ο μπορεί να είναι το καλύτερο.	Χρήση μοντέλου cross‑encoder (π.χ. `BGE‑reranker-v2`, Cohere Rerank) για επαναβαθμολόγηση υποψηφίων (π.χ. top 20) και λήψη top‑K.	Σημαντική βελτίωση ποσοστού επιτυχίας (ειδικά top‑1)
Επανεγγραφή ερωτήματος	Ασαφής ερώτηση ή ασαφής αναφορά σε πολλαπλούς γύρους («Ποια είναι η τιμή του;»).	Χρήση LLM για μετατροπή της αρχικής ερώτησης σε μορφή πιο κατάλληλη για ανάκτηση (π.χ. «Ποια είναι η τιμή του iPhone 15;»). Εναλλακτικά, συμπλήρωση βάσει ιστορικού διαλόγου.	Ποσοστό ανάκλησης +5~15%
HyDE	Η ερώτηση χρήστη είναι πολύ σύντομη ή αφηρημένη (π.χ. «Μίλησε μου για τη φωτοσύνθεση»), η άμεση ανάκτηση αποδίδει άσχημα.	Ζητήστε πρώτα από το LLM να δημιουργήσει μια υποθετική απάντηση και στη συνέχεια χρησιμοποιήστε αυτήν την απάντηση για ανάκτηση εγγράφων.	Κατάλληλο για ανοικτούς τομείς, όχι για ακριβή γεγονότα
Ρύθμιση αριθμού ανάκτησης Top‑K	Πολύ μικρό Κ μπορεί να χάσει κρίσιμες πληροφορίες. Πολύ μεγάλο αυξάνει κατανάλωση tokens και θόρυβο.	Πειραματισμός με K=3/5/10, παρατηρώντας ισορροπία ποσοστού ανάκλησης και πιστότητας απάντησης.	Ανταλλαγή απόδοσης και αποτελέσματος

III. Βελτιστοποίηση πλευράς δημιουργίας (βοηθήστε το LLM να χρησιμοποιήσει καλά τις πηγές αναφοράς)

Ακόμα κι αν η ανάκτηση είναι ακριβής, αν η προτροπή δεν είναι καλή ή το μοντέλο δεν είναι κατάλληλο, δεν θα λειτουργήσει.

Σημείο βελτιστοποίησης	Σύμπτωμα προβλήματος	Συγκεκριμένη ενέργεια	Αποτέλεσμα
Μηχανική προτροπής	Το LLM αγνοεί το ανακτηθέν περιεχόμενο ή επινοεί πληροφορίες.	Σαφής εντολή: «Απάντησε μόνο βάσει των παρακάτω παρεχόμενων πηγών αναφοράς. Εάν οι πληροφορίες δεν επαρκούν ή δεν σχετίζονται, απάντησε "Δεν υπάρχουν αρκετές πληροφορίες".» Προσθήκη παραδειγμάτων λίγων λήψεων (few-shot) που δείχνουν πώς να αναφέρονται πηγές.	Πιστότητα +20~40%
Συμπίεση συμφραζομένων	Το ανακτηθέν περιεχόμενο είναι πολύ μεγάλο (υπερβαίνει το παράθυρο συμφραζομένων του μοντέλου) ή περιέχει πολύ θόρυβο.	Χρήση `LLMLingua` ή `επιλεκτικής συμφραζομένων` συμπίεσης, διατηρώντας τις πιο σχετικές προτάσεις πριν την τροφοδότηση στο LLM.	Μείωση κινδύνου απώλειας πληροφοριών
Αναβάθμιση μοντέλου LLM	Μικρό μοντέλο (7B) αδυνατεί να εκτελέσει σύνθετους συλλογισμούς ή να θυμάται μεγάλα συμφραζόμενα.	Αντικατάσταση με ισχυρότερο μοντέλο (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B).	Σημαντική βελτίωση ακρίβειας συλλογισμού
Ροή και παραπομπές	Ο χρήστης δεν μπορεί να επαληθεύσει την αξιοπιστία της απάντησης.	Κατά τη δημιουργία, ζητήστε από το LLM να εξάγει `[citation:1]` που αντιστοιχεί στον αριθμό του ανακτηθέντος εγγράφου. Στο backend, επισυνάψτε τον σύνδεσμο του πρωτοτύπου.	Εμπιστοσύνη χρήστη + δυνατότητα εντοπισμού σφαλμάτων
Βαθμονόμηση άρνησης απάντησης	Το μοντέλο επινοεί όταν δεν πρέπει να απαντά, ή λέει ότι δεν ξέρει όταν θα έπρεπε να απαντήσει.	Ορίστε ένα κατώφλι ομοιότητας: εάν η ομοιότητα συνημίτονου του top‑1 τμήματος με την ερώτηση είναι κάτω από 0.7, ενημερώστε το LLM ότι «οι πληροφορίες δεν σχετίζονται».	Μείωση ποσοστού ψευδαισθήσεων

IV. Πλευρά αξιολόγησης και επανάληψης (γνωρίζετε πού να βελτιστοποιήσετε)

Χωρίς μέτρηση, δεν μπορείτε να βελτιστοποιήσετε.

Σημείο βελτιστοποίησης	Ενέργεια	Μετρική
Δημιουργία συνόλου αξιολόγησης	Προετοιμάστε 100~300 πραγματικές ερωτήσεις χρηστών + τυπικές απαντήσεις + σωστά αναγνωριστικά εγγράφων ανάκτησης.	Κάλυψη διαφορετικών επιπέδων δυσκολίας, διαφορετικών προθέσεων.
Αυτοματοποιημένη αξιολόγηση	Χρήση RAGAS (Faithfulness, Answer Relevance, Context Recall) ή TruLens.	Τρεις βασικές μετρήσεις: πιστότητα, συνάφεια απάντησης, ανάκληση συμφραζομένων.
Ανθρώπινη αξιολόγηση	Εβδομαδιαία δειγματοληψία 20 κακών περιπτώσεων, ανάλυση τύπων σφαλμάτων (αποτυχία ανάκτησης / σφάλμα δημιουργίας / έλλειψη γνώσης).	Ιεράρχηση βελτιώσεων.
A/B δοκιμές	Κατανομή σε ομάδες στο παραγωγικό περιβάλλον για δοκιμή διαφορετικών στρατηγικών ανάκτησης (π.χ. BM25 έναντι υβριδικής ανάκτησης).	Online μετρικές: ικανοποίηση χρήστη, ποσοστό χωρίς απάντηση.

V. «Πρακτική εμπειρία» που μπορείτε να αναφέρετε σε συνεντεύξεις (προσθήκη βαθμολογίας)

«Στο έργο RAG που είχα αναλάβει, το αρχικό ποσοστό επιτυχίας βάσης ήταν μόνο 67%. Έκανα τρία πράγματα:
1. Άλλαξα τον τεμαχισμό από σταθερό 1024 σε δυναμικό σημασιολογικό τεμαχισμό (βάσει τίτλου + παραγράφου), και το ποσοστό επιτυχίας ανέβηκε στο 74%.
2. Πρόσθεσα υβριδική ανάκτηση (διανυσματική + BM25) και ένα μικρό μοντέλο επαναδιάταξης, και το ποσοστό επιτυχίας ανέβηκε στο 83%.
3. Βελτιστοποίησα την προτροπή και επέβαλα την εντολή "[Δεν βρέθηκε σχετική πληροφορία]", και το ποσοστό ψευδαισθήσεων μειώθηκε από 22% σε κάτω από 5%.

Επιπλέον, δημιουργήσαμε μια συνεχή γραμμή σωλήνωσης αξιολόγησης, όπου κάθε αλλαγή εκτελούσε βαθμολογία RAGAS για 200 ερωτήσεις, εξασφαλίζοντας ότι δεν υπήρχε υποβάθμιση.»

Τελική σύνοψη: Ένας πλήρης οδικός χάρτης βελτιστοποίησης RAG

Επίπεδο δεδομένων ─→ Καθαρισμός εγγράφων, βελτιστοποίηση τμημάτων, ενίσχυση μεταδεδομένων, ενσωμάτωση τομέα
Επίπεδο ανάκτησης ─→ Υβριδική ανάκτηση, επαναδιάταξη, επανεγγραφή ερωτήματος, HyDE, ρύθμιση Top-K
Επίπεδο δημιουργίας ─→ Ενίσχυση προτροπής, απαιτήσεις εντολών, συμπίεση, αναφορές, κατώφλι άρνησης
Επίπεδο αξιολόγησης ─→ Σύνολο αξιολόγησης, RAGAS, ανθρώπινη ανάλυση, πειράματα A/B