Συνέντευξη για τη σειρά AI 9: Πώς βλέπετε την ακρίβεια των συστημάτων ερωτήσεων

Η ακρίβεια είναι η κεντρική γραμμή ζωής ενός συστήματος ερωτήσεων - απαντήσεων, ειδικά όταν προσπαθείτε να το εφαρμόσετε σε σοβαρές περιπτώσεις (π.χ. ιατρική, νομική, εσωτερική υποστήριξη επιχειρήσεων). Η άποψή μου μπορεί να συνοψιστεί ως εξής: Η ακρίβεια είναι μια πολυδιάστατη έννοια, δεν μπορείτε να κοιτάτε μόνο έναν αριθμό, αλλά πρέπει να αξιολογείτε συνδυαστικά την ικανότητα του συστήματος, τη δυσκολία της εργασίας και το κόστος σφαλμάτων.

Αναλύεται σε τέσσερα επίπεδα:

Ι. Η ακρίβεια δεν είναι απλά "σωστό/λάθος"

Στα παραδοσιακά προβλήματα ταξινόμησης (π.χ. αναγνώριση εικόνας), η ακρίβεια είναι σαφής. Αλλά στα συστήματα ερωτήσεων - απαντήσεων, οι συνήθεις υποδιαστάσεις περιλαμβάνουν:

Διάσταση	Σημασία	Παράδειγμα αξιολόγησης
Ποσοστό επιτυχίας ανάκτησης	Μπορεί το σύστημα να ανακτήσει από τη βάση γνώσης το τμήμα εγγράφου που περιέχει τη σωστή απάντηση;	Ο χρήστης ρωτά "Έσοδα εταιρείας Α για το 2024", μπορεί το σύστημα να ανακτήσει το τμήμα των οικονομικών στοιχείων που περιέχει αυτά τα δεδομένα;
Πιστότητα παραγωγής	Η απάντηση που παράγει το μοντέλο βασίζεται αυστηρά στο ανακτηθέν περιεχόμενο, χωρίς να επινοεί;	Η ανακτηθείσα πληροφορία δεν αναφέρει "ρυθμό ανάπτυξης", αλλά το μοντέλο λέει "αύξηση 5%" → μη πιστή
Ορθότητα απάντησης	Συμφωνεί η τελική απάντηση με το γεγονός (ή την απάντηση αναφοράς);	Η σωστή απάντηση είναι "4,2 δισεκατομμύρια", το μοντέλο βγάζει "4,2 δις" ή "περίπου 4,2 δις γιουάν" θεωρείται σωστό
Ποσοστό άρνησης	Όταν η βάση γνώσης δεν έχει σχετική πληροφορία, μπορεί το σύστημα να πει "δεν γνωρίζω" αντί να μαντεύει;	Όταν η ανάκτηση είναι κενή ή η εμπιστοσύνη χαμηλή, βγάζει "Λυπούμαστε, δεν βρέθηκαν σχετικές πληροφορίες"

Ένα σύστημα μπορεί να έχει υψηλό ποσοστό επιτυχίας ανάκτησης (πάντα βρίσκει σχετικές παραγράφους), αλλά χαμηλή πιστότητα παραγωγής (πάντα προσθέτει λεπτομέρειες), οπότε τελικά η ακρίβεια παραμένει χαμηλή. Επομένως, για να δούμε την ακρίβεια, πρέπει πρώτα να διευκρινίσουμε ποιο στάδιο μετράμε.

ΙΙ. Στο τρέχον τεχνολογικό επίπεδο, ποια είναι η ακρίβεια των συστημάτων RAG;

Δεν υπάρχει ενιαίος αριθμός, αλλά μπορούμε να αναφερθούμε σε ορισμένες δημόσιες έρευνες και πρακτικές:

Απλές ερωτήσεις γεγονότων (μονό άλμα, η απάντηση εμφανίζεται απευθείας σε ένα κομμάτι δεδομένων):
Το ποσοστό επιτυχίας ανάκτησης μπορεί να φτάσει 90-98% (ανάλογα με την ποιότητα της βάσης γνώσης και τον ανακτητή), η πιστότητα παραγωγής με προσεκτικά σχεδιασμένες προτροπές μπορεί να φτάσει 95%+, και η συνολική ακρίβεια μπορεί να είναι μεταξύ 85-95%.
Πολλαπλών αλμάτων συλλογισμός (απαιτεί συνδυασμό πληροφοριών από δύο ή περισσότερα διαφορετικά κομμάτια δεδομένων):
Η ακρίβεια ανάκτησης πέφτει απότομα στο 50-70%, και η ορθότητα της παραγόμενης απάντησης μπορεί να είναι μόνο 40-60%. Αυτό είναι το κύριο σημείο δυσκολίας του RAG σήμερα.
Ανοιχτού πεδίου + θορυβώδης βάση γνώσης (π.χ. τεράστιος αριθμός ιστοσελίδων):
Η ακρίβεια μειώνεται σημαντικά, επειδή η ανάκτηση μπορεί να εισαγάγει θόρυβο και το μοντέλο επηρεάζεται εύκολα.

Συμπέρασμα: Σε ελεγχόμενο περιβάλλον (καθαρό, δομημένο, κατάλληλο μέγεθος εγγράφων), το RAG μπορεί να επιτύχει ακρίβεια πάνω από 90%. Αλλά σε πολύπλοκες, ανοιχτές περιπτώσεις που απαιτούν πολλαπλά βήματα συλλογισμού, η ακρίβεια συχνά δεν είναι ικανοποιητική και χρειάζεται πολλή βελτιστοποίηση.

ΙΙΙ. Βασικοί παράγοντες που επηρεάζουν την ακρίβεια

Αν διαπιστώσετε ότι η ακρίβεια του συστήματος RAG σας δεν είναι ιδανική, συνήθως μπορείτε να ελέγξετε από τα ακόλουθα τέσσερα στάδια:

Η ίδια η βάση γνώσης
Είναι τα δεδομένα ξεπερασμένα, ελλιπή ή ακόμα και λανθασμένα;
Είναι τα έγγραφα ακατάστατα (π.χ. σαρώσεις χωρίς OCR, πίνακες διασπασμένοι σε κωδικοποιημένο κείμενο);
Τμηματοποίηση και ευρετηρίαση
Πολύ μικρά τεμάχια κειμένου → απώλεια πλαισίου. Πολύ μεγάλα → εισαγωγή θορύβου.
Είναι το μοντέλο ενσωμάτωσης κατάλληλο για τον τομέα σας (τα γενικά μοντέλα μπορεί να αποδίδουν άσχημα σε νομικούς όρους);
Στρατηγική ανάκτησης
Η χρήση μόνο διανυσματικής ανάκτησης μπορεί να χάσει ακριβείς λέξεις-κλειδιά (π.χ. μοντέλα προϊόντων).
Η έλλειψη επαναβαθμολόγησης μπορεί να οδηγήσει σε μη σχετικά αποτελέσματα στις πρώτες θέσεις.
Στάδιο παραγωγής
Ορίζει η προτροπή σαφώς "απάντησε μόνο με βάση τα παρεχόμενα δεδομένα, αν δεν φτάνουν, αρνήσου";
Είναι η ικανότητα του μοντέλου επαρκής (τα μικρά μοντέλα τείνουν να αγνοούν λεπτομέρειες σε μεγάλα συμφραζόμενα);

Κοινή παρανόηση: Η χαμηλή ακρίβεια αποδίδεται απευθείας σε ανεπαρκή ικανότητα του LLM, αλλά στην πραγματικότητα τα περισσότερα προβλήματα βρίσκονται στην "ανάκτηση" και τον "σχεδιασμό προτροπών".

IV. Πώς να "βλέπετε" σωστά την ακρίβεια — μερικές βασικές στάσεις στην πράξη

1. Θέστε λογικά σημεία αναφοράς και προσδοκίες

Για τομείς υψηλού ρίσκου (ιατρική διάγνωση, νομικές συμβουλές), ούτε το 90% ακρίβεια δεν είναι αρκετό, πρέπει να εισαχθεί ανθρώπινη αξιολόγηση ή πολλαπλός έλεγχος.
Για περιπτώσεις χαμηλού ρίσκου (εξυπηρέτηση πελατών, εσωτερική αναζήτηση γνώσης), το 80% ακρίβεια μαζί με μια φιλική απόκριση "δεν γνωρίζω" μπορεί ήδη να αυξήσει σημαντικά την αποτελεσματικότητα.

2. Μην επιδιώκετε το 100%, αλλά την "επαληθεύσιμη ακρίβεια"

Κάντε το σύστημα να επισυνάπτει αυτόματα τις πηγές αναφοράς (ποιο άρθρο, ποια παράγραφο).
Ο χρήστης μπορεί να δει το πρωτότυπο και να το επαληθεύσει μόνος του. Ακόμα και αν η απάντηση κάνει λάθος κατά καιρούς, η διαφάνεια μπορεί να χτίσει εμπιστοσύνη.
Προσθέστε βαθμολογία εμπιστοσύνης, και όταν είναι χαμηλή, προτρέψτε ενεργά "Αυτή η απάντηση έχει χαμηλή αξιοπιστία, προτείνεται να συμβουλευτείτε το αρχικό έγγραφο".

3. Αντιμετωπίστε την ακρίβεια ως αντικείμενο συνεχούς βελτιστοποίησης, όχι ως εφάπαξ στόχο

Δημιουργήστε αγωγό αξιολόγησης: Περιοδικά εξάγετε ένα σύνολο ερωτήσεων με μη αυτόματη επισήμανση, αξιολογώντας αυτόματα το ποσοστό επιτυχίας ανάκτησης και την πιστότητα παραγωγής.
Χρησιμοποιήστε εργαλεία όπως RAGAS, TruLens για συστηματική αξιολόγηση, όχι μόνο με βάση μερικές περιπτώσεις.
Βασιζόμενοι σε κακές περιπτώσεις, προσαρμόστε συνεχώς: μέθοδο τμηματοποίησης, παραμέτρους ανακτητή, μοντέλο επαναβαθμολόγησης, προτροπές.

4. Διακρίνετε τα "σφάλματα συστήματος" από τις "ασυμφωνίες ανθρώπινων προτύπων"

Μερικές φορές η απάντηση του συστήματος διαφέρει από τις προσδοκίες του χρήστη, αλλά σύμφωνα με τα δεδομένα της βάσης γνώσης είναι στην πραγματικότητα σωστή (επειδή η βάση γνώσης έχει περιορισμούς ή αντιπαραθέσεις).
Τότε πρέπει να διευκρινιστεί: η ακρίβεια μετριέται με βάση τα "γεγονότα της βάσης γνώσης" ή τα "εξωτερικά αποδεκτά γεγονότα";

Τελική περίληψη

Η ακρίβεια ενός συστήματος ερωτήσεων - απαντήσεων δεν είναι ένας στατικός δείκτης πλήρους βαθμολογίας, αλλά μια σύνθετη τιμή ικανότητας που αντανακλά την "κάλυψη γνώσης + ακρίβεια ανάκτησης + πιστότητα παραγωγής + ικανότητα άρνησης". Όταν το βλέπουμε, πρέπει να αναγνωρίζουμε ορθολογικά ότι η τρέχουσα τεχνολογία δεν μπορεί να είναι τέλεια, αλλά μέσω σχεδιαστικών στοιχείων όπως η ανίχνευση πηγών, η υπόδειξη εμπιστοσύνης και η συνεργασία ανθρώπου-μηχανής, μπορείτε να προσδώσετε πρακτική αξία στις επιχειρηματικές εφαρμογές.

Συνέντευξη για τη σειρά AI 9: Πώς βλέπετε την ακρίβεια των συστημάτων ερωτήσεων - απαντήσεων;