Série d'entretiens IA 9 : Comment percevoir le taux de précision des systèmes de questions-réponses ?

Le taux de précision est la ligne de vie centrale d'un système de questions-réponses, surtout lorsqu'on tente de l'appliquer à des scénarios sérieux (comme la médecine, le droit, le support interne d'entreprise). Mon point de vue peut se résumer ainsi : Le taux de précision est un concept multidimensionnel ; on ne peut pas se contenter d'un seul chiffre, mais il faut l'évaluer en combinant les capacités du système, la difficulté de la tâche et le coût de l'erreur.

Développons cela en quatre niveaux :

I. Le taux de précision n'est pas simplement "bonne ou mauvaise réponse"

Les problèmes de classification traditionnels (comme la reconnaissance d'images) ont un taux de précision clair. Mais pour les systèmes de questions-réponses, les dimensions de subdivision courantes incluent :

Dimension	Signification	Exemple d'évaluation
Taux de succès de la récupération	Le système parvient-il à retrouver dans la base de connaissances le bloc de document contenant la bonne réponse ?	L'utilisateur demande "le chiffre d'affaires 2024 de la société A", le système retrouve-t-il le passage du rapport financier contenant ces données ?
Fidélité de la génération	La réponse générée par le modèle est-elle strictement basée sur le contenu récupéré, sans inventer ?	Les données récupérées ne mentionnent pas le "taux de croissance", mais le modèle dit "a augmenté de 5%" → infidèle
Exactitude de la réponse	La réponse finale correspond-elle aux faits (ou à la réponse de référence) ?	La bonne réponse est "4,2 milliards", le modèle sort "4,2 milliards" ou "environ 4,2 milliards de yuans" peut être considéré correct
Taux de refus	Lorsque la base de connaissances ne contient pas d'information pertinente, le système peut-il dire "je ne sais pas" plutôt que de deviner ?	Lorsque la récupération est vide ou la confiance faible, sortir "Désolé, aucune information trouvée"

Un système peut avoir un taux de succès de récupération très élevé (trouver toujours le paragraphe pertinent), mais une fidélité de génération très faible (toujours en rajouter), et au final le taux de précision reste mauvais. Par conséquent, pour évaluer le taux de précision, il faut d'abord préciser quelle étape vous mesurez.

II. Dans l'état actuel de la technologie, quel taux de précision peut atteindre un système RAG ?

Il n'y a pas de chiffre unique, mais on peut se référer à certaines recherches et pratiques publiques :

Questions factuelles simples (saut unique, la réponse apparaît directement dans un passage) :
Taux de succès de la récupération : 90-98% (selon la qualité de la base de connaissances et le récupérateur), fidélité de génération : 95%+ avec des prompts bien conçus, taux de précision global : entre 85-95%.
Raisonnement multi-sauts (nécessite de combiner des informations de deux passages ou plus) :
Le taux de précision de la récupération chute à 50-70%, l'exactitude de la réponse générée peut n'être que de 40-60%. C'est actuellement la principale difficulté du RAG.
Domaine ouvert + base de connaissances bruitée (comme des pages web massives) :
Le taux de précision diminue significativement car la récupération peut introduire du bruit et le modèle est facilement perturbé.

Conclusion : Dans un environnement contrôlé (propre, structuré, granularité de document appropriée), le RAG peut atteindre plus de 90% de précision ; mais dans des scénarios complexes, ouverts, nécessitant un raisonnement multi-étapes, le taux de précision est souvent insatisfaisant et nécessite beaucoup d'optimisation.

III. Facteurs clés influençant le taux de précision

Si vous constatez que le taux de précision de votre système RAG n'est pas idéal, vous pouvez généralement examiner les quatre maillons suivants :

La base de connaissances elle-même
Les données sont-elles obsolètes, incomplètes, voire erronées ?
Les documents sont-ils désorganisés (par exemple, des scans non OCR, des tableaux fragmentés en caractères brouillés) ?
Découpage et indexation
Blocs de texte trop courts → perte de contexte ; trop longs → bruit parasite.
Le modèle d'embedding est-il adapté à votre domaine (un modèle général peut mal performer sur des termes juridiques) ?
Stratégie de récupération
Utiliser uniquement la récupération vectorielle peut ignorer des mots-clés précis (comme des numéros de produit).
L'absence de re-ranking peut laisser des résultats non pertinents dans les premières positions.
Étape de génération
Le prompt demande-t-il explicitement "répondre uniquement sur la base des documents fournis, refuser si insuffisant" ?
La capacité du modèle est-elle suffisante (les petits modèles ont du mal à saisir les détails dans un long contexte) ?

Une idée fausse courante : attribuer un faible taux de précision directement à une capacité insuffisante du LLM, alors qu'en réalité la plupart des problèmes viennent de la "récupération" et de la "conception du prompt".

IV. Comment "percevoir" correctement le taux de précision – quelques attitudes clés dans la pratique

1. Fixer des repères et des attentes raisonnables

Pour les domaines à haut risque (diagnostic médical, conseils juridiques), 90% de précision est encore loin d'être suffisant ; une vérification humaine ou une validation multiple est nécessaire.
Pour les scénarios à faible risque (support client basique, recherche de connaissances internes), 80% de précision avec une réponse amicale "je ne sais pas" peut déjà considérablement améliorer l'efficacité.

2. Ne pas viser 100%, mais viser un "taux de précision vérifiable"

Faire en sorte que le système joigne automatiquement les sources (quel article, quel paragraphe a été cité).
L'utilisateur peut voir le texte original et vérifier par lui-même ; même si la réponse est parfois erronée, la transparence établit la confiance.
Ajouter un score de confiance ; en cas de faible score, signaler activement "cette réponse est peu fiable, veuillez consulter le document original".

3. Considérer le taux de précision comme un objet d'optimisation continue, pas un objectif ponctuel

Mettre en place un pipeline d'évaluation : extraire régulièrement un ensemble de questions annotées manuellement, évaluer automatiquement le taux de succès de la récupération et la fidélité de la génération.
Utiliser des outils comme RAGAS, TruLens pour une évaluation systématique, plutôt que de se fier à quelques cas.
Ajuster en fonction des cas d'échec : méthode de découpage, paramètres du récupérateur, modèle de re-ranking, prompt.

4. Distinguer "erreur système" et "désaccord avec les normes humaines"

Parfois, la réponse donnée par le système diffère de ce que l'utilisateur attend, mais elle est correcte selon les informations de la base de connaissances (car la base elle-même a des limites ou des controverses).
Il faut alors définir : le taux de précision se base-t-il sur les "faits de la base de connaissances" ou sur les "faits reconnus en externe" ?

Résumé final

Le taux de précision d'un système de questions-réponses n'est pas un indicateur de score maximal statique, mais une valeur de capacité composite reflétant la "couverture des connaissances + précision de la récupération + fidélité de la génération + capacité de refus". Pour l'appréhender, il faut à la fois reconnaître rationnellement que la technologie actuelle ne peut pas atteindre la perfection, et aussi concevoir des mécanismes comme le traçage des sources, les indications de confiance, la collaboration homme-machine, pour qu'il apporte une valeur réelle en entreprise.