Entrevista en la Serie de IA 9: ¿Cómo ver la precisión de los sistemas de preguntas y respuestas?

La precisión es el núcleo vital de un sistema de preguntas y respuestas, especialmente cuando se intenta aplicar en escenarios serios (como medicina, derecho, soporte interno de empresas). Mi opinión se puede resumir como: La precisión es un concepto multidimensional; no se puede mirar solo un número, sino que debe evaluarse combinando la capacidad del sistema, la dificultad de la tarea y el costo de tolerancia a errores.

A continuación, se desarrolla desde cuatro niveles:

I. La precisión no es simplemente "acertar/fallar"

En problemas de clasificación tradicionales (como reconocimiento de imágenes), la precisión es clara. Pero en sistemas de preguntas y respuestas de conocimiento, no es así. Las dimensiones comunes de desglose incluyen:

Dimensión	Significado	Ejemplo de evaluación
Tasa de acierto de recuperación	¿Puede el sistema recuperar el bloque de documento que contiene la respuesta correcta de la base de conocimiento?	El usuario pregunta "Ingresos de la empresa A en 2024", ¿puede el sistema recuperar el párrafo del informe financiero que contiene esos datos?
Fidelidad de generación	¿La respuesta generada por el modelo se basa estrictamente en el contenido recuperado, en lugar de inventar?	El material recuperado no menciona "tasa de crecimiento", pero el modelo dice "creció un 5%" → infiel
Corrección de la respuesta	¿La respuesta final coincide con los hechos (o la respuesta de referencia)?	La respuesta correcta es "4.2 mil millones", el modelo genera "4.2 mil millones" o "aproximadamente 4.2 mil millones de RMB" se considera correcto
Tasa de rechazo	Cuando no hay información relevante en la base de conocimiento, ¿el sistema puede decir activamente "no sé" en lugar de adivinar?	Cuando la recuperación está vacía o la confianza es baja, generar "Lo siento, no se encontró información relevante"

Un sistema puede tener una alta tasa de acierto de recuperación (siempre encuentra el párrafo relevante), pero baja fidelidad de generación (siempre añade detalles), y al final la precisión sigue siendo baja. Por lo tanto, al ver la precisión, primero hay que aclarar qué etapa se está midiendo.

II. Bajo el nivel técnico actual, ¿cuál puede ser la precisión de los sistemas RAG?

No hay una cifra uniforme, pero se pueden referir algunas investigaciones y prácticas públicas:

Preguntas simples de hechos (un solo salto, la respuesta aparece directamente en un párrafo):
Tasa de acierto de recuperación puede alcanzar 90-98% (dependiendo de la calidad de la base de conocimiento y el recuperador), fidelidad de generación bajo prompts cuidadosamente diseñados puede superar 95%, la precisión integral puede estar entre 85-95%.
Razonamiento de múltiples saltos (necesita combinar información de dos o más documentos diferentes):
La precisión de recuperación cae drásticamente a 50-70%, la corrección de la respuesta generada puede ser solo 40-60%. Esta es la principal dificultad actual de RAG.
Dominio abierto + base de conocimiento ruidosa (como páginas web masivas):
La precisión disminuye significativamente, porque la recuperación puede introducir ruido y el modelo es fácilmente perturbado.

Conclusión: En entornos controlados (datos limpios, estructurados, con granularidad adecuada), RAG puede lograr una precisión superior al 90%; pero en escenarios complejos, abiertos y que requieren razonamiento de múltiples pasos, la precisión a menudo es insatisfactoria y requiere mucha optimización.

III. Factores centrales que afectan la precisión

Si encuentras que la precisión de tu sistema RAG no es ideal, generalmente se puede revisar desde los siguientes cuatro eslabones:

La base de conocimiento en sí
¿Los datos están desactualizados, incompletos o incluso incorrectos?
¿Los documentos están desordenados (por ejemplo, escaneos sin OCR, tablas rotas en código basura)?
División e indexación
Bloques de texto demasiado cortos → pérdida de contexto; demasiado largos → ruido.
¿El modelo de embeddings es adecuado para tu dominio (modelos generales pueden funcionar mal en términos legales)?
Estrategia de recuperación
Solo usar recuperación vectorial puede ignorar palabras clave exactas (como modelos de productos).
No rerankear puede hacer que resultados irrelevantes se mezclen en los primeros puestos.
Etapa de generación
¿El prompt claramente requiere "responder solo según el material proporcionado; si no es suficiente, rechazar"?
¿La capacidad del modelo es suficiente (los modelos pequeños tienden a ignorar detalles en contextos largos)?

Un error común: Atribuir la baja precisión directamente a la capacidad insuficiente del LLM, pero en realidad la mayoría de los problemas están en la "recuperación" y el "diseño del prompt".

IV. Cómo "ver" correctamente la precisión: varias actitudes clave en la práctica

1. Establecer puntos de referencia y expectativas razonables

Para áreas de alto riesgo (diagnóstico médico, asesoramiento legal), incluso una precisión del 90% no es suficiente; se debe introducir revisión humana o verificación múltiple.
Para escenarios de bajo riesgo (atención al cliente, búsqueda interna de conocimiento), una precisión del 80% junto con una respuesta amigable de "no sé" puede mejorar significativamente la eficiencia.

2. No perseguir el 100%, sino la "precisión verificable"

Haz que el sistema adjunte automáticamente las fuentes citadas (qué artículo, qué párrafo).
El usuario puede ver el original y verificar por sí mismo; incluso si la respuesta ocasionalmente es incorrecta, la transparencia genera confianza.
Agrega puntuación de confianza; cuando sea baja, sugiere activamente "Esta respuesta tiene baja fiabilidad, se recomienda consultar el documento original".

3. Considerar la precisión como un objetivo de optimización continua, no un objetivo único

Establece un pipeline de evaluación: periódicamente extrae un lote de preguntas etiquetadas manualmente y evalúa automáticamente la tasa de acierto de recuperación y la fidelidad de generación.
Usa herramientas como RAGAS, TruLens para evaluación sistemática, en lugar de decidir basándose en unos pocos casos.
Ajusta según los casos malos: método de división, parámetros del recuperador, modelo de reranking, prompt.

4. Distinguir entre "error del sistema" e "inconsistencia con el estándar humano"

A veces la respuesta del sistema es diferente a la expectativa del usuario, pero según los datos en la base de conocimiento es correcta (porque la base de conocimiento tiene limitaciones o controversias).
En este caso, hay que definir: ¿la precisión se basa en los "hechos de la base de conocimiento" o en los "hechos aceptados externamente"?

Resumen final

La precisión de un sistema de preguntas y respuestas no es un índice estático de puntuación perfecta, sino un valor de capacidad integral que refleja "cobertura de conocimiento + precisión de recuperación + fidelidad de generación + capacidad de rechazo". Al verla, es necesario reconocer racionalmente que la tecnología actual no puede lograr la perfección, pero también diseñar mecanismos como citación de fuentes, indicación de confianza y colaboración hombre-máquina para que realmente tenga valor en el negocio.