Série AI - Entrevista 9: Como Avaliar a Acurácia de Sistemas de Perguntas e Respostas de Conhecimento?

A acurácia é a linha vital central de sistemas de perguntas e respostas de conhecimento, especialmente quando se tenta aplicá-los em cenários sérios (como medicina, direito, suporte interno de empresas). Minha opinião pode ser resumida como: Acurácia é um conceito multidimensional; não se deve olhar apenas para um único número, mas avaliar combinando a capacidade do sistema, a dificuldade da tarefa e o custo do erro.

Abaixo, vou expandir em quatro níveis:

1. Acurácia não é apenas "certo/errado"

Em problemas de classificação tradicionais (como reconhecimento de imagem), a acurácia é clara. Mas em sistemas de perguntas e respostas de conhecimento, as dimensões comuns incluem:

Dimensão	Significado	Exemplo de Avaliação
Taxa de acerto de recuperação	O sistema consegue recuperar da base de conhecimento os trechos de documento que contêm a resposta correta?	Usuário pergunta "Receita da Empresa A em 2024", o sistema consegue recuperar o trecho do relatório financeiro que contém esse dado?
Fidelidade de geração	A resposta gerada pelo modelo é estritamente baseada no conteúdo recuperado, não inventada?	Material recuperado não mencionou "taxa de crescimento", mas o modelo diz "cresceu 5%" → não fiel
Corretude da resposta	A resposta final corresponde ao fato (ou referência)?	Resposta correta é "42 bilhões", modelo gera "42 bilhões" ou "cerca de 42 bilhões de yuans" – ambos corretos
Taxa de recusa	Quando a base de conhecimento não tem informação relevante, o sistema pode dizer "não sei" em vez de adivinhar?	Recuperação vazia ou confiança baixa, gera "Desculpe, nenhuma informação relevante encontrada"

Um sistema pode ter uma alta taxa de acerto de recuperação (sempre encontra parágrafos relevantes), mas baixa fidelidade de geração (sempre acrescenta detalhes), e ainda assim a acurácia final será baixa. Portanto, ao avaliar a acurácia, primeiro defina qual etapa você está medindo.

2. Sob a tecnologia atual, qual a acurácia dos sistemas RAG?

Não há um número único, mas podemos consultar algumas pesquisas e práticas públicas:

Perguntas factuais simples (salto único, resposta aparece diretamente em um trecho):
Taxa de acerto de recuperação pode chegar a 90-98% (dependendo da qualidade da base e do recuperador), fidelidade de geração pode superar 95% com prompts bem projetados, e a acurácia global pode ficar entre 85-95%.
Raciocínio multissalto (precisa combinar informações de dois ou mais trechos diferentes):
Acurácia de recuperação cai drasticamente para 50-70%, e a corretude da resposta final pode ser de apenas 40-60%. Este é o principal desafio do RAG atualmente.
Domínio aberto + base ruidosa (como páginas da web em grande escala):
A acurácia cai significativamente, pois a recuperação pode introduzir ruído, e o modelo é facilmente perturbado.

Conclusão: Em ambientes controlados (base limpa, estruturada, granularidade de documento adequada), o RAG pode alcançar mais de 90% de acurácia; mas em cenários complexos, abertos e que exigem raciocínio em múltiplas etapas, a acurácia muitas vezes é insatisfatória, exigindo muita otimização.

3. Fatores-chave que afetam a acurácia

Se você achar que a acurácia do seu sistema RAG não é ideal, geralmente pode investigar a partir destas quatro etapas:

A própria base de conhecimento
Os dados estão desatualizados, incompletos ou até com erros?
Os documentos estão confusos (por exemplo, digitalizações não OCR, tabelas quebradas em caracteres ilegíveis)?
Segmentação e indexação
Pedaços de texto muito curtos → perda de contexto; muito longos → ruído.
O modelo de incorporação é adequado para o seu domínio (modelos gerais podem ter desempenho ruim em termos jurídicos)?
Estratégia de recuperação
Apenas recuperação vetorial pode ignorar palavras-chave exatas (como números de modelo de produto).
Falta de rerank pode introduzir conteúdo irrelevante nos primeiros resultados.
Etapa de geração
O prompt instrui claramente "responda apenas com base no material fornecido, recuse se insuficiente"?
A capacidade do modelo é suficiente (modelos pequenos tendem a ignorar detalhes em contextos longos)?

Um equívoco comum: atribuir baixa acurácia diretamente à insuficiência do LLM, quando na verdade a maioria dos problemas está na "recuperação" e no "design do prompt".

4. Como "avaliar" a acurácia corretamente – algumas atitudes-chave na prática

1. Defina benchmarks e expectativas razoáveis

Para domínios de alto risco (diagnóstico médico, aconselhamento jurídico), 90% de acurácia é insuficiente; é necessário introduzir revisão humana ou verificação múltipla.
Para cenários de baixo risco (atendimento ao cliente, busca interna de conhecimento), 80% de acurácia combinada com uma resposta amigável de "não sei" já pode aumentar significativamente a eficiência.

2. Não busque 100%, mas sim "acurácia verificável"

Faça o sistema automaticamente anexar fontes (qual artigo, qual trecho foi citado).
O usuário pode ver o original e verificar por si mesmo; mesmo que a resposta ocasionalmente erre, a transparência constrói confiança.
Adicione pontuação de confiança, e quando baixa, indique ativamente "esta resposta tem baixa confiabilidade, consulte o documento original".

3. Trate a acurácia como alvo de melhoria contínua, não como meta única

Estabeleça um pipeline de avaliação: extraia periodicamente um conjunto de perguntas anotadas manualmente e avalie automaticamente a taxa de acerto de recuperação e a fidelidade de geração.
Use ferramentas como RAGAS, TruLens para avaliação sistemática, em vez de decisões baseadas em alguns casos isolados.
Ajuste continuamente com base em casos ruins: método de segmentação, parâmetros do recuperador, modelo de rerank, prompt.

4. Distinga entre "erro do sistema" e "inconsistência com padrão humano"

Às vezes, a resposta do sistema difere da expectativa do usuário, mas está correta de acordo com a base de conhecimento (porque a base tem limitações ou controvérsias).
Nesse caso, defina: a acurácia é baseada nos "fatos da base de conhecimento" ou nos "fatos externos aceitos pela sociedade"?

Resumo final

A acurácia de sistemas de perguntas e respostas de conhecimento não é um indicador estático de nota máxima, mas sim um valor de capacidade abrangente que reflete "cobertura de conhecimento + precisão de recuperação + fidelidade de geração + capacidade de recusa". Ao avaliá-la, é necessário reconhecer racionalmente que a tecnologia atual não pode alcançar a perfeição, mas também, por meio de designs como rastreamento de fontes, dicas de confiança e colaboração homem-máquina, realmente trazer valor ao negócio.