Série AI - Entrevista 9: Como Avaliar a Acurácia de Sistemas de Perguntas e Respostas de Conhecimento?
A acurácia é a linha vital central de sistemas de perguntas e respostas de conhecimento, especialmente quando se tenta aplicá-los em cenários sérios (como medicina, direito, suporte interno de empresas). Minha opinião pode ser resumida como: Acurácia é um conceito multidimensional; não se deve olhar apenas para um único número, mas avaliar combinando a capacidade do sistema, a dificuldade da tarefa e o custo do erro.
Abaixo, vou expandir em quatro níveis:
1. Acurácia não é apenas "certo/errado"
Em problemas de classificação tradicionais (como reconhecimento de imagem), a acurácia é clara. Mas em sistemas de perguntas e respostas de conhecimento, as dimensões comuns incluem:
| Dimensão | Significado | Exemplo de Avaliação |
|---|---|---|
| Taxa de acerto de recuperação | O sistema consegue recuperar da base de conhecimento os trechos de documento que contêm a resposta correta? | Usuário pergunta "Receita da Empresa A em 2024", o sistema consegue recuperar o trecho do relatório financeiro que contém esse dado? |
| Fidelidade de geração | A resposta gerada pelo modelo é estritamente baseada no conteúdo recuperado, não inventada? | Material recuperado não mencionou "taxa de crescimento", mas o modelo diz "cresceu 5%" → não fiel |
| Corretude da resposta | A resposta final corresponde ao fato (ou referência)? | Resposta correta é "42 bilhões", modelo gera "42 bilhões" ou "cerca de 42 bilhões de yuans" – ambos corretos |
| Taxa de recusa | Quando a base de conhecimento não tem informação relevante, o sistema pode dizer "não sei" em vez de adivinhar? | Recuperação vazia ou confiança baixa, gera "Desculpe, nenhuma informação relevante encontrada" |
Um sistema pode ter uma alta taxa de acerto de recuperação (sempre encontra parágrafos relevantes), mas baixa fidelidade de geração (sempre acrescenta detalhes), e ainda assim a acurácia final será baixa. Portanto, ao avaliar a acurácia, primeiro defina qual etapa você está medindo.
2. Sob a tecnologia atual, qual a acurácia dos sistemas RAG?
Não há um número único, mas podemos consultar algumas pesquisas e práticas públicas:
- Perguntas factuais simples (salto único, resposta aparece diretamente em um trecho):
Taxa de acerto de recuperação pode chegar a 90-98% (dependendo da qualidade da base e do recuperador), fidelidade de geração pode superar 95% com prompts bem projetados, e a acurácia global pode ficar entre 85-95%. - Raciocínio multissalto (precisa combinar informações de dois ou mais trechos diferentes):
Acurácia de recuperação cai drasticamente para 50-70%, e a corretude da resposta final pode ser de apenas 40-60%. Este é o principal desafio do RAG atualmente. - Domínio aberto + base ruidosa (como páginas da web em grande escala):
A acurácia cai significativamente, pois a recuperação pode introduzir ruído, e o modelo é facilmente perturbado.
Conclusão: Em ambientes controlados (base limpa, estruturada, granularidade de documento adequada), o RAG pode alcançar mais de 90% de acurácia; mas em cenários complexos, abertos e que exigem raciocínio em múltiplas etapas, a acurácia muitas vezes é insatisfatória, exigindo muita otimização.
3. Fatores-chave que afetam a acurácia
Se você achar que a acurácia do seu sistema RAG não é ideal, geralmente pode investigar a partir destas quatro etapas:
- A própria base de conhecimento
- Os dados estão desatualizados, incompletos ou até com erros?
-
Os documentos estão confusos (por exemplo, digitalizações não OCR, tabelas quebradas em caracteres ilegíveis)?
-
Segmentação e indexação
- Pedaços de texto muito curtos → perda de contexto; muito longos → ruído.
-
O modelo de incorporação é adequado para o seu domínio (modelos gerais podem ter desempenho ruim em termos jurídicos)?
-
Estratégia de recuperação
- Apenas recuperação vetorial pode ignorar palavras-chave exatas (como números de modelo de produto).
-
Falta de rerank pode introduzir conteúdo irrelevante nos primeiros resultados.
-
Etapa de geração
- O prompt instrui claramente "responda apenas com base no material fornecido, recuse se insuficiente"?
- A capacidade do modelo é suficiente (modelos pequenos tendem a ignorar detalhes em contextos longos)?
Um equívoco comum: atribuir baixa acurácia diretamente à insuficiência do LLM, quando na verdade a maioria dos problemas está na "recuperação" e no "design do prompt".
4. Como "avaliar" a acurácia corretamente – algumas atitudes-chave na prática
1. Defina benchmarks e expectativas razoáveis
- Para domínios de alto risco (diagnóstico médico, aconselhamento jurídico), 90% de acurácia é insuficiente; é necessário introduzir revisão humana ou verificação múltipla.
- Para cenários de baixo risco (atendimento ao cliente, busca interna de conhecimento), 80% de acurácia combinada com uma resposta amigável de "não sei" já pode aumentar significativamente a eficiência.
2. Não busque 100%, mas sim "acurácia verificável"
- Faça o sistema automaticamente anexar fontes (qual artigo, qual trecho foi citado).
O usuário pode ver o original e verificar por si mesmo; mesmo que a resposta ocasionalmente erre, a transparência constrói confiança. - Adicione pontuação de confiança, e quando baixa, indique ativamente "esta resposta tem baixa confiabilidade, consulte o documento original".
3. Trate a acurácia como alvo de melhoria contínua, não como meta única
- Estabeleça um pipeline de avaliação: extraia periodicamente um conjunto de perguntas anotadas manualmente e avalie automaticamente a taxa de acerto de recuperação e a fidelidade de geração.
- Use ferramentas como RAGAS, TruLens para avaliação sistemática, em vez de decisões baseadas em alguns casos isolados.
- Ajuste continuamente com base em casos ruins: método de segmentação, parâmetros do recuperador, modelo de rerank, prompt.
4. Distinga entre "erro do sistema" e "inconsistência com padrão humano"
- Às vezes, a resposta do sistema difere da expectativa do usuário, mas está correta de acordo com a base de conhecimento (porque a base tem limitações ou controvérsias).
Nesse caso, defina: a acurácia é baseada nos "fatos da base de conhecimento" ou nos "fatos externos aceitos pela sociedade"?
Resumo final
A acurácia de sistemas de perguntas e respostas de conhecimento não é um indicador estático de nota máxima, mas sim um valor de capacidade abrangente que reflete "cobertura de conhecimento + precisão de recuperação + fidelidade de geração + capacidade de recusa". Ao avaliá-la, é necessário reconhecer racionalmente que a tecnologia atual não pode alcançar a perfeição, mas também, por meio de designs como rastreamento de fontes, dicas de confiança e colaboração homem-máquina, realmente trazer valor ao negócio.
评论
暂无已展示的评论。
发表评论(匿名)