AI系列面试9：怎么看待知识问答系统的准确率？

准确率是知识问答系统的核心生命线，尤其当你试图将其应用于严肃场景（如医疗、法律、企业内部支撑）时。我的看法可以概括为：准确率是一个多维度的概念，不能只看单一数字，而要结合系统能力、任务难度和容错成本来综合评估。

下面从四个层面展开：

传统分类问题（如图像识别）的准确率是清晰的。但知识问答系统不同，常见的细分维度包括：

维度	含义	评估示例
检索命中率	系统是否能从知识库中找回包含正确答案的文档块？	用户问“A公司2024年营收”，系统能否检索到包含该数据的那段财报？
生成忠实度	模型生成的答案是否严格基于检索到的内容，而不是自己编造？	检索资料没提“增长率”，模型却说“增长了5%” → 不忠实
答案正确性	最终答案与事实（或参考答案）是否一致？	正确答案是“42亿”，模型输出“42亿”或“约42亿元人民币”都可算正确
拒答率	当知识库中没有相关信息时，系统能否主动说“不知道”，而不是瞎猜？	检索为空或置信度低时，输出“抱歉，未找到相关信息”

一个系统可能在检索命中率上很高（永远能找到相关段落），但生成忠实度很低（总是添油加醋），最终准确率依然差。 因此，看待准确率要先明确你衡量的是哪个环节。

没有统一数字，但可以参考一些公开研究和实践：

简单事实型问答（单跳，答案直接出现在一段资料中）：
检索命中率可达 90-98%（取决于知识库质量和检索器），生成忠实度在精心设计的提示下可达 95%+，综合准确率可以在 85-95% 之间。
多跳推理（需要组合两段以上不同资料中的信息）：
检索准确率骤降至 50-70%，生成答案正确性可能只有 40-60%。这是目前RAG的主要难点。
开放域 + 嘈杂知识库（如海量网页）：
准确率会显著下降，因为检索可能引入噪声，模型容易受干扰。

结论：在受控环境（干净、结构化、文档粒度合适）下，RAG可以做到90%以上的准确率；但在复杂、开放、需要多步推理的场景，准确率往往不尽人意，需要大量优化。

如果你发现自己的RAG系统准确率不理想，通常可以从以下四个环节排查：

一个常见的误区：把低准确率直接归咎于LLM能力不足，但实际上大部分问题出在“检索”和“提示设计”上。

有时候系统给出的答案与用户预期不同，但按照知识库内的资料其实是正确的（因为知识库本身有局限或争议）。
这时需要界定：准确率是以“知识库事实”为准，还是以“外部公认事实”为准？

知识问答系统的准确率不是一个静态的满分指标，而是一个体现“知识覆盖 + 检索精度 + 生成忠实度 + 拒答能力”的综合能力值。 看待它时，既要理性认识到当前技术无法做到完美，也要通过引用溯源、置信度提示、人机协同等设计，在业务中实际发挥价值。

评论