AI 시리즈 면접 9: 지식 질의응답 시스템의 정확도를 어떻게 볼 것인가?

정확도는 지식 질의응답 시스템의 핵심 생명선이며, 특히 이를 의료, 법률, 기업 내부 지원 등 진지한场景에 적용하려 할 때 더욱 그렇다. 내 견해는 다음과 같이 요약할 수 있다: 정확도는 다차원적인 개념으로, 단일 숫자만 보지 말고 시스템 역량, 작업 난이도, 오류 허용 비용을 종합적으로 평가해야 한다.

아래에서 네 가지 측면으로 설명하겠다:

1. 정확도는 단순히 '맞음/틀림' 이상이다

전통적인 분류 문제(예: 이미지 인식)의 정확도는 명확하다. 그러나 지식 질의응답 시스템은 다르다. 일반적인 세분화 차원은 다음과 같다:

차원	의미	평가 예시
검색 적중률	시스템이 지식 베이스에서 정답이 포함된 문서 청크를 찾을 수 있는가?	사용자가 "A사 2024년 매출"을 물었을 때, 시스템이 해당 데이터가 포함된 재무 보고서 부분을 검색할 수 있는가?
생성 충실도	모델이 생성한 답변이 검색된 내용에 엄격히 기반하는가, 아니면 스스로 지어내는가?	검색 자료에 "성장률"이 없는데 모델이 "5% 증가"라고 말하면 → 불충실
답변 정확성	최종 답변이 사실(또는 참조 답변)과 일치하는가?	정답이 "42억"일 때, 모델이 "42억" 또는 "약 42억 위안"이라고 출력해도 정답으로 간주 가능
거절률	지식 베이스에 관련 정보가 없을 때, 시스템이 추측하지 않고 모른다고 말할 수 있는가?	검색 결과가 없거나 신뢰도가 낮을 때 "죄송합니다, 관련 정보를 찾을 수 없습니다" 출력

한 시스템은 검색 적중률이 매우 높을 수 있지만(항상 관련 단락을 찾음), 생성 충실도가 매우 낮다면(항상 과장함) 최종 정확도는 여전히 낮다. 따라서 정확도를 볼 때는 먼저 어떤 단계를 측정하는지 명확히 해야 한다.

2. 현재 기술 수준에서 RAG 시스템의 정확도는 얼마나 될까?

통일된 숫자는 없지만, 일부 공개 연구와 실무를 참고할 수 있다:

단순 사실 기반 질의응답(단일 홉, 답변이 한 자료에 직접 나타남):
검색 적중률 90-98%(지식 베이스 품질과 검색기에 따라 다름), 생성 충실도는 잘 설계된 프롬프트에서 95%+ 가능, 종합 정확도는 85-95% 사이.
다중 홉 추론(두 개 이상의 다른 자료 정보를 조합 필요):
검색 정확도가 50-70%로 급감, 생성 답변 정확도는 40-60%에 불과할 수 있음. 이것이 현재 RAG의 주요 난제이다.
개방형 도메인 + 잡음 있는 지식 베이스(예: 방대한 웹 페이지):
정확도가 현저히 떨어지는데, 검색이 잡음을 유입하고 모델이 쉽게 간섭받기 때문이다.

결론: 통제된 환경(깨끗하고 구조화된 문서, 적절한 청크 크기)에서는 RAG가 90% 이상의 정확도를 달성할 수 있지만, 복잡하고 개방적이며 다단계 추론이 필요한 시나리오에서는 정확도가 종종 만족스럽지 못하며 많은 최적화가 필요하다.

3. 정확도에 영향을 미치는 핵심 요인

RAG 시스템의 정확도가理想적이지 않다면, 일반적으로 다음 네 가지环节을 점검할 수 있다:

지식 베이스 자체
데이터가 오래되었거나, 불완전하거나, 오류가 있는가?
문서가 엉망인가(예: 스캔본이 OCR 처리되지 않음, 표가 깨짐)?
분할 및 인덱싱
텍스트 청크를 너무 짧게 자르면 → 컨텍스트 손실; 너무 길게 자르면 → 잡음 혼입.
임베딩 모델이 해당 도메인에 적합한가?(범용 모델은 법률 용어에서 성능이 나쁠 수 있음)?
검색 전략
벡터 검색만 사용하면 정확한 키워드(예: 제품 모델)를 놓칠 수 있음.
재순위화를 하지 않아 상위 결과에 관련 없는 내용이 섞일 수 있음.
생성环节
프롬프트가 "제공된 자료만 바탕으로 답변하고, 부족하면 거절하라"고 명확히 요구하는가?
모델 능력이 충분한가?(작은 모델은 긴 컨텍스트의 세부 사항을 놓치기 쉬움)?

흔한 오해: 낮은 정확도를 LLM 능력 부족 탓으로 돌리지만, 실제로는 대부분 '검색'과 '프롬프트 디자인'에 문제가 있다.

4. 정확도를 '올바르게 보는' 방법 – 실무에서의 몇 가지 핵심 태도

1. 합리적인 기준과 기대치 설정

고위험 분야(의료 진단, 법률 조언)에서는 90% 정확도로도 충분하지 않으며, 반드시 인간 검토 또는 다중 검증 도입 필요.
저위험 시나리오(고객 지원 기본 응대, 내부 지식 검색)에서는 80% 정확도와 친절한 '모름' 응답만으로도 효율성을 크게 높일 수 있음.

2. 100%를 추구하지 말고 '검증 가능한 정확도'를 추구하라

시스템이 자동으로 출처를 첨부하도록 하라(어떤 문서, 어떤 단락을 인용했는지).
사용자가 원문을 직접 확인할 수 있고, 답변이 가끔 틀리더라도 투명성이 신뢰를 구축할 수 있다.
신뢰도 점수를 추가하고, 낮은 점수일 때 "이 답변의 신뢰도가 낮습니다. 원본 문서를 확인하시기 바랍니다"라고 안내하라.

3. 정확도를 일회성 목표가 아닌 지속적인 최적화 대상으로 삼아라

평가 파이프라인 구축: 정기적으로 인공 주석이 달린 질문 샘플을 추출하여 검색 적중률과 생성 충실도를 자동 평가.
RAGAS, TruLens 등 도구를 사용하여 체계적으로 평가하고, 몇 가지 사례만 보고 판단하지 말라.
Bad case를 기반으로 지속적으로 조정: 분할 방식, 검색기 파라미터, 재순위화 모델, 프롬프트.

4. '시스템 오류'와 '인간 기준 불일치'를 구분하라

때로 시스템이 제시한 답변이 사용자 기대와 다르지만, 지식 베이스 내 자료에 따르면 사실 정답인 경우가 있다(지식 베이스 자체에 한계나 논쟁이 있기 때문).
이 경우 정확도의 기준을 '지식 베이스 사실'로 할지, '외부 공인 사실'로 할지界定해야 한다.

마지막 요약

지식 질의응답 시스템의 정확도는 정적인 만점 지표가 아니라, '지식 범위 + 검색 정밀도 + 생성 충실도 + 거절 능력'을 종합한 능력 값이다. 이를 볼 때는 현재 기술이 완벽할 수 없음을 합리적으로 인식하는 동시에, 출처 추적, 신뢰도 표시, 인간-기계 협업 등의 설계를 통해 업무에서 실제 가치를 발휘하도록 해야 한다.