Phỏng vấn series AI 9: Làm thế nào để đánh giá độ chính xác của hệ thống hỏi đáp kiến thức?

Độ chính xác là huyết mạch cốt lõi của hệ thống hỏi đáp kiến thức, đặc biệt khi bạn cố gắng áp dụng nó vào các tình huống nghiêm trọng (như y tế, pháp luật, hỗ trợ nội bộ doanh nghiệp). Quan điểm của tôi có thể tóm gọn: Độ chính xác là một khái niệm đa chiều, không thể chỉ nhìn vào một con số, mà cần kết hợp khả năng hệ thống, độ khó nhiệm vụ và chi phí sai sót để đánh giá tổng thể.

Dưới đây, tôi triển khai theo bốn khía cạnh:

1. Độ chính xác không chỉ đơn giản là "đúng/sai"

Các bài toán phân loại truyền thống (như nhận dạng hình ảnh) có độ chính xác rõ ràng. Nhưng hệ thống hỏi đáp kiến thức khác, các khía cạnh phân chia phổ biến bao gồm:

Khía cạnh	Ý nghĩa	Ví dụ đánh giá
Tỷ lệ truy xuất trúng	Hệ thống có thể tìm lại được đoạn tài liệu chứa câu trả lời đúng từ cơ sở tri thức không?	Người dùng hỏi "Doanh thu năm 2024 của công ty A", hệ thống có truy xuất được đoạn báo cáo tài chính chứa số liệu đó không?
Độ trung thực sinh	Câu trả lời do mô hình tạo ra có dựa chặt chẽ vào nội dung truy xuất được, thay vì tự bịa không?	Tài liệu truy xuất không đề cập "tỷ lệ tăng trưởng", nhưng mô hình nói "tăng 5%" → không trung thực
Tính đúng đắn của câu trả lời	Câu trả lời cuối cùng có khớp với sự thật (hoặc đáp án tham khảo) không?	Đáp án đúng là "4.2 tỷ", mô hình xuất "4.2 tỷ" hoặc "khoảng 4.2 tỷ nhân dân tệ" đều coi là đúng
Tỷ lệ từ chối	Khi cơ sở tri thức không có thông tin liên quan, hệ thống có thể chủ động nói "không biết" thay vì đoán mò không?	Khi truy xuất rỗng hoặc độ tin cậy thấp, xuất "Xin lỗi, không tìm thấy thông tin liên quan"

Một hệ thống có tỷ lệ truy xuất trúng rất cao (luôn tìm được đoạn liên quan), nhưng độ trung thực sinh rất thấp (luôn thêm thắt), thì cuối cùng độ chính xác vẫn kém. Do đó, khi đánh giá độ chính xác, cần xác định rõ bạn đang đo lường khâu nào.

2. Với trình độ công nghệ hiện tại, độ chính xác của hệ thống RAG có thể đạt bao nhiêu?

Không có con số thống nhất, nhưng có thể tham khảo một số nghiên cứu và thực tiễn công khai:

Hỏi đáp dạng sự kiện đơn giản (một bước, câu trả lời xuất hiện trực tiếp trong một đoạn tài liệu):
Tỷ lệ truy xuất trúng có thể đạt 90-98% (phụ thuộc chất lượng cơ sở tri thức và bộ truy xuất), độ trung thực sinh dưới prompt được thiết kế cẩn thận có thể đạt 95%+, độ chính xác tổng hợp có thể nằm trong khoảng 85-95%.
Suy luận đa bước (cần kết hợp thông tin từ hai hoặc nhiều đoạn tài liệu khác nhau):
Độ chính xác truy xuất giảm mạnh xuống 50-70%, tính đúng đắn của câu trả lời sinh ra chỉ có thể 40-60%. Đây là khó khăn chính của RAG hiện tại.
Miền mở + cơ sở tri thức nhiễu (như hàng triệu trang web):
Độ chính xác sẽ giảm đáng kể, vì truy xuất có thể đưa vào nhiễu, mô hình dễ bị ảnh hưởng.

Kết luận: Trong môi trường kiểm soát được (dữ liệu sạch, có cấu trúc, kích thước tài liệu phù hợp), RAG có thể đạt độ chính xác trên 90%; nhưng trong các kịch bản phức tạp, mở, cần suy luận nhiều bước, độ chính xác thường không như ý, cần tối ưu nhiều.

3. Các yếu tố cốt lõi ảnh hưởng đến độ chính xác

Nếu bạn phát hiện độ chính xác của hệ thống RAG của mình không lý tưởng, thường có thể kiểm tra từ bốn khâu sau:

Bản thân cơ sở tri thức
Dữ liệu có lỗi thời, không đầy đủ, thậm chí có sai sót không?
Tài liệu có bị lộn xộn không (ví dụ bản scan chưa OCR, bảng bị vỡ thành mã lộn)?
Chia đoạn và lập chỉ mục
Khối văn bản cắt quá ngắn → mất ngữ cảnh; cắt quá dài → lẫn tạp nhiễu.
Mô hình embedding có phù hợp với lĩnh vực của bạn không (mô hình đa năng có thể hoạt động kém trên các thuật ngữ pháp lý)?
Chiến lược truy xuất
Chỉ sử dụng truy xuất vector có thể bỏ qua các từ khóa chính xác (như mã sản phẩm).
Không tăng cường sắp xếp lại dẫn đến kết quả đầu trộn lẫn nội dung không liên quan.
Khâu sinh
Prompt có yêu cầu rõ ràng "chỉ trả lời dựa trên tài liệu được cung cấp, không đủ thì từ chối" không?
Năng lực mô hình có đủ không (mô hình nhỏ dễ bỏ qua chi tiết trong ngữ cảnh dài)?

Một hiểu lầm phổ biến: Đổ lỗi cho năng lực LLM khi độ chính xác thấp, nhưng thực tế phần lớn vấn đề nằm ở khâu "truy xuất" và "thiết kế prompt".

4. Cách "nhìn nhận" độ chính xác đúng đắn – một số thái độ quan trọng trong thực tế

1. Đặt ra cơ sở và kỳ vọng hợp lý

Đối với lĩnh vực rủi ro cao (chẩn đoán y tế, tư vấn pháp luật), độ chính xác 90% vẫn là chưa đủ, phải đưa vào kiểm duyệt thủ công hoặc xác minh nhiều lớp.
Đối với kịch bản rủi ro thấp (hỗ trợ khách hàng cơ bản, tìm kiếm kiến thức nội bộ), độ chính xác 80% cùng với phản hồi "không biết" thân thiện có thể đã cải thiện hiệu suất đáng kể.

2. Không theo đuổi 100%, mà theo đuổi "độ chính xác có thể kiểm chứng"

Cho hệ thống tự động đính kèm nguồn trích dẫn (trích dẫn bài viết nào, đoạn nào).
Người dùng có thể xem bản gốc để tự kiểm tra, ngay cả khi câu trả lời thỉnh thoảng sai, tính minh bạch vẫn xây dựng được lòng tin.
Thêm điểm số tin cậy, khi điểm thấp hãy chủ động nhắc "Câu trả lời này có độ tin cậy thấp, khuyến nghị bạn tham khảo tài liệu gốc".

3. Coi độ chính xác là đối tượng tối ưu liên tục, chứ không phải mục tiêu một lần

Xây dựng quy trình đánh giá: định kỳ lấy một mẫu câu hỏi được gán nhãn thủ công, tự động đánh giá tỷ lệ truy xuất trúng và độ trung thực sinh.
Sử dụng các công cụ như RAGAS, TruLens để đánh giá hệ thống, không chỉ dựa vào vài case để phán đoán.
Dựa trên bad case để liên tục điều chỉnh: cách chia đoạn, tham số bộ truy xuất, mô hình sắp xếp lại, prompt.

4. Phân biệt "lỗi hệ thống" và "sự khác biệt với tiêu chuẩn con người"

Đôi khi câu trả lời của hệ thống khác với kỳ vọng của người dùng, nhưng theo tài liệu trong cơ sở tri thức thì thực sự đúng (vì cơ sở tri thức có hạn chế hoặc tranh cãi).
Lúc này cần xác định: độ chính xác lấy "sự thật trong cơ sở tri thức" làm chuẩn, hay "sự thật được công nhận bên ngoài" làm chuẩn?

Tổng kết

Độ chính xác của hệ thống hỏi đáp kiến thức không phải là một chỉ số tĩnh hoàn hảo, mà là một giá trị năng lực tổng hợp thể hiện 'phủ kiến thức + độ chính xác truy xuất + độ trung thực sinh + khả năng từ chối'. Khi nhìn nhận nó, vừa phải nhận thức lý tính rằng công nghệ hiện tại không thể hoàn hảo, vừa phải thông qua các thiết kế như dẫn nguồn, gợi ý độ tin cậy, cộng tác người-máy để phát huy giá trị thực tế trong kinh doanh.