Інтерв'ю серії AI 9: Як оцінювати точність систем запитань-відповідей?

Точність є ключовим показником життєздатності системи запитань-відповідей, особливо коли її намагаються застосувати в серйозних сценаріях (наприклад, медицина, юриспруденція, внутрішня підтримка підприємства). Мою думку можна узагальнити так: точність – це багатовимірне поняття, яке не можна оцінювати лише одним числом; її слід комплексно оцінювати, враховуючи можливості системи, складність завдання та вартість помилок.

Далі розглянемо чотири рівні:

1. Точність – це не просто "правильно/неправильно"

У традиційних задачах класифікації (наприклад, розпізнавання зображень) точність зрозуміла. Але в системах запитань-відповідей поширені такі виміри:

Вимір	Значення	Приклад оцінки
Точність пошуку	Чи може система знайти блок документу, що містить правильну відповідь, з бази знань?	Користувач питає "дохід компанії A за 2024 рік", чи зможе система знайти той фінансовий звіт, що містить ці дані?
Вірність генерації	Чи відповідь моделі строго базується на знайденому вмісті, а не вигадує?	У знайденому матеріалі не згадується "темп зростання", а модель каже "зріс на 5%" → невірно
Правильність відповіді	Чи збігається остаточна відповідь з фактами (або еталоном)?	Правильна відповідь "4,2 млрд", модель видає "4,2 млрд" або "близько 4,2 млрд юанів" – можна вважати правильним
Рівень відмов	Чи може система чесно сказати "не знаю", якщо інформації немає в базі знань, замість вгадувати?	Якщо пошук порожній або низька впевненість, вивести "Вибачте, не знайдено відповідної інформації"

Система може мати високу точність пошуку (завжди знаходити відповідні абзаци), але низьку вірність генерації (завжди додає від себе), і в підсумку загальна точність все одно низька. Тому, оцінюючи точність, слід чітко визначити, який саме етап вимірюється.

2. Якої точності можна досягти з RAG-системами за поточного рівня технологій?

Єдиної цифри немає, але можна спиратися на деякі відкриті дослідження та практику:

Прості фактичні запитання (один крок, відповідь безпосередньо в одному абзаці):
Точність пошуку може сягати 90-98% (залежно від якості бази знань і пошукового засобу), вірність генерації за умови добре налаштованого промпту – понад 95%, загальна точність – 85-95%.
Багатокрокові міркування (потрібно комбінувати інформацію з двох або більше різних джерел):
Точність пошуку різко падає до 50-70%, правильність відповіді може становити лише 40-60%. Це основна складність сучасних RAG.
Відкрита область + зашумлена база знань (наприклад, величезна кількість веб-сторінок):
Точність значно знижується, оскільки пошук може привносити шум, а модель легко піддається впливу.

Висновок: у контрольованому середовищі (чисті, структуровані документи з відповідним розміром фрагментів) RAG може досягати точності понад 90%; у складних, відкритих сценаріях, що вимагають багатокрокових міркувань, точність часто залишає бажати кращого і потребує значної оптимізації.

3. Ключові фактори, що впливають на точність

Якщо точність вашої RAG-системи не задовільна, зазвичай варто перевірити наступні чотири етапи:

Сама база знань
Чи дані застарілі, неповні або містять помилки?
Чи документи безладні (наприклад, скани без OCR, таблиці розбиті на безладні фрагменти)?
Розбиття та індексація
Текстові блоки занадто короткі → втрачається контекст; занадто довгі → додається шум.
Чи підходить модель вбудовування для вашої предметної області (універсальні моделі можуть погано працювати з юридичними термінами)?
Стратегія пошуку
Використання лише векторного пошуку може не вловити точні ключові слова (наприклад, модель продукту).
Відсутність повторного ранжування призводить до того, що до перших результатів потрапляють нерелевантні матеріали.
Етап генерації
Чітко чи в промпті зазначено: "Відповідай лише на основі наданих матеріалів; якщо недостатньо, відмовся"?
Чи достатньо потужна модель (маленькі моделі легко пропускають деталі з довгого контексту)?

Поширена помилка: низьку точність часто приписують недостатнім можливостям LLM, але насправді більшість проблем криється в "пошуку" та "дизайні промпту".

4. Як правильно "сприймати" точність – кілька ключових підходів на практиці

1. Встановлюйте реалістичні орієнтири та очікування

Для високоризикових сфер (медична діагностика, юридичні консультації) навіть 90% точності недостатньо; необхідне залучення людини-контролера або багаторівнева перевірка.
Для низькоризикових сценаріїв (чат-бот підтримки, внутрішній пошук знань) точність 80% разом із дружньою відповіддю "не знаю" може вже значно підвищити ефективність.

2. Не ганіться за 100%, прагніть до "верифікованої точності"

Змусьте систему автоматично додавати джерела (на яку статтю, який абзац посилається).
Користувач може побачити оригінал і самостійно перевірити; навіть якщо відповідь іноді помилкова, прозорість створює довіру.
Додайте оцінку впевненості: при низькому балі система має попереджати: "Ця відповідь має низьку достовірність, рекомендуємо звернутися до оригінального документу".

3. Ставтеся до точності як до об'єкта постійної оптимізації, а не одноразової цілі

Створіть конвеєр оцінки: періодично відбирайте вибірку вручну позначених запитань, автоматизовано оцінюйте точність пошуку та вірність генерації.
Використовуйте інструменти, як-от RAGAS, TruLens, для систематичної оцінки, а не покладайтеся на кілька випадкових прикладів.
На основі проблемних випадків постійно коригуйте: спосіб розбиття, параметри пошуку, модель повторного ранжування, промпти.

4. Розрізняйте "помилку системи" та "невідповідність людським стандартам"

Іноді система дає відповідь, яка відрізняється від очікувань користувача, але згідно з матеріалами в базі знань вона насправді правильна (оскільки база знань має обмеження або суперечлива).
У такому разі слід визначити: точність вимірюється на основі "фактів з бази знань" чи "зовнішніх загальновизнаних фактів"?

Підсумок

Точність системи запитань-відповідей – це не статичний показник на 100 балів, а комплексне значення, що відображає "покриття знань + точність пошуку + вірність генерації + здатність до відмови". Оцінюючи її, слід як реалістично усвідомлювати, що поточні технології не можуть бути досконалими, так і за допомогою дизайну (цитування джерел, індикатори впевненості, людино-машинна взаємодія) забезпечувати практичну цінність у бізнесі.