Seria wywiadów AI 9: Jak ocenić dokładność systemu pytań i odpowiedzi?

Dokładność jest kluczową cechą systemów pytań i odpowiedzi, szczególnie gdy próbuje się je zastosować w poważnych scenariuszach (np. medycyna, prawo, wsparcie wewnętrzne firmy). Moje podejście można podsumować następująco: Dokładność jest pojęciem wielowymiarowym – nie należy patrzeć tylko na pojedynczą liczbę, ale oceniać ją w kontekście możliwości systemu, trudności zadania i kosztów błędu.

Poniżej omówię to w czterech aspektach:

1. Dokładność to nie tylko „poprawna/błędna odpowiedź”

W tradycyjnych zadaniach klasyfikacji (np. rozpoznawanie obrazów) dokładność jest jednoznaczna. Jednak w systemach pytań i odpowiedzi często wyróżnia się następujące wymiary:

Wymiar	Znaczenie	Przykład oceny
Wskaźnik trafności wyszukiwania	Czy system jest w stanie znaleźć fragment dokumentu zawierający poprawną odpowiedź?	Użytkownik pyta: „Przychód firmy A w 2024 roku?” – czy system znajdzie ten fragment raportu finansowego?
Wierność generowania	Czy wygenerowana odpowiedź ściśle opiera się na znalezionych treściach, a nie jest zmyślona?	W znalezionym materiale nie ma wzmianki o „stopie wzrostu”, a model mówi „wzrosło o 5%” → niska wierność
Poprawność odpowiedzi	Czy ostateczna odpowiedź jest zgodna z faktami (lub odpowiedzią wzorcową)?	Poprawna odpowiedź to „4,2 miliarda”, model podaje „4,2 miliarda” lub „około 4,2 miliarda RMB” – oba są poprawne
Wskaźnik odmowy	Gdy w bazie wiedzy brakuje informacji, czy system aktywnie mówi „nie wiem”, zamiast zgadywać?	Gdy wyszukiwanie zwraca puste wyniki lub niską pewność, system odpowiada: „Przepraszam, nie znaleziono odpowiednich informacji”

System może mieć wysoki wskaźnik trafności wyszukiwania (zawsze znajduje odpowiednie fragmenty), ale niską wierność generowania (zawsze dodaje coś od siebie) – ostateczna dokładność i tak będzie niska. Dlatego oceniając dokładność, trzeba najpierw określić, który etap mierzysz.

2. Jaka jest obecnie możliwa dokładność systemów RAG?

Nie ma jednej uniwersalnej liczby, ale można odwołać się do publicznych badań i praktyki:

Proste pytania faktograficzne (jednoetapowe, odpowiedź znajduje się w jednym fragmencie):
– Wskaźnik trafności wyszukiwania: 90-98% (zależy od jakości bazy wiedzy i wyszukiwarki).
– Wierność generowania przy dobrze zaprojektowanym prompcie: >95%.
– Łączna dokładność: 85-95%.
Wnioskowanie wieloetapowe (wymaga połączenia informacji z dwóch lub więcej fragmentów):
– Dokładność wyszukiwania spada do 50-70%.
– Poprawność odpowiedzi: 40-60% – to główne wyzwanie obecnych systemów RAG.
Domena otwarta + zaszumiona baza wiedzy (np. ogromna liczba stron internetowych):
– Dokładność znacząco spada, ponieważ wyszukiwarka może wprowadzać szum, a model łatwo ulega zakłóceniom.

Podsumowując: w kontrolowanym środowisku (czysta, ustrukturyzowana baza wiedzy, odpowiednia granularność dokumentów) system RAG może osiągnąć ponad 90% dokładności; w złożonych, otwartych scenariuszach wymagających wieloetapowego wnioskowania dokładność często bywa niezadowalająca i wymaga wielu optymalizacji.

3. Kluczowe czynniki wpływające na dokładność

Jeśli twój system RAG ma niską dokładność, warto sprawdzić następujące cztery obszary:

Sama baza wiedzy
– Czy dane są nieaktualne, niekompletne, a nawet błędne?
– Czy dokumenty są chaotyczne (np. skany bez OCR, tabele pocięte na fragmenty)?
Podział i indeksowanie
– Zbyt krótkie fragmenty → utrata kontekstu; zbyt długie → wprowadzanie szumu.
– Czy model osadzania jest odpowiedni dla twojej dziedziny (ogólny model może słabo radzić sobie z terminologią prawniczą)?
Strategia wyszukiwania
– Samo wyszukiwanie wektorowe może pomijać precyzyjne słowa kluczowe (np. modele produktów).
– Brak ponownego rankingu powoduje, że w pierwszych wynikach pojawiają się nieistotne treści.
Etap generowania
– Czy prompt wyraźnie wymaga: „Odpowiadaj tylko na podstawie dostarczonych materiałów; jeśli to nie wystarczy, odmów”?
– Czy model jest wystarczająco wydajny (małe modele łatwo tracą szczegóły w długim kontekście)?

Częsty błąd: niską dokładność przypisuje się wyłącznie słabości modelu LLM, podczas gdy w rzeczywistości problem leży głównie w wyszukiwaniu i projektowaniu promptu.

4. Jak właściwie „postrzegać” dokładność – kluczowe postawy w praktyce

1. Ustal rozsądne punkty odniesienia i oczekiwania

W obszarach wysokiego ryzyka (diagnostyka medyczna, porady prawne) nawet 90% dokładności to za mało – konieczne jest wprowadzenie weryfikacji przez człowieka lub wielokrotnej walidacji.
W scenariuszach niskiego ryzyka (obsługa klienta jako uzupełnienie, wewnętrzne wyszukiwanie wiedzy) dokładność na poziomie 80% w połączeniu z przyjazną odpowiedzią „nie wiem” może już znacząco zwiększyć efektywność.

2. Nie dąż do 100%, dąż do „weryfikowalnej dokładności”

Pozwól systemowi automatycznie dołączać źródła (cytować, z którego dokumentu i fragmentu pochodzi informacja).
Użytkownik może samodzielnie zweryfikować oryginał; nawet jeśli odpowiedź czasami jest błędna, przejrzystość buduje zaufanie.
Dodaj ocenę pewności (confidence score) – przy niskiej pewności system powinien ostrzec: „Ta odpowiedź może być mało wiarygodna; zalecamy sprawdzenie oryginalnego dokumentu”.

3. Traktuj dokładność jako obszar ciągłej optymalizacji, a nie jednorazowy cel

Zbuduj pipeline ewaluacyjny: regularnie pobieraj próbkę ręcznie oznaczonych pytań i automatycznie oceniaj wskaźnik trafności wyszukiwania i wierność generowania.
Używaj narzędzi takich jak RAGAS, TruLens do systematycznej oceny, zamiast polegać na kilku przypadkowych przykładach.
Na podstawie błędnych przypadków (bad cases) stale dostosowuj: sposób podziału dokumentów, parametry wyszukiwarki, model rerankingu, prompt.

4. Rozróżniaj „błąd systemu” i „niezgodność z ludzkimi standardami”

Czasami odpowiedź systemu różni się od oczekiwań użytkownika, ale jest poprawna zgodnie z danymi w bazie wiedzy (bo sama baza ma ograniczenia lub jest kontrowersyjna).
Wtedy należy określić, czy dokładność mierzymy względem „faktów z bazy wiedzy”, czy „powszechnie uznanych faktów zewnętrznych”.

Podsumowanie

Dokładność systemu pytań i odpowiedzi to nie statyczny wskaźnik doskonałości, lecz wypadkowa „pokrycia wiedzy + precyzji wyszukiwania + wierności generowania + zdolności do odmowy”. Patrząc na nią, należy zarówno zdawać sobie sprawę, że obecna technologia nie jest doskonała, jak i wykorzystywać wskazania źródeł, oceny pewności oraz współpracę człowieka z systemem, aby w praktyce przynosić realną wartość.