AI seriyası müsahibə 9: Bilik sorğu sisteminin dəqiqlik nisbətinə necə baxmaq olar?

Dəqiqlik nisbəti bilik sorğu sistemlərinin əsas həyat xəttidir, xüsusən də onu ciddi tətbiqlərdə (məsələn, tibb, hüquq, müəssisə daxili dəstək) istifadə etməyə çalışdıqda. Mənim fikrimi belə ümumiləşdirmək olar: Dəqiqlik nisbəti çoxölçülü bir anlayışdır, yalnız tək bir rəqəmə baxmaq deyil, sistemin imkanları, tapşırığın çətinliyi və səhv dözümlülük xərcləri birlikdə qiymətləndirilməlidir.

Aşağıda dörd səviyyədə genişləndirilir:

I. Dəqiqlik nisbəti sadəcə "düzgün cavab/səhv cavab" deyil

Ənənəvi təsnifat problemlərində (məsələn, şəkil tanıma) dəqiqlik nisbəti aydındır. Lakin bilik sorğu sistemləri fərqlidir. Ümumi alt ölçülər bunlardır:

Ölçü	Mənası	Qiymətləndirmə nümunəsi
Axtarış vuruş nisbəti	Sistemin bilik bazasından düzgün cavabı ehtiva edən sənəd parçasını tapa bilməsi?	İstifadəçi "A şirkətinin 2024-cü il gəliri" soruşur, sistem həmin məlumatı ehtiva edən maliyyə hesabatını tapa bilirmi?
Yaradıcılıq sadiqliyi	Modelin yaratdığı cavabın ciddi şəkildə axtarılan məzmuna əsaslanması, özündən uydurmaması?	Axtarılan materialda "artım nisbəti" qeyd edilməyib, lakin model "5% artıb" deyir → qeyri-sadiq
Cavab düzgünlüyü	Son cavabın fakta (və ya istinad cavabına) uyğun olması?	Düzgün cavab "4.2 milyard", model "4.2 milyard" və ya "təxminən 4.2 milyard RMB" çıxarır, hər ikisi düzgün sayıla bilər
Cavab vermə nisbəti	Bilik bazasında müvafiq məlumat olmadıqda sistemin aktiv şəkildə "bilmirəm" deyə bilməsi, təxmin etməməsi?	Axtarış boş və ya etibarlılıq aşağı olduqda, "Təəssüf ki, müvafiq məlumat tapılmadı" çıxarır

Bir sistem axtarış vuruş nisbətində yüksək ola bilər (həmişə uyğun parçaları tapa bilər), lakin yaradıcılıq sadiqliyi çox aşağı ola bilər (həmişə şişirdər), nəticədə ümumi dəqiqlik nisbəti yenə də pis olar. Buna görə də, dəqiqlik nisbətinə baxarkən əvvəlcə hansı mərhələni ölçdüyünüzü dəqiqləşdirməlisiniz.

II. Mövcud texnologiya səviyyəsində RAG sistemlərinin dəqiqlik nisbəti nə qədərdir?

Vahid bir rəqəm yoxdur, lakin bəzi açıq tədqiqat və təcrübələrə istinad edə bilərik:

Sadə fakt sual-cavab (tək atlamalı, cavab birbaşa bir mətn parçasında görünür):
Axtarış vuruş nisbəti 90-98%-ə çata bilər (bilik bazasının keyfiyyəti və axtarıcıdan asılı olaraq), diqqətlə hazırlanmış təlimatla yaradıcılıq sadiqliyi 95%+-dan yüksək ola bilər, ümumi dəqiqlik nisbəti isə 85-95% arasında ola bilər.
Çox atlamalı nəticə çıxarma (iki və ya daha çox fərqli mənbədən məlumatı birləşdirmək lazımdır):
Axtarış dəqiqliyi 50-70%-ə qədər enir, yaradılan cavabın düzgünlüyü yalnız 40-60% ola bilər. Bu, hazırda RAG-ın əsas çətinliyidir.
Açıq domen + səs-küylü bilik bazası (məsələn, böyük həcmli veb səhifələr):
Dəqiqlik nisbəti əhəmiyyətli dərəcədə aşağı düşür, çünki axtarış səs-küy gətirə bilər və model asanlıqla təsirlənə bilər.

Nəticə: Nəzarət olunan mühitdə (təmiz, strukturlaşdırılmış, uyğun sənəd parçası ölçüsü) RAG 90% dəqiqlik nisbətindən yuxarı ola bilər; lakin mürəkkəb, açıq və çox atlamalı nəticə çıxarma tələb edən ssenarilərdə dəqiqlik nisbəti çox vaxt qaneedici deyil və çoxlu optimallaşdırma tələb olunur.

III. Dəqiqlik nisbətinə təsir edən əsas amillər

Əgər RAG sisteminizin dəqiqlik nisbəti qaneedici deyilsə, adətən aşağıdakı dörd mərhələni yoxlaya bilərsiniz:

Bilik bazasının özü
Məlumat köhnəlmiş, natamam və ya hətta səhvdir?
Sənədlər qarışıqdır (məsələn, skan edilmiş fayllar OCR edilməmiş, cədvəllər xaotik şəkildə bölünmüş)?
Bölmə və indeksləmə
Mətn parçaları çox qısadır → kontekst itir; çox uzundur → səs-küy daxil olur.
Yerləşdirmə modeli sizin sahənizə uyğundurmu (ümumi modellər hüquq terminologiyasında zəif ola bilər)?
Axtarış strategiyası
Yalnız vektor axtarışı dəqiq açar sözləri (məsələn, məhsul modeli) qaçıra bilər.
Yenidən sıralama olmadan nəticələr arasında əlaqəsiz məzmun qarışa bilər.
Yaradıcılıq mərhələsi
Təlimat "yalnız verilən materiala əsaslanaraq cavab ver, kifayət deyilsə rədd et" tələbini aydın şəkildə ifadə edirmi?
Modelin imkanları kifayətdirmi (kiçik modellər uzun kontekstdə detalları qaçırmağa meyllidir)?

Ümumi yanlış fikir: Aşağı dəqiqlik nisbətini birbaşa LLM-nin imkanlarının çatışmazlığına bağlamaq, lakin əslində problemlərin çoxu "axtarış" və "təlimat dizaynı"ndadır.

IV. Dəqiqlik nisbətinə necə "düzgün baxmaq" – praktikada bir neçə əsas yanaşma

1. Məqul əsas və gözləntilər təyin edin

Yüksək riskli sahələr (tibbi diaqnoz, hüquqi məsləhət) üçün 90% dəqiqlik nisbəti belə kifayət deyil, mütləq insan yoxlaması və ya çoxsaylı yoxlama daxil edilməlidir.
Aşağı riskli ssenarilər (müştəri dəstəyi, daxili bilik axtarışı) üçün 80% dəqiqlik nisbəti və dostcasına "bilmirəm" cavabları artıq səmərəliliyi əhəmiyyətli dərəcədə artıra bilər.

2. 100% dəqiqliyi hədəfləməyin, "yoxlanıla bilən dəqiqlik" hədəfləyin

Sistemin avtomatik olaraq mənbə istinadlarını (hansı məqalədən, hansı hissədən götürüldüyünü) əlavə etməsinə icazə verin.
İstifadəçi orijinal mətni özü yoxlaya bilər, cavab bəzən səhv olsa belə, şəffaflıq etibar yaradır.
Etibarlılıq balı əlavə edin, aşağı bal olduqda "Bu cavabın etibarlılığı aşağıdır, orijinal sənədə nəzər salmağı tövsiyə edirik" kimi aktiv bildiriş göstərin.

3. Dəqiqlik nisbətini daimi optimallaşdırma obyekti kimi qəbul edin, birdəfəlik hədəf deyil

Qiymətləndirmə boru xətti qurun: mütəmadi olaraq bir dəstə əl ilə etiketlənmiş sual çıxarın, axtarış vuruş nisbəti və yaradıcılıq sadiqliyini avtomatlaşdırılmış şəkildə qiymətləndirin.
RAGAS, TruLens kimi alətlərdən istifadə edərək sistematik qiymətləndirmə aparın, bir neçə nümunəyə əsaslanaraq düşünməyin.
Pis hallara əsasən daim tənzimləmə aparın: bölmə üsulu, axtarıcı parametrləri, yenidən sıralama modeli, təlimat.

4. "Sistem səhvi" ilə "insan standartının uyğunsuzluğunu" fərqləndirin

Bəzən sistemin verdiyi cavab istifadəçinin gözləntisindən fərqlidir, lakin bilik bazasındakı materiala görə əslində düzgündür (bilik bazasının məhdudiyyət və ya mübahisəli olması səbəbindən).
Bu halda dəqiqlik nisbətinin "bilik bazası faktına" və ya "xarici tanınmış fakta" əsaslandığını müəyyən etmək lazımdır.

Yekun xülasə

Bilik sorğu sistemlərinin dəqiqlik nisbəti statik mükəmməl göstərici deyil, "bilik əhatəsi + axtarış dəqiqliyi + yaradıcılıq sadiqliyi + cavab vermə qabiliyyəti"nin birləşmiş qabiliyyətini əks etdirən çoxölçülü dəyərdir. Ona baxarkən həm mövcud texnologiyanın mükəmməl ola bilməyəcəyini rasional şəkildə qəbul etməli, həm də istinad mənbəyi göstərmə, etibarlılıq göstəricisi, insan-maşın əməkdaşlığı kimi dizaynlarla biznesdə faktiki dəyər yaratmaq lazımdır.