AI suhbatlari 9: Bilimga asoslangan savol-javob tizimining aniqligiga qanday qarash kerak?

Aniqlik bilimga asoslangan savol-javob tizimlarining asosiy hayot chizig‘idir, ayniqsa uni jiddiy sohalarda (masalan, tibbiyot, huquq, korxona ichki qo‘llab-quvvatlash) qo‘llashga harakat qilganda. Mening fikrimni quyidagicha umumlashtirish mumkin: Aniqlik – bu ko‘p o‘lchovli tushuncha bo‘lib, faqat bitta raqamga qarab emas, balki tizim imkoniyatlari, vazifa murakkabligi va xato qilish xarajatlarini birgalikda baholash kerak.

Quyida to‘rt darajada tahlil qilaman:

1. Aniqlik faqat “to‘g‘ri/noto‘g‘ri” dan iborat emas

An’anaviy tasniflash muammolari (masalan, tasvirni aniqlash) uchun aniqlik aniq. Ammo bilimga asoslangan savol-javob tizimlari boshqacha, odatdagi kichik o‘lchamlar quyidagilardan iborat:

O‘lcham	Ma’nosi	Baholash misoli
Qidiruv teginish tezligi	Tizim bilimlar bazasidan to‘g‘ri javobni o‘z ichiga olgan hujjat blokini topa oladimi?	Foydalanuvchi “A kompaniyasining 2024 yildagi daromadi” deb so‘rasa, tizim o‘sha ma’lumotni o‘z ichiga olgan moliyaviy hisobot qismini topa oladimi?
Generatsiya sodiqligi	Model javobi qat’iy ravishda qidirilgan tarkibga asoslanganmi yoki o‘zidan qo‘shimcha qiladimi?	Qidirilgan materialda “o‘sish sur’ati” haqida ma’lumot yo‘q, ammo model “5% ga oshdi” desa – sodiq emas
Javob to‘g‘riligi	Yakuniy javob fakt (yoki mos yozuvlar) bilan mos keladimi?	To‘g‘ri javob “4,2 milliard”, model “4,2 mlrd” yoki “taxminan 4,2 milliard yuan” desa, to‘g‘ri hisoblanadi
Rad etish darajasi	Bilimlar bazasida tegishli ma’lumot bo‘lmasa, tizim “bilmayman” deyishi mumkinmi, taxmin qilmasdan?	Qidiruv natijasi bo‘sh yoki ishonch darajasi past bo‘lsa, “Kechirasiz, tegishli ma’lumot topilmadi” chiqarishi

Tizim qidiruv teginish tezligi yuqori (har doim tegishli paragrafni topadi), lekin generatsiya sodiqligi past (doim qo‘shimcha qiladi) bo‘lishi mumkin, natijada umumiy aniqlik hali ham past bo‘ladi. Shuning uchun, aniqlikka qarashda avval qaysi bosqichni o‘lchayotganingizni aniqlang.

2. Hozirgi texnologiya darajasida RAG tizimlarining aniqligi qancha?

Yagona raqam yo‘q, ammo ba’zi ochiq tadqiqotlar va amaliyotlarga tayanib:

Oddiy faktli savol-javob (bir qadamli, javob to‘g‘ridan-to‘g‘ri bitta hujjatda):
Qidiruv teginish tezligi 90-98% gacha (bilimlar bazasi sifati va qidiruv vositasiga qarab), generatsiya sodiqligi yaxshi sozlangan ko‘rsatmalar bilan 95%+ ga yetadi, umumiy aniqlik 85-95% oralig‘ida bo‘lishi mumkin.
Ko‘p bosqichli mantiqiy xulosa (ikki yoki undan ortiq turli hujjatlardan ma’lumotlarni birlashtirish kerak):
Qidiruv aniqligi keskin 50-70% gacha tushadi, javob to‘g‘riligi atigi 40-60% bo‘lishi mumkin. Bu hozirgi RAG ning asosiy qiyinchiligi.
Ochiq soha + shovqinli bilimlar bazasi (masalan, katta hajmdagi veb-sahifalar):
Aniqlik sezilarli darajada pasayadi, chunki qidiruv shovqin keltirishi mumkin, model esa osonlikcha chalg‘iydi.

Xulosa: Boshqariladigan muhitda (toza, tuzilgan, hujjatlar mos hajmda) RAG 90% dan yuqori aniqlikka erishishi mumkin; ammo murakkab, ochiq va ko‘p bosqichli fikrlash talab qilinadigan holatlarda aniqlik ko‘pincha qoniqarsiz bo‘lib, ko‘p optimallashtirish talab etiladi.

3. Aniqlikka ta’sir qiluvchi asosiy omillar

Agar RAG tizimingizning aniqligi qoniqarsiz bo‘lsa, odatda quyidagi to‘rt bosqichni tekshirish mumkin:

Bilimlar bazasining o‘zi
Ma’lumotlar eskirganmi, to‘liq emasmi yoki xatolik bormi?
Hujjatlar tartibsizmi (masalan, skanerlangan, OCR qilinmagan, jadvallar parchalangan)?
Bo‘lish va indekslash
Matn bloklari juda qisqa → kontekst yo‘qoladi; juda uzun → shovqin aralashadi.
Joylashtirish modeli sohangizga mos keladimi (umumiy modellar huquqiy terminologiyada yomon ishlashi mumkin)?
Qidiruv strategiyasi
Faqat vektorli qidiruv aniq kalit so‘zlarni (masalan, mahsulot modeli) e’tiborsiz qoldirishi mumkin.
Qayta tartiblash bosqichi yo‘qligi sababli birinchi natijalar orasida tegishli bo‘lmaganlar aralashishi mumkin.
Generatsiya bosqichi
Ko‘rsatmalarda “faqat taqdim etilgan materialga asoslanib javob bering, yetarli bo‘lmasa rad eting” kabi talab aniqmi?
Model imkoniyatlari yetarlimi (kichik modellar uzoq kontekstdagi tafsilotlarni e’tiborsiz qoldirishi mumkin)?

Keng tarqalgan xato: past aniqlikni to‘g‘ridan-to‘g‘ri LLM imkoniyatlarining yetishmasligiga bog‘lash, aslida muammo ko‘pincha “qidiruv” va “ko‘rsatmalarni loyihalash” da bo‘ladi.

4. Aniqlikka qanday to‘g‘ri “qarash” kerak – amaliyotdagi bir necha muhim yondashuvlar

1. Mantiqiy mezon va kutishlarni belgilang

Yuqori xavfli sohalar (tibbiy tashxis, huquqiy maslahat) uchun 90% aniqlik ham yetarli emas, inson tekshiruvi yoki bir necha marta tekshirish joriy qilinishi kerak.
Past xavfli holatlar (mijozlarni qo‘llab-quvvatlashning zaxira varianti, ichki bilim qidiruvi) uchun 80% aniqlik va yaxshi “bilmayman” javobi samaradorlikni sezilarli oshirishi mumkin.

2. 100% ga intilmang, “tekshiriladigan aniqlik” ga intiling

Tizim avtomatik ravishda manba havolalarini ilova qilsin (qaysi maqola, qaysi qatorga asoslangan).
Foydalanuvchi asl hujjatni ko‘rib, o‘zi tekshirishi mumkin, javob ba’zan xato bo‘lsa ham, shaffoflik ishonchni mustahkamlaydi.
Ishonch darajasi balli qo‘shing, past ballarda “bu javobning ishonchliligi past, asl hujjatga murojaat qilishni tavsiya etamiz” degan ogohlantirish chiqaring.

3. Aniqlikni bir martalik maqsad emas, doimiy optimallashtirish obyekti sifatida ko‘ring

Baholash liniyasini yarating: vaqti-vaqti bilan bir qator qo‘lda belgilangan savollarni ajratib oling, qidiruv teginish tezligi va generatsiya sodiqligini avtomatik baholang.
RAGAS, TruLens kabi vositalardan tizimli baholash uchun foydalaning, bir nechta misollarga qarab qaror qilmang.
Yomon holatlar bo‘yicha doimiy ravishda sozlang: bo‘lish usuli, qidiruv parametrlari, qayta tartiblash modeli, ko‘rsatmalar.

4. “Tizim xatosi” va “inson standartlari bilan nomuvofiqlik” ni farqlang

Ba’zan tizim bergan javob foydalanuvchi kutganidan farq qiladi, lekin bilimlar bazasidagi ma’lumotga ko‘ra to‘g‘ri (chunki bilimlar bazasining o‘zi cheklangan yoki bahsli).
Bunday holda aniqlik “bilimlar bazasi faktiga” asosanmi yoki “tashqi tan olingan faktlarga” asosanmi, buni aniqlash kerak.

Yakuniy xulosa

Bilimga asoslangan savol-javob tizimining aniqligi statik to‘liq ball ko‘rsatkichi emas, balki “bilim qamrovi + qidiruv aniqligi + generatsiya sodiqligi + rad etish qobiliyati” ni aks ettiruvchi kompleks qiymatdir. Unga qarashda hozirgi texnologiya mukammal bo‘la olmasligini tushunish, shuningdek, manba keltirish, ishonch balli, inson-mashina hamkorligi kabi dizayn orqali biznesda amaliy qiymat yaratish kerak.