AI цуврал ярилцлага 9: Мэдлэгийн асуулт-хариултын системийн нарийвчлалыг хэрхэн үнэлэх вэ?

Нарийвчлал нь мэдлэгийн асуулт-хариултын системийн гол амьдралын шугам бөгөөд ялангуяа үүнийг ноцтой хэрэглээнд (эмнэлэг, хууль, компанийн дэмжлэг гэх мэт) ашиглахыг оролдоход чухал юм. Миний үзэл бодлыг дараах байдлаар нэгтгэн дүгнэж болно: Нарийвчлал нь олон хэмжээст ойлголт бөгөөд зөвхөн нэг тоог харах биш, харин системийн чадавх, даалгаврын хүндрэл, алдааны зардлыг хослуулан үнэлэх хэрэгтэй.

Доор дөрвөн түвшингээр авч үзье:

1. Нарийвчлал нь зөвхөн "зөв/буруу" гэсэн энгийн зүйл биш

Уламжлалт ангиллын асуудлуудын (зураг таних гэх мэт) нарийвчлал тодорхой. Харин мэдлэгийн асуулт-хариултын системүүд өөр өөр хэмжээстүүдтэй:

Хэмжээс	Утга	Үнэлгээний жишээ
Хайлтын онох магадлал	Систем мэдлэгийн сангаас зөв хариулт агуулсан баримтыг олж чадах уу?	Хэрэглэгч "А компаний 2024 оны орлого" гэж асуухад систем тухайн өгөгдлийг агуулсан санхүүгийн тайланг олж чадах уу?
Үүсгэх үнэнч байдал	Загварын өгсөн хариулт нь олсон агуулгад үндэслэсэн эсэх, өөрөө зохиогоогүй эсэх?	Хайлтын материалд "өсөлтийн хувь" дурдаагүй боловч загвар "5% өссөн" гэж хэлэх нь үнэнч бус
Хариултын зөв эсэх	Эцсийн хариулт баримттай (эсвэл жишиг хариулттай) нийцэж байгаа эсэх?	Зөв хариулт "4.2 тэрбум" бол загварын "4.2 тэрбум" эсвэл "ойролцоогоор 4.2 тэрбум юань" зөв
Татгалзах түвшин	Мэдлэгийн санд холбогдох мэдээлэл байхгүй үед систем "мэдэхгүй" гэж хэлж чадах уу, таамаглахын оронд?	Хайлт хоосон эсвэл итгэлцүүр бага үед "Уучлаарай, холбогдох мэдээлэл олдсонгүй" гэж хэлэх

Систем хайлтын онох магадлалаар өндөр байж болох ч (үргэлж холбогдох хэсгийг олдог) үүсгэх үнэнч байдал доогуур (үргэлж нэмж хуурдаг) байвал эцсийн нарийвчлал муу байна. Тиймээс нарийвчлалыг харахдаа ямар үе шатыг хэмжиж байгаагаа тодорхойлох хэрэгтэй.

2. Одоогийн технологийн түвшинд RAG системийн нарийвчлал хэд хүрч чадах вэ?

Нэгдсэн тоо байхгүй, гэхдээ олон нийтлэг судалгаа, практикаас харж болно:

Энгийн баримт хэлбэрийн асуулт-хариулт (нэг үсрэлт, хариулт шууд нэг хэсэгт байна):
Хайлтын онох магадлал 90-98% хүрэх боломжтой (мэдлэгийн сангийн чанар, хайлтын системээс хамаарч), үүсгэх үнэнч байдал зөв зохиомжтой 95%+, нийт нарийвчлал 85-95% хооронд.
Олон үсрэлтийн дүгнэлт (хоёр өөр эх сурвалжаас мэдээллийг нэгтгэх шаардлагатай):
Хайлтын нарийвчлал 50-70% хүртэл буурч, хариултын зөв эсэх нь 40-60% байж болно. Энэ нь одоогийн RAG-ийн гол хүндрэл.
Нээлттэй домэйн + чимээ шуугиантай мэдлэгийн сан (их хэмжээний вэб хуудас):
Нарийвчлал мэдэгдэхүйц буурдаг, учир нь хайлт нь чимээ оруулж, загвар амархан төөрдөг.

Дүгнэлт: Хяналттай орчинд (цэвэр, бүтэцлэгдсэн, баримтын хэмжээ тохиромжтой) RAG 90% -иас дээш нарийвчлалтай байж болно; харин төвөгтэй, нээлттэй, олон алхамтай дүгнэлт шаардсан хувилбаруудад нарийвчлал ихэвчлэн хангалтгүй, маш их оновчлол шаарддаг.

3. Нарийвчлалд нөлөөлөх гол хүчин зүйлс

Хэрэв таны RAG системийн нарийвчлал хангалтгүй байвал дараах дөрвөн үе шатыг шалгах хэрэгтэй:

Мэдлэгийн сан өөрөө
Өгөгдөл хуучирсан, бүрэн бус эсвэл алдаатай юу?
Баримт эмх замбараагүй юу (жишээ нь, сканнердсан зургийг OCR хийгээгүй, хүснэгтүүд эвдэрсэн)?
Хуваалт ба индексжүүлэлт
Текст хэсэг хэт богино хэрчсэн → контекст алдагдсан; хэт урт хэрчсэн → чимээ нэмэгдсэн.
Оруулсан загвар (embedding model) таны салбарт тохирох уу (ерөнхий загвар хуулийн нэр томьёо дээр муу ажиллаж болно)?
Хайлтын стратеги
Зөвхөн вектор хайлт ашиглах нь нарийн түлхүүр үг (жишээ нь, бүтээгдэхүүний загвар) алдахад хүргэж болно.
Дараагийн эрэмбэлэлт (re-ranking) хийгээгүй бол урд эгнээнд холбоогүй агуулга орж болно.
Үүсгэх үе шат
Заавар (prompt) нь "зөвхөн өгсөн материалд тулгуурлан хариулах, хангалтгүй бол татгалзах" гэж тодорхой зааж өгсөн үү?
Загварын чадавх хангалттай юу (жижиг загвар урт контекстийн дэлгэрэнгүй мэдээллийг алдахад хялбар)?

Нийтлэг алдаа: Нарийвчлал бага байгааг LLM-ийн чадваргүйтэй холбодог, гэхдээ ихэнх асуудал нь "хайлт" болон "заавар зохиомж" дээр гардаг.

4. Нарийвчлалыг хэрхэн зөв "үзэх" вэ? — Практик дахь хэд хэдэн чухал хандлага

1. Боломжит суурь ба хүлээлтийг тогтоох

Өндөр эрсдэлийн салбарт (эмчийн оношлогоо, хуулийн зөвлөгөө) 90% нарийвчлал ч хангалтгүй, хүний хяналт эсвэл олон баталгаажуулалт оруулах шаардлагатай.
Бага эрсдэлийн хувилбаруудад (хэрэглэгчийн дэмжлэгийн туслах, дотоод мэдлэгийн хайлт) 80% нарийвчлал, найрсаг "мэдэхгүй" хариулт нь аль хэдийн үр ашгийг ихээр нэмэгдүүлж чадна.

2. 100% -ийг биш, "баталгаажуулж болох нарийвчлал" -ыг эрмэлзэх

Системд эх сурвалжийг автоматаар хавсарга (аль нийтлэл, аль хэсгийг дурдсаныг).
Хэрэглэгч эх бичвэрийг өөрөө харж баталгаажуулж болно, хариулт заримдаа алдаатай ч ил тод байдал нь итгэлцлийг бий болгоно.
Итгэлцүүрийн үнэлгээ нэмэх, бага оноотой үед "Энэ хариултын найдвартай байдал бага, эх баримтыг үзэхийг зөвлөж байна" гэж идэвхтэй мэдэгдэх.

3. Нарийвчлалыг нэг удаагийн зорилго биш, тасралтгүй оновчлолын объект болгох

Үнэлгээний хоолой бий болгох: тогтмол хугацаанд хүний тэмдэглэсэн асуултуудыг түүвэрлэн, хайлтын онох магадлал болон үүсгэх үнэнч байдлыг автоматаар үнэлэх.
RAGAS, TruLens гэх мэт хэрэгслүүдийг ашиглаж системтэй үнэлэлт хийх, хэдэн жишээн дээр тулгуурлахгүй байх.
Алдааны жишээн дээр тулгуурлан тохируулах: хуваалтын арга, хайлтын параметр, дараагийн эрэмбэлэлтийн загвар, заавар.

4. "Системийн алдаа" болон "Хүний стандартын үл нийцэл" -ийг ялгах

Заримдаа системийн хариулт хэрэглэгчийн хүлээлтээс ялгаатай боловч мэдлэгийн сангийн дагуу зөв байдаг (мэдлэгийн сан өөрөө хязгаарлагдмал эсвэл маргаантай учраас).
Иймд нарийвчлал нь "мэдлэгийн сангийн баримт" -аар үнэлэгдэх үү, эсвэл "гадаад ерөнхий хүлээн зөвшөөрөгдсөн баримт" -аар үнэлэгдэх үү гэдгийг тодорхойлох хэрэгтэй.

Эцсийн дүгнэлт

Мэдлэгийн асуулт-хариултын системийн нарийвчлал нь статик төгс үзүүлэлт биш, харин "мэдлэгийн хамрах хүрээ + хайлтын нарийвчлал + үүсгэх үнэнч байдал + татгалзах чадвар" -ыг харуулсан цогц чадварын утга юм. Үүнийг харахдаа одоогийн технологи төгс байж чадахгүй гэдгийг оновчтой ойлгож, эх сурвалжийг дурдах, итгэлцүүрийн дохио, хүн-машины хамтын ажиллагаа зэрэг загвараар бизнест бодит үнэ цэнийг бий болгох хэрэгтэй.