AI сериясындагы интервью суроолору 11: RAGти кантип оптималдаштырса болот?

RAGти оптималдаштыруу бир эле этапты тууралоо эмес, бүтүндөй толук чынжырлы оптималдаштыруу процесси. Төмөндө маалымат индексациясы, издөө, генерациялоо, баалоо төрт өлчөмүнөн системалуу оптималдаштыруу стратегиясын берем, жана интервьюдө айтууга боло турган практикалык тажрыйбаларды кошом.

1. Маалымат индексациясын оптималдаштыруу ("Билим базасынын" сапатын жогорулатуу)

Бул эң көп көмүлгөн, бирок эң тез натыйжа берүүчү жер.

Оптималдаштыруу чекити	Көйгөй көрүнүшү	Так иш-аракет	Натыйжа көрсөткүчү
Документти талдоо	PDFтеги таблицалар, диаграммалар эске алынбай же текст бузулат, тартиби бузулат.	Жакшыраак талдоо китепканасын колдонуу (`unstructured`, `pypdf` макет сактоо режими); таблицаларды `pandas` менен чыгарып, Markdownге айландыруу.	Эстеп калуу ылдамдыгы +5~15%
Текстти бөлүү көлөмү	chunk өтө кичине болсо контекст жоголот (мисалы, "анын быйылкы кирешеси өстү" дегенде "анын" деген шилтеме жоголот); chunk өтө чоң болсо издөө ызы-чуусу көбөйөт.	Ар кандай chunk size менен эксперимент (256/512/768 токен), overlap 10~20%; узун документтер үчүн семантикалык чектер боюнча (абзац/аталыш) кесүү, туруктуу узундукта эмес.	Хит ылдамдыгы / тактыгы
Метамаалыматтарды кошуу	Тиешелүү бөлүм табылды, бирок булагына же убактысына чейин жетүү мүмкүн эмес, же домен боюнча чыпкалоо керек.	Ар бир chunkка метамаалыматтарды кошуу: `source` (файл аты/URL), `timestamp`, `page_num`, `doc_type`. Издөөдө фильтрлерди колдонуу (`doc_type == 'legal'` сыяктуу).	Чыпка тактыгы
Куюлган модель тандоо	Жалпы эмбеддинг тик домендерде (медицина, код, юриспруденция) начар иштейт.	Домендик микро туураланган моделдерди колдонуу (BGE-large-zh, GTE-Qwen2-7B-instruct); же өз эмбеддинг моделиңизди микро тууралоо (triplet loss менен).	Издөө MRR@10 +10~20%

2. Издөө бөлүгүн оптималдаштыруу ("Китеп карап чыгууну" тактоо)

Издөө LLMге берилүүчү "шилтеме материалдардын" сапатын аныктайт.

Оптималдаштыруу чекити	Көйгөй көрүнүшү	Так иш-аракет	Натыйжа
Аралаш издөө	Вектордук издөө так терминдерди дал келтире албайт (продукт модели `ABC-123`), ачкыч сөз издөө синонимдерди түшүнө албайт.	Вектордук издөө (семантикалык) жана BM25 (ачкыч сөз) бир убакта колдонуу, салмактоо аркылуу (мисалы, 0.7 * вектор + 0.3 * BM25) же rerank менен бириктирүү.	Эстеп калуу ылдамдыгы +10~25%
Кайра иреттөө (Rerank)	Вектордук издөөнүн алгачкы бир нече жыйынтыгы эң тиешелүү болбой калышы мүмкүн, 10-орундагысы эң жакшы болушу мүмкүн.	Cross-encoder модели (мисалы, `BGE-reranker-v2`, Cohere Rerank) менен талапкерлер топтомун (мисалы, алгачкы 20) кайра баалоо, top-K алуу.	Хит ылдамдыгы (өзгөчө top-1) кыйла жакшырат
Суроо кайра жазуу	Колдонуучунун суроосу эки маанилүү же көп раунддук диалогдогу шилтемелер түшүнүксүз ("Анын баасы канча?").	LLMди колдонуп, баштапкы суроону издөөгө ыңгайлуу формага айландыруу (мисалы, "iPhone 15тин баасы канча?"); же диалог тарыхын толуктоо.	Эстеп калуу ылдамдыгы +5~15%
HyDE	Колдонуучунун суроосу өтө кыска же абстрактуу (мисалы, "Фотосинтез жөнүндө айтып бер"), түз издөө начар натыйжа берет.	Алгач LLMге гипотетикалык жооп түздүрүү, андан кийин ушул жооп менен документтерди издөө.	Ачык доменге ылайыктуу, бирок фактылык так суроолорго ылайыксыз
Издөө саны Top-K тууралоо	K өтө кичине болсо маанилүү маалымат жоголушу мүмкүн; K өтө чоң болсо токен чыгымын жана ызы-чууну көбөйтөт.	K=3/5/10 менен эксперимент, эстеп калуу ылдамдыгы жана жооптун тактыгынын тең салмактуулугун байкоо.	Натыйжалуулук менен эффективдүүлүктүн ортосундагы компромисс

3. Генерациялоо бөлүгүн оптималдаштыруу (LLMдин шилтеме материалдарды жакшы колдонушуна жетишүү)

Издөө канчалык так болсо да, эгерде подсказка жакшы эмес же модель начар болсо, натыйжа начар болот.

Оптималдаштыруу чекити	Көйгөй көрүнүшү	Так иш-аракет	Натыйжа
Подсказкалар инженериясы	LLM издеп тапкан мазмунду эске албайт, же жалган маалымат берет.	Так көрсөтмө: "Төмөндө берилген шилтеме материалдарга гана таянып суроого жооп бер. Эгерде материалдар жетишсиз же тиешелүү эмес болсо, 'Жетишерлик маалымат жок' деп жооп бер." Few-shot мисалдарды кошуп, булактарга кантип шилтеме берүүнү көрсөтүү.	Тактык +20~40%
Контекстти кысуу	Изделген мазмун өтө узун (моделдин контексттик терезесинен ашат) же көбү ызы-чуу болуп калат.	`LLMLingua` же `Шарттуу контекстти кысуу` колдонуп, эң тиешелүү сүйлөмдөрдү сактап, калганын LLMге жиберүү.	Маалымат жоготуу коркунучун азайтат
LLM моделин жаңыртуу	Кичине модель (7B) татаал ой жүгүртүүнү аткара албайт, же узун контекстти эстей албайт.	Күчтүүрөөк модельге өтүү (GPT-4o, Claude 3.5 Sonnet, Qwen2.5-72B).	Ой жүгүртүү тактыгы кыйла жакшырат
Агымдуу чыгаруу жана шилтеме	Колдонуучу жооптун ишенимдүүлүгүн текшере албайт.	Генерация учурунда LLMге `[citation:1]` чыгарууга буйрук берүү, ал издеп табылган документтин номерине туура келет. Backendте оригиналдуу шилтемелерди кошуу.	Колдонуучунун ишеними + оңдоого жөндөмдүүлүк
Жооп берүүдөн баш тартууну калибрлөө	Модель жооп бербеши керек болгондо жооп берет, же жооп бериши керек болгондо "билбейм" дейт.	Окшоштук босогосун коюу: эгерде издеп табылган top-1 chunkтын суроо менен косинус окшоштугу 0.7ден төмөн болсо, LLMге "Материалдар тиешелүү эмес" деген көрсөтмө берүү.	Галлюцинация ылдамдыгын төмөндөтүү

4. Баалоо жана кайталоо бөлүгү (Кайда тууралоону билүү)

Өлчөө жок болсо, оптималдаштыруу мүмкүн эмес.

Оптималдаштыруу чекити	Иш-аракет	Көрсөткүч
Баалоо топтомун түзүү	100~300 реалдуу колдонуучу суроосун + стандарттуу жоопторду + туура издөө документинин IDсин даярдоо.	Ар кандай деңгээлдеги кыйынчылыкты, ар кандай интенттерди камтуу.
Автоматташтырылган баалоо	RAGAS (Faithfulness, Answer Relevance, Context Recall) же TruLens колдонуу.	Үч негизги көрсөткүч: тактык, жооптун тиешелүүлүгү, контекстти эстеп калуу.
Адам тарабынан баалоо	Жумасына 20 жаман учурду текшерип, ката түрүн талдоо (издөө ишсиздиги / генерация катасы / билим базасынын жоктугу).	Жакшыртуунун артыкчылыктарын иреттөө.
A/B тесттөө	Өндүрүш чөйрөсүндө ар кандай издөө стратегияларын (мисалы, BM25 vs аралаш издөө) эки топко бөлүп тесттөө.	Онлайн көрсөткүчтөр: колдонуучунун канааттануусу, жооп жок учурлардын ылдамдыгы.

5. Интервьюдө айта турган "практикалык тажрыйбалар" (кошумча упай)

"Мен жетектеген RAG долбоорунда баштапкы хит ылдамдыгы 67% болгон. Мен үч нерсе кылдым:
1. Бөлүүнү туруктуу 1024тен динамикалык семантикалык бөлүүгө алмаштырдым (аталыш + абзац), хит ылдамдыгы 74% көтөрүлдү;
2. Аралаш издөөнү (вектор + BM25) жана кичине rerank моделин коштум, хит ылдамдыгы 83%ке жетти;
3. Подсказкаларды оптималдаштырып, 'Тиешелүү маалымат табылган жок' дегенди мажбурладым, галлюцинация ылдамдыгы 22%тан 5%ке төмөндөдү.

Ошондой эле, биз үзгүлтүксүз баалоо куурун түзүп, ар бир өзгөртүүдөн мурун 200 суроого RAGAS упайын чыгарып, начарлоо жок экенин текшердик."

Акыркы жыйынтык: толук RAG оптималдаштыруу жол картасы

Маалымат катмары ─→ Документти тазалоо, бөлүүнү оптималдаштыруу, метамаалыматтарды күчөтүү, домендик эмбеддинг
Издөө катмары ─→ Аралаш издөө, rerank, суроо кайра жазуу, HyDE, Top-K тууралоо
Генерациялоо катмары ─→ Подсказкаларды күчөтүү, көрсөтмөлөр, кысуу, шилтеме, баш тартуу босогосу
Баалоо катмары ─→ Баалоо топтому, RAGAS, адам талдоосу, A/B эксперимент