AI serijos interviu 10: Ką iš tikrųjų daro embedding? – Nuo techninės esmės iki atsakymo interviu

Ką iš tikrųjų daro embedding? – Nuo techninės esmės iki atsakymo interviu

1. Techninė esmė: vienu sakiniu pagrindinis dalykas

Pagrindinis embedding darbas yra atvaizduoti diskrečius nestruktūrintus duomenis (tekstą, paveikslėlius ir t.t.) į ištisinę, žemo matmenų vektorių erdvę, kad semantiškai panašūs objektai toje erdvėje būtų arti vienas kito.
Paprasčiau tariant, tai yra „semantinės koordinačių sistemos“ sukūrimas kompiuteriui – žmogaus „neaiškią prasmę“ verčiant į kompiuterio apskaičiuojamas „vietos koordinates“.

2. Vaizdus supratimas: semantinis žemėlapis

Įsivaizduokite dvimatį žemėlapį (realiai embedding dažnai yra šimtų matmenų, bet principas tas pats):

Katė → [0.92, 0.31, -0.45, …]
Šuo → [0.88, 0.29, -0.42, …]
Automobilis → [0.15, -0.87, 0.53, …]

Katės ir šuns vektoriai labai artimi, automobilis – toli.
Embedding leidžia kompiuteriui žodžius lyginti ne kaip izoliuotus simbolius, o pagal jų „prasmės atstumą“.

3. Techninis principas (supaprastinta versija): kaip jis išmokstamas?

Remiasi lingvistine prielaida: „Žodžio reikšmę nulemia jo kontekstas.“

Treniruojant didžiulius tekstų kiekius (pvz., Word2Vec, BERT įterpimo sluoksnis), modelis nuolat koreguoja kiekvieno žodžio vektorių.
Galiausiai žodžiai, dažnai pasirodantys panašiuose kontekstuose (katė ir šuo – „augintinis“, „glostyti“, „maitinti“), yra patraukiami arčiau vienas kito.
Šis procesas nereikalauja jokio rankinio žymėjimo – tai geometrinė struktūra, automatiškai atsirandanti iš kalbos vartojimo.

Svarbi savybė: vektorių erdvė gali užfiksuoti analoginius ryšius, pvz., karalius – vyras + moteris ≈ karalienė.

4. RAG sistemoje: kokius žingsnius atlieka embedding?

Kuriant indeksą: kiekvienas dokumento fragmentas (chunk) paverčiamas vektoriumi → išsaugomas vektorių duomenų bazėje → sukuriamas „semantinis adresas“.
Klausimo metu: vartotojo klausimas paverčiamas tos pačios erdvės vektoriumi → duomenų bazėje randami artimiausi dokumentų vektoriai → grąžinami semantiškai susiję žinių fragmentai.

Pavyzdys:
Vartotojas klausia „Kaip išlaikyti mano šunį laimingą?“, net jei žinių bazėje yra tik „Šunims reikia kasdienio pasivaikščiojimo, tai padeda jų psichinei sveikatai“, embedding dėl semantinio „laimė/sveikata/šuo“ artumo sėkmingai grąžina tai. Realizuojama „prasmės“, o ne „formos“ atitiktis.

5. Interviu atsakymo strategija (2–3 minučių išsamus atsakymas)

Toliau pateikiama struktūra, kuri atskleidžia ir teorinį gylį, ir praktinę patirtį.

[Įžanga]

„Pagrindinis embedding darbas yra atvaizduoti diskrečius nestruktūrintus duomenis į ištisinę, žemo matmenų vektorių erdvę, kad semantiškai panašūs objektai toje erdvėje būtų arti. Paprasčiau tariant, tai yra „semantinės koordinačių sistemos“ sukūrimas kompiuteriui.“

[Principo paaiškinimas, paminint klasikines savybes]

„Tradicinis vieno taško kodavimas neturi atstumo sampratos, o embedding per neuroninius tinklus mokomasi iš didžiulių tekstynų – „žodžio reikšmę nulemia jo kontekstas“. Galiausiai kiekvienas žodis/sakinys pavaizduojamas tankiu vektoriumi, o kampo kosinusas tarp vektorių tiesiogiai matuoja semantinį panašumą. Netgi analoginiai ryšiai, pvz., karalius – vyras + moteris ≈ karalienė.“

[Projektinė patirtis – svarbiausia]

„Anksčiau kurdamas RAG žinių atsakymų sistemą, tiesiogiai naudojau embedding. Pasirinkau text-embedding-3-small, suskirstiau įmonės vidinius dokumentus į 500 simbolių blokus, kiekvieną bloką paverčiau vektoriumi ir išsaugojau Qdrant.
Vieną kartą vartotojas paklausė „kaip prašyti kasmetinių atostogų“, raktinių žodžių paieška nieko nerado, nes dokumente buvo parašyta „atostogų prašymo procedūra“. Bet embedding sugebėjo „kasmetines atostogas“ ir „atostogas“ atvaizduoti artimose vietose, sėkmingai grąžindamas teisingą pastraipą.
Taip pat turėjau klaidą: iš pradžių naudojau bendrą embedding, teisiniuose straipsniuose rezultatas buvo prastas. Vėliau pakeičiau į sritimi suderintą BGE-large, ir paieškos pataikymo dažnis padidėjo nuo 72% iki 89%. Taigi embedding modelio pasirinkimas labai veikia tolesnę užduotį.“

[Papildomas gilesnis apmąstymas, rodantis vyresniojo potencialą]

„Be to, norėčiau paminėti, kad embedding iš esmės yra prasmingas suspaudimas su nuostoliais – jis atmeta paviršinę informaciją, pvz., žodžių tvarką, sakinio struktūrą, ir išlaiko tik „bendrą prasmę“. Todėl tikslios atitikties atvejais (pvz., produktų modeliai „iPhone12“ vs „iPhone13“) vien vektorių paieška gali būti prastesnė už raktinius žodžius. Praktikoje dažnai naudojame hibridinę paiešką (vektoriai + BM25), kad papildytume vienas kitą.“

[Užbaigimas]

„Apibendrinant, embedding sprendžia pagrindinę problemą – kaip priversti kompiuterį apskaičiuoti semantinį panašumą. Tai vienas iš pamatinių šiuolaikinio NLP ir RAG elementų.“

6. Galimi tolesni klausimai ir kaip į juos atsakyti

Tolesnis klausimas	Atsakymo esmė
„Kaip embedding yra treniruojamas?“	Trumpai paaiškinti Word2Vec CBOW/Skip-gram (naudojant kontekstą prognozuoti centrinį žodį arba atvirkščiai), arba šiuolaikinį kontrastinį mokymąsi (SimCSE, Sentence-BERT). Pabrėžti, kad treniravimo esmė – bendro pasirodymo statistika.
„Kaip įvertinti embedding kokybę?“	Konkrečioje užduotyje naudoti pataikymo dažnį, MRR; vieši etalonai, pvz., MTEB. Praktikoje galima A/B testuoti paieškos efektyvumą.
„Kokius embedding modelius esate naudojęs? Privalumai ir trūkumai?“	OpenAI patogus, bet brangus; BGE geras kinų kalbai; M3E lengvas; E5 daugiakalbis. Galima rinktis pagal scenarijų.
„Kaip pasirinkti vektoriaus matmenis?“	Aukšti matmenys išraiškingi, bet brangūs skaičiavimams/saugojimui; žemi gali būti per mažai talpūs. Dažnai naudojami 384/768/1536, parenkami eksperimentiškai.

7. Įspėjimai dėl klaidų (tinka interviu)

❌ Nekalbėkite tik „embedding paverčia tekstą vektoriumi“ – per paviršutiniška, klausėjas paklaus „o toliau?“.
❌ Nevartokite per daug matematikos (iš karto kalbėdami apie Hilberto erdvę) – atrodys, kad mokate atmintinai, o ne praktiškai.
✅ Būtinai papasakokite, kokią konkrečią problemą išsprendėte naudodami embedding, net jei tai tik kursinis projektas. Konkretus skaičius (pvz., pataikymo dažnis padidėjo 17%) yra įtakingesnis nei dešimt teorinių sakinių.