AI serija interviua 10: Što zapravo radi Embedding? — Od tehničke suštine do odgovora na intervjuu

Što zapravo radi Embedding? — Od tehničke suštine do odgovora na intervjuu

1. Tehnička suština: Jedna rečenica pojašnjava srž

Glavni posao Embeddinga je mapiranje diskretnih nestrukturiranih podataka (tekst, slike itd.) u kontinuirani, niskodimenzionalni vektorski prostor, tako da se semantički slični objekti u tom prostoru nalaze blizu jedan drugome.
Jednostavno rečeno, to je uspostavljanje "semantičkog koordinatnog sustava" za računalo, kojim se nejasna ljudska značenja prevode u "položajne koordinate" koje računalo može izračunati.

2. Intuitivno razumijevanje: Semantička karta

Zamislite dvodimenzionalnu kartu (stvarni embedding je često stotinjak dimenzija, ali princip je isti):

mačka → [0.92, 0.31, -0.45, …]
pas → [0.88, 0.29, -0.42, …]
automobil → [0.15, -0.87, 0.53, …]

Vektori za mačku i psa su vrlo blizu, dok je automobil daleko.
Embedding omogućuje računalu da riječi više ne tretira kao izolirane simbole, već da tekst može uspoređivati prema "bliskosti značenja".

3. Tehnički princip (pojednostavljeno): Kako se uči?

Temelji se na lingvističkoj pretpostavci: "Značenje riječi određeno je njezinim kontekstom."

Treniranjem na ogromnim količinama teksta (npr. Word2Vec, BERT embedding sloj), model kontinuirano prilagođava vektor svake riječi.
Na kraju, riječi koje se često pojavljuju u sličnim kontekstima (mačka i pas u kontekstima "ljubimac", "maziti", "hraniti") bivaju smještene blizu jedna drugoj.
Ovaj proces ne zahtijeva ručno označavanje; automatski nastaje geometrijska struktura iz jezične upotrebe.

Važno svojstvo: Vektorski prostor može čak uhvatiti analogne odnose, poput kralj - muškarac + žena ≈ kraljica.

4. U RAG sustavu, što točno radi Embedding?

Prilikom izgradnje indeksa: Svaki blok dokumenta (chunk) pretvara se u vektor → pohranjuje u vektorsku bazu podataka → generira "semantičku adresu".
Prilikom upita: Korisnički upit pretvara se u vektor u istom prostoru → pronalaze se najbliži vektori dokumenata u bazi → vraćaju semantički relevantni fragmenti znanja.

Primjer učinka:
Korisnik pita "Kako održati mog psa sretnim?", čak i ako baza znanja sadrži samo "Psu je potrebna svakodnevna šetnja koja pomaže njegovom mentalnom zdravlju", embedding će uspješno vratiti jer su "sretan/zdrav/pas" semantički bliski. Postiže "smisleno podudaranje", a ne doslovno.

5. Strategija odgovora na intervjuu (2-3 minute cjelovitog govora)

Slijedi osmišljeni okvir za odgovor koji pokazuje i teorijsku dubinu i iskustvo na projektu.

【Uvodni ton】

"Glavni posao Embeddinga je mapiranje diskretnih nestrukturiranih podataka u kontinuirani, niskodimenzionalni vektorski prostor, tako da se semantički slični objekti u tom prostoru nalaze blizu jedan drugome. Jednostavno rečeno, uspostavlja 'semantički koordinatni sustav' za računalo."

【Objašnjenje principa, spominjanje klasičnih svojstava】

"Tradicionalno one-hot kodiranje nema koncept udaljenosti među riječima, dok embedding uči iz velikog korpusa putem neuronskih mreža – 'značenje riječi određeno je njezinim kontekstom'. Na kraju se svaka riječ/rečenica predstavlja gustim vektorom, a kosinus kuta između vektora izravno mjeri semantičku sličnost. Čak može uhvatiti analogne odnose, poput kralj - muškarac + žena ≈ kraljica."

【Povezivanje s projektnim iskustvom – ključno】

"U sustavu za odgovaranje na pitanja temeljenom na RAG-u koji sam ranije radio, izravno sam koristio embedding. Odabrao sam text-embedding-3-small, podijelio interne dokumente na blokove od 500 znakova, svaki blok pretvorio u vektor i pohranio u Qdrant.
Jednom je korisnik pitao 'Kako podnijeti zahtjev za godišnji odmor', a pretraživanje po ključnim riječima nije ništa pronašlo jer je u dokumentima pisalo 'Postupak za prijavu dopusta'. No embedding je uspio mapirati 'godišnji odmor' i 'dopust' na bliske pozicije i uspješno vratio točan odlomak.
Također sam naletio na problem: u početku sam koristio opći embedding, koji je loše radio na pravnim odredbama; nakon što sam ga zamijenio domenom fino podešenim BGE-large, stopa pogađanja porasla je sa 72% na 89%. Stoga izbor modela embeddinga iznimno utječe na nizvodne zadatke."

【Dodatne dubinske misli, pokazivanje senior potencijala】

"Također želim dodati: embedding je u biti semantička kompresija s gubitkom – odbacuje površinske informacije poput redoslijeda riječi, sintakse i zadržava samo 'opći smisao'. Stoga u scenarijima koji zahtijevaju točno podudaranje (npr. modeli proizvoda 'iPhone12' vs 'iPhone13'), čisto vektorsko pretraživanje možda neće biti dobro. U praksi često koristimo hibridno pretraživanje (vektori + BM25) za nadopunu."

【Zaključak】

"Ukratko, embedding rješava temeljni problem: kako omogućiti računalu da izračuna semantičku sličnost. To je jedan od kamena temeljaca modernog NLP-a i RAG-a."

6. Moguća dodatna pitanja i kako odgovoriti

Dodatno pitanje	Ključne točke odgovora
"Kako se embedding trenira?"	Ukratko objasniti Word2Vec CBOW/Skip-gram (predviđanje središnje riječi iz konteksta ili obrnuto) ili moderno kontrastivno učenje (SimCSE, Sentence-BERT). Naglasiti da se trening temelji na statistikama ko-okurencije.
"Kako ocijeniti kvalitetu embeddinga?"	Na specifičnom zadatku koristiti stopu pogađanja, MRR; javne benchmarke poput MTEB. U praksi A/B testiranje učinka pretraživanja.
"Koje ste modele embeddinga koristili? Prednosti i mane?"	OpenAI je zgodan ali skup, BGE dobar za kineski, M3E lagan, E5 višejezičan. Bira se prema scenariju.
"Kako odabrati dimenziju vektora?"	Više dimenzija daje bolju izražajnost ali veće troškove računanja/pohrane; niske dimenzije mogu biti nedovoljno prilagođene. Uobičajeno 384/768/1536, odlučuje se eksperimentima.

7. Upozorenja (za intervju)

❌ Nemojte samo reći "embedding pretvara tekst u vektor" – preplitko, ispitivač će pitati "i što onda?"
❌ Nemojte biti previše matematički (odmah spominjati Hilbertov prostor) – može djelovati kao učenje napamet, a ne praktično iskustvo.
✅ Obavezno ispričajte kako ste ga koristili za rješavanje konkretnog problema, čak i ako je samo projekt na tečaju. Jedna konkretna brojka (npr. povećanje stope pogađanja za 17%) jača je od deset teorijskih rečenica.