AI serija intervju 10: Šta Embedding zapravo radi? — Od tehničke suštine do odgovora na intervjuu

Šta Embedding zapravo radi? — Od tehničke suštine do odgovora na intervjuu

1. Tehnička suština: Jedna rečenica koja objašnjava srž

Osnovni posao Embeddinga je preslikavanje diskretnih nestrukturiranih podataka (tekst, slike itd.) u kontinuirani, niskodimenzionalni vektorski prostor, tako da se semantički slični objekti nalaze blizu jedan drugom. Jednostavno rečeno, to je uspostavljanje 'semantičkog koordinatnog sistema' za računar, koji prevodi 'nejasna značenja' ljudi u 'pozicijske koordinate' koje računar može izračunati.

2. Intuitivno razumijevanje: Semantička mapa

Zamislite 2D mapu (stvarni embedding je često stotine dimenzija, ali princip je isti):

Mačka → [0.92, 0.31, -0.45, …]
Pas → [0.88, 0.29, -0.42, …]
Automobil → [0.15, -0.87, 0.53, …]

Vektori mačke i psa su vrlo blizu, dok je automobil daleko. Embedding omogućava računaru da riječi više ne posmatra kao izolovane simbole, već da ih može upoređivati na osnovu 'blizine značenja'.

3. Tehnički princip (pojednostavljena verzija): Kako se uči?

Zasnovano na lingvističkoj pretpostavci: 'Značenje riječi određeno je njenim kontekstom.'

Kroz obuku na ogromnim količinama teksta (poput Word2Vec, BERT embedding slojevi), model stalno prilagođava vektore svake riječi.
Na kraju, riječi koje se često pojavljuju u sličnim kontekstima (mačka i pas u kontekstu 'ljubimac', 'mazenje', 'hranjenje') biće približene jedna drugoj.
Ovaj proces u potpunosti ne zahtijeva ljudsko označavanje; to je geometrijska struktura koja se automatski pojavljuje iz upotrebe jezika.

Važno svojstvo: Vektorski prostor čak može uhvatiti analogije, poput kralj - muškarac + žena ≈ kraljica.

4. U RAG sistemu, koje specifične korake obavlja Embedding?

Prilikom izgradnje indeksa: Svaki blok dokumenta (chunk) pretvara se u vektor → pohranjuje u vektorsku bazu podataka → generiše 'semantičku adresu'.
Prilikom upita: Korisničko pitanje pretvara se u vektor u istom prostoru → pronalaze se najbliži vektori dokumenata u bazi → dohvaćaju se semantički relevantni dijelovi znanja.

Primjer efekta:
Korisnik pita 'Kako održati mog psa srećnim?', čak i ako baza znanja sadrži samo 'Psu je potrebna dnevna šetnja, to pomaže njegovom mentalnom zdravlju', embedding će uspješno dohvatiti zbog semantičke blizine 'sreća/zdravlje/pas'. Postiže se 'semantičko podudaranje', a ne doslovno podudaranje.

5. Strategija odgovora na intervjuu (potpuni govor od 2-3 minute)

Ispod je okvir za odgovor koji je dizajniran da pokaže i teorijsku dubinu i projektno iskustvo.

[Uvodni ton]

'Osnovni posao Embeddinga je preslikavanje diskretnih nestrukturiranih podataka u kontinuirani, niskodimenzionalni vektorski prostor, tako da se semantički slični objekti nalaze blizu jedan drugom. Jednostavno rečeno, to je uspostavljanje "semantičkog koordinatnog sistema" za računar.'

[Razvoj principa, spominjanje klasičnih svojstava]

'Tradicionalno one-hot kodiranje nema koncept udaljenosti između riječi, dok embedding kroz neuronske mreže uči iz velikih korpusa – "značenje riječi je određeno njenim kontekstom". Na kraju, svaka riječ/rečenica je predstavljena gustim vektorom, a kosinus ugla između vektora može direktno mjeriti semantičku sličnost. Čak može uhvatiti analogije, poput kralj - muškarac + žena ≈ kraljica.'

[Povezivanje sa projektnim iskustvom – fokus]

'U RAG sistemu za odgovaranje na pitanja koji sam ranije radio, direktno sam koristio embedding. Odabrao sam text-embedding-3-small, isjekao interne dokumente kompanije na blokove od 500 znakova, svaki blok pretvorio u vektor i pohranio u Qdrant.
Jednom je korisnik pitao "kako podnijeti zahtjev za godišnji odmor", a pretraga po ključnim riječima nije pronašla ništa jer je u dokumentima pisalo "procedura za prijavu odsustva". Ali embedding je uspio mapirati "godišnji odmor" i "odsustvo" na bliska mjesta i uspješno dohvatio tačan paragraf.
Također sam naišao na problem: u početku sam koristio generički embedding, koji je bio loš za pravne odredbe, a zatim sam prešao na domen-specifični BGE-large, što je povećalo stopu pogađanja sa 72% na 89%. Dakle, izbor modela embeddinga ima veliki utjecaj na nizvodne zadatke.'

[Dodatak dubljeg razmišljanja, pokazivanje senior potencijala]

'Također želim dodati jednu tačku: embedding je suštinski gubitna semantička kompresija – odbacuje površinske informacije poput redoslijeda riječi, sintakse, i zadržava samo "opšti smisao". Stoga, u scenarijima koji zahtijevaju precizno podudaranje (npr. modeli proizvoda "iPhone12" vs "iPhone13"), čisto vektorsko pretraživanje možda neće biti bolje od ključnih riječi. U stvarnom inženjeringu često koristimo hibridno pretraživanje (vektor + BM25) kao komplement.'

[Zaključak]

'Ukratko, embedding rješava osnovni problem "kako natjerati računar da izračuna semantičku sličnost". To je jedan od temelja modernog NLP-a i RAG-a.'

6. Moguća dodatna pitanja intervjuera i tvoji odgovori

Pitanje	Odgovor
"Kako se obučava embedding?"	Ukratko objasniti CBOW/Skip-gram Word2Vec-a (korištenje konteksta za predviđanje ciljne riječi ili obrnuto), ili moderno kontrastivno učenje (SimCSE, Sentence-BERT). Naglasiti da je suština obuke korištenje statistike ko-okurencije.
"Kako ocijeniti kvalitet embeddinga?"	Na specifičnim zadacima koristiti stopu pogađanja, MRR; javne benchmarke poput MTEB. U praksi, A/B testiranje efekta pretraživanja.
"Koje modele embeddinga si koristio? Prednosti i mane?"	OpenAI je zgodan ali skup, BGE je dobar za kineski, M3E je lagan, E5 je višejezičan. Izbor zavisi od scenarija.
"Kako odabrati dimenzionalnost vektora?"	Visoka dimenzionalnost daje veću izražajnu moć ali je skupa za računanje/skladištenje; niska dimenzionalnost može biti podprilagođena. Uobičajene: 384/768/1536, balansirati eksperimentima.

7. Upozorenja o zamkama (primjenjivo tokom intervjua)

❌ Nemoj samo recitovati 'embedding pretvara tekst u vektore' – previše plitko, intervjuer će pitati 'i šta onda?'
❌ Nemoj biti previše matematički (odmah početi pričati o Hilbertovom prostoru), lako će izgledati kao učenje napamet, a ne praksa.
✅ Obavezno reci koji si problem lično riješio koristeći to, čak i ako je to samo kursni projekat. Jedan specifičan broj (npr. povećanje stope pogađanja od 17%) je jači od deset teoretskih rečenica.