AI серија интервјуа 10: Што всушност прави Embedding? – Од техничката суштина до одговори на интервју

Што всушност прави Embedding? – Од техничката суштина до одговори на интервју

1. Техничка суштина: една реченица што ја објаснува основата

Основната работа на Embedding е да ги мапира дискретните неструктурирани податоци (текст, слики итн.) во континуиран, нискодимензионален векторски простор, така што семантички сличните објекти се приближуваат еден кон друг во тој простор.
Појасно речено, за компјутерот се создава „семантички координатен систем“ – човечките „нејасни значења“ се преведуваат во „позициски координати“ што компјутерот може да ги пресметува.

2. Интуитивно разбирање: семантичка мапа

Замислете дводимензионална мапа (вистинскиот embedding често има стотици димензии, но принципот е ист):

Мачка → [0.92, 0.31, -0.45, …]
Куче → [0.88, 0.29, -0.42, …]
Автомобил → [0.15, -0.87, 0.53, …]

Векторите за мачка и куче се многу блиски, додека автомобилот е далеку.
Embedding овозможува компјутерот да не ги гледа зборовите како изолирани симболи, туку да ги споредува според „близината на значењето“.

3. Технички принцип (поедноставен): како се учи?

Врз основа на лингвистичка претпоставка: „Значењето на зборот се одредува според неговиот контекст.“

Преку тренирање на огромни количини текст (како Word2Vec, BERT вграден слој), моделот постојано ги прилагодува векторите на секој збор.
На крајот, зборовите што често се појавуваат во слични контексти (мачка и куче – во контексти како „миленик“, „галење“, „хранење“) се приближуваат еден до друг.
Овој процес не бара рачно означување – тоа е геометриска структура што автоматски произлегува од употребата на јазикот.

Важно својство: векторскиот простор може да долови и аналогии, како крал - маж + жена ≈ кралица.

4. Во RAG системи, кои конкретни чекори ги извршува Embedding?

При креирање на индекс: Секој дел од документот (chunk) се претвора во вектор → се складира во векторска база → се создава „семантичка адреса“.
При пребарување: Корисничкото прашање се претвора во вектор од истиот простор → се наоѓаат најблиските документни вектори во базата → се враќаат семантички релевантни делови.

Пример за ефект:
Корисник прашува „Како да го одржам моето куче среќно?“, дури и ако базата содржи само „На кучињата им треба дневна прошетка, тоа помага за нивното ментално здравје“, embedding сепак ќе успее да го врати резултатот поради семантичката близина на „среќно/здраво/куче“. Се постигнува „значењска врска“, а не „формална врска“.

5. Стратегија за одговор на интервју (2–3 минути целосен говор)

Следи рамка за одговор што покажува и теоретска длабочина и практично искуство.

[Воведен став]

„Основната работа на Embedding е да ги мапира дискретните неструктурирани податоци во континуиран, нискодимензионален векторски простор, така што семантички сличните објекти се приближуваат еден кон друг. Појасно, за компјутерот се создава „семантички координатен систем“.“

[Објаснување на принципот, спомнување класични својства]

„Традиционалниот one-hot кодирање нема концепт на растојание меѓу зборовите, додека embedding преку невронски мрежи учи од големи корпуси – „значењето на зборот се одредува според контекстот“. На крајот секој збор/реченица се претставува како густ вектор, а косинусната сличност меѓу векторите директно ја мери семантичката сличност. Дури и може да долови аналогии, како крал - маж + жена ≈ кралица.“

[Поврзување со проектно искуство – клучно]

„Во мојот претходен RAG систем за одговарање на прашања директно користев embedding. Избрав text-embedding-3-small, ги сечев внатрешните документи на делови од 500 знаци, секој дел го претворив во вектор и го зачував во Qdrant.
Еднаш корисник праша „Како да аплицирам за годишен одмор?“ – клучното пребарување не најде ништо, бидејќи документот содржеше „Процедура за аплицирање за отсуство“. Но embedding успеа да ги мапира „годишен одмор“ и „отсуство“ на блиски позиции и го врати точниот пасус.
Исто така наидов на проблем: првично користев генерички embedding, кој даваше лоши резултати за правни клаузули. Подоцна го заменив со доменски прилагоден BGE-large и стапката на прецизност скокна од 72% на 89%. Значи изборот на embedding модел има огромно влијание врз крајната задача.“

[Дополнителна длабочина – покажување senior потенцијал]

„Сакам да истакнам уште една работа: embedding во суштина е загубна семантичка компресија – ја отфрла површинската информација како редослед на зборови и синтакса, задржувајќи само „главното значење“. Затоа во сценарија каде што е потребно точно совпаѓање (на пример модели на производи „iPhone12“ vs „iPhone13“), чисто векторското пребарување може да е послабо од клучното. Во пракса често користиме хибридно пребарување (вектори + BM25) за да се надополнуваат.“

[Заклучок]

„Накратко, embedding го решава основниот проблем – како да овозможиме компјутерот да пресметува семантичка сличност. Тој е еден од темелите на современиот NLP и RAG.“

6. Можни дополнителни прашања од интервјуерот и ваши одговори

Прашање	Клучни точки за одговор
„Како се тренира embedding?“	Накратко објасни Word2Vec CBOW/Skip-gram (користење контекст за предвидување централен збор или обратно), или современо контрастивно учење (SimCSE, Sentence-BERT). Нагласи дека тренирањето се базира на статистика на ко-појавување.
„Како се оценува квалитетот на embedding?“	На конкретна задача со стапка на прецизност, MRR; јавни бенчмаркови како MTEB. Во пракса може да се A/B тестира ефектот на пребарување.
„Кои embedding модели сте ги користеле? Предности и недостатоци?“	OpenAI – удобен но скап, BGE – добар за кинески, M3E – лесен, E5 – повеќејазичен. Изборот зависи од сценариото.
„Како се избира димензионалноста на векторот?“	Високи димензии – поголема изразна моќ но повисоки трошоци за пресметка/складирање; ниски димензии – можно подфитување. Вообичаено 384/768/1536, се одлучува преку експерименти.

7. Забелешки за избегнување грешки (за време на интервју)

❌ Не кажувај само „embedding претвора текст во вектор“ – преплитко, интервјуерот ќе праша „и потоа?“
❌ Не биди премногу математички (на пример веднаш да зборуваш за Хилбертов простор) – изгледа како да учиш напамет наместо да практикуваш.
✅ Задолжително раскажи како си го искористил за да решиш конкретен проблем, макар тоа да е само курс проект. Една конкретна бројка (како зголемување од 17% во прецизност) е помоќна од десет теоретски реченици.