AI série rozhovorů 10: Co vlastně dělá Embedding? – Od technické podstaty k odpovědi u pohovoru

Co vlastně dělá Embedding? – Od technické podstaty k odpovědi u pohovoru

1. Technická podstata: Jedna věta vystihující jádro

Hlavní úlohou Embeddingu je mapovat diskrétní nestrukturovaná data (text, obrázky atd.) do spojitého, nízkorozměrného vektorového prostoru tak, aby se sémanticky podobné objekty v tomto prostoru nacházely blízko sebe.
Jednoduše řečeno, vytváří pro počítač „sémantický souřadnicový systém“, který překládá lidský „vágně vyjádřený význam“ na „poziční souřadnice“, které počítač dokáže zpracovat.

2. Intuitivní pochopení: Sémantická mapa

Představte si dvourozměrnou mapu (ve skutečnosti má embedding často stovky dimenzí, ale princip je stejný):

Kočka → [0,92, 0,31, -0,45, …]
Pes → [0,88, 0,29, -0,42, …]
Auto → [0,15, -0,87, 0,53, …]

Vektory kočky a psa jsou si velmi blízké, zatímco auto je daleko.
Embedding umožňuje počítači nepovažovat slova za izolované symboly, ale porovnávat text podle „významové blízkosti“.

3. Technický princip (zjednodušeně): Jak se učí?

Založeno na lingvistickém předpokladu: „Význam slova je určen jeho kontextem.“

Trénováním na obrovském množství textu (např. Word2Vec, embeddingová vrstva BERTu) model postupně upravuje vektor každého slova.
Nakonec se slova, která se často vyskytují v podobných kontextech (kočka a pes ve spojení s „mazlíček“, „hladit“, „krmit“), umístí blízko sebe.
Tento proces nevyžaduje žádné ruční anotace – geometrická struktura vzniká automaticky z jazykového užití.

Důležitá vlastnost: Vektorový prostor dokáže zachytit i analogické vztahy, např. král - muž + žena ≈ královna.

4. V systémech RAG: Jaké konkrétní kroky embedding provádí?

Při indexování: Každý blok dokumentu (chunk) se převede na vektor → uloží se do vektorové databáze → vytvoří se „sémantická adresa“.
Při dotazu: Uživatelský dotaz se převede na vektor ve stejném prostoru → v databázi se najdou nejbližší vektory dokumentů → získají se sémanticky relevantní fragmenty znalostí.

Příklad efektu:
Uživatel se zeptá „Jak udržet mého psa šťastného?“, i když znalostní báze obsahuje pouze „Psi potřebují denní procházky, což prospívá jejich psychickému zdraví.“ Embedding díky sémantické blízkosti („štěstí/zdraví/pes“) úspěšně fragment znalosti najde. Dochází k „významovému“ přiřazení, nikoli k doslovnému.

5. Strategie odpovědi u pohovoru (kompletní formulace na 2–3 minuty)

Níže je navržený rámec odpovědi, který ukazuje jak teoretickou hloubku, tak projektové zkušenosti.

[Úvodní vymezení]

„Hlavní úlohou Embeddingu je mapovat diskrétní nestrukturovaná data do spojitého, nízkorozměrného vektorového prostoru tak, aby se sémanticky podobné objekty nacházely blízko sebe. Jednoduše řečeno, vytváří pro počítač „sémantický souřadnicový systém“.“

[Rozvinutí principu, zmínění klasických vlastností]

„Tradiční one-hot kódování nemá mezi slovy žádný koncept vzdálenosti, zatímco embedding se učí pomocí neuronových sítí z velkého množství textu – „význam slova je určen jeho kontextem“. Výsledkem je, že každé slovo/věta je reprezentováno hustým vektorem a kosinová vzdálenost vektorů přímo měří sémantickou podobnost. Dokonce dokáže zachytit analogie, např. král - muž + žena ≈ královna.“

[Propojení s projektovými zkušenostmi – klíčová část]

„V dřívějším projektu RAG systému pro otázky a odpovědi jsem embedding přímo používal. Zvolil jsem text-embedding-3-small, rozdělil interní firemní dokumenty na bloky po 500 znacích, každý blok převedl na vektor a uložil do Qdrantu.
Jednou se uživatel zeptal „Jak požádat o dovolenou?“, ale klíčové slovo „dovolená“ se v dokumentech nevyskytovalo – dokumenty obsahovaly frázi „Postup žádosti o volno“. Embedding však dokázal namapovat „dovolenou“ a „volno“ na blízké pozice a úspěšně našel správný odstavec.
Narazil jsem také na problém: zpočátku jsem použil univerzální embedding, který na právních textech fungoval špatně. Po přechodu na doménově jemně vyladěný BGE-large se úspěšnost vyhledávání zvýšila ze 72 % na 89 %. Volba modelu embeddingu má tedy na downstream úlohy obrovský vliv.“

[Doplnění hlubší úvahy, ukazující seniorní potenciál]

„Ještě bych rád dodal, že embedding je v podstatě ztrátová sémantická komprese – zahazuje povrchové informace jako pořadí slov nebo syntaxi a zachovává pouze „hlavní význam“. Proto v situacích vyžadujících přesnou shodu (např. model produktu „iPhone12“ vs. „iPhone13“) může čistě vektorové vyhledávání selhat. V praxi proto často používáme hybridní vyhledávání (vektory + BM25) pro vzájemné doplnění.“

[Závěr]

„Celkově embedding řeší základní problém: jak přimět počítač, aby počítal sémantickou podobnost. Je to jeden ze základních kamenů moderní NLP a RAG.“

6. Možné doplňující otázky tazatele a vaše reakce

Doplňující otázka	Klíčové body odpovědi
„Jak se embedding trénuje?“	Stručně vysvětlete CBOW/Skip-gram u Word2Vec (předpovídání centrálního slova z kontextu nebo naopak) nebo moderní kontrastní učení (SimCSE, Sentence-BERT). Zdvůrazněte, že podstatou trénování je využití statistiky výskytu slov.
„Jak hodnotit kvalitu embeddingu?“	Na konkrétní úloze pomocí přesnosti, MRR; veřejné benchmarky jako MTEB. V praxi lze A/B testovat efekt vyhledávání.
„Jaké modely embeddingu jste používal(a)? Jejich výhody a nevýhody?“	OpenAI je pohodlný, ale drahý; BGE má dobré výsledky v čínštině; M3E je lehký; E5 je vícejazyčný. Lze vybírat podle scénáře.
„Jak zvolit dimenzi vektoru?“	Vyšší dimenze zvyšuje vyjadřovací schopnost, ale také náklady na výpočet a úložiště; nižší dimenze může vést k podfitování. Běžně se používají 384/768/1536, volba se určí experimentálně.

7. Varování před chybami (platí pro pohovor)

❌ Neříkejte jen „embedding převádí text na vektor“ – je to příliš povrchní, tazatel se zeptá „a co dál?“
❌ Nebuďte příliš matematizující (např. hned mluvit o Hilbertově prostoru) – může to působit jako odříkávání učebnice, nikoli praktická znalost.
✅ Určitě uveďte, jak jste embedding použili k řešení konkrétního problému, i kdyby to byl jen školní projekt. Konkrétní číslo (např. zvýšení přesnosti o 17 %) má větší váhu než deset vět teorie.