Rozmowa kwalifikacyjna z serii AI 10: Co właściwie robi Embedding? – Od istoty technicznej do odpowiedzi na rozmowie

Co właściwie robi Embedding? – Od istoty technicznej do odpowiedzi na rozmowie

1. Istota techniczna: sedno w jednym zdaniu

Głównym zadaniem Embeddingu jest odwzorowanie dyskretnych, nieustrukturyzowanych danych (tekst, obrazy itp.) w ciągłą, niskowymiarową przestrzeń wektorową, tak aby obiekty semantycznie podobne znajdowały się blisko siebie w tej przestrzeni.
Mówiąc wprost, chodzi o zbudowanie dla komputera „układu współrzędnych semantycznych”, który przekłada „niejasne znaczenie” ludzkiego języka na „współrzędne położenia” zrozumiałe dla maszyny.

2. Intuicyjne zrozumienie: mapa semantyczna

Wyobraź sobie dwuwymiarową mapę (w rzeczywistości embeddingi mają często setki wymiarów, ale zasada jest ta sama):

Kot → [0.92, 0.31, -0.45, …]
Pies → [0.88, 0.29, -0.42, …]
Samochód → [0.15, -0.87, 0.53, …]

Wektory kota i psa są bardzo blisko siebie, natomiast samochód jest daleko.
Embedding sprawia, że komputer przestaje traktować słowa jako izolowane symbole, a zamiast tego może porównywać teksty na podstawie „bliskości znaczeniowej”.

3. Zasada techniczna (wersja uproszczona): Jak się tego uczy?

Opiera się na założeniu lingwistycznym: „Znaczenie słowa określa jego kontekst.”

Trenując na ogromnych korpusach tekstów (np. Word2Vec, warstwy embeddingu w BERT), model stopniowo dostosowuje wektor każdego słowa.
Ostatecznie słowa występujące w podobnych kontekstach (kot i pies w kontekstach „zwierzę domowe”, „głaskanie”, „karmienie”) są przyciągane do siebie.
Ten proces nie wymaga żadnego ręcznego adnotowania – jest to struktura geometryczna, która wyłania się automatycznie z użycia języka.

Ważna właściwość: Przestrzeń wektorowa potrafi nawet uchwycić relacje analogii, np. król - mężczyzna + kobieta ≈ królowa.

4. W systemie RAG: Jakie konkretnie kroki wykonuje Embedding?

Podczas indeksowania: Każdy fragment dokumentu (chunk) jest przekształcany na wektor → zapisywany w bazie wektorów → powstaje „adres semantyczny”.
Podczas zapytania: Pytanie użytkownika jest przekształcane na wektor w tej samej przestrzeni → w bazie znajdowane są najbliższe wektory dokumentów → zwracane są semantycznie powiązane fragmenty wiedzy.

Przykład działania:
Użytkownik pyta „Jak utrzymać mojego psa szczęśliwym?”, nawet jeśli w bazie wiedzy jest tylko „Psy potrzebują codziennych spacerów, co pomaga ich zdrowiu psychicznemu”, embedding i tak z powodzeniem odnajdzie ten fragment ze względu na bliskość semantyczną słów „szczęście/zdrowie/pies”. Działa na zasadzie „zgodności znaczeniowej”, a nie „dosłownej zgodności”.

5. Strategia odpowiedzi na rozmowie kwalifikacyjnej (2–3 minuty, pełny scenariusz)

Poniżej znajduje się zaprojektowany szkielet odpowiedzi, który pokazuje zarówno głębię teoretyczną, jak i doświadczenie projektowe.

[Otwarcie – określenie tematu]

„Głównym zadaniem Embeddingu jest odwzorowanie dyskretnych, nieustrukturyzowanych danych w ciągłą, niskowymiarową przestrzeń wektorową, tak aby obiekty semantycznie podobne znajdowały się blisko siebie. Mówiąc wprost, chodzi o zbudowanie dla komputera 'układu współrzędnych semantycznych'.”

[Rozwinięcie zasady, wspomnienie klasycznych właściwości]

„Tradycyjne kodowanie one-hot nie daje pojęcia odległości między słowami, natomiast embedding uczy się z dużej ilości danych za pomocą sieci neuronowych – 'znaczenie słowa określa jego kontekst'. Ostatecznie każde słowo/zdanie jest reprezentowane jako gęsty wektor, a cosinus kąta między wektorami może bezpośrednio mierzyć podobieństwo semantyczne. Można nawet uchwycić relacje analogii, np. król - mężczyzna + kobieta ≈ królowa.”

[Połączenie z doświadczeniem projektowym – kluczowe]

„W moim poprzednim projekcie systemu RAG do pytań i odpowiedzi bezpośrednio używałem embeddingu. Wybrałem text-embedding-3-small, podzieliłem wewnętrzne dokumenty firmy na fragmenty po 500 znaków, każdy fragment przekształciłem na wektor i zapisałem w Qdrant.
Pewnego razu użytkownik zapytał 'jak wnioskować o urlop wypoczynkowy', a wyszukiwanie słów kluczowych nie znalazło odpowiedzi, ponieważ w dokumentach było napisane 'procedura wnioskowania o urlop'. Jednak embedding był w stanie odwzorować 'urlop wypoczynkowy' i 'urlop' w bliskie pozycje, skutecznie odzyskując właściwy fragment.
Natknąłem się też na problem: na początku użyłem ogólnego embeddingu, który na klauzulach prawnych działał słabo. Później zmieniłem na domenowo dostrojony BGE-large i wskaźnik trafień wzrósł z 72% do 89%. Wybór modelu embeddingu ma więc ogromny wpływ na zadania downstream.”

[Dodanie refleksji pogłębionej, pokazanie potencjału seniora]

„Chciałbym też dodać: embedding to w istocie stratna kompresja semantyczna – odrzuca on powierzchowne informacje, takie jak szyk wyrazów czy struktura zdania, zachowując tylko 'ogólny sens'. Dlatego w scenariuszach wymagających dokładnego dopasowania (np. modele produktów 'iPhone12' vs 'iPhone13') samo wyszukiwanie wektorowe może nie wystarczyć. W praktyce często stosujemy wyszukiwanie hybrydowe (wektory + BM25), aby się uzupełniały.”

[Zakończenie]

„Podsumowując, embedding rozwiązuje podstawowy problem: 'jak sprawić, by komputer mógł obliczać podobieństwo semantyczne'. Jest jednym z fundamentów współczesnego NLP i RAG.”

6. Możliwe pytania uzupełniające od rekrutera i jak na nie odpowiedzieć

Pytanie	Kluczowe punkty odpowiedzi
„Jak trenuje się embedding?”	Krótko wyjaśnij CBOW/Skip-gram w Word2Vec (przewidywanie środkowego słowa na podstawie kontekstu lub odwrotnie) lub nowoczesne uczenie kontrastywne (SimCSE, Sentence-BERT). Podkreśl, że istotą trenowania jest wykorzystanie statystyk współwystępowania.
„Jak ocenić jakość embeddingu?”	W konkretnym zadaniu: wskaźnik trafień, MRR; publiczne benchmarki jak MTEB. W praktyce można przeprowadzić test A/B efektów wyszukiwania.
„Jakich modeli embeddingu używałeś? Wady i zalety?”	OpenAI – wygodne, ale drogie; BGE – dobre dla języka chińskiego; M3E – lekkie; E5 – wielojęzyczne. Wybór zależy od scenariusza.
„Jak dobrać wymiarowość wektora?”	Wyższe wymiary – większa siła wyrazu, ale wyższy koszt obliczeniowy/przechowywania; niższe wymiary – ryzyko niedouczenia. Często używane 384/768/1536, kompromis ustalany eksperymentalnie.

7. Pułapki do unikania (w trakcie rozmowy kwalifikacyjnej)

❌ Nie poprzestawaj na stwierdzeniu „embedding zamienia tekst na wektor” – to zbyt płytkie, rekruter zapyta „i co dalej?”
❌ Nie bądź zbyt matematyczny (od razu mówiąc o przestrzeni Hilberta) – może sprawić wrażenie, że recytujesz z podręcznika, a nie masz praktyki.
✅ Koniecznie opowiedz, jak osobiście użyłeś embeddingu do rozwiązania konkretnego problemu, nawet jeśli to tylko projekt kursowy. Konkretna liczba (np. wzrost trafności o 17%) jest bardziej przekonująca niż dziesięć zdań teorii.