Sèrie d'entrevistes AI 10: Què fa realment l'Embedding? — De l'essència tècnica a la resposta d'entrevista

Què fa realment l'Embedding? — De l'essència tècnica a la resposta d'entrevista

I. Essència tècnica: una frase per al nucli

La tasca principal de l'Embedding és mapejar dades no estructurades discretes (text, imatges, etc.) a un espai vectorial continu i de baixa dimensió, de manera que objectes semànticament similars es trobin propers en aquest espai.
En altres paraules, és establir un "sistema de coordenades semàntiques" per a l'ordinador, traduint el "significat vague" humà en "coordenades de posició" que l'ordinador pot calcular.

II. Comprensió intuitiva: un mapa semàntic

Imagineu un mapa bidimensional (l'embedding real sovint té centenars de dimensions, però el principi és el mateix):

gat → [0.92, 0.31, -0.45, …]
gos → [0.88, 0.29, -0.42, …]
cotxe → [0.15, -0.87, 0.53, …]

Els vectors de gat i gos són molt propers, mentre que el cotxe n'està lluny.
L'Embedding permet que l'ordinador no tracti les paraules com a símbols aïllats, sinó que pugui comparar text basant-se en la "proximitat de significat".

III. Principi tècnic (versió simplificada): com s'aprèn?

Basat en la hipòtesi lingüística: "El significat d'una paraula ve determinat pel seu context."

Mitjançant l'entrenament en grans quantitats de text (com Word2Vec, capa d'embedding de BERT), el model ajusta contínuament els vectors de cada paraula.
Finalment, les paraules que apareixen en contextos similars (gat i gos apareixen en contextos com "mascota", "acaronar", "alimentar") se situen en posicions properes.
Aquest procés no necessita cap anotació manual; és una estructura geomètrica que emergeix automàticament de l'ús del llenguatge.

Propietat important: l'espai vectorial pot fins i tot capturar relacions analògiques, com rei - home + dona ≈ reina.

IV. En un sistema RAG, quins passos concrets realitza l'Embedding?

En construir l'índex: convertir cada bloc de document (chunk) en vector → emmagatzemar a la base de dades vectorial → generar "adreces semàntiques".
En la consulta: convertir la pregunta de l'usuari en vector del mateix espai → trobar els vectors de document més propers a la base de dades → recuperar fragments de coneixement rellevants semànticament.

Exemple d'efecte:
L'usuari pregunta "Com mantenir feliç el meu gos?", encara que la base de coneixement només tingui "Els gossos necessiten passejar cada dia, això ajuda a la seva salut mental", l'embedding pot recuperar-ho amb èxit gràcies a la proximitat semàntica de "feliç/salut/gos". Aconsegueix una "concordança per significat", no per forma.

V. Estratègia de resposta en entrevista (discurs complet de 2-3 minuts)

A continuació, un marc de resposta dissenyat que mostra tant profunditat teòrica com experiència en projectes.

[Obertura]

"La tasca principal de l'Embedding és mapejar dades no estructurades discretes a un espai vectorial continu i de baixa dimensió, de manera que objectes semànticament similars es trobin propers en aquest espai. En altres paraules, és establir un 'sistema de coordenades semàntiques' per a l'ordinador."

[Explicar el principi, esmentar propietats clàssiques]

"La codificació one-hot tradicional no té concepte de distància entre paraules, mentre que l'embedding aprèn a partir de grans corpus mitjançant xarxes neuronals — 'el significat d'una paraula ve determinat pel seu context'. Finalment, cada paraula/frase es representa com un vector dens, i el cosinus de l'angle entre vectors mesura directament la similitud semàntica. Fins i tot pot capturar relacions analògiques, com rei - home + dona ≈ reina."

[Combinar amb experiència de projecte — punt clau]

"En el sistema de preguntes i respostes RAG que vaig fer anteriorment, vaig utilitzar directament l'embedding. Vaig triar text-embedding-3-small, vaig dividir els documents interns de l'empresa en blocs de 500 caràcters, i cada bloc el vaig convertir en vector per emmagatzemar-lo a Qdrant.
Una vegada, un usuari va preguntar 'Com sol·licitar vacances anuals', i la cerca per paraules clau no ho va trobar, perquè el document deia 'Procediment de sol·licitud de permís'. Però l'embedding va poder mapejar 'vacances anuals' i 'permís' en posicions properes, i va recuperar amb èxit el paràgraf correcte.
També vaig caure en un error: al principi vaig utilitzar un embedding genèric, que funcionava malament en clàusules legals; després vaig canviar a BGE-large ajustat al domini, i la taxa d'encert en recuperació va millorar del 72% al 89%. Per tant, l'elecció del model d'embedding té un gran impacte en les tasques posteriors."

[Afegir reflexió profunda, mostrant potencial sènior]

"A més, voldria afegir un punt: l'embedding és essencialment una compressió semàntica amb pèrdua — descarta informació superficial com l'ordre de les paraules, la sintaxi, etc., i només conserva el 'significat general'. Per tant, en escenaris que requereixen una coincidència exacta (com models de producte 'iPhone12' vs 'iPhone13'), la cerca purament vectorial pot ser inferior a la cerca per paraules clau. En la pràctica, sovint utilitzem cerca híbrida (vector + BM25) per complementar."

[Tancament]

"En resum, l'embedding resol el problema fonamental de 'com fer que l'ordinador calculi la similitud semàntica'. És una de les pedres angulars del NLP modern i del RAG."

VI. Preguntes de seguiment de l'entrevistador i com respondre-hi

Pregunta	Punts clau de resposta
"Com s'entrena l'embedding?"	Explicar breument CBOW/Skip-gram de Word2Vec (predir la paraula central a partir del context o viceversa), o l'aprenentatge contrastiu modern (SimCSE, Sentence-BERT). Destacar que l'entrenament es basa en l'estadística de coocurrència.
"Com avaluar la qualitat de l'embedding?"	Amb la taxa d'encert, MRR en tasques específiques; benchmarks públics com MTEB. A la pràctica, es pot fer A/B test per avaluar l'efecte de recuperació.
"Quins models d'embedding has utilitzat? Avantatges i inconvenients?"	OpenAI és convenient però car, BGE funciona bé en xinès, M3E és lleuger, E5 és multilingüe. Cal triar segons l'escenari.
"Com triar la dimensió del vector?"	Dimensions altes tenen més capacitat d'expressió però cost computacional/d'emmagatzematge; dimensions baixes poden infradaptar-se. Comuns: 384/768/1536, s'ha de fer experiment per trobar el balanç.

VII. Advertències (aplicables a l'entrevista)

❌ No diguis només "l'embedding converteix text en vectors" — és massa superficial, l'entrevistador preguntarà "I després?"
❌ No siguis massa matemàtic (parlar d'espai de Hilbert de cop) — pot semblar que recites teoria sense pràctica.
✅ Assegura't d'explicar com has resolt un problema amb l'embedding, encara que sigui un projecte de curs. Un nombre concret (com millora del 17% en taxa d'encert) és més potent que deu frases de teoria.