AI serieko elkarrizketa 10: Zer egiten du embeddinek? – Munta teknikotik elkarrizketarako erantzunetara

Zer egiten du embeddinek? – Munta teknikotik elkarrizketarako erantzunetara

I. Munta teknikoa: esaldi batean funtsa adierazi

Embedding-aren lana, datu diskretu eta egituratu gabeak (testua, irudiak, etab.) bektore-espazio jarrai eta dimentsio baxuko batera mapatzea da, modu semantikoan antzekoak diren objektuak espazio horretan gertu egon daitezen.
Hau da, ordenagailuari "koordenatu-sistema semantiko" bat sortzea, gizakiaren "esanahi lausoak" ordenagailuak kalkulatu ditzakeen "kokapen-koordenatuak" bihurtuz.

II. Ulermen intuitiboa: mapa semantikoa

Imajinatu bi dimentsioko mapa bat (benetako embedding-ek ehunka dimentsio izan ohi dituzte, baina printzipioa bera da):

Katua → [0.92, 0.31, -0.45, …]
Txakurra → [0.88, 0.29, -0.42, …]
Autoa → [0.15, -0.87, 0.53, …]

Katu eta txakurraren bektoreak oso hurbil daude; autoa, berriz, urrun.
Embedding-ek ordenagailuari hitzak sinbolo isolatu gisa tratatzea eragozten dio; haien esanahiaren arabera testuak konparatu ditzake.

III. Printzipio teknikoa (sinplifikatua): nola ikasten da?

Hizkuntzalaritzako hipotesian oinarritua: "Hitz baten esanahia bere testuinguruak zehazten du."

Testu masiboetan entrenatuz (adibidez, Word2Vec, BERT-en kapsulapen-geruza), modeloak etengabe doitzen du hitz bakoitzaren bektorea.
Azkenean, testuinguru antzekoetan sarritan agertzen diren hitzak (katua eta txakurra "maskota", "laztandu", "elikatu" testuinguruetan) gertu kokatzen dira.
Prozesu honek ez du etiketatze manualik behar; hizkuntzaren erabileratik automatikoki sortzen den egitura geometrikoa da.

Propietate garrantzitsua: bektore-espazioak analogia-harremanak harrapatzen ditu, esaterako erregea - gizona + emakumea ≈ erregina.

IV. RAG sisteman, zer urrats egiten ditu embeddinek?

Indexatzean: dokumentu-zati (chunk) bakoitza bektore bihurtu → bektore-datu-basean gorde → "helbide semantikoa" sortu.
Galdetzean: erabiltzailearen galdera bektore bihurtu espazio berean → datu-basean dokumentu-bektorerik hurbilenak bilatu → ezagutza semantikoki erlazionatutako zatiak ekarri.

Adibidea:
Erabiltzaileak galdetzen badu "Nola mantendu nire txakurra pozik?", ezagutza-basean "Txakurrak egunero paseatu behar du, horrek bere osasun mentala laguntzen du" bakarrik badago ere, embedding-ak "pozik/osasun/txakur" esanahi-gertutasuna dela medio arrakastaz ekarriko du. "Forma" baino "esanahia" lehenesten du.

V. Elkarrizketarako erantzuteko estrategia (2-3 minutuko diskurtso osoa)

Hona hemen diseinatutako erantzun-marko bat, teoria sakontasuna eta proiektu-esperientzia uztartzen dituena.

[Hasierako tonua]

"Embedding-aren lana, datu diskretu eta egituratu gabeak bektore-espazio jarrai eta dimentsio baxuko batera mapatzea da, non semantikoki antzeko objektuak elkarrengandik gertu dauden. Hau da, ordenagailuari 'koordenatu-sistema semantiko' bat sortzea."

[Printzipioa azaldu, propietate klasikoak aipatuz]

"One-hot kodifikazio tradizionalean ez dago hitzen arteko distantzia kontzepturik; embedding-ek, ordea, neurona-sareen bidez ikasten dute corpus handietatik: 'hitz baten esanahia bere testuinguruak zehazten du'. Azkenean, hitz/esaldi bakoitza bektore dentso gisa adierazten da, eta bektoreen arteko kosinu angelua zuzenean erabil daiteke antzekotasun semantikoa neurtzeko. Are gehiago, analogia-harremanak harrapatzen ditu, adibidez erregea - gizona + emakumea ≈ erregina."

[Proiektu-esperientziarekin lotu – garrantzitsua]

"Aurretik egindako RAG jakintza-erantzun sistema batean, embedding-ak zuzenean erabili nituen. text-embedding-3-small aukeratu nuen, eta konpainiako dokumentu-barrukoak 500 karaktereko zatitan moztu, zati bakoitza bektore bihurtu eta Qdrant-en gorde.
Behin, erabiltzaile batek 'nola eskatu urteko baimena' galdetu zuen; gako-hitzen bidezko bilaketak ez zuen ezer aurkitu, dokumentuan 'baimena eskatzeko prozedura' agertzen zelako. Baina embedding-ak 'urteko baimena' eta 'baimena' gertu mapatu zituen, eta paragrafo egokia ekartzea lortu zuen.
Akats bat ere egin nuen: hasieran embedding orokor bat erabili nuen lege-klausuletarako, eta emaitza kaskarrak izan zituen; gero domeinuan fintutako BGE-large-ra aldatu nuen, eta bilaketen eraginkortasuna %72tik %89ra igo zen. Beraz, embedding modeloaren hautaketak eragin handia du beheranzko zereginetan."

[Sakontasuna gehitu, senior potentziala erakutsiz]

"Gainera, puntu bat gehitu nahi nuke: embedding-a konpresio semantiko galeratsua da — hitzen ordena, sintaxia eta gainazaleko beste informazio asko baztertzen ditu, 'esanahia' bakarrik gordez. Beraz, parekatze zehatza behar duten eszenatokietan (adibidez, produktu-ereduak 'iPhone12' vs 'iPhone13'), bektore-bilaketa hutsa ez da hain egokia. Benetako ingeniaritzan, bilaketa mistoa (bektoreak + BM25) erabiltzen dugu elkarren osagarri gisa."

[Amaiera]

"Laburbilduz, embedding-ek 'nola lortu ordenagailuak antzekotasun semantikoa kalkulatzea' oinarrizko arazoa konpontzen du. Hizkuntzaren prozesamendurako eta RAG-aren oinarrietako bat da."

VI. Elkarrizketatzaileak jarraian galdetu ditzakeenak eta zure erantzuna

Galdera	Erantzunaren puntu nagusiak
"Nola entrenatzen da embedding bat?"	Word2Vec-en CBOW/Skip-gram (testuingurua erabiliz erdiko hitza aurreikusi edo alderantziz) edo egungo ikasketa konparatiboa (SimCSE, Sentence-BERT) azaldu. Entrenamenduaren funtsa baterako agerpen estatistikoak aprobetxatzea dela azpimarratu.
"Nola ebaluatzen da embedding baten kalitatea?"	Zeregin zehatzetan eraginkortasun-tasa, MRR; benchmark publikoak adibidez MTEB. Praktikan A/B probak egin.
"Zein embedding modelo erabili dituzu? Abantailak eta desabantailak?"	OpenAI erosoa baina garestia, BGE ondo doa txinerarekin, M3E arina, E5 eleanitza. Egoeraren arabera aukeratu.
"Nola aukeratzen da bektore-dimentsioa?"	Dimentsio handiagoak adierazpen indartsuagoa baina kalkulu/gordailu garestiagoa; baxuegia bada, gutxiegi egokitu daiteke. Normalean 384/768/1536 erabiltzen dira, esperimentuen bidez orekatuz.

VII. Oharrak (elkarrizketan kontuz ibiltzeko)

❌ Ez esan soilik "embedding-a hitzak bektore bihurtzea da" — oso azalekoa, elkarrizketatzaileak 'eta gero?' galdetuko du.
❌ Ez hasi matematika gehiegi (Hilbert espazioa aipatuz), itxura liburua buruz ikasi duzula eman dezake.
✅ Behar-beharrezkoa da esatea zuk zeuk konpondu duzun arazo bat, ikastaroko proiektu bat bada ere. Zenbaki zehatz bat (adibidez, %17ko igoera) hamar teoria-esaldik baino sendoagoa da.