← 返回列表

Ìfọ̀rọ̀wánilẹ́nuwò Ẹ̀ka AI 10: Kí ni Embedding Ṣe Gan-an? — Láti Ìdí Imọ̀-ẹ̀rọ sí Ìdáhùn Ìfọ̀rọ̀wánilẹ́nuwò

Kí ni Embedding Ṣe Gan-an? — Láti Ìdí Imọ̀-ẹ̀rọ sí Ìdáhùn Ìfọ̀rọ̀wánilẹ́nuwò

1. Ìdí Imọ̀-ẹ̀rọ: Ọ̀rọ̀ kan ṣoṣo Ṣàlàyé Kòkòrò

Iṣẹ́ pàtàkì ti Embedding ni, láti ṣàwòrán data tí kò dúró ṣoṣo (ọ̀rọ̀, àwòrán, àti bẹ́ẹ̀ bẹ́ẹ̀ lọ) sí àyè vector tí ó tẹ̀síwájú, tí ó kéré, tí ó sì jẹ́ pé àwọn nǹkan tí ó jọra ní ìtumọ̀ sún mọ́ ara wọn nínú àyè yìí.
Ní ọ̀rọ̀ míràn, ó ń fún kọ̀ǹpútà ní “ètò ìdínà ìtumọ̀”, tí ó ń tú “ìtumọ̀ àìdánilójú” ènìyàn sí “àwọn ìdínà àyè” tí kọ̀ǹpútà lè ṣiṣẹ́ lórí.


2. Òye Tó Gbà lọ́kàn: Màápì Ìtumọ̀

Fojú inú wo màápì onípele méjì (nígbà tóòótọ́ embedding sábà jẹ́ ọ̀ọ́dúnrún onípele, ṣùgbọ́n ìlànà kan náà):

  • Ọ̀pọ̀lọ → [0.92, 0.31, -0.45, …]
  • Ajá → [0.88, 0.29, -0.42, …]
  • Ọkọ̀ ayọ́kẹ́lẹ́ → [0.15, -0.87, 0.53, …]

Àwọn vector ti Ọ̀pọ̀lọ àti Ajá sún mọ́ ara wọn gan-an, ṣùgbọ́n Ọkọ̀ ayọ́kẹ́lẹ́ jìnnà sí wọn.
Embedding jẹ́ kí kọ̀ǹpútà má ka ọ̀rọ̀ sí àmì tó dá wà, ṣùgbọ́n ó lè fi “jíǹsí tàbí sísúnmọ́ ìtumọ̀” wé àwọn ọ̀rọ̀.


3. Ìlànà Imọ̀-ẹ̀rọ (Ẹ̀dà tó rọrùn): Báwo ṣe ń kọ́ ẹkọ́?

Ó gbé lé èrò èdè: “Ìtumọ̀ ọ̀rọ̀ kan, àyíká ọ̀rọ̀ rẹ̀ ló ń ṣètò rẹ̀.”

  • Nípa kíkọ́ lórí ọ̀pọ̀lọpọ̀ ọ̀rọ̀ (bíi Word2Vec, BERT embedding layer), àwoṣe máa ń ṣàtúnṣe vector ọ̀rọ̀ kọ̀ọ̀kan.
  • Nígbẹ̀yìn, àwọn ọ̀rọ̀ tí wọ́n sábà máa ń farahàn nínú àyíká kan náà (Ọ̀pọ̀lọ àti Ajá nínú “ọ̀sìn”, “pà”, “bọ́” àyíká) ni yóò sún mọ́ ara wọn.
  • Ilé yìí kò nílò àmìsí ọwọ́ ènìyàn, ó jẹ́ àdáyébá láti inú ìlò èdè.

Ànímọ́ pàtàkì: Àyè vector lè mú ìbáṣepọ̀ afiwéra, bíi ọba - ọkùnrin + obìnrin ≈ ayaba.


4. Nínú Ètò RAG, Kí ni Embedding Ṣe Ní Àwọn Ìgbésẹ̀ Kọ̀ọ̀kan?

  1. Nígbà tí a ń kọ́ àkójọpọ̀: Yípa gbólóhùn kọ̀ọ̀kan (chunk) sí vector → tójú sí inú ibùdó vector → ṣe “àdírẹ́sì ìtumọ̀”.
  2. Nígbà ìbéèrè: Yípa ìbéèrè olùṣàmúlò sí vector nínú àyè kan náà → wá àwọn vector tó sún mọ́ jùlọ nínú ibùdó → gbé àwọn èyí tó jẹ́ kókó padà.

Àpẹẹrẹ Olùṣàmúlò béèrè “Báwo ni mo ṣe lè mú ajá mi sunwọ̀n?”, bó tilẹ̀ jẹ́ pé inú ibùdó ìmọ̀ ní “Ajá nílò rírìn ojoojúmọ́, èyí ń ràn án lọ́wọ́ nínú ìlera ọpọlọ”, embedding lè tún gbé e padà nítorí ìsúnmọ́ ìtumọ̀ “sunwọ̀n/ìlera/ajá”. Ó ń ṣe “ìbáṣepọ̀ ìtumọ̀”, kì í ṣe “ìbáṣepọ̀ ọ̀rọ̀”


5. Ìlànà Ìdáhùn Ìfọ̀rọ̀wánilẹ́nuwò (ọ̀rọ̀ 2–3 ìṣẹ́jú)

Èyí ni àgbékalẹ̀ ìdáhùn tí a gbé kalẹ̀, tí ó lè fi ìjìnlẹ̀ ìmọ̀ hàn, àti pẹ̀lú ìrírí iṣẹ́.

[Ìbẹ̀rẹ̀]

“Iṣẹ́ pàtàkì ti Embedding ni, láti ṣàwòrán data tí kò dúró ṣoṣo sí àyè vector tí ó tẹ̀síwájú, tí ó kéré, tí ó sì jẹ́ pé àwọn nǹkan tí ó jọra ní ìtumọ̀ sún mọ́ ara wọn nínú àyè yìí. Ní ọ̀rọ̀ míràn, ó ń fún kọ̀ǹpútà ní ‘ètò ìdínà ìtumọ̀’.”

[ Ṣàlàyé ìlànà, Mẹ́nu àwọn ànímọ́ tó gbajúmọ̀]

“One-hot encoding àtijọ́ kò ní ìwọ̀n jíjìn nínú ọ̀rọ̀, ṣùgbọ́n embedding kọ́ ẹkọ́ láti inú ọ̀pọ̀lọpọ̀ ọ̀rọ̀ nípasẹ̀ nẹ́tíwọọkì nẹ́urónì — ‘àyíká ọ̀rọ̀ ló ń ṣètò ìtumọ̀ rẹ̀’. Nígbẹ̀yìn, ọ̀rọ̀/gbólóhùn kọ̀ọ̀kan jẹ́ vector tí ó kún, tí cosine ti igun vector lè wọn ìjọra ìtumọ̀. Ó tilẹ̀ lè mú ìbáṣepọ̀ afiwéra, bíi ọba - ọkùnrin + obìnrin ≈ ayaba.”

[Dapọ̀ pẹ̀lú ìrírí iṣẹ́ — pàtàkì]

“Nínú ètò RAG ìbéèrè-ìdáhùn tí mo ṣe tẹ́lẹ̀, mo lo embedding. Mo yan text-embedding-3-small, mo gé àwọn ìwé inú ilé-iṣẹ́ sí àwọn ẹ̀yà ọ̀rọ̀ 500, mo yípa àwọn ẹ̀yà kọ̀ọ̀kan sí vector tí mo sì tójú sí Qdrant.
Lọ́jọ́ kan, olùṣàmúlò béèrè ‘Báwo ni mo ṣe lè bẹ̀rẹ̀ ìsinmi ọdún’, ìwádìí kókó kò rí i, nítorí nínú ìwé náà ni ‘ìlànà ìbẹ̀rẹ̀ ìsinmi’. Ṣùgbọ́n embedding lè mú ‘ìsinmi ọdún’ àti ‘ìsinmi’ sún mọ́ ara wọn, ó sì gbé ẹ̀sì tó tọ́ padà.
Mo tún kọsẹ̀ kan: ní ìbẹ̀rẹ̀ mo lo embedding gbogbogbòò, lórí àwọn òfin kò ṣiṣẹ́ dáadáa, lẹ́yìn náà mo yípadà sí BGE-large tí a túnṣe fún pápá yẹn, ìdípadà ìwádìí sì bọ́ síi láti 72% sí 89. Nítorí yìí, yíyan àwoṣe embedding kọ̀ láti pẹ̀lú iṣẹ́-ṣiṣe tí ó wà lẹ́yìn.”

[Àfikún ìrònú jíjinlẹ̀, fi agbára senior hàn]

“Mo fẹ́ fi ìkan kún un: embedding jẹ́, ní ìpilẹ̀ṣẹ̀, ìkúnkúnsó ìtumọ̀ tí ó pàdánù alaye — ó ń sọnù kókó ọ̀rọ̀, ìtòlẹ́sẹẹsẹ, àti àwọn alaye ojú-oju, ó sì ń fi ‘kókó’ nìkan pamọ́. Nítorí náà, ní àwọn ibi tí ó nílò ìbámu gangan (bíi àwọn awoṣe ọjà ‘iPhone12’ vs ‘iPhone13’), ìwádìí vector nìkan lè kùnà. Nínú iṣẹ́ ẹ̀rọ, a sábà máa ń lo ìwádìí àdàpọ̀ (vector + BM25) láti fi ara wọn kún ara wọn.”

[Ìparí]

“Lápapọ̀, embedding ń yanjú ìṣòro ìpìlẹ̀: ‘báwo la ṣe lè jẹ́ kí kọ̀ǹpútà wọn ìjọra ìtumọ̀’. Ó jẹ́ òkúta ìlẹ̀kùn fún NLP àti RAG òde òní.”


6. Àwọn Ìbéèrè Tí Olùfọ̀rọ̀wánilẹ́nuwò Lè Tún Béèrè Àti Bí Wàá Ṣe Dáhùn

Ìbéèrè Àwọn kókó tí o gbọ́dọ̀ sọ
“Báwo la ṣe kọ́ embedding?” Ṣàlàyé Word2Vec CBOW/Skip-gram (lilo àyíká ọ̀rọ̀ láti sọtẹ́lẹ̀ ọ̀rọ̀ àárín tàbí òdìkejì), tàbí ẹ̀kọ́ ìfiwéra òde òní (SimCSE, Sentence-BERT). Tẹnu mọ́ ẹ̀kọ́ tí ó da lórí ìfarahàn àpapọ̀.
“Báwo ni a ṣe ń wọn dídára embedding?” Lórí iṣẹ́-ṣiṣe kan, lo ìdípadà, MRR; àwọn ìlànà gbangba bíi MTEB. Nínú iṣẹ́, lè ṣe àyẹ̀wò A/B lórí ìwádìí.
“Àwoṣe embedding wo ni o ti lò? Àwọn ànfàní àti àìlera?” OpenAI rọrùn ṣùgbọ́n gbówó lórí, BGE dára fún èdè Kannada, M3E fúyẹ́, E5 oní èdè púpọ̀. Ó lè yan nípa ojú pàtàkì.
“Báwo ni a ṣe ń yan iwọ̀n vector?” Onípele gíga sì ń fúnni ní agbára ṣùgbọ́n ó wọ́n nínú ìṣirò/titọ́ju; onípele kéré lè jẹ́ kí kọ́ ẹ̀kọ́ kùnà. Wọ́n sábà máa ń lo 384/768/1536, tí a sì ń ṣe àyẹ̀wò láti rí ìwọ̀n tó dára.

7. Ìkìlọ̀ (Fún Àkókò Ìfọ̀rọ̀wánilẹ́nuwò)

  • ❌ Má ṣe sọ “embedding ń yí ọ̀rọ̀ padà sí vector” nìkan — èyí kò jìn, olùfọ̀rọ̀wánilẹ́nuwò yóò béèrè “Kí ló tún wà?”
  • ❌ Má ṣe sọ̀rọ̀ nípa math ju bó ṣe yẹ (lílò “ààyè Hilbert” láìsí àlàyé), ó lè dàbí ẹni ń fi ìwé sórí ẹ̀kọ́ dípò ìṣe.
  • Rí i dájú pé o sọ̀rọ̀ nípa bí o ṣe lo ọwọ́ ara rẹ láti yanjú ìṣòro kan, bó tilẹ̀ jẹ́ iṣẹ́ ẹ̀kọ́ kan. Nọ́mbà kan tí ó dá (bíi “igbega 17% nínú ìdípadà”) jẹ́ alágbára ju àwọn ọ̀rọ̀ ìlànà mẹ́wàá lọ.

评论

暂无已展示的评论。

发表评论(匿名)