← 返回列表

AI Հարցազրույցների շարք 10. Ի՞նչ է իրականում անում Embedding-ը. տեխնիկական էությունից մինչև հարցազրույցի պատասխան

Ի՞նչ է իրականում անում Embedding-ը. տեխնիկական էությունից մինչև հարցազրույցի պատասխան

1. Տեխնիկական էություն. մեկ նախադասությամբ նշել հիմնականը

Embedding-ի հիմնական աշխատանքը դիսկրետ, ոչ կառուցվածքային տվյալները (տեքստ, պատկեր և այլն) շարունակական, ցածրաչափական վեկտորային տարածության մեջ քարտեզագրելն է, այնպես, որ իմաստային նման օբյեկտները մոտ լինեն իրար:
Պարզ ասած, դա համակարգչի համար «իմաստային կոորդինատային համակարգ» ստեղծելն է, մարդու «անորոշ իմաստը» թարգմանելով համակարգչի կողմից հաշվարկվող «կոորդինատների»:


2. Պատկերավոր ըմբռնում. իմաստային քարտեզ

Պատկերացրեք երկչափ քարտեզ (իրականում embedding-ը հաճախ հարյուրավոր չափեր ունի, բայց սկզբունքը նույնն է).

  • Կատու → [0.92, 0.31, -0.45, …]
  • Շուն → [0.88, 0.29, -0.42, …]
  • Մեքենա → [0.15, -0.87, 0.53, …]

Կատուի և շան վեկտորները շատ մոտ են, մեքենան շատ հեռու:
Embedding-ի շնորհիվ համակարգիչը բառերն այլևս որպես մեկուսացված սիմվոլներ չի դիտարկում, այլ կարող է տեքստը համեմատել «իմաստային հեռավորության» առումով:


3. Տեխնիկական սկզբունք (պարզեցված տարբերակ). ինչպե՞ս է այն սովորում:

Հիմնված է լեզվաբանական վարկածի վրա. «Բառի իմաստը որոշվում է նրա կոնտեքստով»:

  • Հսկայական տեքստերի վրա մարզելիս (օր. Word2Vec, BERT embedding շերտ), մոդելը անընդհատ կարգավորում է յուրաքանչյուր բառի վեկտորը:
  • Ի վերջո, այն բառերը, որոնք հաճախ հայտնվում են նման կոնտեքստերում (կատու և շուն՝ «ընտանի կենդանի», «շոյել», «կերակրել» դաշտերում), մոտեցվում են:
  • Այս գործընթացը բացարձակապես մարդկային մակնշում չի պահանջում, այն ինքնաբերաբար առաջացող երկրաչափական կառուցվածք է լեզվի կիրառությունից:

Կարևոր հատկություն՝ վեկտորային տարածությունը կարող է անգամ անալոգիաներ որսալ, ինչպես արքա - տղամարդ + կին ≈ թագուհի:


4. RAG համակարգում, ինչպիսի՞ քայլեր է կատարում Embedding-ը:

  1. Ինդեքսավորելիս՝ յուրաքանչյուր փաստաթղթի հատվածը (chunk) վերածել վեկտորի → պահել վեկտորային տվյալների բազայում → ստեղծել «իմաստային հասցե»:
  2. Հարցում կատարելիս՝ օգտագործողի հարցը վերածել նույն տարածության վեկտորի → տվյալների բազայում գտնել ամենամոտ փաստաթղթային վեկտորները → վերականգնել իմաստային առնչվող գիտելիքները:

Օրինակ՝
Օգտագործողը հարցնում է «Ինչպե՞ս պահել իմ շանը երջանիկ», նույնիսկ եթե գիտելիքների բազայում կա միայն «Շունը պետք է ամեն օր զբոսնի, դա օգնում է նրա հոգեկան առողջությանը», embedding-ը կարող է հաջողությամբ վերականգնել այն «երջանիկ/առողջություն/շուն» իմաստային մոտիկության շնորհիվ: Իրականացնում է «իմաստային համընկնում», ոչ թե «ձևական»:


5. Հարցազրույցի պատասխանման ռազմավարություն (2-3 րոպե ամբողջական խոսք)

Ստորև ներկայացված է մշակված պատասխանելու շրջանակ, որը միաժամանակ ցույց է տալիս տեսական խորությունը և ծրագրի փորձը:

[Սկիզբ]

«Embedding-ի հիմնական աշխատանքը դիսկրետ, ոչ կառուցվածքային տվյալները շարունակական, ցածրաչափական վեկտորային տարածության մեջ քարտեզագրելն է, այնպես որ իմաստային նման օբյեկտները մոտ լինեն իրար: Պարզ ասած, դա համակարգչի համար «իմաստային կոորդինատային համակարգ» ստեղծելն է»:

[Բացատրել սկզբունքը, նշել դասական հատկություններ]

«Ավանդական one-hot կոդավորման մեջ բառերի միջև հեռավորություն գոյություն չունի, մինչդեռ embedding-ը նեյրոնային ցանցի միջոցով սովորում է հսկայական տեքստային կորպուսից՝ «բառի իմաստը որոշվում է նրա կոնտեքստով»: Ի վերջո յուրաքանչյուր բառ/նախադասություն ներկայացվում է խիտ վեկտորով, վեկտորների կոսինուսային անկյունը ուղղակիորեն չափում է իմաստային նմանությունը: Անգամ կարելի է որսալ անալոգիաներ, ինչպես արքա - տղամարդ + կին ≈ թագուհի:

[Ծրագրի փորձի միացում – կարևոր]

«Իմ նախկինում պատրաստած RAG գիտելիքների հարց-պատասխանի համակարգում ես ուղղակի օգտագործել եմ embedding: Ես ընտրեցի text-embedding-3-small, ընկերության ներքին փաստաթղթերը կտրտեցի 500 նիշանոց բլոկների, յուրաքանչյուրը վերածեցի վեկտորի և պահեցի Qdrant-ում:
Մի անգամ օգտագործողը հարցրեց «Ինչպե՞ս դիմել արձակուրդի համար», բանալի բառերով որոնումը ձախողվեց, քանի որ փաստաթղթում գրված էր «Արձակուրդի դիմումի գործընթաց»: Սակայն embedding-ը կարողացավ «արձակուրդ» և «արձակուրդի դիմում» բառերը մոտեցնել միմյանց և հաջողությամբ վերականգնել համապատասխան հատվածը:
Ես նաև հանդիպեցի մի խնդրի՝ սկզբում օգտագործելով ունիվերսալ embedding, իրավական կետերի վրա այն վատ աշխատեց, հետո փոխարինեցի ոլորտի վրա ֆայնթյունինգ արված BGE-large-ով, և վերականգնման ճշգրտությունը 72%-ից հասավ 89%-ի: Այսպիսով, embedding մոդելի ընտրությունը մեծ ազդեցություն ունի հետագա առաջադրանքի վրա»:

[Լրացուցիչ խորքային մտքեր, ցույց տալ senior ներուժ]

«Եվս մի բան ուզում եմ ավելացնել. embedding-ը էապես կորուստային իմաստային սեղմում է՝ այն դեն է նետում բառերի հաջորդականությունը, քերականությունը և այլ մակերեսային տեղեկություններ՝ պահպանելով միայն «հիմնական իմաստը»: Այնպես որ, որոշ ճշգրիտ համընկնում պահանջող սցենարներում (ինչպես ապրանքային մոդել «iPhone12» vs «iPhone13»), միայն վեկտորային որոնումը կարող է զիջել բանալի բառերին: Իրական աշխատանքում մենք հաճախ օգտագործում ենք խառը որոնում (վեկտոր + BM25)՝ փոխլրացնելու համար»:

[Ավարտ]

«Ընդհանուր առմամբ, embedding-ը լուծում է հիմնական խնդիրը՝ ինչպես ստիպել համակարգչին հաշվել իմաստային նմանություն: Այն ժամանակակից NLP-ի և RAG-ի հիմնաքարերից մեկն է»:


6. Հարցազրույցի հնարավոր լրացուցիչ հարցեր և ձեր պատասխանները

Հարց Պատասխանի կետեր
«Ինչպե՞ս է մարզվում embedding-ը» Համառոտ նկարագրել Word2Vec-ի CBOW/Skip-gram (կոնտեքստով կենտրոնական բառի գուշակում կամ հակառակը), կամ ժամանակակից համեմատական ուսուցում (SimCSE, Sentence-BERT): Ընդգծել, որ մարզման էությունը համատեղելի վիճակագրությունն է:
«Ինչպե՞ս գնահատել embedding-ի որակը» Տվյալ առաջադրանքում՝ hit rate, MRR; հանրային benchmark-ներ՝ MTEB: Գործնականում A/B թեստավորում որոնման արդյունքների վրա:
«Ինչ embedding մոդելներ եք օգտագործել: Առավելություններ/թերություններ» OpenAI-ը հարմար է, բայց թանկ; BGE-ն լավ է աշխատում չիներենով; M3E-ն թեթև; E5-ը բազմալեզու: Ընտրել ըստ սցենարի:
«Ինչպե՞ս ընտրել վեկտորի չափը» Բարձր չափականությունը տալիս է ավելի լավ արտահայտչականություն, բայց հաշվարկ/պահպանումը թանկ է; ցածրը կարող է թերֆիտինգի հանգեցնել: Սովորաբար 384/768/1536, ընտրվում է փորձնական ճանապարհով:

7. Զգուշացում (հարմար է հարցազրույցի համար)

  • ❌ Մի ասեք միայն «embedding-ը բառերը վեկտորի է վերածում» — շատ մակերեսային, հարցազրույց վարողը կհարցնի «հետո ի՞նչ»:
  • ❌ Չափից շատ մաթեմատիկա մի օգտագործեք (անմիջապես Հիլբերտյան տարածությունից սկսելը) — դա կարող է թողնել տպավորություն, որ դուք անգիր եք արել, ոչ թե գործնականում եք կիրառել:
  • Անպայման պատմեք, թե ինչպես եք ձեռքով լուծել կոնկրետ խնդիր, նույնիսկ եթե միայն ուսումնական ծրագիր է: Կոնկրետ թիվը (օր. 17% ճշգրտության բարելավում) ավելի ազդեցիկ է, քան տասը տեսական նախադասություն:

评论

暂无已展示的评论。

发表评论(匿名)