AI සම්මුඛ පරීක්ෂණ 10: Embedding ඇත්තටම කළේ කුමක්ද? — තාක්ෂණික සාරයේ සිට සම්මුඛ පරීක්ෂණ පිළිතුර දක්වා

Embedding ඇත්තටම කළේ කුමක්ද? — තාක්ෂණික සාරයේ සිට සම්මුඛ පරීක්ෂණ පිළිතුර දක්වා

1. තාක්ෂණික සාරය: වචනයකින් හරය පෙන්වීම

Embedding හි මූලික කාර්යය වන්නේ, විසන්ධිත ව්යුහාත්මක නොවන දත්ත (පෙළ, රූප ආදිය) අඛණ්ඩ, අඩු මානයකින් යුත් දෛශික අවකාශයකට සිතියම් ගැසීම වන අතර, එමඟින් අර්ථාන්විතව සමාන වස්තූන් එම අවකාශයේ එකිනෙකට ආසන්න වේ.
සරලව කිවහොත්, එය පරිගණකය සඳහා “අර්ථවත් ඛණ්ඩාංක පද්ධතියක්” ගොඩනඟන අතර, මිනිසුන්ගේ “නොපැහැදිලි අර්ථයන්” පරිගණකයට ගණනය කළ හැකි “ස්ථාන ඛණ්ඩාංක” බවට පරිවර්තනය කරයි.

2. ප්රත්යක්ෂ අවබෝධය: අර්ථ සිතියමක්

ද්විමාන සිතියමක් ගැන සිතන්න (සැබෑ embedding බොහෝ විට සිය ගණන් මානවලින් යුක්ත වුවත්, මූලධර්මය එකමයි):

බළලා → [0.92, 0.31, -0.45, …]
බල්ලා → [0.88, 0.29, -0.42, …]
මෝටර් රථය → [0.15, -0.87, 0.53, …]

බළලාගේ සහ බල්ලාගේ දෛශික ඉතා ආසන්න වන අතර, මෝටර් රථය බොහෝ දුරින් පිහිටයි.
Embedding මඟින් පරිගණකයට වචන හුදකලා සංකේත ලෙස නොව, “අර්ථයේ දුර ප්‍රමාණය” අනුව පාඨ සංසන්දනය කළ හැකි වේ.

3. තාක්ෂණික මූලධර්මය (සරල අනුවාදය): එය ඉගෙන ගන්නේ කෙසේද?

භාෂාමය උපකල්පනය මත පදනම්ව: “වචනයක අර්ථය එහි සන්දර්භය අනුව තීරණය වේ.”

විශාල පාඨ සමුදායන් මත පුහුණු කිරීමෙන් (Word2Vec, BERT අන්තර්ගත ස්තර වැනි), ආකෘතිය එක් එක් වචනයේ දෛශිකය ක්‍රමයෙන් සකස් කරයි.
අවසානයේ, සමාන සන්දර්භවල නිතර දක්නට ලැබෙන වචන (බළලා සහ බල්ලා “සුරතල්”, “ඇති දැඩි කිරීම”, “ආහාර ලබා දීම” වැනි සන්දර්භවල) එකිනෙකට ආසන්න ස්ථානවල තබනු ලැබේ.
මෙම ක්‍රියාවලියට කිසිදු මානව ටැග් කිරීමක් අවශ්‍ය නොවේ; එය භාෂා භාවිතයෙන් ස්වයංක්‍රීයව මතු වන ජ්‍යාමිතික ව්‍යුහයකි.

වැදගත් ගුණාංගය: දෛශික අවකාශයට සාදෘශ්‍ය සම්බන්ධතා පවා ග්‍රහණය කර ගත හැකිය, උදා. රජු - පිරිමි + ගැහැණු ≈ රැජින.

4. RAG පද්ධතිවලදී, Embedding විසින් නිශ්චිතව කරන පියවර මොනවාද?

දර්ශක තැනීමේදී: එක් එක් ලේඛන කොටස (chunk) දෛශිකයක් බවට පත් කර → දෛශික දත්ත ගබඩාවේ ගබඩා කර → “අර්ථවත් ලිපිනයක්” උත්පාදනය කරයි.
විමසුමේදී: පරිශීලක ප්‍රශ්නය එකම අවකාශයේ දෛශිකයක් බවට පත් කර → දත්ත ගබඩාවේ වඩාත්ම සමීප ලේඛන දෛශික සොයා → අර්ථාන්විතව අදාළ දැනුම් කොටස් නැවත ලබා ගනී.

බලපෑම් උදාහරණයක්:
පරිශීලකයා “මගේ සුරතල් බල්ලා සතුටින් තබා ගන්නේ කෙසේද?” යනුවෙන් අසන විට, දැනුම් ගබඩාවේ “බල්ලන්ට දිනපතා ඇවිදීම අවශ්‍ය වන අතර එය ඔවුන්ගේ මානසික සෞඛ්‍යයට හිතකරය” යනුවෙන් පමණක් තිබුණත්, embedding හට “සතුට/සෞඛ්‍යය/බල්ලා” යන අර්ථ සමීපත්වය නිසා සාර්ථකව නැවත ලබා ගත හැකිය. “හැඩයට” නොව “අර්ථයට” ගැළපීම.

5. සම්මුඛ පරීක්ෂණ පිළිතුරු උපාය මාර්ගය (2-3 විනාඩි සම්පූර්ණ කථාව)

පහත දැක්වෙන්නේ නිර්මාණය කරන ලද පිළිතුරු රාමුවක් වන අතර, එය න්‍යායික ගැඹුරක් පෙන්වීමට සහ ව්‍යාපෘති අත්දැකීම් ප්‍රදර්ශනය කිරීමට උපකාරී වේ.

【ආරම්භක ස්වරය】

“Embedding හි මූලික කාර්යය වන්නේ, විසන්ධිත ව්යුහාත්මක නොවන දත්ත අඛණ්ඩ, අඩු මානයකින් යුත් දෛශික අවකාශයකට සිතියම් ගැසීමයි, එමඟින් අර්ථාන්විතව සමාන වස්තූන් එම අවකාශයේ එකිනෙකට ආසන්න වේ. සරලව කිවහොත්, එය පරිගණකය සඳහා ‘අර්ථවත් ඛණ්ඩාංක පද්ධතියක්’ ගොඩනඟයි.”

【මූලධර්මය විදහා දැක්වීම, සම්භාව්‍ය ගුණාංග සඳහන් කිරීම】

“සාම්ප්‍රදායික one-hot කේතනයේ වචන අතර දුර සංකල්පයක් නොමැති අතර, embedding ස්නායු ජාල හරහා විශාල වාග් සමුදායකින් ඉගෙන ගනී — ‘වචනයක අර්ථය එහි සන්දර්භය අනුව තීරණය වේ’. අවසානයේ එක් එක් වචනය/වාක්‍යය ghanak දෛශිකයකින් නිරූපණය වන අතර, දෛශිකවල කෝණික කෝසයිනය සෘජුවම අර්ථ සමානත්වය මැනිය හැකිය. සාදෘශ්‍ය සම්බන්ධතා පවා ග්‍රහණය කර ගත හැකිය, උදා. රජු – පිරිමි + ගැහැණු ≈ රැජින.”

【ව්‍යාපෘති අත්දැකීම් සමඟ ඒකාබද්ධ කිරීම — වැදගත්】

“මා කලින් කළ RAG දැනුම් ප්‍රශ්නෝත්තර පද්ධතියේ, මම embedding සෘජුවම භාවිතා කළෙමි. එහිදී මම text-embedding-3-small තෝරාගෙන, සමාගමේ අභ්‍යන්තර ලේඛන අක්ෂර 500 බැගින් කොටස්වලට කපා, එක් එක් කොටස දෛශිකයක් බවට පත් කර Qdrant හි ගබඩා කළෙමි.
එක් අවස්ථාවක පරිශීලකයෙක් ‘වාර්ෂික නිවාඩු ඉල්ලන්නේ කෙසේද?’ යනුවෙන් ඇසුවේය. ප්‍රධාන වචන සෙවීමෙන් එය සොයාගත නොහැකි විය, මන්ද ලේඛනයේ ලියා තිබුණේ ‘නිවාඩු ඉල්ලීමේ ක්‍රියා පටිපාටිය’ ලෙස පමණි. නමුත් embedding හට ‘වාර්ෂික නිවාඩු’ සහ ‘නිවාඩු’ යන වචන ආසන්න ස්ථානවල සිතියම් ගත කළ හැකි වූ අතර, නිවැරදි ඡේදය සාර්ථකව නැවත ලබා ගැනීමට හැකි විය.
මම ගොඩක් දෝෂයකට ද මුහුණ දුන්නෙමි: මුලදී සාමාන්‍ය embedding භාවිතා කළ විට, නීතිමය වගන්ති සඳහා බෙහෙවින් දුර්වල විය. පසුව වසමට විශේෂිත වූ BGE-large වෙත මාරු වීමෙන්, නැවත ලබා ගැනීමේ අනුපාතය 72% සිට 89% දක්වා ඉහළ ගියේය. එබැවින් embedding ආකෘතිය තෝරා ගැනීම පහළ කාර්යයට බෙහෙවින් බලපායි.”

【ගැඹුරු සිතුවිලි අතිරේකය, ජ්‍යෙෂ්ඨ හැකියාව පෙන්වීම】

“තවත් කරුණක් එක් කිරීමට කැමැත්තෙමි: embedding යනු සාරාංශයක් ලෙස අර්ථයේ අලාභදායක සම්පීඩනයකි — එය වචන අනුපිළිවෙල, වාක්‍ය ව්‍යුහය වැනි මතුපිට තොරතුරු ඉවත දමා, ‘සාරාංශය’ පමණක් රඳවා ගනී. එබැවින් නිවැරදි ගැළපීමක් අවශ්‍ය අවස්ථාවලදී (උදා. නිෂ්පාදන ආකෘතිය ‘iPhone12’ එදිරිව ‘iPhone13’), ශුද්ධ දෛශික සෙවීම ප්‍රධාන වචන සෙවීමට වඩා දුර්වල විය හැකිය. ප්‍රායෝගික ඉංජිනේරු විද්‍යාවේදී, අප බොහෝ විට මිශ්‍ර සෙවීම (දෛශික + BM25) භාවිතා කරන්නේ ඒවා එකිනෙකට අනුපූරක වන බැවිනි.”

【අවසානය】

“සාරාංශයක් ලෙස, embedding විසඳන්නේ ‘පරිගණකයට අර්ථ සමානත්වය ගණනය කරන්නේ කෙසේද’ යන මූලික ගැටලුවයි. එය නවීන NLP හා RAG හි එක් පදනමකි.”

6. සම්මුඛ පරීක්ෂකයාගේ විභව ප්‍රශ්න සහ ඔබේ ප්‍රතිචාර

ප්‍රශ්නය	පිළිතුරු කරුණු
“embedding පුහුණු කරන්නේ කෙසේද?”	Word2Vec හි CBOW/Skip-gram (සන්දර්භය භාවිතා කර කේන්ද්‍ර වචනය පුරෝකථනය කිරීම හෝ අනෙක් අතට) හෝ නවීන විරුද්ධාභාස ඉගෙනුම් (SimCSE, Sentence-BERT) කෙටියෙන් පැහැදිලි කරන්න. පුහුණුවේ සාරය සහසම්බන්ධතා සංඛ්‍යාලේඛන භාවිතා කිරීම බව අවධාරණය කරන්න.
“embedding හි ගුණාත්මකභාවය තක්සේරු කරන්නේ කෙසේද?”	නිශ්චිත කාර්යයන්හිදී අනුපාතිකය, MRR භාවිතා කරන්න; MTEB වැනි ප්‍රසිද්ධ benchmarks. ප්‍රායෝගිකව A/B පරීක්ෂණ මඟින් නැවත ලබා ගැනීමේ කාර්ය සාධනය පරීක්ෂා කළ හැකිය.
“ඔබ භාවිතා කළ embedding ආකෘති මොනවාද? වාසි/අවාසි?”	OpenAI පහසු නමුත් මිල අධිකයි, BGE චීන භාෂාවට හොඳයි, M3E සැහැල්ලුයි, E5 බහුභාෂා. අවස්ථාව අනුව තෝරා ගත හැකිය.
“දෛශික මානය තෝරා ගන්නේ කෙසේද?”	ඉහළ මාන ප්‍රකාශන හැකියාව වැඩි නමුත් ගණනය/ගබඩා පිරිවැය වැඩියි; අඩු මාන අඩු ගැළපීමට ඉඩ ඇත. සාමාන්‍යයෙන් 384/768/1536 භාවිතා වේ. පරීක්ෂණ මඟින් සමතුලිතතාවය සොයා ගන්න.

7. වළක්වා ගත යුතු දෝෂ (සම්මුඛ පරීක්ෂණයේදී අදාළ)

❌ “embedding යනු පෙළ දෛශික බවට පත් කිරීම” පමණක් කීමෙන් වළකින්න — ඉතා මතුපිටින්, සම්මුඛ පරීක්ෂකයා “ඊළඟට කුමක්ද?” යනුවෙන් අසනු ඇත.
❌ ඕනෑවට වඩා ගණිතමය කරුණු (හිල්බර්ට් අවකාශය ගැන කෙලින්ම කතා කිරීම) වැළැක්වීම — එය පුහුණුවීමට වඩා පොතෙන් කියවීමක් ලෙස පෙනෙනු ඇත.
✅ ඔබ එය භාවිතා කර ගැටලුවක් විසඳූ ආකාරය නිශ්චිතව කියන්න, එය පා course ව්‍යාපෘතියක් වුවත්. න්‍යායික වාක්‍ය දහයකට වඩා නිශ්චිත සංඛ්‍යාවක් (උදා. අනුපාතිකය 17% කින් ඉහළ දැමීම) වඩා බලවත්ය.