AI தொடர் நேர்காணல் 10: Embedding உண்மையில் என்ன செய்கிறது? — தொழில்நுட்ப இயல்பிலிருந்து நேர்காணல் பதில் வரை

Embedding உண்மையில் என்ன செய்கிறது? — தொழில்நுட்ப இயல்பிலிருந்து நேர்காணல் பதில் வரை

ஒன்று, தொழில்நுட்ப இயல்பு: ஒரு வாக்கியத்தில் மையத்தைச் சொல்லுதல்

Embedding-இன் மைய வேலை, தனித்துவமான, கட்டமைக்கப்படாத தரவுகளை (உரை, படங்கள் போன்றவை) ஒரு தொடர்ச்சியான, குறைந்த பரிமாண திசையன் இடத்தில் வரைபடமாக்குவதாகும், இதனால் சொற்பொருள் ஒத்த பொருள்கள் அந்த இடத்தில் ஒன்றுக்கொன்று நெருக்கமாக இருக்கும்.
எளிமையாகச் சொன்னால், கணினிக்கு ஒரு 'சொற்பொருள் ஆயத்தொலைவு முறைமையை' அமைத்து, மனிதர்களின் 'தெளிவில்லா பொருளை' கணினியால் கணக்கிடக்கூடிய 'இட ஆயத்தொலைவுகளாக' மொழிபெயர்ப்பதாகும்.

இரண்டு, உள்ளுணர்வு புரிதல்: சொற்பொருள் வரைபடம்

இரு பரிமாண வரைபடத்தை கற்பனை செய்யுங்கள் (உண்மையான embedding பெரும்பாலும் நூற்றுக்கணக்கான பரிமாணங்களில் இருக்கும், ஆனால் கோட்பாடு ஒன்றே):

பூனை → [0.92, 0.31, -0.45, …]
நாய் → [0.88, 0.29, -0.42, …]
கார் → [0.15, -0.87, 0.53, …]

பூனை மற்றும் நாயின் திசையன்கள் மிக நெருக்கமாக உள்ளன, கார் வெகு தொலைவில் உள்ளது.
Embedding கணினியை சொற்களை தனித்தனி குறியீடுகளாக பார்க்காமல், 'பொருள் அருகாமை' அடிப்படையில் ஒப்பிட அனுமதிக்கிறது.

மூன்று, தொழில்நுட்ப கொள்கை (எளிமைப்படுத்தப்பட்டது): இது எப்படி கற்றுக் கொள்கிறது?

மொழியியல் கருதுகோளின் அடிப்படையில்: 'ஒரு வார்த்தையின் பொருள் அதன் சூழலைக் கொண்டு தீர்மானிக்கப்படுகிறது.'

பரந்த உரைகளில் பயிற்சி செய்வதன் மூலம் (Word2Vec, BERT உட்பொதிப்பு அடுக்கு போன்றவை), மாதிரி ஒவ்வொரு வார்த்தையின் திசையனையும் சரிசெய்கிறது.
இறுதியாக, ஒத்த சூழல்களில் அடிக்கடி தோன்றும் வார்த்தைகள் (பூனை மற்றும் நாய் 'செல்லப்பிராணி', 'தடவுதல்', 'உணவளித்தல்' ஆகிய சூழல்களில்) நெருங்கிய நிலைகளுக்கு இழுக்கப்படுகின்றன.
இந்த செயல்முறை முற்றிலும் மனித குறியீடு இல்லாமல், மொழியின் பயன்பாட்டிலிருந்து தானாகவே வெளிப்படும் வடிவியல் கட்டமைப்பாகும்.

முக்கியமான பண்பு: திசையன் இடம் ஒப்புமை உறவுகளை கூட பிடிக்க முடியும், எ.கா., மன்னன் - ஆண் + பெண் ≈ இராணி.

நான்கு, RAG அமைப்புகளில், Embedding குறிப்பாக எந்த படிகளை செய்கிறது?

குறியீடு உருவாக்கும்போது: ஒவ்வொரு ஆவணத் துண்டையும் (chunk) திசையனாக மாற்றவும் → திசையன் தரவுத்தளத்தில் சேமிக்கவும் → 'சொற்பொருள் முகவரியை' உருவாக்கவும்.
வினவல் செய்யும்போது: பயனர் கேள்வியை அதே இடத்தின் திசையனாக மாற்றவும் → தரவுத்தளத்தில் மிக நெருக்கமான ஆவண திசையன்களைக் கண்டறியவும் → சொற்பொருள் தொடர்புடைய அறிவுத் துண்டுகளை மீட்டெடுக்கவும்.

விளைவு எடுத்துக்காட்டு:
பயனர் "என் செல்லப்பிராணி நாயை எப்படி மகிழ்ச்சியாக வைத்திருப்பது?" என்று கேட்கும்போது, அறிவுத் தளத்தில் "நாய்க்கு தினமும் நடை தேவை, இது அதன் மன ஆரோக்கியத்திற்கு உதவுகிறது" என்று மட்டுமே இருந்தாலும், embedding 'மகிழ்ச்சி/ஆரோக்கியம்/நாய்' ஆகியவற்றின் சொற்பொருள் நெருக்கத்தால் வெற்றிகரமாக மீட்டெடுக்க முடியும். 'வடிவ ஒற்றுமை' அல்ல, 'பொருள் ஒற்றுமையை' அடைகிறது.

ஐந்து, நேர்காணல் பதில் உத்தி (2~3 நிமிட முழு உரை)

கீழே ஒரு வடிவமைக்கப்பட்ட பதில் கட்டமைப்பு உள்ளது, இது கோட்பாட்டு ஆழத்தையும் திட்ட அனுபவத்தையும் காட்டுகிறது.

[தொடக்கம் மற்றும் தொனி அமைத்தல்]

"Embedding-இன் மைய வேலை, தனித்துவமான, கட்டமைக்கப்படாத தரவுகளை ஒரு தொடர்ச்சியான, குறைந்த பரிமாண திசையன் இடத்தில் வரைபடமாக்குவதாகும், இதனால் சொற்பொருள் ஒத்த பொருள்கள் அந்த இடத்தில் ஒன்றுக்கொன்று நெருக்கமாக இருக்கும். எளிமையாகச் சொன்னால், கணினிக்கு ஒரு 'சொற்பொருள் ஆயத்தொலைவு முறைமையை' அமைப்பதாகும்."

[கொள்கையை விளக்கி, உன்னதமான பண்புகளைக் குறிப்பிடுதல்]

"பாரம்பரிய one-hot குறியீட்டில் சொற்களுக்கு இடையே தூரம் என்ற கருத்து இல்லை, ஆனால் embedding நரம்பியல் வலையமைப்பு மூலம் பரந்த மொழித் தரவுகளிலிருந்து கற்றுக் கொள்கிறது — 'ஒரு வார்த்தையின் பொருள் அதன் சூழலைக் கொண்டு தீர்மானிக்கப்படுகிறது'. இறுதியில் ஒவ்வொரு வார்த்தை/வாக்கியமும் ஒரு அடர்த்தியான திசையனாகக் குறிப்பிடப்படுகிறது, மேலும் திசையன்களின் கோணக் கோசைன் சொற்பொருள் ஒற்றுமையை நேரடியாக அளவிட முடியும். ஒப்புமை உறவுகளைக் கூட பிடிக்க முடியும், எ.கா., மன்னன் - ஆண் + பெண் ≈ இராணி."

[திட்ட அனுபவத்துடன் இணைத்தல் — முக்கியம்]

"நான் முன்பு செய்த RAG அறிவு வினா-விடை அமைப்பில், நேரடியாக embedding பயன்படுத்தினேன். அப்போது text-embedding-3-small ஐ தேர்ந்தெடுத்து, நிறுவனத்தின் உள் ஆவணங்களை 500 எழுத்துத் துண்டுகளாக வெட்டி, ஒவ்வொரு துண்டையும் திசையனாக மாற்றி Qdrant இல் சேமித்தேன்.
ஒருமுறை பயனர் 'ஆண்டு விடுப்பை எப்படி விண்ணப்பிப்பது?' என்று கேட்டார், முக்கியச் சொல் தேடல் கண்டுபிடிக்கவில்லை, ஏனெனில் ஆவணத்தில் 'விடுப்பு விண்ணப்ப செயல்முறை' என்று இருந்தது. ஆனால் embedding 'ஆண்டு விடுப்பு' மற்றும் 'விடுப்பு' ஆகியவற்றை நெருங்கிய நிலைகளில் வரைபடமாக்கி, சரியான பகுதியை வெற்றிகரமாக மீட்டெடுத்தது.
நான் ஒரு பிழையிலும் சிக்கினேன்: ஆரம்பத்தில் பொது embedding ஐ பயன்படுத்தினேன், சட்ட விதிமுறைகளில் மிக மோசமான முடிவுகள் கிடைத்தன, பின்னர் துறை சார்ந்த நுண் சரிப்படுத்தல் செய்த BGE-large ஐ மாற்றினேன், மீட்டெடுப்பு தாக்க விகிதம் 72% இலிருந்து 89% ஆக உயர்ந்தது. எனவே embedding மாதிரியின் தேர்வு கீழ்நிலை பணிகளில் மிகப் பெரிய தாக்கத்தை ஏற்படுத்துகிறது."

[ஆழமான சிந்தனையைச் சேர்த்து, மூத்த திறனைக் காட்டுதல்]

"மேலும், நான் ஒரு புள்ளியைச் சேர்க்க விரும்புகிறேன்: embedding அடிப்படையில் இழப்பு நிறைந்த சொற்பொருள் சுருக்கம் — இது சொல் வரிசை, வாக்கிய அமைப்பு போன்ற மேலோட்டமான தகவல்களைக் கைவிட்டு, 'கருத்தை' மட்டும் வைத்துக் கொள்கிறது. எனவே துல்லியமான பொருத்தம் தேவைப்படும் சூழல்களில் (எ.கா., தயாரிப்பு மாதிரி 'iPhone12' vs 'iPhone13'), தூய திசையன் மீட்டெடுப்பு முக்கியச் சொல்லை விட பலவீனமாக இருக்கலாம். உண்மையான பொறியியலில், நாம் கலப்பு மீட்டெடுப்பை (திசையன் + BM25) பயன்படுத்தி நிரப்பிக் கொள்கிறோம்."

[முடிவு]

"மொத்தத்தில், embedding தீர்க்கும் அடிப்படை பிரச்சனை, 'கணினி சொற்பொருள் ஒற்றுமையை எவ்வாறு கணக்கிடுவது?' என்பதாகும். இது நவீன NLP மற்றும் RAG-இன் அடித்தளங்களில் ஒன்றாகும்."

ஆறு, நேர்காணல் செய்பவர் கேட்கக்கூடிய கூடுதல் கேள்விகள் மற்றும் உங்கள் பதில்கள்

கூடுதல் கேள்வி	பதில் முக்கிய குறிப்புகள்
"embedding எப்படி பயிற்சி செய்யப்படுகிறது?"	Word2Vec-இன் CBOW/Skip-gram (சூழலைப் பயன்படுத்தி மையச் சொல்லை கணித்தல் அல்லது எதிர்மாறாக) அல்லது நவீன ஒப்பீட்டு கற்றல் (SimCSE, Sentence-BERT) பற்றி சுருக்கமாக விளக்கவும். பயிற்சியின் சாராம்சம் இணை நிகழ்வு புள்ளியியலைப் பயன்படுத்துவது என்பதை வலியுறுத்தவும்.
"embedding-இன் தரத்தை எப்படி மதிப்பிடுவது?"	குறிப்பிட்ட பணியில் தாக்க விகிதம், MRR; பொது benchmarks MTEB போன்றவை. நடைமுறையில் A/B சோதனை மீட்டெடுப்பு விளைவுகளைப் பயன்படுத்தலாம்.
"நீங்கள் எந்த embedding மாதிரிகளைப் பயன்படுத்தியிருக்கிறீர்கள்? நன்மை தீமைகள்?"	OpenAI வசதியானது ஆனால் விலை அதிகம், BGE சீன மொழியில் நன்றாக வேலை செய்கிறது, M3E இலகுவானது, E5 பல மொழிகள். சூழலுக்கு ஏற்ப தேர்வு செய்யலாம்.
"திசையன் பரிமாணத்தை எப்படி தேர்வு செய்வது?"	உயர் பரிமாணம் வெளிப்பாட்டு திறனை அதிகரிக்கும் ஆனால் கணக்கீடு/சேமிப்பு செலவு அதிகம்; குறைந்த பரிமாணம் குறைவான பொருத்தத்தை ஏற்படுத்தலாம். பொதுவாக 384/768/1536 பயன்படுத்தப்படுகிறது, சோதனை மூலம் சமநிலைப்படுத்தப்படுகிறது.

ஏழு, தவிர்க்க வேண்டிய எச்சரிக்கைகள் (நேர்காணலில் பொருந்தும்)

❌ 'embedding என்பது உரையை திசையனாக மாற்றுவது' மட்டும் சொல்லாதீர்கள் — மிகவும் ஆழமற்றது, நேர்காணல் செய்பவர் 'பிறகு என்ன?' என்று கேட்பார்.
❌ மிகவும் கணிதமாக இருக்காதீர்கள் (நேரடியாக ஹில்பர்ட் இடம் பற்றி பேசுவது), இது பயிற்சியை விட படிப்பை நினைவுபடுத்துவது போல் தோன்றும்.
✅ நீங்கள் கையால் அதைப் பயன்படுத்தி என்ன பிரச்சனையை தீர்த்தீர்கள் என்பதை கண்டிப்பாக சொல்லுங்கள், அது ஒரு பாடநெறி திட்டமாக இருந்தாலும் சரி. ஒரு குறிப்பிட்ட எண் (எ.கா., 17% தாக்க விகிதம் அதிகரிப்பு) பத்து கோட்பாடு வாக்கியங்களை விட வலிமையானது.