← 返回列表

AI සම්මුඛ පරීක්ෂණ මාලාව 9: දැනුම ප්‍රශ්න පිළිතුරු පද්ධතියේ නිරවද්‍යතාව දෙස බලන්නේ කෙසේද?

නිරවද්‍යතාව දැනුම ප්‍රශ්න පිළිතුරු පද්ධතියක මූලික ජීවන රේඛාවයි, විශේෂයෙන් ඔබ එය බරපතල අවස්ථාවන්හි (වෛද්‍ය, නීතිමය, ආයතනික සහාය වැනි) යෙදීමට උත්සාහ කරන විට. මගේ මතය සාරාංශගත කළ හැක්කේ: නිරවද්‍යතාව බහුමාන සංකල්පයක් වන අතර, එක් අංකයක් පමණක් බැලීම නොව, පද්ධති හැකියාව, කාර්ය දුෂ්කරතාවය සහ දෝෂ විඳදරාගැනීමේ පිරිවැය ඒකාබද්ධව ඇගයීමට ලක් කළ යුතුය.

පහතින් මට්ටම් හතරක් ඔස්සේ විස්තර කෙරේ:


I. නිරවද්‍යතාව "නිවැරදි/වැරදි" තරම් සරල නොවේ

සාම්ප්‍රදායික වර්ගීකරණ ගැටළු (රූප හඳුනාගැනීම වැනි) සඳහා නිරවද්‍යතාව පැහැදිලිය. නමුත් දැනුම ප්‍රශ්න පිළිතුරු පද්ධති වෙනස් වන අතර, පොදු සූක්ෂ්ම මානයන්වලට ඇතුළත් වන්නේ:

මානය අර්ථය ඇගයීම් උදාහරණය
ප්‍රතිශෝධ ප්‍රහාර අනුපාතය පද්ධතියට දැනුම් ගබඩාවෙන් නිවැරදි පිළිතුර අඩංගු ලේඛන කොටස් නැවත ලබා ගත හැකිද? පරිශීලක "A සමාගමේ 2024 ආදායම" අසයි, පද්ධතියට එම දත්ත අඩංගු මූල්‍ය වාර්තා කොටස නැවත ලබා ගත හැකිද?
උත්පාදන විශ්වාසවන්තභාවය ආකෘතිය විසින් ජනනය කරන ලද පිළිතුර සපයා ඇති අන්තර්ගතය මත පමණක් පදනම් වී තිබේද, නැතහොත් තමා විසින් නිර්මාණය කර තිබේද? ප්‍රතිශෝධිත ද්‍රව්‍ය "වර්ධන අනුපාතය" ගැන සඳහන් නොකර, ආකෘතිය "5% කින් වර්ධනය විය" යැයි පැවසුවහොත් → අවිශ්වාසවන්තයි
පිළිතුරේ නිවැරදි බව අවසාන පිළිතුර සත්‍යයට (හෝ යොමු පිළිතුරට) ගැලපේද? නිවැරදි පිළිතුර "බිලියන 42" නම්, ආකෘතිය "බිලියන 42" හෝ "රුපියල් බිලියන 42ක් පමණ" ලෙස ප්‍රතිදානය කළහොත් නිවැරදි ලෙස සැලකිය හැක
ප්‍රතික්ෂේප කිරීමේ අනුපාතය දැනුම් ගබඩාවේ අදාළ තොරතුරු නොමැති විට, පද්ධතියට ක්‍රියාශීලීව "දන්නේ නැත" යැයි පැවසිය හැකිද, නැතහොත් අනුමාන කරයිද? ප්‍රතිශෝධය හිස් නම් හෝ විශ්වාසනීයත්වය අඩු නම්, "සමාවන්න, අදාළ තොරතුරු හමු නොවීය" ලෙස ප්‍රතිදානය කරන්න

පද්ධතියක් ප්‍රතිශෝධ ප්‍රහාර අනුපාතයෙහි ඉහළ විය හැක (සැමවිටම අදාළ ඡේද සොයා ගත හැක), නමුත් උත්පාදන විශ්වාසවන්තභාවය ඉතා අඩු විය හැක (සැමවිටම වැඩිපුර එකතු කරයි), අවසාන නිරවද්‍යතාව තවමත් දුර්වල වේ. එබැවින්, නිරවද්‍යතාව දෙස බැලීමේදී පළමුව ඔබ මනිනු ලබන්නේ කුමන අදියරද යන්න පැහැදිලි කර ගත යුතුය.


II. වර්තමාන තාක්ෂණික මට්ටම යටතේ, RAG පද්ධතිවල නිරවද්‍යතාව කොපමණ විය හැකිද?

ඒකාබද්ධ අංකයක් නොමැත, නමුත් ප්‍රසිද්ධ පර්යේෂණ සහ භාවිතයන්ගෙන් උපුටා ගත හැක:

  • සරල සත්‍ය ප්‍රශ්න (තනි පියවරක්, පිළිතුර එක් ලේඛන කොටසක සෘජුවම දිස්වේ):
    ප්‍රතිශෝධ ප්‍රහාර අනුපාතය 90-98% දක්වා ළඟා විය හැක (දැනුම් ගබඩාවේ ගුණාත්මකභාවය සහ ප්‍රතිශෝධකය මත පදනම්ව), සහ ප්‍රවේශමෙන් නිර්මාණය කරන ලද ඉඟි සමඟ උත්පාදන විශ්වාසවන්තභාවය 95%+ විය හැක. ඒකාබද්ධ නිරවද්‍යතාව 85-95% අතර විය හැක.
  • බහු-පියවර තර්කනය (විවිධ ලේඛන දෙකකින් හෝ වැඩි ගණනකින් තොරතුරු ඒකාබද්ධ කිරීම අවශ්‍ය වේ):
    ප්‍රතිශෝධ නිරවද්‍යතාව 50-70% දක්වා පහත වැටේ, සහ පිළිතුරේ නිවැරදි බව 40-60% පමණක් විය හැක. මෙය වර්තමාන RAG හි ප්‍රධාන අභියෝගයයි.
  • විවෘත වසම + ශබ්ද සහිත දැනුම් ගබඩාව (විශාල වෙබ් පිටු වැනි):
    ප්‍රතිශෝධය ශබ්දය හඳුන්වා දිය හැකි බැවින් නිරවද්‍යතාව සැලකිය යුතු ලෙස පහත වැටේ, ආකෘතිය පහසුවෙන් බාධා විය හැක.

නිගමනය: පාලිත පරිසරයන්හි (පිරිසිදු, ව්‍යුහගත, සුදුසු ලේඛන ප්‍රමාණය) RAG හට 90% ට වැඩි නිරවද්‍යතාවයක් ලබා ගත හැක; නමුත් සංකීර්ණ, විවෘත හා බහු-පියවර තර්කනය අවශ්‍ය අවස්ථාවන්හිදී නිරවද්‍යතාව බොහෝ විට අසතුටුදායක වන අතර, පුළුල් ප්‍රශස්තිකරණයක් අවශ්‍ය වේ.


III. නිරවද්‍යතාවට බලපාන ප්‍රධාන සාධක

ඔබගේ RAG පද්ධතියේ නිරවද්‍යතාව අපේක්ෂා කළ පරිදි නොමැති නම්, සාමාන්‍යයෙන් පහත අදියර හතරෙන් පරීක්ෂා කළ හැක:

  1. දැනුම් ගබඩාව
  2. දත්ත කල් ඉකුත් වී තිබේද, අසම්පූර්ණද, නැතහොත් වැරදි තිබේද?
  3. ලේඛන අවුල් සහගතද (ස්කෑන් කළ ලේඛන OCR නොකළ, වගු කේතාක්ෂර බවට පත් වී තිබේද)?

  4. බෙදීම සහ දර්ශකය

  5. පෙළ කොටස් ඉතා කෙටිද → සන්දර්භය අහිමි වේ; ඉතා දිගුද → ශබ්දය මිශ්‍ර වේ.
  6. කාවැද්දීමේ ආකෘතිය ඔබේ වසමට සුදුසුද (සාමාන්‍ය ආකෘතිය නීතිමය පාරිභාෂිකයේ දුර්වල විය හැක)?

  7. ප්‍රතිශෝධ උපාය

  8. දෛශික ප්‍රතිශෝධය පමණක් භාවිතා කිරීම නිශ්චිත ප්‍රකාශන (නිෂ්පාදන ආකෘතිය වැනි) මග හැරිය හැක.
  9. නැවත ඇණවුම් කිරීමකින් තොරව ඉදිරි පෙළ ප්‍රතිඵලවල අදාළ නොවන අන්තර්ගතයන් මිශ්‍ර විය හැක.

  10. උත්පාදන අදියර

  11. ඉඟි වල "පමණක් සපයා ඇති ද්‍රව්‍ය මත පදනම්ව පිළිතුරු දෙන්න, ප්‍රමාණවත් නැතිනම් ප්‍රතික්ෂේප කරන්න" යන්න පැහැදිලිව සඳහන් කර තිබේද?
  12. ආකෘති හැකියාව ප්‍රමාණවත්ද (කුඩා ආකෘති දිගු සන්දර්භයේ විස්තර නොසලකා හැරීමට ඉඩ ඇත)?

පොදු වැරදි වැටහීමක්: අඩු නිරවද්‍යතාව සෘජුවම LLM හැකියාවේ අඩුපාඩුවක් ලෙස දැකීම, නමුත් ඇත්ත වශයෙන්ම බොහෝ ගැටළු "ප්‍රතිශෝධය" සහ "ඉඟි නිර්මාණය" තුළ පවතී.


IV. නිරවද්‍යතාව නිවැරදිව "දැකීම" - භාවිතයේ ප්‍රධාන ආකල්ප කිහිපයක්

1. සාධාරණ මූලික සීමාවන් සහ අපේක්ෂාවන් සකසන්න

  • අධි අවදානම් ක්ෂේත්‍ර සඳහා (වෛද්‍ය රෝග විනිශ්චය, නීතිමය උපදෙස්), 90% නිරවද්‍යතාව ද ප්‍රමාණවත් නොවේ; මිනිස් සමාලෝචනයක් හෝ බහු සත්‍යාපනයක් අවශ්‍ය වේ.
  • අඩු අවදානම් අවස්ථා සඳහා (පාරිභෝගික සේවා ආධාරක, අභ්‍යන්තර දැනුම් සෙවීම), 80% නිරවද්‍යතාව සහ මිත්‍රශීලී "නොදනිමි" ප්‍රතිචාරයක් කාර්යක්ෂමතාව සැලකිය යුතු ලෙස වැඩි දියුණු කළ හැක.

2. 100% සඳහා උත්සාහ නොකරන්න, "සත්‍යාපනය කළ හැකි නිරවද්‍යතාව" සඳහා උත්සාහ කරන්න

  • පද්ධතියට ස්වයංක්‍රීයව මූලාශ්‍ර උපුටා දැක්වීමක් එක් කරන්න (කුමන ලිපියෙන්, කුමන ඡේදයෙන්ද යන්න).
    පරිශීලකයන්ට මුල් පෙළ බලා සත්‍යාපනය කළ හැක; පිළිතුර වරින් වර වැරදි වුවද, විනිවිදභාවය විශ්වාසය ගොඩනඟයි.
  • විශ්වාසනීයත්ව ලකුණු එක් කරන්න, අඩු ලකුණු වලදී "මෙම පිළිතුරේ විශ්වසනීයත්වය අඩුය, කරුණාකර මුල් ලේඛනය බලන්න" ලෙස ක්‍රියාශීලීව දන්වන්න.

3. නිරවද්‍යතාව අඛණ්ඩ ප්‍රශස්තිකරණයේ ඉලක්කයක් ලෙස සලකන්න, එක් වරක් ඉලක්කයක් ලෙස නොවේ

  • ඇගයීම් නල මාර්ගයක් ස්ථාපිත කරන්න: වරින් වර මිනිස් විසින් ලේබල් කරන ලද ප්‍රශ්න සාම්පලයක් ගෙන, ප්‍රතිශෝධ ප්‍රහාර අනුපාතය සහ උත්පාදන විශ්වාසවන්තභාවය ස්වයංක්‍රීයව ඇගයීමට ලක් කරන්න.
  • RAGAS, TruLens වැනි මෙවලම් භාවිතා කර ක්‍රමානුකූල ඇගයීමක් සිදු කරන්න, අවස්ථා කිහිපයක් මත පදනම්ව තීරණ නොගන්න.
  • නරක අවස්ථා අනුව අඛණ්ඩව සකස් කරන්න: බෙදීමේ ක්‍රමය, ප්‍රතිශෝධක පරාමිතීන්, නැවත ඇණවුම් කිරීමේ ආකෘතිය, ඉඟි.

4. "පද්ධති දෝෂ" සහ "මිනිස් සම්මතයේ නොගැලපීම" අතර වෙනස හඳුනා ගන්න

  • සමහර විට පද්ධතියේ පිළිතුර පරිශීලක අපේක්ෂාවට වඩා වෙනස් විය හැක, නමුත් දැනුම් ගබඩාවේ ඇති තොරතුරු අනුව ඇත්ත වශයෙන්ම නිවැරදි වේ (දැනුම් ගබඩාවේම සීමාවන් හෝ මතභේද ඇති බැවින්).
    එවිට අර්ථ දැක්විය යුතුය: නිරවද්‍යතාව "දැනුම් ගබඩා සත්‍යය" මත පදනම් වේද, නැතහොත් "බාහිර පිළිගත් සත්‍යය" මතද?

අවසාන සාරාංශය

දැනුම ප්‍රශ්න පිළිතුරු පද්ධතියක නිරවද්‍යතාව යනු ස්ථිතික පූර්ණ ලකුණු දර්ශකයක් නොව, "දැනුම් ආවරණය + ප්‍රතිශෝධ නිරවද්‍යතාව + උත්පාදන විශ්වාසවන්තභාවය + ප්‍රතික්ෂේප කිරීමේ හැකියාව" යන සංකීර්ණ හැකියා අගයක් වේ. එය දෙස බැලීමේදී, වර්තමාන තාක්ෂණයට පරිපූර්ණත්වය ලබා ගත නොහැකි බව තාර්කිකව වටහා ගත යුතු අතර, උපුටා දැක්වීම්, විශ්වාසනීයත්ව ඉඟි, මිනිස්-යන්ත්‍ර සහයෝගීතාව වැනි නිර්මාණ තුළින් ව්‍යාපාරයේ සැබෑ වටිනාකමක් ලබා ගත හැකිය.

评论

暂无已展示的评论。

发表评论(匿名)