የ AI ተከታታይ ቃለ መጠይቅ 9፡ የእውቀት መመለሻ ስርዓት ትክክለኛነትን እንዴት እንመለከታለን?
ትክክለኛነት የእውቀት መመለሻ ስርዓት ዋና ህይወት መስመር ነው፣ በተለይ በቁጥር ባሉ መስኮች (እንደ ህክምና፣ ህግ፣ የድርጅት ውስጣዊ ድጋፍ) ለመጠቀም ሲሞከር። አመለካከቴን በአጭሩ ልገልጸው፡- ትክክለኛነት ባለብዙ ገጽታ ፅንሰ-ሀሳብ ነው፣ አንድ ነጠላ ቁጥር ብቻ ማየት ሳይሆን፣ ከስርዓቱ አቅም፣ ተግባር ችግር እና የስህተት ወጪ ጋር በማጣመር መገምገም አለበት።
ከዚህ በታች በአራት ደረጃዎች እንመረምራለን፦
1. ትክክለኛነት "ትክክል/ስህተት" ብቻ አይደለም
ባህላዊ የምደባ ችግሮች (እንደ ምስል ማወቂያ) ትክክለኛነታቸው ግልጽ ነው። ነገር ግን የእውቀት መመለሻ ስርዓት የተለያዩ የመለኪያ ልኬቶች አሉት፦
| ልኬት | ትርጉም | የግምገማ ምሳሌ |
|---|---|---|
| የፍለጋ ተደራሽነት | ስርዓቱ ትክክለኛውን መልስ የያዘውን ሰነድ ክፍል ከእውቀት ማከማቻው ማግኘት ይችላል? | ተጠቃሚው "የA ኩባንያ የ2024 ገቢ" ብሎ ሲጠይቅ፣ ስርዓቱ ያንን መረጃ የያዘውን የሂሳብ ክፍል ማግኘት ይችላል? |
| የማመንጨት ታማኝነት | ሞዴሉ የሚያመነጨው መልስ በተገኘው ይዘት ላይ ብቻ የተመሰረተ ነው እንጂ ራሱን ችሎ የፈጠረ አይደለም? | የተገኘው መረጃ "የዕድገት መጠን" ባይጠቅስም፣ ሞዴሉ "በ5% አድጓል" ቢል → ታማኝ አይደለም |
| የመልስ ትክክለኛነት | የመጨረሻው መልስ ከእውነታ (ወይም ከማጣቀሻ መልስ) ጋር ይጣጣማል? | ትክክለኛው መልስ "42 ቢሊዮን" ከሆነ፣ ሞዴሉ "42 ቢሊዮን" ወይም "ወደ 42 ቢሊዮን የሚጠጋ የህዝብ ብዛት" ቢል ትክክል ሊባል ይችላል |
| የመቃወም መጠን | እውቀቱ ውስጥ መረጃ ከሌለ፣ ስርዓቱ ከማገላለጥ ይልቅ "አላውቅም" ማለት ይችላል? | ፍለጋው ባዶ ሲሆን ወይም እምነት ዝቅተኛ ሲሆን፣ "ይቅርታ፣ ምንም የሚመለከት መረጃ አልተገኘም" የሚል ውጤት ማስመጣት |
አንድ ስርዓት ከፍተኛ የፍለጋ ተደራሽነት ቢኖረው (ሁልጊዜ ተዛማጅ አንቀጾችን ማግኘት) ነገር ግን ዝቅተኛ የማመንጨት ታማኝነት (ሁልጊዜ ተጨማሪ ነገር ይጨምራል) ሊኖረው ይችላል፣ በመጨረሻም አጠቃላይ ትክክለኛነቱ ዝቅተኛ ነው። ስለዚህ ትክክለኛነትን ስንመለከት የትኛውን ደረጃ እንደምንለካ መግለጽ አለብን።
2. በአሁኑ የቴክኖሎጂ ደረጃ፣ የRAG ስርዓቶች ትክክለኛነት ምን ያህል ነው?
አንድ የተወሰነ ቁጥር የለም፣ ነገር ግን አንዳንድ ይፋዊ ጥናቶችን እና ልምምዶችን መጥቀስ እንችላለን፦
- ቀላል እውነታ-ተኮር ጥያቄዎች (ነጠላ ዝላይ፣ መልሱ በአንድ ክፍል ውስጥ በቀጥታ ይታያል)፦
የፍለጋ ተደራሽነት ከ90-98% ሊደርስ ይችላል (እንደ እውቀት ማከማቻ ጥራት እና ፈላጊ ሁኔታ)፣ የማመንጨት ታማኝነት በጥንቃቄ በተዘጋጀ ፍንጭ ከ95% በላይ ሊሆን ይችላል፣ አጠቃላይ ትክክለኛነት ከ85-95% መካከል ነው። - ባለብዙ ዝላይ አመክፍል (ከሁለት ወይም ከዚያ በላይ የተለያዩ መረጃዎችን ማጣመር ያስፈልጋል)፦
የፍለጋ ትክክለኛነት ወደ 50-70% ይወርዳል፣ የመልስ ትክክለኛነት ደግሞ ከ40-60% ብቻ ሊሆን ይችላል። ይህ የአሁኑ RAG ዋና ችግር ነው። - ክፍት ጎራ + ጫጫታ ያለው የእውቀት ማከማቻ (እንደ እጅግ ብዙ ድረ-ገፆች)፦
ትክክለኛነት በእጅጉ ይቀንሳል፣ ምክንያቱም ፍለጋ ጫጫታን ሊያስተዋውቅ ይችላል፣ ሞዴሉም በቀላሉ ሊረበሽ ይችላል።
ማጠቃለያ፦ በቁጥጥር ስር ባለ አካባቢ (ንጹህ፣ የተዋቀረ፣ ተገቢ የሆነ የሰነድ መጠን) RAG ከ90% በላይ ትክክለኛነት ሊያገኝ ይችላል፤ ነገር ግን ውስብስብ፣ ክፍት እና ብዙ እርከን አመክፍል በሚፈልጉ ሁኔታዎች፣ ትክክለኛነቱ ብዙውን ጊዜ አጥጋቢ አይደለም እና ብዙ ማሻሻያ ያስፈልገዋል።
3. ትክክለኛነትን የሚነኩ ዋና ምክንያቶች
የእርስዎ RAG ስርዓት ትክክለኛነት አጥጋቢ ካልሆነ፣ ብዙውን ጊዜ ከሚከተሉት አራት ደረጃዎች መመርመር ይችላሉ፦
- የእውቀት ማከማቻው ራሱ
- ውሂቡ ጊዜ ያለፈበት፣ ያልተሟላ፣ ወይም ስህተት ነው?
-
ሰነዶቹ የተዘበራረቁ ናቸው (ለምሳሌ የተቃኙ ፎቶዎች OCR ያልተደረገላቸው፣ ሰንጠረዦች ተበታትነው)?
-
ክፍፍል እና ኢንዴክስ
- የጽሁፍ ክፍሎች በጣም አጭር ከሆኑ → አውድ ይጠፋል፤ በጣም ረጅም ከሆኑ → ጫጫታ ይጨመራል።
-
የአከባቢ ሞዴሉ ለጎራዎ ተስማሚ ነው (አጠቃላይ ሞዴሎች በህግ ቃላት ላይ ደካማ ሊሆኑ ይችላሉ)?
-
የፍለጋ ስትራቴጂ
- የቬክተር ፍለጋ በብቸኝነት መጠቀም ትክክለኛ ቁልፍ ቃላትን (እንደ ምርት ሞዴል) ሊያመልጥ ይችላል።
-
ዳግም ደረጃ አሰጣጥ ካልተከናወነ የፊት መስመር ውጤቶች ውስጥ ተዛማጅ ያልሆኑ ነገሮች ሊኖሩ ይችላሉ።
-
የማመንጨት ክፍል
- ፍንጩ "በተሰጠው መረጃ ላይ ብቻ ተመስርተህ መልስ ስጥ፣ በቂ ካልሆነ እምቢ በል" የሚል ግልጽ መመሪያ አለው?
- የሞዴሉ አቅም በቂ ነው (ትናንሽ ሞዴሎች ረጅም አውድ ውስጥ ዝርዝሮችን ችላ ሊሉ ይችላሉ)?
አንድ የተለመደ የተሳሳተ ግንዛቤ፦ ዝቅተኛ ትክክለኛነትን በቀጥታ ለLLM አቅም ማነስ መወንጀል፣ ነገር ግን አብዛኛው ችግር የሚመጣው ከ"ፍለጋ" እና "የፍንጭ ንድፍ" ነው።
4. ትክክለኛነትን በትክክል እንዴት "መመልከት" እንደሚቻል—በተግባር ውስጥ ዋና ዋና አቀራረቦች
1. ምክንያታዊ መነሻ እና ግምት ማዘጋጀት
- ከፍተኛ አደጋ ላለባቸው መስኮች (የህክምና ምርመራ፣ የህግ ምክር) 90% ትክክለኛነት እንኳን በቂ አይደለም፣ የሰው ማረጋገጫ ወይም ብዙ ማረጋገጫዎች ማስተዋወቅ አለባቸው።
- ዝቅተኛ አደጋ ላለባቸው ሁኔታዎች (የደንበኛ አገልግሎት መደገፊያ፣ የውስጥ እውቀት ፍለጋ) 80% ትክክለኛነት ከተግባቡ እና ተባባሪ "አላውቅም" ምላሽ ጋር ቅልጥፍናን በእጅጉ ማሻሻል ይችላል።
2. 100% ማሳደድ ሳይሆን፣ "ሊረጋገጥ የሚችል ትክክለኛነት" ማሳካት
- ስርዓቱ ራስ-ሰር የማጣቀሻ ምንጮችን (የትኛው ጽሑፍ፣ የትኛው አንቀጽ) እንዲያያይዝ አድርጉ።
ተጠቃሚዎች ዋናውን ጽሑፍ በራሳቸው ማየት ይችላሉ፤ መልሱ አልፎ አልፎ ቢሳሳትም፣ ግልጽነቱ እምነት ይፈጥራል። - የእምነት ደረጃ ያክሉ፣ ዝቅተኛ ደረጃ ሲኖር "ይህ መልስ አስተማማኝነቱ ዝቅተኛ ነው፣ እባክዎ ዋናውን ሰነድ ይመልከቱ" ብሎ ያሳውቅ።
3. ትክክለኛነትን እንደ ቀጣይ ማሻሻያ ኢላማ ይያዙት፣ እንጂ የአንድ ጊዜ ግብ አይደለም
- የግምገማ ቧንቧ ይገንቡ፦ በየጊዜው በሰው የተሰየሙ ጥያቄዎችን ናሙና ይውሰዱ፣ የፍለጋ ተደራሽነት እና የማመንጨት ታማኝነትን በራስ-ሰር ይገምግሙ።
- እንደ RAGAS፣ TruLens ያሉ መሳሪያዎችን በመጠቀም ስልታዊ ግምገማ ያካሂዱ፣ እንጂ በጥቂት ምሳሌዎች ላይ ተመስርቶ ፍርድ አይስጡ።
- በመጥፎ ሁኔታዎች ላይ በመመስረት ያለማቋረጥ ያስተካክሉ፦ የመከፋፈል ዘዴ፣ የፈላጊ ልኬቶች፣ የዳግም ደረጃ አሰጣጥ ሞዴል፣ ፍንጮች።
4. "የስርዓት ስህተት" እና "ከሰው ደረጃ አለመጣጣም" መካከል መለየት
- አንዳንድ ጊዜ ስርዓቱ የሚሰጠው መልስ ከተጠቃሚው ከሚጠብቀው የተለየ ነው፣ ነገር ግን በእውቀት ማከማቻው ውስጥ ባለው መረጃ መሰረት ትክክል ነው (ምክንያቱም የእውቀት ማከማቻው ራሱ ውስንነት ወይም አለመግባባት ስላለው)።
በዚህ ጊዜ መወሰን ያስፈልጋል፦ ትክክለኛነት የሚለካው በ"የእውቀት ማከማቻ እውነታ" ወይም በ"ውጫዊ ተቀባይነት ያለው እውነታ" ነው?
የመጨረሻ ማጠቃለያ
የእውቀት መመለሻ ስርዓት ትክክለኛነት የማይንቀሳቀስ ሙሉ ውጤት ሳይሆን፣ “የእውቀት ሽፋን + የፍለጋ ትክክለኛነት + የማመንጨት ታማኝነት + የመቃወም ችሎታ” አጠቃላይ የችሎታ ዋጋ ነው። ስንመለከተው፣ የአሁኑ ቴክኖሎጂ ፍጹም መሆን እንደማይችል በምክንያታዊነት መገንዘብ እና እንዲሁም በማጣቀሻ መከታተል፣ የእምነት ደረጃ አመልካቾች፣ የሰው እና ማሽን ትብብር ወዘተ. በንድፍ ዲዛይን በንግድ ስራ ውስጥ ትክክለኛ ዋጋ ማምጣት ይቻላል።
评论
暂无已展示的评论。
发表评论(匿名)