← 返回列表

Mfululizo wa Mahojiano ya AI 9: Jinsi ya Kuona Usahihi wa Mfumo wa Maswali na Majibu?

Usahihi ni uhai wa msingi wa mfumo wa maswali na majibu, hasa unapojaribu kuitumia katika mazingira mazito (kama vile matibabu, sheria, usaidizi wa ndani wa kampuni). Mtazamo wangu unaweza kufupishwa kama: Usahihi ni dhana yenye pande nyingi, hauwezi kuangaliwa kwa nambari moja tu, bali unapaswa kutathminiwa kwa kuchanganya uwezo wa mfumo, ugumu wa kazi, na gharama ya uvumilivu wa makosa.

Ifuatayo inaelezwa kwa ngazi nne:


Sehemu ya Kwanza: Usahihi si "Jibu Sahihi/Makosa" tu

Usahihi wa matatizo ya jadi ya uainishaji (kama vile utambuzi wa picha) ni wazi. Lakini mfumo wa maswali na majibu ni tofauti; vipimo vya kawaida vya ugawaji ni pamoja na:

Kipimo Maana Mfano wa Tathmini
Kiwango cha Kupata Je, mfumo unaweza kurudisha sehemu za hati zenye jibu sahihi kutoka kwenye hifadhi ya maarifa? Mtumiaji auliza "Mapato ya 2024 ya Kampuni A", je, mfumo unaweza kupata aya hiyo ya taarifa ya fedha iliyo na data hiyo?
Uaminifu wa Uzalishaji Je, jibu linalozalishwa na muundo linategemea kabisa yaliyorudishwa, badala ya kuvumbua? Nyenzo iliyorudishwa haikutaja "kiwango cha ukuaji", lakini muundo unasema "imekua kwa 5%" → si mwaminifu
Usahihi wa Jibu Je, jibu la mwisho linalingana na ukweli (au jibu la marejeleo)? Jibu sahihi ni "bilioni 42", muundo akitoa "bilioni 42" au "takriban bilioni 42 za Yuan" inaweza kuhesabiwa kuwa sahihi
Kiwango cha Kukataa Wakati hakuna habari muhimu kwenye hifadhi ya maarifa, je, mfumo unaweza kusema "sijui" kwa hiari, badala ya kubahatisha? Wakati urejeshaji ni tupu au ujasiri ni mdogo, toa "Samahani, hakuna habari iliyopatikana"

Mfumo unaweza kuwa na kiwango cha juu cha kupata (kupata aya zinazohusiana kila wakati), lakini uaminifu wa uzalishaji uko chini (kuongeza mambo kila wakati), na hatimaye usahihi bado ni mbaya. Kwa hiyo, unapotazama usahihi, kwanza bainisha ni hatua gani unapima.


Sehemu ya Pili: Chini ya Teknolojia ya Sasa, Usahihi wa Mfumo wa RAG unaweza Kufikia Ngazi Gani?

Hakuna nambari moja, lakini kuna marejeleo kutoka kwa utafiti na mazoezi ya hadhara:

  • Maswali rahisi ya ukweli (kuruka moja, jibu linapatikana moja kwa moja kwenye aya moja):
    Kiwango cha kupata kinaweza kufikia 90-98% (kutegemea ubora wa hifadhi ya maarifa na kirejeshi), uaminifu wa uzalishaji ukifika 95%+ kwa mwongozo uliobuniwa vizuri, usahihi wa jumla ni kati ya 85-95%.
  • Kufikiri kwa kuruka nyingi (kuhitaji kuunganisha habari kutoka sehemu mbili au zaidi tofauti):
    Usahihi wa urejeshaji unashuka hadi 50-70%, usahihi wa jibu linalozalishwa unaweza kuwa 40-60%. Hili ni tatizo kuu la RAG sasa.
  • Uga wazi + hifadhi ya maarifa yenye kelele (kama vile kurasa nyingi za wavuti):
    Usahihi utapungua sana kwa sababu urejeshaji unaweza kuleta kelele, na muundo unashawishika kwa urahisi.

Hitimisho: Katika mazingira yanayodhibitiwa (safi, yenye muundo, ukubwa wa hati unaofaa), RAG inaweza kufikia usahihi zaidi ya 90%; lakini katika mazingira magumu, yaliyo wazi, na yanayohitaji kufikiri kwa hatua nyingi, usahihi mara nyingi haukidhi matarajio na unahitaji uboreshaji mkubwa.


Sehemu ya Tatu: Mambo Makuu Yanayoathiri Usahihi

Ukigundua kuwa usahihi wa mfumo wako wa RAG hauridhishi, kwa kawaida unaweza kuchunguza hatua nne zifuatazo:

  1. Hifadhi ya Maarifa yenyewe

    • Je, data imepitwa na wakati, haijakamilika, au ina makosa?
    • Je, hati ni mbovu (kama vile skana ambazo hazijawekwa OCR, meza zilizovunjwa kuwa maandishi yasiyoeleweka)?
  2. Mgawanyiko na Kielezo

    • Vipande vya maandishi vimekatwa vifupi sana → kupoteza muktadha; virefu sana → kuleta kelele.
    • Je, muundo wa upachikaji unafaa kwa eneo lako (muundo wa jumla unaweza kufanya vibaya kwa istilahi za kisheria)?
  3. Mkakati wa Urejeshaji

    • Kutumia urejeshaji wa vekta pekee kunaweza kupuuza maneno muhimu halisi (kama vile nambari za bidhaa).
    • Kutokuwa na upangaji upya kunaweza kusababisha matokeo ya mbele kuchanganya yasiyohusiana.
  4. Mchakato wa Uzalishaji

    • Je, mwongozo unaomba wazi "jibu kulingana na nyenzo zilizotolewa tu, ukikosa kataa"?
    • Je, uwezo wa muundo unatosha (muundo mdogo hurahisisha kupoteza maelezo katika muktadha mrefu)?

Kosa la kawaida: Kulaumu uwezo wa LLM moja kwa moja kwa usahihi mdogo, wakati shida nyingi ziko kwenye "urejeshaji" na "muundo wa mwongozo".


Sehemu ya Nne: Jinsi ya "Kuona" Usahihi Kwa Usahihi—Mitazamo Muhimu Katika Mazoezi

1. Weka Viwango na Matarajio Sahihi

  • Kwa maeneo yenye hatari kubwa (utambuzi wa kimatibabu, ushauri wa kisheria), usahihi wa 90% bado hautoshi; lazima uingize ukaguzi wa binadamu au uthibitishaji mwingi.
  • Kwa mazingira yenye hatari ndogo (msaada wa wateja, utafutaji wa maarifa ya ndani), usahihi wa 80% pamoja na majibu ya "sijui" yenye urafiki yanaweza tayari kuongeza tija kwa kiasi kikubwa.

2. Usitafute 100%, Tafuta "Usahihi Unaoweza Kuthibitishwa"

  • Fanya mfumo kujiongeza vyanzo vya marejeleo (kuashiria ni makala gani, aya gani).
    Mtumiaji anaweza kuona asili na kujithibitisha; hata kama jibu linakosa mara kwa mara, uwazi unaweza kujenga uaminifu.
  • Ongeza alama ya ujasiri; ujasiri ukiwa mdogo, onya kwa hiari "Jibu hili lina uaminifu mdogo, tunapendekeza uangalie hati asili".

3. Chukulia Usahihi Kama Kitu Kinachoboreshwa Kwa Kuendelea, Si Lengo La Mara Moja

  • Anzisha mstari wa tathmini: Mara kwa mara toa sampuli ya maswali yaliyowekwa alama na binadamu, tathmini kiotomati kiwango cha kupata na uaminifu wa uzalishaji.
  • Tumia zana kama RAGAS, TruLens kwa tathmini ya utaratibu, badala ya kutegemea visa vichache.
  • Kulingana na visa vibaya, rekebisha: njia ya mgawanyiko, vigezo vya kirejeshi, muundo wa upangaji upya, mwongozo.

4. Tofautisha "Makosa ya Mfumo" na "Tofauti na Viwango vya Binadamu"

  • Wakati mwingine jibu la mfumo linatofautiana na matarajio ya mtumiaji, lakini kulingana na nyenzo kwenye hifadhi ya maarifa ni sahihi (kwa sababu hifadhi yenyewe ina mipaka au utata).
    Hapo unahitaji kufafanua: je, usahihi unategemea "ukweli wa hifadhi ya maarifa" au "ukweli unaokubaliwa na wote nje"?

Muhtasari wa Mwisho

Usahihi wa mfumo wa maswali na majibu si kipimo tuli cha alama kamili, bali ni thamani ya uwezo wa jumla inayoakisi "ufunikaji wa maarifa + usahihi wa urejeshaji + uaminifu wa uzalishaji + uwezo wa kukataa". Unapoutazama, ni muhimu kutambua kwa busara kwamba teknolojia ya sasa haiwezi kufikia ukamilifu, lakini pia unaweza kuleta thamani halisi katika biashara kwa kubuni kama vile kufuatilia vyanzo, kuashiria ujasiri, na ushirikiano wa binadamu na mashine.

评论

暂无已展示的评论。

发表评论(匿名)