Swali la Pili la Mahojiano ya AI: Jinsi ya Kuhakikisha Utekelezaji wa Zana kwa LLM ni wa Kuaminika
Swali la Pili la Mahojiano ya AI: Jinsi ya Kuhakikisha Utekelezaji wa Zana kwa LLM ni wa Kuaminika
Jinsi ya kuhakikisha kuwa modeli kubwa ya lugha (LLM) inafanya kazi kwa uaminifu na kwa udhibiti wakati wa kutumia zana, si tu kutegemea vidokezo (prompts) kumshawishi modeli. Inahitaji mfumo wa ngazi mbalimbali wa vikwazo uliopangwa kwa utaratibu.
Kama mfano wa kuangalia hali ya hewa, kuna tabia tatu za kawaida za "kubuni" za modeli katika utekelezaji wa zana:
1. Kutotumia zana, na kujibu moja kwa moja kwa kubuni.
2. Kupitisha hoja zenye umbizo lisilo sahihi wakati wa kutumia zana (k.m., zana haitumii "kesho kutwa", lakini anapita date="kesho kutwa").
3. Kubadilisha umbizo la hoja kwa hiari yake (k.m., kubadilisha "kesho kutwa" kuwa tarehe maalum), hata kama zana haihitaji hivyo.
Chanzo cha tatizo ni kwamba matokeo ya modeli kwa asili ni ya uwezekano, na vidokezo ni "vikwazo laini" vinavyowekwa kwenye usambazaji wa uwezekano, si utaratibu wa kulazimisha ambao unahakikisha modeli inafuata kwa ukali. Katika mazingira magumu, "vikwazo laini" hivi vinaweza kushindwa kwa urahisi.
Ili kutatua tatizo hili, inahitajika kuwa na suluhisho la uhandisi lenye ngazi mbalimbali:
-
Ngazi ya Kwanza: Kuboresha Vidokezo (Vikwazo Laini)
- Msimamo wake ni mwanzo wa mfumo wa vikwazo, lakini si mwisho.
- Vidokezo vinapaswa kutazamwa kama "mkataba wa uendeshaji", unaoeleza wazi madhumuni ya zana, aina ya kila hoja, mipaka, na kuorodhesha mifano ya thamani zisizo halali.
- Inapaswa kuongezwa Mifano chache (Few-shot), kwa kuonyesha mifano ya "pembezo sahihi → utekelezaji sahihi", kutumia kujifunza kwa muktadha kuweka mfumo wa tabia ya modeli.
-
Ngazi ya Pili: Kuanzisha JSON Schema (Vikwazo Vikali)
- Hii ni hatua muhimu kutoka "kutoa sababu" hadi "kuweka matusi".
- Tumia ufafanuzi wa muundo unaoweza kusomwa na kuthibitishwa na mashine (JSON Schema) badala ya maelezo ya lugha asilia kwa hoja. Inaweza kufafanua kwa ukali aina za sehemu, kama inahitajika, anuwai za thamani za orodha, na kwa kuweka
additionalProperties: falsekuzuia modeli kutoa sehemu zozote zisizofafanuliwa. - Majukwaa makuu ya API yanaunga mkono vikwazo hivi vya matokeo yaliyopangwa wakati wa hatua ya kusimbua modeli, kuepuka ukiukaji wa umbizo kutoka chanzo.
-
Ngazi ya Tatu: Kuanzisha Mzunguko wa Uthibitishaji-Urekebishaji-Jaribio tena (Utekelezaji wa Dhamana)
- Hata kwa Schema, bado inahitajika, baada ya kupata matokeo ya modeli, kufanya uthibitishaji wa sintaksia na Schema.
- Ikiwa uthibitishaji utashindwa, inapaswa kubuniwa utaratibu wa kusafisha kiotomatiki na kujaribu tena (kwa kikomo), kurudisha taarifa ya makosa kwa modeli ili kurekebisha matokeo. Baada ya kuzidi idadi ya majaribio, inahitajika kuwa na mpango wa kupunguza kiwango au kushughulikia kwa binadamu.
-
Ngazi ya Usanifu: Mgawanyo wa Majukumu
- Inapaswa kutenganishwa uamuzi na utekelezaji, kuunda usanifu wa ngazi tatu:
- Ngazi ya Modeli: Inawajibika tu kwa uamuzi (kuamua ni zana gani itumike, kutoa hoja zipi).
- Ngazi ya Mfumo: Inawajibika kwa mfumo wa utekelezaji, ikijumuisha uthibitishaji wa Schema, kutumia zana, kushughulikia majaribio tena na kuunganisha matokeo. Hii inahakikisha kwamba makosa ya modeli hayaathiri moja kwa moja usalama wa zana, na mabadiliko ya zana hayahitaji kurekebisha vidokezo mara kwa mara.
- Ngazi ya Zana: Utekelezaji maalum wa uwezo wa biashara.
- Mifumo kama LangChain, LlamaIndex inafanya kazi hiyo.
- Inapaswa kutenganishwa uamuzi na utekelezaji, kuunda usanifu wa ngazi tatu:
Mapungufu ya suluhisho la sasa: Inaweza kushughulikia vizuri tatizo la umbizo la hoja, lakini bado haitoshi kwa uthibitishaji wa semantiki ya hoja (k.m., usawa kati ya "Shanghai" na "Hu"). Hili litakuwa changamoto ya uhandisi inayohitaji kushughulikiwa siku zijazo.
Hitimisho Kuu: Kufanya LLM kutumia zana kwa uaminifu, kwa asili ni tatizo la uhandisi wa programu, linalohitaji kuanzisha mpango wa uhandisi wa kimfumo kutoka kwa vikwazo laini, vikwazo vikali, utekelezaji wa dhamana hadi usanifu, si tu kutegemea kuboresha vidokezo.
评论
暂无已展示的评论。
发表评论(匿名)