Pyetje Interviste AI 2: Si të Sigurojmë që Thirrja e Mjeteve nga Modeli i Madh Gjuhësor (LLM) të Jetë e Besueshme

Si të sigurojmë që Modeli i Madh Gjuhësor (LLM) të punojë në mënyrë të besueshme dhe të kontrollueshme gjatë thirrjes së mjeteve, duke mos u mbështetur vetëm në prompte për të "bindur" modelin. Nevojitet një kornizë kufizimesh me shumë nivele.

Si shembull i pyetjes për motin, tre sjellje të zakonshme "të trilluara" të modelit gjatë thirrjes së mjeteve:
1. Mos thirrja e mjetit, duke trilluar përgjigjen drejtpërdrejt.
2. Kalimi i parametrave me format të gabuar gjatë thirrjes së mjetit (p.sh., mjeti nuk mbështet "pasnesër", por parametri kalon date="pasnesër").
3. Konvertimi i formatit të parametrave pa autorizim (p.sh., konvertimi i "pasnesër" në një datë specifike), edhe nëse mjeti nuk e kërkon këtë.

Rrënja e problemit qëndron në faktin se dalja e modelit është në thelb probabilistike, dhe promptet janë vetëm "kufizime të buta" mbi shpërndarjen e probabilitetit, jo mekanizma të detyrueshëm që sigurojnë respektimin e rreptë të modelit. Në skenarë kompleksë, këto "kufizime të buta" dështojnë lehtësisht.

Për të zgjidhur këtë problem, nevojitet një zgjidhje inxhinierike me shumë nivele:

Niveli i parë: Optimizimi i prompteve (kufizime të buta)
- Pozicionimi është pika fillestare e sistemit të kufizimeve, por aspak fundi.
- Promptet duhet të trajtohen si "kontrata operacionale", duke shpjeguar qartë qëllimin e mjetit, llojin e çdo parametri, kufijtë, dhe duke dhënë shembuj të vlerave të paligjshme.
- Duhet të shtohen shembuj Few-shot, duke shfaqur shembuj të "input i saktë → thirrje e saktë", duke përdorur të mësuarit në kontekst për të ankoruar modelin e sjelljes së modelit.
Niveli i dytë: Futja e JSON Schema (kufizime të forta)
- Ky është një hap kyç nga "bindja" në "vendosjen e kangjellave".
- Përdorni përkufizime strukturore të lexueshme nga makina dhe të verifikueshme (JSON Schema) në vend të përshkrimeve në gjuhë natyrore për parametrat. Mund të përcaktohet rreptësisht lloji i fushës, nëse është i detyrueshëm, diapazoni i vlerave të enumit, dhe duke vendosur additionalProperties: false për të ndaluar modelin të nxjerrë ndonjë fushë të papërcaktuar.
- Platformat kryesore API mbështesin këtë lloj kufizimi të daljes strukturore gjatë fazës së dekodimit të modelit, duke shmangur shkeljet e formatit që në burim.
Niveli i tretë: Krijimi i një cikli verifikim-riparim-ripërpjekje (ekzekutim sigurie)
- Edhe me Schema, pas marrjes së daljes së modelit, duhet të bëhet verifikimi sintaksor dhe i Schema.
- Në rast dështimi të verifikimit, duhet të projektohet një mekanizëm automatik pastrimi dhe ripërpjekjeje (me kufi), duke i kthyer informacionet e gabimit modelit për të korrigjuar daljen. Pas tejkalimit të numrit të ripërpjekjeve, duhet të ketë një plan për ulje të nivelit ose trajtim manual.
Niveli arkitekturor: Ndarja e përgjegjësive
- Vendimmarrja dhe ekzekutimi duhet të ndahen, duke formuar një arkitekturë tre-nivelëshe:
  - Shtresa e modelit: Vetëm përgjegjëse për vendimmarrje (të vendosë cilin mjet të thërrasë, cilat parametra të gjenerojë).
  - Shtresa e kornizës: Përgjegjëse për ekzekutimin e kornizës, duke përfshirë verifikimin e Schema, thirrjen e mjetit, trajtimin e ripërpjekjeve dhe integrimin e rezultateve. Kjo siguron që gabimet e modelit të mos ndikojnë drejtpërdrejt në sigurinë e mjetit, dhe ndryshimet në mjete nuk kërkojnë rregullime të shpeshta të prompteve.
  - Shtresa e mjetit: Implementimi konkret i aftësive të biznesit.
- Kornizat si LangChain, LlamaIndex po bëjnë pikërisht këtë punë.

Kufizimet e zgjidhjes aktuale: Trajton mirë problemin e formatit të parametrave, por mbulimi i verifikimit për semantikën e parametrave (p.sh., ekuivalenca e "Shanghai" dhe "沪") është ende i pamjaftueshëm. Ky do të jetë një sfidë inxhinierike për të ardhmen.

Përfundimi kryesor: Të bësh LLM të thërrasë mjete në mënyrë të besueshme është në thelb një problem inxhinierik softuerësh, që kërkon ndërtimin e një zgjidhjeje sistematike inxhinierike nga kufizimet e buta, kufizimet e forta, ekzekutimi sigurie deri te dizajni arkitekturor, dhe jo thjesht mbështetje në optimizimin e prompteve.

Pyetje Interviste AI 2: Si të Sigurojmë që Thirrja e Mjeteve nga Modeli i Madh Gjuhësor (LLM) të Jetë e Besueshme

Pyetje Interviste AI 2: Si të Sigurojmë që Thirrja e Mjeteve nga Modeli i Madh Gjuhësor (LLM) të Jetë e Besueshme

评论

发表评论（匿名）