Soalan Temuduga AI 2: Bagaimana Memastikan Panggilan Alat oleh Model Bahasa Besar (LLM) Boleh Dipercayai

Bagaimana memastikan Model Bahasa Besar (LLM) berfungsi dengan boleh dipercayai dan terkawal semasa panggilan alat, bukan hanya bergantung pada prompt untuk "meyakinkan" model. Perlu diberikan rangka kerja kekangan pelbagai peringkat secara sistematik.

Contohnya dalam pertanyaan cuaca, terdapat tiga jenis "khayalan" biasa dalam panggilan alat oleh model:
1. Tidak memanggil alat, terus mencipta jawapan.
2. Menghantar parameter dengan format yang salah semasa memanggil alat (cth., alat tidak menyokong "lusa", tetapi menghantar parameter date="lusa").
3. Menukar format parameter sesuka hati (cth., menukar "lusa" kepada tarikh tertentu), walaupun alat tidak memerlukannya.

Punca masalahnya ialah output model pada dasarnya adalah probabilistik, dan prompt hanya memberikan "kekangan lembut" pada taburan kebarangkalian, bukan mekanisme paksaan yang memastikan model mematuhi dengan ketat. Dalam senario kompleks, "kekangan lembut" ini mudah gagal.

Untuk menyelesaikan masalah ini, perlu ada penyelesaian kejuruteraan pelbagai peringkat:

Lapisan Pertama: Mengoptimumkan Prompt (Kekangan Lembut)
- Kedudukannya adalah titik permulaan rangka kerja kekangan, tetapi bukan titik akhir.
- Prompt harus dianggap sebagai "kontrak operasi", menerangkan dengan jelas tujuan alat, jenis setiap parameter, sempadan, dan menyenaraikan contoh nilai tidak sah.
- Perlu ditambah Contoh Few-shot, dengan menunjukkan contoh "input betul → panggilan betul", menggunakan pembelajaran konteks untuk mengikat corak tingkah laku model.
Lapisan Kedua: Memperkenalkan JSON Schema (Kekangan Keras)
- Ini adalah langkah penting daripada "berhujah" kepada "meletakkan pagar".
- Gunakan definisi berstruktur yang boleh dibaca dan disahkan oleh mesin (JSON Schema) untuk menggantikan penerangan parameter bahasa semula jadi. Boleh mentakrifkan jenis medan, sama ada wajib, julat nilai enum dengan ketat, dan boleh melarang model daripada mengeluarkan sebarang medan yang tidak ditakrifkan dengan menetapkan additionalProperties: false.
- Platform API utama menyokong kekangan output berstruktur ini semasa fasa penyahkodan model, mengelakkan pelanggaran format dari sumber penjanaan.
Lapisan Ketiga: Mewujudkan Gelung Pengesahan-Pembetulan-Cuba Semula (Pelaksanaan Sandaran)
- Walaupun dengan Schema, masih perlu melakukan pengesahan sintaks dan Schema selepas mendapatkan output model.
- Apabila pengesahan gagal, perlu direka mekanisme pembersihan automatik dan cuba semula (dengan had), memberikan maklumat ralat kembali kepada model untuk membetulkan output. Selepas melebihi had cubaan semula, perlu ada pelan penurunan atau pengendalian manual.
Tahap Seni Bina: Pemisahan Tanggungjawab
- Perlu memisahkan keputusan dan pelaksanaan, membentuk seni bina tiga lapisan:
  - Lapisan Model: Hanya bertanggungjawab untuk keputusan (menentukan alat mana yang hendak dipanggil, parameter apa yang dihasilkan).
  - Lapisan Rangka Kerja: Bertanggungjawab untuk melaksanakan rangka kerja, termasuk pengesahan Schema, memanggil alat, mengendalikan cubaan semula, dan menyepadukan hasil. Ini memastikan kesilapan model tidak menjejaskan keselamatan alat secara langsung, dan perubahan alat tidak memerlukan pelarasan prompt yang kerap.
  - Lapisan Alat: Pelaksanaan keupayaan perniagaan khusus.
- Rangka kerja seperti LangChain, LlamaIndex sedang melakukan kerja sedemikian.

Keterbatasan penyelesaian semasa: Dapat mengendalikan masalah format parameter dengan baik, tetapi liputan pengesahan semantik parameter (cth., kesetaraan "Shanghai" dan "沪") masih tidak mencukupi. Ini akan menjadi cabaran kejuruteraan yang perlu dihadapi pada masa hadapan.

Kesimpulan Utama: Memastikan LLM memanggil alat dengan boleh dipercayai pada dasarnya adalah masalah kejuruteraan perisian, memerlukan pembinaan penyelesaian kejuruteraan sistematik daripada kekangan lembut, kekangan keras, pelaksanaan sandaran, hingga reka bentuk seni bina, bukan hanya bergantung pada pengoptimuman prompt.

Soalan Temuduga AI 2: Bagaimana Memastikan Panggilan Alat oleh Model Bahasa Besar (LLM) Boleh Dipercayai

Soalan Temuduga AI 2: Bagaimana Memastikan Panggilan Alat oleh Model Bahasa Besar (LLM) Boleh Dipercayai

评论

发表评论（匿名）