Pertanyaan Wawancara AI Kedua: Bagaimana Memastikan Panggilan Alat LLM Andal

Bagaimana memastikan Large Language Model (LLM) dapat bekerja dengan andal dan terkendali saat memanggil alat, bukan hanya mengandalkan prompt untuk "meyakinkan" model. Diperlukan kerangka kerja multi-level yang sistematis.

Contoh kasus cuaca, tiga perilaku "berhalusinasi" umum model dalam panggilan alat:
1. Tidak memanggil alat, langsung membuat jawaban fiktif.
2. Memanggil alat dengan parameter format yang salah (misalnya alat tidak mendukung "lusa", tetapi mengirim parameter date="lusa").
3. Mengubah format parameter secara sepihak (misalnya mengubah "lusa" menjadi tanggal tertentu), meskipun alat tidak memintanya.

Akar masalahnya adalah output model pada dasarnya probabilistik, prompt hanya memberikan "kendala lunak" pada distribusi probabilitas, bukan mekanisme paksa yang memastikan model mematuhi secara ketat. Dalam skenario kompleks, "kendala lunak" ini mudah gagal.

Untuk mengatasi masalah ini, diperlukan solusi rekayasa multi-level:

Level 1: Optimasi Prompt (Kendala Lunak)
- Posisinya sebagai titik awal sistem kendala, tetapi bukan akhir.
- Prompt harus dipandang sebagai "kontrak operasi", menjelaskan tujuan alat, tipe setiap parameter, batasan, dan memberikan contoh nilai ilegal.
- Harus ditambahkan Contoh Few-shot, dengan menampilkan contoh "input benar → panggilan benar", memanfaatkan pembelajaran konteks untuk mengikat pola perilaku model.
Level 2: Memperkenalkan JSON Schema (Kendala Keras)
- Ini adalah langkah kunci dari "berdiskusi" ke "memasang pagar".
- Gunakan definisi terstruktur yang dapat dibaca mesin dan diverifikasi (JSON Schema) untuk menggantikan deskripsi parameter bahasa alami. Dapat secara ketat mendefinisikan tipe field, apakah wajib, rentang nilai enumerasi, dan dapat mengatur additionalProperties: false untuk melarang model mengeluarkan field yang tidak ditentukan.
- Platform API utama mendukung kendala output terstruktur ini pada tahap decoding model, menghindari pelanggaran format dari sumber generasi.
Level 3: Membangun Lingkaran Validasi-Perbaiki-Coba Ulang (Jaring Pengaman Eksekusi)
- Meskipun ada Schema, tetap perlu melakukan validasi sintaks dan Schema setelah mendapatkan output model.
- Saat validasi gagal, harus dirancang mekanisme pembersihan otomatis dan coba ulang (dengan batas atas), mengembalikan informasi kesalahan ke model untuk memperbaiki output. Setelah melebihi batas coba ulang, perlu ada rencana penurunan atau penanganan manual.
Tingkat Arsitektur: Pemisahan Tanggung Jawab
- Harus memisahkan pengambilan keputusan dan eksekusi, membentuk arsitektur tiga lapis:
  - Lapisan Model: Hanya bertanggung jawab atas pengambilan keputusan (menentukan alat mana yang dipanggil, parameter apa yang dihasilkan).
  - Lapisan Kerangka Kerja: Bertanggung jawab atas kerangka eksekusi, termasuk validasi Schema, memanggil alat, menangani coba ulang, dan mengintegrasikan hasil. Ini memastikan kesalahan model tidak langsung mempengaruhi keamanan alat, dan perubahan alat tidak perlu sering menyesuaikan prompt.
  - Lapisan Alat: Implementasi kemampuan bisnis spesifik.
- LangChain, LlamaIndex, dan kerangka kerja lainnya melakukan pekerjaan seperti ini.

Keterbatasan solusi saat ini: Dapat menangani masalah format parameter dengan baik, tetapi cakupan validasi semantik parameter (misalnya kesetaraan "Shanghai" dan "Hu") masih kurang. Ini akan menjadi tantangan rekayasa yang perlu dihadapi di masa depan.

Kesimpulan Inti: Membuat LLM memanggil alat dengan andal pada dasarnya adalah masalah rekayasa perangkat lunak, yang memerlukan pembangunan solusi rekayasa sistematis dari kendala lunak, kendala keras, jaring pengaman eksekusi hingga desain arsitektur, bukan hanya mengandalkan optimasi prompt.

Pertanyaan Wawancara AI Kedua: Bagaimana Memastikan Panggilan Alat LLM Andal

Pertanyaan Wawancara AI Kedua: Bagaimana Memastikan Panggilan Alat LLM Andal

评论

发表评论（匿名）