AI Interview Fro 2: Wéi garantéiert een, datt e grousst Sproochmodell (LLM) zouverlässeg Tools benotzt
AI Interview Fro 2: Wéi garantéiert een, datt e grousst Sproochmodell (LLM) zouverlässeg Tools benotzt
Wéi garantéiert een, datt e grousst Sproochmodell (LLM) bei der Toolbenotzung zouverlässeg a kontrolléiert funktionéiert, an net nëmmen op Prompt-Wierder vertraue fir de Modell ze "iwwerzeegen". Et brauch e systematesche Multi-Level-Kader mat Aschränkungen.
Beispill vun der Wiederufro: Dräi heefeg "erfonnt" Verhalen vum Modell bei der Toolbenotzung:
1. Tool net benotzen, direkt eng erfonnt Äntwert ginn.
2. Tool mat formatéierte falsche Parameteren opruffen (z.B. Tool ënnerstëtzt "iwwermuer" net, mee Parameter date="iwwermuer" ginn).
3. Eigenmächteg Parameterformat konvertéieren (z.B. "iwwermuer" an e konkreten Datum ëmwandelen), och wann d'Tool dat net verlaangt.
D'Ursaach vum Problem ass, datt d'Ausgab vum Modell am Fong probabilistesch ass; Prompt-Wierder leeën nëmmen "mëll Aschränkungen" op d'Wahrscheinlechkeetsverdeelung, awer si keng Zwangsmechanismen, déi garantéieren, datt de Modell se strikt befollegt. A komplexe Szenarie kënnen dës "mëll Aschränkungen" einfach versoen.
Fir dëst Problem ze léisen, brauch et eng Multi-Level Ingenieursléisung:
-
Éischt Schicht: Prompt-Wierder optimiséieren (mëll Aschränkungen)
- D'Positioun ass den Ausgangspunkt vum Aschränkungssystem, awer definitiv net den Ennpunkt.
- D'Prompt-Wierder solle wéi en "Operatiounsvertrag" behandelt ginn, deen d'Toolzweck, all Parametertyp, Grenzen, a Beispiller vun ongëltege Wäerter kloer beschreift.
- Few-shot Beispiller solle bäigefüügt ginn, andeems Beispiller vu "korrekt Input → korrekt Opruff" gewise ginn, fir d'Verhalensmuster vum Modell duerch Kontextléieren ze verankeren.
-
Zweet Schicht: JSON Schema aféieren (haart Aschränkungen)
- Dëst ass de Schlësselschrëtt vum "Diskutéieren" zum "Barriären opstellen".
- Maschinnliesbar, verifizéierbar strukturéiert Definitiounen (JSON Schema) ersetzen natierlech Sprooch fir Parameteren ze beschreiwen. Feldtypen, Obligatoreschkeet, Enumwäerterberäicher kënne streng definéiert ginn, an duerch
additionalProperties: falsekann verhënnert ginn, datt de Modell net definéiert Felder ausgëtt. - Mainstream API Plattformen ënnerstëtzen esou strukturéiert Ausgab-Aschränkungen scho während der Dekodéierungsphase, fir Formatverstéiss vun der Quell aus ze vermeiden.
-
Drëtt Schicht: Validatioun-Korrektur-Widderhuelung Kreeslaf (Ausféierungs-Reseau)
- Och mat Schema muss nach ëmmer no der Modellausgab eng syntaxesch a Schema-Validatioun gemaach ginn.
- Bei Validatiounsfeeler soll en automatesche Botz- a Widderhuelungsmechanismus (mat Limit) entwéckelt ginn, deen de Feeler un de Modell zeréckmellt fir d'Ausgab ze korrigéieren. No enger gewësser Zuel vu Widderhuelunge muss et eng Degradatiouns- oder mënschlech Interventiounsléisung ginn.
-
Architektur-Niveau: Trennung vun Aufgaben
Entscheedung an Ausféierung solle getrennt ginn, fir en Dräi-Schicht-Architektur ze bilden:
* Modellschicht: Nëmme fir d'Entscheedung (bestëmmen, wéi een Tool opgeruff gëtt, wéi eng Parameteren generéiert ginn).
* Kader-Schicht: Verantwortlech fir den Ausféierungskader, inklusiv Schema-Validatioun, Toolopruff, Widderhuelungsbehandlung an Integratioun vun Resultater. Dëst garantéiert, datt Modellfeeler d'Toolsécherheet net direkt beaflossen, an datt Toolännerungen net dacks Prompt-Wierder ugepasst musse ginn.
* Toolschicht: Konkret Geschäftsfunktiounsimplementatioun.- LangChain, LlamaIndex, asw. maache genee dës Aarbecht.
Limite vun der aktueller Léisung: Si kann Parameterformat gutt handhaben, awer d'Validatioun vun Parametersemantik (z.B. "Shanghai" vs. "Hu" als Äquivalent) ass nach net genuch ofgedeckt. Dëst wäert eng zukünfteg Ingenieurs Erausfuerderung sinn.
Kär Conclusioun: Fir LLM zouverlässeg Tools benotzen ze loossen, ass et am Fong e Software-Ingenieur Problem, deen e systematescht Ingenieurskonzept vu mëllen Aschränkungen, haarden Aschränkungen, Ausféierungs-Reseau bis zur Architekturdesign brauch, an net nëmmen op d'Optimiséiere vu Prompt-Wierder vertrauen.
评论
暂无已展示的评论。
发表评论(匿名)