Īsa atbilde: Lai izveidotu mākslīgā intelekta aģentu, kas darbojas praksē, uztveriet to kā kontrolētu ciklu: pieņemiet ievades datus, izlemiet par nākamo darbību, izsauciet šauri ierobežotu rīku, novērojiet rezultātu un atkārtojiet, līdz tiek nokārtota skaidra “pabeigta” pārbaude. Tas nopelna savu vietu, ja uzdevums ir daudzpakāpju un rīka vadīts; ja to atrisina viena uzvedne, izlaidiet aģentu. Pievienojiet stingras rīku shēmas, soļu ierobežojumus, reģistrēšanu un validatoru/kritiķi, lai rīku kļūmes vai ievades datu neskaidrību gadījumā aģents eskalētu, nevis cikliski darbotos.
Galvenie secinājumi:
Kontroliera cilpa : Ieviesiet ievadi→darbību→novērojiet atkārtošanos ar skaidri formulētiem apstāšanās nosacījumiem un maksimālajiem soļiem.
Rīku dizains : saglabājiet rīkus šaurus, tipizētus, ar atļaujām un validētus, lai novērstu haosu “dari jebko”.
Atmiņas higiēna : Izmantojiet kompaktu īstermiņa stāvokli plus ilgtermiņa izgūšanu; izvairieties no pilnu transkriptu izmešanas.
Aizsardzība pret ļaunprātīgu izmantošanu : pievienojiet atļauto darbību sarakstus, ātruma ierobežojumus, idempotenci un “izmēģinājuma izmēģinājumu” riskantām darbībām.
Testējamība : uzturēt scenāriju komplektu (kļūmes, neskaidrības, injekcijas) un atkārtot to pēc katrām izmaiņām.

🔗 Kā izmērīt mākslīgā intelekta veiktspēju
Apgūstiet praktiskus rādītājus, lai salīdzinātu ātrumu, precizitāti un uzticamību.
🔗 Kā runāt ar mākslīgo intelektu
Izmantojiet uzvednes, kontekstu un papildu jautājumus, lai iegūtu labākas atbildes.
🔗 Kā novērtēt mākslīgā intelekta modeļus
Salīdziniet modeļus, izmantojot testus, rubrikas un reālās pasaules uzdevumu rezultātus.
🔗 Kā optimizēt mākslīgā intelekta modeļus
Uzlabojiet kvalitāti un izmaksas, izmantojot regulēšanu, apstrādi un uzraudzību.
1) Kas ir mākslīgā intelekta aģents parasta cilvēka izpratnē 🧠
Mākslīgā intelekta aģents ir cikls. LangChain “Aģentu” dokumentācija.
Tas arī viss. Cilpa ar smadzenēm vidū.
Ievade → domāšana → rīcība → novērošana → atkārtošana . ReAct papīrs (arguments + rīcība)
Kur:
-
Ievade ir lietotāja pieprasījums vai notikums (jauns e-pasts, atbalsta pieprasījums, sensora ping).
-
Domāšana ir valodas modelis, kas spried par nākamo soli.
-
Darbība izsauc rīku (meklēt iekšējos dokumentos, palaist kodu, izveidot pieprasījumu, sagatavot atbildes melnrakstu). OpenAI funkciju izsaukšanas rokasgrāmata.
-
Novērot nolasa instrumenta izvadi.
-
Atkārtošanās ir tā daļa, kas rada sajūtu “aģenta”, nevis “pļāpīga”. LangChain “aģentu” dokumentācija.
Daži aģenti būtībā ir viedie makro. Citi darbojas vairāk kā jaunākais operators, kas var žonglēt ar uzdevumiem un atgūties no kļūdām. Abi ir svarīgi.
Turklāt jums nav nepieciešama pilnīga autonomija. Patiesībā… jūs to droši vien nevēlaties 🙃
2) Kad jums vajadzētu izveidot aģentu (un kad nevajadzētu) 🚦
Izveidojiet aģentu, kad:
-
Darbs ir daudzpakāpju un mainās atkarībā no tā, kas notiek pusceļā.
-
Darbam nepieciešams izmantot rīkus (datubāzes, klientu attiecību pārvaldības sistēmas (CRM), koda izpildi, failu ģenerēšanu, pārlūkprogrammas, iekšējās API). LangChain “Rīku” dokumentācija.
-
Jūs vēlaties atkārtojamus rezultātus ar aizsargbarjerām, nevis tikai vienreizējas atbildes.
-
Jūs varat definēt “pabeigtu” tādā veidā, kā dators to var pārbaudīt, pat brīvi.
Neveidojiet aģentu, ja:
-
Vienkārša uzvedne + atbilde to atrisina (nepārspīlējiet, vēlāk sevi ienīdīsiet).
-
Jums ir nepieciešams perfekts determinisms (aģenti var būt konsekventi, bet ne robotiski).
-
Tev nav nekādu rīku vai datu, lai izveidotu savienojumu — tad tās pārsvarā ir tikai vibrācijas.
Būsim atklāti: puse no “mākslīgā intelekta aģentu projektiem” varētu būt darbplūsma ar dažiem sazarojuma noteikumiem. Bet, hei, dažreiz arī atmosfērai ir nozīme 🤷♂️
3) Kas veido labu mākslīgā intelekta aģenta versiju ✅
Lūk, sadaļa “Kas veido labu versiju”, kuru jūs lūdzāt, taču es būšu nedaudz tiešs:
Laba mākslīgā intelekta aģenta versija nav tā, kas domā visgrūtāk. Tā ir tā, kas:
-
Zina, ko drīkst darīt (darbības jomas robežas)
-
Uzticami izmanto rīkus (strukturēti izsaukumi, atkārtoti mēģinājumi, taimauti). OpenAI funkciju izsaukšanas ceļvedis. AWS “Taimauti, atkārtoti mēģinājumi un atlikšana ar trīci”.
-
Uztur stāvokli tīru (atmiņa, kas nesabojājas) LangChain “Atmiņas pārskats”
-
Izskaidro savas darbības (revīzijas liecības, nevis slepeni argumentācijas izgāztuves) NIST AI RMF 1.0 (uzticamība un pārredzamība)
-
Aptur atbilstoši (pabeigšanas pārbaudes, maksimālais soļu skaits, eskalācija) LangChain “Aģentu” dokumentācija
-
Droši neizdodas (lūdz palīdzību, nehalucinē autoritāti) NIST AI RMF 1.0
-
Ir pārbaudāms (varat to palaist iepriekš sagatavotos scenārijos un iegūt rezultātus)
Ja jūsu aģentu nevar pārbaudīt, tas būtībā ir ļoti pārliecināts spēļu automāts. Jautri ballītēs, biedējoši ražošanā 😬
4) Aģenta galvenie pamatelementi (“anatomija” 🧩)
Lielākajai daļai cieto aģentu ir šīs daļas:
A) Kontroliera cilpa 🔁
Šis ir orķestris:
-
gūt vārtus
-
pajautājiet modelim par nākamo darbību
-
palaišanas rīks
-
pievienot novērojumu
-
atkārtojiet, līdz esat pabeidzis LangChain “Aģentu” dokumentāciju
B) Rīki (jeb iespējas) 🧰
Aģenta efektivitāti nodrošina rīki: LangChain “rīku” dokumentācija
-
datubāzes vaicājumi
-
e-pasta sūtīšana
-
failu vilkšana
-
darbojas kods
-
iekšējo API izsaukšana
-
rakstīšana izklājlapās vai klientu attiecību pārvaldības sistēmās (CRM)
C) Atmiņa 🗃️
Divi veidi ir svarīgi:
-
īstermiņa atmiņa : pašreizējais skrējiena konteksts, nesenie soļi, pašreizējais plāns
-
ilgtermiņa atmiņa : lietotāja preferences, projekta konteksts, iegūtās zināšanas (bieži vien izmantojot iegulšanu + vektoru krātuvi), RAG dokuments
D) Plānošanas un lēmumu politika 🧭
Pat ja jūs to nesaucat par “plānošanu”, jums ir nepieciešama metode:
-
kontrolsaraksti
-
ReAct stila “domā, tad izmanto rīku” ReAct darbs
-
uzdevumu grafiki
-
vadītāja un darbinieka modeļi
-
vadītāja un darbinieka modeļi Microsoft AutoGen (vairāku aģentu ietvars)
E) Aizsargbarjeras un novērtēšana 🧯
-
atļaujas
-
drošu rīku shēmas OpenAI strukturētās izejas
-
izvades validācija
-
soļu ierobežojumi
-
mežizstrāde
-
testi NIST AI RMF 1.0
Jā, tā drīzāk ir inženierija, nevis pamudināšana. Kas… savā ziņā arī ir galvenais.
5) Salīdzināšanas tabula: populāri aģenta izveides veidi 🧾
Zemāk ir reālistiska “Salīdzināšanas tabula” – ar dažām niansēm, jo īstas komandas ir īpatnējas 😄
| Rīks/ietvars | Auditorija | Cena | Kāpēc tas darbojas | Piezīmes (neliels haoss) | |
|---|---|---|---|---|---|
| LangChain | būvētājiem, kuriem patīk lego stila komponenti | bezmaksas + infrasarkanā | liela ekosistēma rīkiem, atmiņai, ķēdēm | var ātri dabūt spageti, ja lietas nenosauc skaidri | |
| LlamaIndex | RAG komandas | bezmaksas + infrasarkanā | spēcīgi izguves modeļi, indeksēšana, savienotāji | lieliski, ja jūsu aģents būtībā “meklē + rīkojas”... kas ir bieži sastopams | |
| OpenAI palīgu stila pieeja | komandas, kas vēlas ātrāku iestatīšanu | uz lietošanu balstīts | iebūvēti rīku izsaukšanas modeļi un izpildes stāvoklis | mazāk elastīgs dažos stūros, bet tīrs daudzām lietotnēm | OpenAI Runs API OpenAI Assistants funkciju izsaukšana |
| Semantiskais kodols | izstrādātājiem, kuri vēlas strukturētu orķestrēšanu | brīvs | glīta prasmju/funkciju abstrakcija | šķiet “uzņēmuma kārtīgs” - dažreiz tas ir kompliments 😉 | |
| AutoGen | daudzaģentu eksperimentētāji | brīvs | aģentu sadarbības modeļi | var pārāk daudz runāt; noteikt stingrus līguma izbeigšanas noteikumus | |
| CrewAI | "Aģentu komandu" fani | brīvs | lomas + uzdevumus + nodošanas ir viegli izteikt | vislabāk darbojas, ja uzdevumi ir skaidri, nevis mīksti | |
| Siena kaudze | meklēšana + plūsmas cilvēki | brīvs | cietie cauruļvadi, atgūšana, komponenti | mazāk “aģentu teātra”, vairāk “praktiskas fabrikas” | |
| Ripini pats (pielāgota cilpa) | kontroles frīki (sirsnīgi) | tavs laiks | minimāla maģija, maksimāla skaidrība | parasti labākais ilgtermiņa… līdz brīdim, kad visu pārizdomā 😅 |
Nav viena uzvarētāja. Labākā izvēle ir atkarīga no tā, vai jūsu aģenta galvenais uzdevums ir izguve , rīku izpilde , vairāku aģentu koordinācija vai darbplūsmas automatizācija .
6) Kā soli pa solim izveidot mākslīgā intelekta aģentu (īstā recepte) 🍳🤖
Šo daļu vairums cilvēku izlaiž un pēc tam brīnās, kāpēc aģents uzvedas kā jenots pieliekamajā.
1. darbība: definējiet darbu vienā teikumā 🎯
Piemēri:
-
"Izmantojot politikas un pieteikuma kontekstu, sagatavojiet klienta atbildes projektu un pēc tam pieprasiet apstiprinājumu."
-
"Izpētiet kļūdas ziņojumu, reproducējiet to un piedāvājiet labojumu."
-
“Pārveidojiet nepilnīgas sapulču piezīmes par uzdevumiem, īpašniekiem un termiņiem.”
Ja jūs to nevarat vienkārši definēt, arī jūsu aģents to nevar. Es domāju, ka tas var, bet tas improvizēs, un improvizācija ir vieta, kur budžeti iet bojā.
2. solis: Izvēlieties autonomijas līmeni (zems, vidējs, pikants) 🌶️
-
Zema autonomija : iesaka darbības, cilvēks noklikšķina uz “apstiprināt”
-
Vidējs : palaiž rīkus, veido izvades melnrakstu, pastiprina nenoteiktību
-
Augsts : izpilda no sākuma līdz beigām, nosūta ping ziņojumus cilvēkiem tikai izņēmumu gadījumā
Sāciet ar zemāku cenu, nekā vēlaties. Vēlāk vienmēr varat to palielināt.
3. solis: Izvēlieties modeļa stratēģiju 🧠
Parasti jūs izvēlaties:
-
viens spēcīgs modelis visam (vienkāršs)
-
viens spēcīgs modelis + mazāks modelis lētākiem soļiem (klasifikācija, frēzēšana)
-
specializēti modeļi (redze, kods, runa), ja nepieciešams
Tāpat izlemiet:
-
maksimālais žetonu skaits
-
temperatūra
-
vai iekšēji atļaujat garas spriešanas ķēdes (varat, bet neatklājiet gala lietotājiem neapstrādātu domu ķēdi)
4. darbība: definējiet rīkus ar stingrām shēmām 🔩
Instrumentiem jābūt:
-
šaurs
-
drukāts
-
atļauts
-
validētas OpenAI strukturētas izejas
Rīka do_anything(input: string) izveidojiet:
-
search_kb(vaicājums: virkne) -> rezultāti[] -
create_ticket(nosaukums: virkne, pamatteksts: virkne, prioritāte: uzskaitījums) -> ticket_id -
send_email(kam: virkne, tēma: virkne, pamatteksts: virkne) -> statusOpenAI funkciju izsaukšanas ceļvedis
Ja iedosiet aģentam motorzāģi, nebrīnieties, ja tas apgriezīs dzīvžogu, noņemot arī žogu.
5. darbība: izveidojiet kontrollera cilpu 🔁
Minimālais cikls:
-
Sāciet ar mērķi + sākotnējo kontekstu
-
Pajautājiet modelim: “Nākamā darbība?”
-
Ja izsauc rīku, izpildi rīku
-
Pievienot novērojumu
-
Pārbaudiet apstāšanās nosacījumu
-
Atkārtojiet (ar maksimālo soļu skaitu) LangChain “Aģentu” dokumentāciju
Pievienot:
-
taimauti
-
atkārtoti mēģinājumi (uzmanīgi — atkārtoti mēģinājumi var veidoties cilpa) AWS “Taimauti, atkārtoti mēģinājumi un atlikšana ar nervozitāti”
-
rīka kļūdu formatējums (skaidrs, strukturēts)
6. darbība: uzmanīgi pievienojiet atmiņu 🗃️
Īstermiņa: uzturēt kompaktu “stāvokļa kopsavilkumu”, atjauninot to katrā solī. LangChain “Atmiņas pārskats”.
Ilgtermiņa: glabāt noturīgus faktus (lietotāja preferences, organizācijas noteikumus, stabilus dokumentus).
Īkšķa noteikums:
-
ja tas bieži mainās — saglabājiet to īslaicīgi
-
ja tas ir stabils — uzglabāt ilgtermiņā
-
ja tas ir jutīgs — uzglabājiet minimāli (vai neuzglabājiet nemaz)
7. darbība: pievienojiet validāciju un “kritikas” caurlaidi 🧪
Lēts, praktisks modelis:
-
aģents ģenerē rezultātu
-
validators pārbauda struktūru un ierobežojumus
-
neobligātas kritiskā modeļa pārskatīšanas, lai noteiktu trūkstošās darbības vai politikas pārkāpumus NIST AI RMF 1.0
Nav perfekts, bet tas uztver šokējoši daudz muļķību.
8. darbība. Pierakstiet visu, ko nožēlosiet, ka neierakstīsiet 📜
Žurnāls:
-
rīku izsaukumi + ievades + izvades
-
pieņemtie lēmumi
-
kļūdas
-
gala rezultāti
-
žetoni un latentums OpenTelemetry novērojamības primer
Nākotnē tu tev pateiksies. Tagadnē tu aizmirsīsi. Tāda ir dzīve 😵💫
7) Instrumentu izsaukšana, kas nesalauž tavu dvēseli 🧰😵
Rīku izsaukšana ir vieta, kur “Kā izveidot mākslīgā intelekta aģentu” kļūst par īstu programmatūras inženieriju.
Padariet instrumentus uzticamus (uzticams ir labi)
Uzticami rīki ir:
-
deterministisks
-
šaura darbības joma
-
viegli pārbaudāms
-
droši atkārtoti palaist Stripe “Idempotent pieprasījumus”
Pievienojiet margas rīku slānī, ne tikai uzvednes
Uzvednes ir pieklājīgi ieteikumi. Rīka validācija ir aizslēgtas durvis. OpenAI strukturētie izvadi.
Dariet:
-
atļauto rīku saraksti (kurus rīkus var palaist)
-
ievades validācija
-
ātruma ierobežojumi OpenAI ātruma ierobežojumu ceļvedis
-
atļauju pārbaudes katram lietotājam/organizācijai
-
“Sausās palaišanas režīms” riskantām darbībām
Projektēšana daļējai atteicei
Rīki neizdodas. Tīkli trīc. Autorizācija beidzas. Aģentam ir jā:
-
interpretēt kļūdas
-
atkārtots mēģinājums ar atlikšanu, ja nepieciešams Google Cloud atkārtota mēģinājuma stratēģija (atlikšana + svārstības)
-
izvēlēties alternatīvus rīkus
-
saasināties, kad iestrēdzis
Klusi efektīvs triks: atgrieziet strukturētas kļūdas, piemēram:
-
tips: autentifikācijas kļūda -
tips: nav_atrasts -
tips: rate_limited
Lai modelis varētu reaģēt inteliģenti, nevis krist panikā.
8) Atmiņas, kas palīdz, nevis vajā 👻🗂️
Atmiņai piemīt spēks, taču tā var kļūt arī par atkritumu atvilktni.
Īstermiņa atmiņa: saglabājiet to kompaktu
Lietošana:
-
pēdējie N soļi
-
kārtējais kopsavilkums (atjaunināts katrā ciklā)
-
pašreizējais plāns
-
pašreizējie ierobežojumi (budžets, laiks, politika)
Ja visu ievieto kontekstā, iegūst:
-
augstākas izmaksas
-
lēnāka latentuma
-
vairāk apjukuma (jā, pat tad)
Ilgtermiņa atmiņa: atgūšana, nevis "iegremdēšana"
Lielākā daļa “ilgtermiņa atmiņas” ir vairāk līdzīga:
-
iegulšanas
-
vektoru veikals
-
paplašinātās ģenerēšanas (RAG) atgūšana RAG papīrs
Aģents neiegaumē. Tas izpildes laikā izgūst visatbilstošākos fragmentus. LlamaIndex “Ievads RAG”
Praktiski atmiņas noteikumi
-
Saglabāt “preferences” kā nepārprotamus faktus: “Lietotājs mīl kopsavilkumus ar aizzīmēm un ienīst emocijzīmes” (lol, bet ne šeit 😄)
-
Saglabājiet “lēmumus” ar laika zīmogiem vai versijām (pretējā gadījumā uzkrājas pretrunas)
-
Nekad neglabājiet noslēpumus, ja vien tas nav absolūti nepieciešams
Un lūk, mana nepilnīgā metafora: atmiņa ir kā ledusskapis. Ja to nekad netīrīsi, galu galā tava sviestmaize garšos pēc sīpoliem un nožēlas.
9) Plānošanas modeļi (no vienkāršiem līdz grezniem) 🧭✨
Plānošana ir tikai kontrolēta sadalīšanās. Nevajag to padarīt mistisku.
A modelis: Kontrolsaraksta plānotājs ✅
-
Modelis izvada darbību sarakstu
-
Izpilda soli pa solim
-
Atjauninājumu kontrolsaraksta statuss
Lieliski piemērots iesācējiem. Vienkārši, pārbaudāmi.
B modelis: ReAct cikls (iemesls + darbība) 🧠→🧰
-
modelis nosaka nākamo instrumenta izsaukumu
-
novēro izvadi
-
atkārto ReAct papīru
Šī ir klasiskā aģenta sajūta.
C modelis: vadītājs-darbinieks 👥
-
vadītājs sadala mērķi uzdevumos
-
darbinieki veic specializētus uzdevumus
-
vadītājs apvieno rezultātus, izmantojot Microsoft AutoGen (vairāku aģentu ietvaru)
Tas ir vērtīgi, ja uzdevumus var paralēlizēt vai ja vēlaties dažādas “lomas”, piemēram:
-
pētnieks
-
kodētājs
-
redaktors
-
Kvalitātes pārbaudes rīks
D modelis: Plānošana un pēc tam izpilde ar pārplānošanu 🔄
-
izveidot plānu
-
izpildīt
-
Ja rīka rezultāti maina realitāti, pārplānojiet
Tas neļauj aģentam spītīgi sekot sliktam plānam. Arī cilvēki tā rīkojas, ja vien viņi nav noguruši, tādā gadījumā viņi arī seko sliktiem plāniem.
10) Drošība, uzticamība un neatlaišana no darba 🔐😅
Ja jūsu aģents var veikt darbības, jums ir nepieciešams drošības dizains. Nevis "patīkami, ja ir". Nepieciešams. NIST AI RMF 1.0
Stingri ierobežojumi
-
maksimālais soļu skaits vienā skrējienā
-
maksimālais instrumentu izsaukumu skaits minūtē
-
maksimālās izmaksas sesijā (žetonu budžets)
-
ierobežoti rīki apstiprināšanas laikā
Datu apstrāde
-
pirms reģistrēšanas rediģēt sensitīvus ievades datus
-
atsevišķas vides (izstrādes un ražošanas)
-
vismazāko privilēģiju rīka atļaujas
Uzvedības ierobežojumi
-
piespiest aģentu citēt iekšējos pierādījumu fragmentus (nevis ārējās saites, tikai iekšējās atsauces)
-
pieprasīt nenoteiktības karodziņus, ja ticamības līmenis ir zems
-
pieprasīt “uzdot precizējošu jautājumu”, ja ievades dati ir neskaidri
Uzticams aģents nav pats pārliecinātākais. Tas ir tas, kurš zina, kad tas min… un to arī saka.
11) Testēšana un novērtēšana (daļa, no kuras visi izvairās) 🧪📏
Nevar uzlabot to, ko nevar izmērīt. Jā, šī frāze ir klišejiska, bet kaitinoši patiesa.
Izveidojiet scenāriju komplektu
Izveidojiet 30–100 testa gadījumus:
-
laimīgas takas
-
malas gadījumi
-
“Instrumenta atteices” gadījumi
-
neskaidri pieprasījumi
-
naidīgas norādes (tūlītējas injekcijas mēģinājumi) OWASP 10 labākās LLM lietotnes OWASP LLM01 tūlītēja injekcija
Rezultātu izvērtēšana
Izmantojiet tādus rādītājus kā:
-
uzdevumu veiksmes rādītājs
-
pabeigšanas laiks
-
rīka kļūdu atgūšanas ātrums
-
halucināciju biežums (apgalvojumi bez pierādījumiem)
-
cilvēka apstiprinājuma līmenis (ja darbojas uzraudzītā režīmā)
Regresijas testi uzvednēm un rīkiem
Jebkurā laikā, kad maināt:
-
rīka shēma
-
sistēmas instrukcijas
-
atgūšanas loģika
-
Atmiņas formatēšana
Palaidiet komplektu vēlreiz.
Aģenti ir jutīgi zvēri. Tāpat kā istabas augi, tikai dārgāki.
12) Izvietošanas modeļi, kas neiztukšo jūsu budžetu 💸🔥
Sāciet ar vienu pakalpojumu
-
aģenta kontrollera API
-
instrumentu pakalpojumi aiz tā
-
reģistrēšana + uzraudzība OpenTelemetry novērojamības primer
Pievienojiet izmaksu kontroles agri
-
kešatmiņā saglabāt izguves rezultātus
-
sarunas stāvokļa saspiešana ar kopsavilkumiem
-
izmantojot mazākus modeļus frēzēšanai un ekstrakcijai
-
ierobežojot “dziļās domāšanas režīmu” līdz vissarežģītākajiem soļiem
Izplatīta arhitektūras izvēle
-
bezvalstnieka kontrolieris + ārēja stāvokļa krātuve (DB/redis)
-
Rīku izsaukumi, kur iespējams, ir idempotenti Stripe “Idempotentie pieprasījumi”
-
rinda gariem uzdevumiem (lai tīmekļa pieprasījums nebūtu atvērts mūžīgi)
Tāpat: izveidojiet “iznīcināšanas slēdzi”. Tas nebūs vajadzīgs, kamēr vien tas nebūs ļoti, ļoti vajadzīgs 😬
13) Noslēguma piezīmes — īsa versija par to, kā izveidot mākslīgā intelekta aģentu 🎁🤖
Ja neatceries neko citu, atceries šo:
-
Kā izveidot mākslīgā intelekta aģentu, galvenokārt ir jāizveido drošs cilpas cikls ap modeli. LangChain “Aģentu” dokumentācija.
-
Sāciet ar skaidru mērķi, zemu autonomiju un stingriem rīkiem. OpenAI strukturēti rezultāti.
-
Pievienojiet atmiņu, izmantojot izgūšanu, nevis bezgalīgu konteksta piepildīšanu. RAG papīrs
-
Plānošana var būt vienkārša — kontrolsaraksti un pārplānošana sniedz daudz.
-
Reģistrēšana un testi pārvērš aģentu haosu par kaut ko tādu, ko varat piegādāt. OpenTelemetry novērojamības ievads
-
Aizsargbarjerām jābūt kodā, ne tikai uzvednēs. OWASP 10 labākās LLM lietotnes
Aģents nav maģija. Tā ir sistēma, kas pietiekami bieži pieņem labus lēmumus, lai būtu vērtīga… un atzīst sakāvi, pirms tā nodara kaitējumu. Savā ziņā klusi mierinoši 😌
Un jā, ja visu pareizi izveido, sajūta ir tāda, it kā algotu sīku digitālo praktikantu, kurš nekad neguļ, reizēm krīt panikā un mīl papīru kārtošanu. Tātad, būtībā praktikants.
Bieži uzdotie jautājumi
Kas ir mākslīgā intelekta aģents, vienkāršoti izsakoties?
Mākslīgā intelekta aģents būtībā ir cikls, kas atkārtojas: pieņem ievades datus, izlemj par nākamo soli, izmanto rīku, nolasa rezultātu un atkārto, līdz tas ir pabeigts. “Aģentūras” daļa rodas no rīcības un novērošanas, nevis tikai sarunas. Daudzi aģenti ir vienkārši vieda automatizācija ar piekļuvi rīkiem, savukārt citi uzvedas vairāk kā jaunākais operators, kas var atgūties no kļūdām.
Kad man vajadzētu veidot mākslīgā intelekta aģentu, nevis tikai izmantot uzvedni?
Izveidojiet aģentu, ja darbs ir daudzpakāpju, mainās, pamatojoties uz starprezultātiem, un tam ir nepieciešama uzticama rīku izmantošana (API, datubāzes, biļešu pārdošana, koda izpilde). Aģenti ir noderīgi arī tad, ja vēlaties atkārtojamus rezultātus ar drošības barjerām un veidu, kā pārbaudīt, vai rezultāts ir pabeigts. Ja vienkārša tūlītēja atbilde darbojas, aģents parasti ir nevajadzīgs papildu pieskaitāmais apjoms un kļūmju režīmi.
Kā izveidot mākslīgā intelekta aģentu, kas neiesprūst cilpās?
Izmantojiet stingras apstāšanās nosacījumus: maksimālo soļu skaitu, maksimālo rīku izsaukumu skaitu un skaidras pabeigšanas pārbaudes. Pievienojiet strukturētas rīku shēmas, taimautus un atkārtotus mēģinājumus, kas neatkārtosies mūžīgi. Reģistrējiet lēmumus un rīku rezultātus, lai redzētu, kur tas novirzās no kursa. Bieži sastopama drošības vārsts ir eskalācija: ja aģents nav pārliecināts vai atkārto kļūdas, tam vajadzētu lūgt palīdzību, nevis improvizēt.
Kāda ir minimālā arhitektūra, lai izveidotu mākslīgā intelekta aģentu?
Vismaz ir nepieciešams kontrollera cikls, kas modelim piegādā mērķi un kontekstu, pieprasa nākamo darbību, izpilda rīku, ja tas tiek pieprasīts, pievieno novērojumu un atkārto. Jums ir nepieciešami arī rīki ar stingrām ievades/izvades formām un “pabeigts” pārbaudi. Pat “pats-apvieno” cikls var darboties labi, ja jūs saglabājat stāvokļa tīrību un ievērojat soļu ierobežojumus.
Kā man vajadzētu izstrādāt rīku izsaukšanu, lai tā būtu uzticama ražošanas vidē?
Saglabājiet rīkus šaurus, tipizētus, ar atļaujām un validētus — izvairieties no vispārīga “dari jebko” rīka. Dodiet priekšroku stingrām shēmām (piemēram, strukturētām izvadēm/funkciju izsaukumiem), lai aģents nevarētu manuāli ievadīt ievades datus. Pievienojiet atļauju sarakstus, ātruma ierobežojumus un lietotāja/organizācijas atļauju pārbaudes rīku slānī. Izstrādājiet rīkus tā, lai tos varētu droši atkārtoti palaist, kad tas ir iespējams, izmantojot idempotences modeļus.
Kā vislabāk palielināt atmiņu, nepasliktinot aģenta darbību?
Apstrādājiet atmiņu divās daļās: īstermiņa darbības stāvokli (nesenie soļi, pašreizējais plāns, ierobežojumi) un ilgtermiņa atgūšanu (preferences, stabilie noteikumi, atbilstošie dokumenti). Saglabājiet īstermiņa kompaktumu ar darbības kopsavilkumiem, nevis pilniem transkriptiem. Ilgtermiņa atmiņā atgūšana (iegulšana + vektoru glabāšana/RAG modeļi) parasti ir labāka nekā visa “iebāzšana” kontekstā un modeļa sajaukšana.
Kuru plānošanas modeli man vajadzētu izmantot: kontrolsarakstu, ReAct vai vadītāja-darbinieka modeli?
Kontrolsarakstu plānotājs ir lieliski piemērots, ja uzdevumi ir paredzami un vēlaties kaut ko viegli pārbaudāmu. ReAct stila cikli ir lieliski piemēroti, ja rīka rezultāti maina jūsu tālāko rīcību. Vadītāja un darbinieka modeļi (piemēram, AutoGen stila lomu atdalīšana) palīdz, ja uzdevumus var paralēlizēt vai gūt labumu no atšķirīgām lomām (pētnieks, kodētājs, kvalitātes nodrošināšanas speciālists). Plānošana un izpilde ar pārplānošanu ir praktisks kompromiss, lai izvairītos no spītīgiem sliktiem plāniem.
Kā padarīt aģentu drošu, ja tas var veikt reālas darbības?
Izmantojiet vismazāko privilēģiju atļaujas un ierobežojiet riskantus rīkus, izmantojot tikai apstiprināšanas vai izmēģinājuma režīmus. Pievienojiet budžetus un ierobežojumus: maksimālo soļu skaitu, maksimālo izdevumu skaitu un rīku izsaukšanas ierobežojumus minūtē. Pirms reģistrēšanas rediģējiet sensitīvus datus un atdaliet izstrādes vidi no ražošanas vides. Pieprasiet neskaidrību karodziņus vai skaidrojošus jautājumus, ja ievades dati ir neskaidri, nevis ļaut pārliecībai aizstāt pierādījumus.
Kā es varu pārbaudīt un novērtēt mākslīgā intelekta aģentu, lai tas laika gaitā uzlabotos?
Izveidojiet scenāriju komplektu ar veiksmīgiem ceļiem, perifērajiem gadījumiem, rīku kļūmēm, neskaidriem pieprasījumiem un uzdevumu ievadīšanas mēģinājumiem (OWASP stilā). Novērtējiet tādus rezultātus kā uzdevuma panākumi, izpildes laiks, atkopšana pēc rīku kļūdām un apgalvojumi bez pierādījumiem. Katru reizi, kad maināt rīku shēmas, uzdevumus, izgūšanu vai atmiņas formatējumu, atkārtoti palaidiet komplektu. Ja nevarat to pārbaudīt, nevarat to droši piegādāt.
Kā izvietot aģentu, nepalielinot latentumu un izmaksas?
Bieži sastopams modelis ir bezvalstnieku kontrolieris ar ārēju stāvokļa krātuvi (DB/Redis), aiz tā esošiem rīku pakalpojumiem un spēcīgu reģistrēšanu/uzraudzību (bieži vien OpenTelemetry). Kontrolējiet izmaksas, izmantojot izguves kešatmiņu, kompaktus stāvokļa kopsavilkumus, mazākus maršrutēšanas/ieguves modeļus un “dziļas domāšanas” ierobežošanu līdz vissarežģītākajiem soļiem. Izmantojiet rindas gariem uzdevumiem, lai netiktu turēti atvērti tīmekļa pieprasījumi. Vienmēr iekļaujiet kill switch.
Atsauces
-
Nacionālais standartu un tehnoloģiju institūts (NIST) — NIST AI RMF 1.0 (uzticamība un pārredzamība) — nvlpubs.nist.gov
-
OpenAI — strukturētas izejas — platform.openai.com
-
OpenAI — funkciju izsaukšanas ceļvedis — platform.openai.com
-
OpenAI — ātruma ierobežojumu ceļvedis — platform.openai.com
-
OpenAI — darbojas API — platform.openai.com
-
OpenAI — asistentu funkciju izsaukšana — platform.openai.com
-
LangChain — aģentu dokumentācija (JavaScript) — docs.langchain.com
-
LangChain — rīku dokumentācija (Python) — docs.langchain.com
-
LangChain — atmiņas pārskats — docs.langchain.com
-
arXiv — ReAct raksts (iemesls + darbība) — arxiv.org
-
arXiv — RAG raksts — arxiv.org
-
Amazon Web Services (AWS) veidotāju bibliotēka — taimauti, atkārtoti mēģinājumi un atlikšana ar nervozitāti — aws.amazon.com
-
OpenTelemetry — novērojamības ievads — opentelemetry.io
-
Stripe — Idempotenti pieprasījumi — docs.stripe.com
-
Google Cloud — atkārtotas mēģināšanas stratēģija (atteikšanās + svārstības) — docs.cloud.google.com
-
OWASP — 10 labākie lielvalodu modeļu lietojumprogrammu izstrādātāji — owasp.org
-
OWASP — LLM01 tūlītēja injekcija — genai.owasp.org
-
LlamaIndex — Ievads RAG — izstrādātāji.llamaindex.ai
-
Microsoft — semantiskais kodols — learn.microsoft.com
-
Microsoft AutoGen — vairāku aģentu ietvars (dokumentācija) — microsoft.github.io
-
CrewAI — aģentu koncepcijas — docs.crewai.com
-
Haystack (dziļi ieaugušais) — Retrīveru dokumentācija — docs.haystack.deepset.ai