Īsa atbilde: definējiet, kā jūsu lietošanas gadījumā izskatās “labs”, pēc tam pārbaudiet to ar reprezentatīvām, versiju veidotām uzvednēm un perifēriskajiem gadījumiem. Apvienojiet automatizētas metrikas ar cilvēku veiktu vērtēšanu, kā arī ar pretinieku drošības un uzvedņu ievadīšanas pārbaudēm. Ja izmaksu vai latentuma ierobežojumi kļūst saistoši, salīdziniet modeļus pēc uzdevumu panākumiem uz katru iztērēto mārciņu un p95/p99 atbildes laikiem.
Galvenie secinājumi:
Atbildība : Piešķiriet skaidrus īpašniekus, uzturiet versiju žurnālus un atkārtoti veiciet novērtēšanu pēc jebkuras uzvednes vai modeļa maiņas.
Caurspīdīgums : pirms sākat apkopot rezultātus, pierakstiet veiksmes kritērijus, ierobežojumus un neveiksmes izmaksas.
Auditējamība : uzturēt atkārtojamus testu komplektus, marķētus datu kopumus un izsekotus p95/p99 latentuma rādītājus.
Apstrīdamība : Izmantojiet cilvēku veiktu pārskatīšanu un definētu apelācijas ceļu apstrīdētiem rezultātiem.
Pretestība ļaunprātīgai izmantošanai : Sarkanās komandas tūlītēja injekcija, sensitīvas tēmas un pārmērīga atteikšanās aizsargāt lietotājus.
Ja izvēlaties modeli produktam, pētniecības projektam vai pat iekšējam rīkam, nevarat vienkārši pateikt, ka “tas izklausās gudri”, un to nosūtīt (skatiet OpenAI novērtēšanas rokasgrāmatu un NIST AI RMF 1.0 ). Tā jūs iegūstat tērzēšanas robotu, kas pārliecinoši paskaidro, kā mikroviļņu krāsnī uzsildīt dakšiņu. 😬

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:
🔗 Mākslīgā intelekta nākotne: tendences, kas veido nākamo desmitgadi.
Galvenās inovācijas, ietekme uz darba vietām un ētika, kam jāpievērš uzmanība nākotnē.
🔗 Ģeneratīvā mākslīgā intelekta pamatmodeļu skaidrojums iesācējiem.
Uzziniet, kas tie ir, kā tie tiek apmācīti un kāpēc tie ir svarīgi.
🔗 Kā mākslīgais intelekts ietekmē vidi un enerģijas patēriņu.
Izpētiet emisijas, elektroenerģijas pieprasījumu un veidus, kā samazināt ietekmi uz vidi.
🔗 Kā mākslīgā intelekta mērogošana darbojas, lai mūsdienās iegūtu asākus attēlus.
Skatiet, kā modeļi pievieno detaļas, noņem troksni un tīri palielina.
1) “Laba” definēšana (tas ir atkarīgs no apstākļiem, un tas ir labi) 🎯
Pirms jebkāda novērtējuma veikšanas izlemiet, kā izskatās panākumi. Citādi jūs visu izmērīsiet un neko neiemācīsieties. Tas ir kā ņemt līdzi mērlenti, lai vērtētu kūku konkursu. Protams, jūs saņemsiet skaitļus, bet tie jums daudz nepastāstīs 😅
Precizēt:
-
Lietotāja mērķis : apkopošana, meklēšana, rakstīšana, spriešana, faktu ieguve
-
Neveiksmes cena : nepareizs filmas ieteikums ir smieklīgs; nepareizs medicīnisks norādījums nav smieklīgs (riska formulējums: NIST AI RMF 1.0 ).
-
Izpildlaika vide : ierīcē, mākonī, aiz ugunsmūra, regulētā vidē
-
Galvenie ierobežojumi : latentums, izmaksas par pieprasījumu, privātums, izskaidrojamība, daudzvalodu atbalsts, toņa kontrole
Modelis, kas ir “labākais” vienā darbā, var būt katastrofa citā. Tā nav pretruna, tā ir realitāte. 🙂
2) Kā izskatās stabila mākslīgā intelekta modeļa novērtēšanas sistēma 🧰
Jā, šī ir daļa, ko cilvēki izlaiž. Viņi paņem etalonu, vienreiz to palaiž un beidz darbu. Stabilam novērtēšanas ietvaram ir dažas nemainīgas iezīmes (praktiski rīku piemēri: OpenAI Evals / OpenAI evals rokasgrāmata ):
-
Atkārtojams — varat to palaist vēlreiz nākamnedēļ un uzticēties salīdzinājumiem
-
Reprezentatīvs — tas atspoguļo jūsu faktiskos lietotājus un uzdevumus (nevis tikai sīkumus)
-
Daudzslāņains — apvieno automatizētus rādītājus + cilvēka veiktu pārskatu + konkurējošus testus
-
Rīkojami — rezultāti norāda, kas jālabo, nevis tikai norāda, ka "rezultāts ir pasliktinājies"
-
Aizsardzība pret viltojumiem — novērš “mācīšanu testam” vai nejaušu noplūdi
-
Izmaksu ziņā apzinīga — pašai novērtēšanai nevajadzētu jūs novest pie bankrota (ja vien jums nepatīk sāpes)
Ja jūsu izvērtējums neiztur skeptiska komandas biedra teikto: “Labi, bet pielāgojiet to ražošanai”, tad viss vēl nav pabeigts. Tā ir vibrācijas pārbaude.
3) Kā novērtēt mākslīgā intelekta modeļus, sākot ar lietošanas gadījumu šķēlītēm 🍰
Lūk, triks, kas ietaupa daudz laika: sadaliet lietošanas gadījumu daļās (slices) .
Tā vietā, lai "novērtētu modeli", rīkojieties šādi:
-
Nodoma izpratne (vai tiek iegūts tas, ko lietotājs vēlas)
-
Izguve vai konteksta izmantošana (vai sniegtā informācija tiek izmantota pareizi)
-
Argumentācijas/vairāku soļu uzdevumi (vai tas saglabā saskaņotību visos soļos)
-
Formatēšana un struktūra (vai tas atbilst instrukcijām)
-
Drošības un politikas saskaņošana (vai tā novērš nedrošu saturu; sk. NIST AI RMF 1.0 )
-
Tonis un zīmola balss (vai tas izklausās tā, kā vēlaties)
Tas padara “Kā novērtēt mākslīgā intelekta modeļus” mazāk līdzīgu vienam milzīgam eksāmenam un vairāk kā mērķtiecīgu viktorīnu kopumam. Viktorīnas ir kaitinošas, bet paveicamas. 😄
4) Bezsaistes novērtēšanas pamati — testu komplekti, etiķetes un nepievilcīgās detaļas, kurām ir nozīme 📦
Bezsaistes novērtēšana ir metode, kurā tiek veiktas kontrolētas pārbaudes, pirms lietotāji kaut kam pieskaras (darbplūsmas modeļi: OpenAI Evals ).
Izveidojiet vai savāciet testa komplektu, kas patiesi pieder jums
Labs testu komplekts parasti ietver:
-
Zelta piemēri : ideāli rezultāti, kurus jūs lepni piegādātu
-
Nelieli gadījumi : neskaidras uzvednes, nesakārtota ievade, negaidīts formatējums
-
Neveiksmes režīma pārbaudes : uzvednes, kas mudina uz halucinācijām vai nedrošām atbildēm (riska testēšanas ietvars: NIST AI RMF 1.0 )
-
Dažādības aptvērums : dažādi lietotāju prasmju līmeņi, dialekti, valodas, jomas
Ja testēsiet tikai “tīras” uzvednes, modelis izskatīsies lieliski. Tad jūsu lietotāji parādīsies ar drukas kļūdām, pusteikumiem un dusmu klikšķināšanas enerģiju. Laipni lūdzam realitātē.
Marķēšanas izvēles (t. i., stingrības līmeņi)
Izvades var apzīmēt šādi:
-
Binārs : iztur/neiztur (ātrs, skarbs)
-
Kārtas skaitlis : kvalitātes rādītājs no 1 līdz 5 (niansēts, subjektīvs)
-
Vairāki atribūti : precizitāte, pilnīgums, tonis, citēšanas izmantošana utt. (labākais, lēnākais)
Daudzām komandām vairāku atribūtu kombinācija ir ideāla izvēle. Tas ir līdzīgi kā nogaršot ēdienu un vērtēt tā sāļumu atsevišķi no tekstūras. Pretējā gadījumā jūs vienkārši sakāt “labi” un paraustat plecus.
5) Metrika, kas nemelo — un metrika, kas to dara 📊😅
Metrika ir vērtīga… taču tā var būt arī kā vizuļu bumba. Spīdīga, visuresoša un grūti tīrāma.
Bieži sastopamas metrikas saimes
-
Precizitāte/precīza atbilstība : lieliski piemērota ieguvei, klasifikācijai, strukturētiem uzdevumiem
-
F1 / precizitāte / atsaukšana : noderīgi, ja kaut kā palaidšana ir sliktāka par papildu troksni (definīcijas: scikit-learn precizitāte/atsaukšana/F-rādītājs )
-
BLEU/ROUGE stila pārklāšanās : piemērota apkopojošiem uzdevumiem, bieži vien maldinoša (sākotnējie rādītāji: BLEU un ROUGE )
-
Līdzības iegulšana : noderīga semantiskai atbilstībai, var atalgot nepareizas, bet līdzīgas atbildes
-
Uzdevuma veiksmes rādītājs : “vai lietotājs ieguva to, kas viņam bija nepieciešams” – zelta standarts, ja tas ir labi definēts
-
Atbilstība ierobežojumiem : ievēro formātu, garumu, JSON derīgumu, shēmas atbilstību
Galvenais punkts
Ja jūsu uzdevums ir atvērta tipa (rakstīšana, spriešana, atbalsta saruna), viena skaitļa metrikas var būt… nestabilas. Ne bezjēdzīgas, tikai nestabilas. Radošuma mērīšana ar lineālu ir iespējama, taču, to darot, jūs jutīsieties muļķīgi. (Iespējams, arī jūs izdursiet sev aci.)
Tātad: izmantojiet metrikas, bet piesaistiet tās cilvēku veiktām pārskatīšanām un reāliem uzdevumu rezultātiem (viens no LLM balstītas novērtēšanas diskusijas piemēriem + atrunas: G-Eval ).
6) Salīdzināšanas tabula — labākās novērtēšanas iespējas (ar īpatnībām, jo dzīvei ir savas īpatnības) 🧾✨
Šeit ir praktisks novērtēšanas pieeju saraksts. Kombinējiet tās. Tā dara lielākā daļa komandu.
| Rīks/metode | Auditorija | Cena | Kāpēc tas darbojas |
|---|---|---|---|
| Ar rokām veidots ātro testu komplekts | Produkts + inženierija | $ | Ļoti mērķtiecīgs, ātri uztver regresijas, bet tas ir jāuztur mūžīgi 🙃 (sākuma rīki: OpenAI Evals ) |
| Cilvēka rubrikas vērtēšanas panelis | Komandas, kurām ir brīvi recenzenti | $$ | Vislabāk piemērots tonim, niansēm, “vai cilvēks to pieņemtu”, neliels haoss atkarībā no recenzentiem |
| LLM kā tiesnesis (ar rubrikām) | Ātras iterācijas cilpas | $-$$ | Ātrs un mērogojams, taču var mantot aizspriedumus un dažreiz vērtē vibrācijas, nevis faktus (pētījumi + zināmas aizspriedumu problēmas: G-Eval ) |
| Sacensību sarkano komandu sprints | Drošība + atbilstība | $$ | Atrod pikantus atteices režīmus, īpaši tūlītēju injekciju — sajūta kā stresa tests sporta zālē (draudu pārskats: OWASP LLM01 tūlītēja injekcija / OWASP Top 10 LLM lietotnēm ) |
| Sintētisko testu ģenerēšana | Datu gaismas komandas | $ | Lielisks atspoguļojums, taču sintētiskas norādes var būt pārāk glītas, pārāk pieklājīgas… lietotāji nav pieklājīgi |
| A/B testēšana ar reāliem lietotājiem | Nobrieduši produkti | $$$ | Skaidrākais signāls — arī emocionāli visstresainākais, kad mainās metrikas (klasisks praktisks ceļvedis: Kohavi et al., “Kontrolēti eksperimenti tīmeklī” ) |
| Izgūšanas pamatota novērtēšana (RAG pārbaudes) | Meklēšanas un kvalitātes nodrošināšanas lietotnes | $$ | Mērījumi “pareizi izmanto kontekstu”, samazina halucināciju rādītāja inflāciju (RAG novērtējuma pārskats: RAG novērtējums: aptauja ) |
| Uzraudzība + nobīdes noteikšana | Ražošanas sistēmas | $$-$$$ | Laika gaitā uztver degradāciju — neuzkrītošs līdz dienai, kad tas jūs glābj 😬 (dreifa pārskats: Konceptuālās dreifa aptauja (PMC) ) |
Ievērojiet, ka cenas ir apzināti norādītas ar pieticīgu pieticību. Tās ir atkarīgas no mēroga, izmantotajiem rīkiem un nejauši organizēto sanāksmju skaita.
7) Cilvēka vērtējums — slepenais ierocis, ko cilvēki nepietiekami finansē 👀🧑⚖️
Ja veicat tikai automatizētu novērtēšanu, jūs palaidīsiet garām:
-
Toņu neatbilstība (“kāpēc tas ir tik sarkastisks”)
-
Smalkas faktu kļūdas, kas šķiet loģiskas
-
Kaitīgas sekas, stereotipi vai neveikls formulējums (riska + aizspriedumu ietvars: NIST AI RMF 1.0 )
-
Instrukciju izpildes kļūmes, kas joprojām izklausās “gudras”
Padariet rubrikas konkrētas (citādi recenzenti brīvā stilā formulēs)
Slikta rubrika: “Noderīgums”.
Labāka rubrika:
-
Pareizība : faktiski precīza, ņemot vērā uzvedni + kontekstu
-
Pilnīgums : aptver nepieciešamos punktus bez izklaidības
-
Skaidrība : lasāma, strukturēta, minimāla neskaidrība
-
Politika/drošība : izvairās no ierobežota satura, labi apstrādā atteikumu (drošības ietvars: NIST AI RMF 1.0 )
-
Stils : atbilst balsij, tonim, lasīšanas līmenim
-
Uzticība : neizdomā avotus vai apgalvojumus, kas nav pamatoti.
Tāpat dažreiz veiciet savstarpējas vērtēšanas pārbaudes. Ja divi recenzenti pastāvīgi nepiekrīt viedokļiem, tā nav “cilvēku problēma”, bet gan rubrikas problēma. Parasti (vērtētāju savstarpējās uzticamības pamati: Makhjū par Koena kappu ).
8) Kā novērtēt mākslīgā intelekta modeļus drošības, robustuma un lietotāju apmierinātības ziņā 🧯🧪
Šī ir daļa, kas jāizdara pirms palaišanas — un jāturpina darīt, jo internets nekad neguļ.
Izturības testi, tostarp
-
Drukas kļūdas, slengs, gramatikas kļūdas
-
Ļoti garas uzvednes un ļoti īsas uzvednes
-
Pretrunīgi norādījumi (“esiet īsi, bet iekļaujiet katru detaļu”)
-
Daudzpagriezienu sarunas, kurās lietotāji maina mērķus
-
Ātrās injekcijas mēģinājumi (“ignorēt iepriekšējos noteikumus…”) (draudu informācija: OWASP LLM01 Ātrā injekcija )
-
Jūtīgas tēmas, kurām nepieciešama pārdomāta atteikšanās (riska/drošības ietvars: NIST AI RMF 1.0 )
Drošības novērtējums nav tikai "vai tas atsakās"
Labam modelim vajadzētu:
-
Skaidri un mierīgi noraidiet nedrošus pieprasījumus (vadlīniju ietvars: NIST AI RMF 1.0 )
-
Nodrošiniet drošākas alternatīvas, ja tas ir piemēroti
-
Izvairieties no pārmērīgas nekaitīgu vaicājumu noraidīšanas (viltus pozitīviem rezultātiem)
-
Neskaidriem pieprasījumiem atbildiet ar skaidrojošiem jautājumiem (ja tas ir atļauts)
Pārmērīga atteikšanās ir reāla produkta problēma. Lietotājiem nepatīk, ja pret viņiem izturas kā pret aizdomīgiem gobliniem. 🧌 (Pat ja viņi tiešām ir aizdomīgi goblini.)
9) Izmaksas, latentums un darbības realitāte — novērtējums, ko visi aizmirst 💸⏱️
Modelis var būt “pārsteidzošs” un joprojām jums nepareizs, ja tas ir lēns, dārgs vai operacionāli nestabils.
Novērtēt:
-
Latentuma sadalījums (ne tikai vidējais rādītājs — p95 un p99 ir svarīgi) (kāpēc procentīlēm ir nozīme: Google SRE darba grāmata par uzraudzību )
-
Izmaksas par vienu veiksmīgu uzdevumu (nevis izmaksas par vienu žetonu atsevišķi)
-
Stabilitāte slodzes laikā (taimauti, ātruma ierobežojumi, anomāli pieaugumi)
-
Rīka izsaukšanas uzticamība (ja tas izmanto funkcijas, vai tas uzvedas)
-
Izvades garuma tendences (daži modeļi klīst, un klīst maksā naudu)
Treniņos var uzvarēt arī nedaudz sliktāks modelis, kas ir divreiz ātrāks. Tas izklausās acīmredzami, tomēr cilvēki to ignorē. Līdzīgi kā nopirkt sporta automašīnu iepirkumu braucienam un pēc tam sūdzēties par bagāžnieka ietilpību.
10) Vienkārša pilna cikla darbplūsma, ko var kopēt (un pielāgot) 🔁✅
Šeit ir praktisks norādījums par to, kā novērtēt mākslīgā intelekta modeļus, neiekļūstot nebeidzamos eksperimentos:
-
Definējiet panākumus : uzdevums, ierobežojumi, neveiksmes izmaksas
-
Izveidojiet nelielu “pamata” testu komplektu : 50–200 piemērus, kas atspoguļo reālu lietojumu.
-
Pievienot malas un pretinieku kopas : injekcijas mēģinājumi, neskaidras uzvednes, drošības zondes (uzvednes injekcijas klase: OWASP LLM01 )
-
Veikt automatizētas pārbaudes : formatējumu, JSON derīgumu, pamata pareizību, ja iespējams.
-
Veikt cilvēka veiktu pārskatīšanu : parauga rezultāti dažādās kategorijās, vērtējums ar rubriku
-
Salīdziniet kompromisus : kvalitāte pret izmaksām pret latentumu pret drošību
-
Ierobežotas izlaišanas izmēģinājuma versija : A/B testi vai pakāpeniska ieviešana (A/B testēšanas ceļvedis: Kohavi et al. )
-
Ražošanas monitorings : novirze, regresijas, lietotāju atgriezeniskās saites cilpas (novirzes pārskats: koncepcijas novirzes aptauja (PMC) )
-
Iterēt : atjaunināt uzvednes, izgūšanu, precizēšanu, aizsargbarjeras, pēc tam atkārtoti palaist eval (eval iterācijas modeļi: OpenAI evals rokasgrāmata )
Saglabājiet versiju žurnālus. Ne tāpēc, ka tas ir jautri, bet gan tāpēc, ka nākotnē jūs pateiksities, turot kafiju un murminot: "Kas mainījās...?" ☕🙂
11) Biežāk pieļautās kļūdas (t. i., veidi, kā cilvēki nejauši apmāna sevi) 🪤
-
Apmācība testam : jūs optimizējat uzvednes, līdz etalons izskatās lieliski, bet lietotāji cieš
-
Noplūduši novērtēšanas dati : testa uzvednes parādās apmācības vai precizēšanas datos (ups)
-
Vienas metrikas pielūgsme : viena rādītāja dzenāšanās, kas neatspoguļo lietotāja vērtību
-
Izplatīšanas nobīdes ignorēšana : mainās lietotāja uzvedība un jūsu modelis nemanāmi degradējas (ražošanas riska formulēšana: koncepcijas novirzes aptauja (PMC) )
-
Pārmērīga indeksēšana uz “gudrību” : gudrai spriešanai nav nozīmes, ja tā pārkāpj formatējumu vai izdomā faktus
-
Atteikuma kvalitātes nepārbaude : “Nē” var būt pareizs, bet lietotāja pieredze joprojām ir briesmīga.
Tāpat uzmanieties no demonstrācijām. Demonstrācijas ir kā filmu treileri. Tajās tiek parādīti svarīgākie momenti, slēptas lēnās daļas un reizēm tiek izmantota dramatiska mūzika. 🎬
12) Noslēguma kopsavilkums par to, kā novērtēt mākslīgā intelekta modeļus 🧠✨
Mākslīgā intelekta modeļu novērtēšana nav viens rezultāts, bet gan sabalansēta maltīte. Jums ir nepieciešamas olbaltumvielas (pareizība), dārzeņi (drošība), ogļhidrāti (ātrums un izmaksas) un, jā, dažreiz deserts (tonuss un prieks) 🍲🍰 (riska raamišana: NIST AI RMF 1.0 )
Ja neatceries neko citu:
-
Definējiet, ko nozīmē “labs” jūsu lietošanas gadījumā
-
Izmantojiet reprezentatīvus testu komplektus, ne tikai slavenus etalonus
-
Apvienojiet automatizētus rādītājus ar cilvēka veiktu rubriku pārskatīšanu
-
Testa robustums un drošība, it kā lietotāji būtu naidīgi (jo dažreiz… viņi tādi ir) (tūlītējas injekcijas klase: OWASP LLM01 )
-
Iekļaujiet izmaksas un latentumu novērtējumā, nevis kā pēcapsvērumu (kāpēc procentīles ir svarīgas: Google SRE Workbook )
-
Uzraudzība pēc palaišanas — modeļi mainās, lietotnes attīstās, cilvēki kļūst radoši (novirzes pārskats: koncepcijas novirzes apsekojums (PMC) )
Lūk, kā novērtēt mākslīgā intelekta modeļus tā, lai tie darbotos arī tad, kad jūsu produkts ir pieejams un cilvēki sāk darīt neparedzamas lietas. Kas notiek vienmēr. 🙂
Bieži uzdotie jautājumi
Kāds ir pirmais solis, lai novērtētu mākslīgā intelekta modeļus reālam produktam?
Sāciet, definējot, ko nozīmē “labs” jūsu konkrētajā lietošanas gadījumā. Precizējiet lietotāja mērķi, kādas izmaksas jums rada neveiksmes (zemas likmes pret augstām) un kur modelis darbosies (mākonī, ierīcē, regulētā vidē). Pēc tam uzskaitiet stingrus ierobežojumus, piemēram, latentumu, izmaksas, privātumu un toņa kontroli. Bez šī pamata jūs daudz ko mērīsit un joprojām pieņemsit sliktu lēmumu.
Kā izveidot testu kopu, kas patiesi atspoguļo manus lietotājus?
Izveidojiet testu komplektu, kas patiesi ir jūsu, nevis tikai publisks etalons. Iekļaujiet noderīgus piemērus, kurus jūs ar lepnumu publicētu, kā arī trokšņainus, neparastus uzdevumus ar drukas kļūdām, pusteikumiem un neskaidriem pieprasījumiem. Pievienojiet robežgadījumus un kļūmes režīma pārbaudes, kas veicina halucinācijas vai nedrošas atbildes. Aptveriet prasmju līmeņa, dialektu, valodu un jomu daudzveidību, lai rezultāti nesakristu ražošanas procesā.
Kādus rādītājus man vajadzētu izmantot, un kuri var būt maldinoši?
Saskaņojiet metrikas ar uzdevuma veidu. Precīza atbilstība un precizitāte labi darbojas ieguves un strukturētu rezultātu gadījumā, savukārt precizitāte/atgādība un F1 palīdz, ja kaut kā izlaišana ir sliktāka par papildu troksni. Pārklāšanās metrikas, piemēram, BLEU/ROUGE, var maldināt atvērta tipa uzdevumu gadījumā, un līdzības iegulšana var atalgot “nepareizas, bet līdzīgas” atbildes. Rakstīšanai, atbalstam vai spriešanai apvienojiet metrikas ar cilvēka veiktu pārskatīšanu un uzdevumu veiksmes rādītājiem.
Kā man vajadzētu strukturēt novērtējumus, lai tie būtu atkārtojami un atbilstu ražošanas prasībām?
Stabila novērtēšanas sistēma ir atkārtojama, reprezentatīva, daudzslāņaina un praktiski izmantojama. Apvienojiet automatizētas pārbaudes (formāts, JSON derīgums, pamata pareizība) ar cilvēku veiktu rubriku vērtēšanu un pretinieku testiem. Padariet to drošu pret viltojumiem, izvairoties no informācijas noplūdes un “apmācot testu”. Saglabājiet novērtēšanas izmaksu apzināšanos, lai to varētu bieži atkārtot, nevis tikai vienu reizi pirms palaišanas.
Kā vislabāk veikt cilvēka veiktu novērtējumu, lai tas nepārvērstos haosā?
Izmantojiet konkrētu vērtēšanas kritērijus, lai recenzenti nelietotu brīvi. Novērtējiet tādus atribūtus kā pareizība, pilnīgums, skaidrība, drošības/politikas ievērošana, stila/balss atbilstība un uzticamība (neizgudrojot apgalvojumus vai avotus). Periodiski pārbaudiet vērtētāju savstarpējo vienošanos; ja recenzenti pastāvīgi nepiekrīt, kritēriju saraksts, iespējams, ir jāuzlabo. Cilvēka veikta pārskatīšana ir īpaši vērtīga toņa neatbilstības, smalku faktu kļūdu un norādījumu neievērošanas gadījumā.
Kā es varu novērtēt drošību, noturību un tūlītējas injekcijas riskus?
Veiciet pārbaudi ar ievades frāzi “fu, lietotāji”: drukas kļūdas, slengs, pretrunīgas instrukcijas, ļoti garas vai ļoti īsas uzvednes un vairāku gājienu mērķu izmaiņas. Iekļaujiet uzvedņu ievadīšanas mēģinājumus, piemēram, “ignorēt iepriekšējos noteikumus”, un sensitīvas tēmas, kurām nepieciešama pārdomāta atteikšanās. Labs drošības sniegums nav tikai atteikšanās — tā ir skaidra atteikšanās, drošāku alternatīvu piedāvāšana, ja nepieciešams, un nekaitīgu vaicājumu pārmērīgas noraidīšanas novēršana, kas kaitē lietotāja pieredzei.
Kā novērtēt izmaksas un latentumu, lai tie atbilstu realitātei?
Nemēriet tikai vidējos rādītājus — sekojiet līdzi latentuma sadalījumam, īpaši p95 un p99. Novērtējiet izmaksas par vienu veiksmīgu uzdevumu, nevis izmaksas par vienu marķieri atsevišķi, jo atkārtoti mēģinājumi un nevienmērīga izvade var izdzēst ietaupījumus. Pārbaudiet stabilitāti slodzes laikā (taimautus, ātruma ierobežojumus, impulsus) un rīku/funkciju izsaukšanas uzticamību. Nedaudz sliktāks modelis, kas ir divreiz ātrāks vai stabilāks, var būt labāka produkta izvēle.
Kāda ir vienkārša pilnīga darbplūsma mākslīgā intelekta modeļu novērtēšanai?
Definējiet veiksmes kritērijus un ierobežojumus, pēc tam izveidojiet nelielu pamata testu kopu (aptuveni 50–200 piemēru), kas atspoguļo reālo lietojumu. Pievienojiet drošības un injekcijas mēģinājumu perifērijas un pretinieku kopas. Veiciet automatizētas pārbaudes, pēc tam ņemiet paraugus no rezultātiem cilvēku vērtēšanai paredzētai rubrikai. Salīdziniet kvalitāti, izmaksas, latentumu un drošību, veiciet izmēģinājuma projektu ar ierobežotu ieviešanu vai A/B testu un uzraugiet ražošanas vidē novirzes un regresijas.
Kādi ir visbiežāk sastopamie veidi, kā komandas nejauši apmāna sevi modeļu novērtēšanā?
Bieži sastopami slazdi ietver uzdevumu optimizēšanu, lai sasniegtu izcilu etalonu, kamēr lietotāji cieš, novērtēšanas uzdevumu nopludināšanu apmācībā vai datu precizēšanā, kā arī viena rādītāja pielūgsmi, kas neatspoguļo lietotāja vērtību. Komandas arī ignorē sadalījuma maiņu, pārāk daudz indeksē “gudrību”, nevis atbilstību formātam un uzticamību, un izlaiž atteikuma kvalitātes testēšanu. Demonstrācijas var slēpt šīs problēmas, tāpēc paļaujieties uz strukturētām novērtēšanām, nevis izceltiem video.
Atsauces
-
OpenAI — OpenAI novērtēšanas ceļvedis — platform.openai.com
-
Nacionālais standartu un tehnoloģiju institūts (NIST) — Mākslīgā intelekta riska pārvaldības sistēma (AI RMF 1.0) — nist.gov
-
OpenAI — openai/evals (GitHub repozitorijs) — github.com
-
scikit-learn — precision_recall_fscore_support — scikit-learn.org
-
Datorlingvistikas asociācija (ACL antoloģija) — BLEU — aclanthology.org
-
Datorlingvistikas asociācija (ACL antoloģija) - ROUGE - aclanthology.org
-
arXiv — G-Eval — arxiv.org
-
OWASP — LLM01: Ātra injekcija — owasp.org
-
OWASP — OWASP 10 labākie lieliem valodu modeļu lietojumiem — owasp.org
-
Stenfordas Universitāte — Kohavi u. c., “Kontrolēti eksperimenti tīmeklī” — stanford.edu
-
arXiv — RAG novērtējums: aptauja — arxiv.org
-
PubMed Central (PMC) — Koncepcijas novirzes apsekojums (PMC) — nih.gov
-
PubMed Central (PMC) — Makhjū par Koena kapa — nih.gov
-
Google — SRE darba burtnīca par uzraudzību — google.workbook