Kā izmērīt mākslīgā intelekta veiktspēju?

Ja kādreiz esat izlaidis modeli, kas piezīmju grāmatiņā pārsteidza, bet ražošanā paklupa, jūs jau zināt noslēpumu: mākslīgā intelekta veiktspējas mērīšana nav viens maģisks rādītājs. Tā ir pārbaužu sistēma, kas saistīta ar reāliem mērķiem. Precizitāte ir pievilcīga. Uzticamība, drošība un ietekme uz uzņēmējdarbību ir vēl labākas.

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Kā runāt ar mākslīgo intelektu
Ceļvedis efektīvai saziņai ar mākslīgo intelektu, lai sasniegtu pastāvīgi labākus rezultātus.

🔗 Kas ir mākslīgā intelekta uzvedne
Paskaidro, kā uzvednes ietekmē mākslīgā intelekta atbildes un izvades kvalitāti.

🔗 Kas ir AI datu marķēšana
Pārskats par precīzu etiķešu piešķiršanu datiem apmācības modeļos.

🔗 Kas ir mākslīgā intelekta ētika?
Ievads ētikas principos, kas vada atbildīgu mākslīgā intelekta izstrādi un ieviešanu.

Kas nodrošina labu mākslīgā intelekta veiktspēju? ✅

Īsumā: laba mākslīgā intelekta veiktspēja nozīmē, ka jūsu sistēma ir noderīga, uzticama un atkārtojama sarežģītos, mainīgos apstākļos. Konkrēti:

Uzdevuma kvalitāte — tas sniedz pareizās atbildes pareizo iemeslu dēļ.
Kalibrēšana — pārliecības rādītāji atbilst realitātei, lai jūs varētu rīkoties gudri.
Izturība — tā iztur dreifēšanu, malu radītus efektus un pretinieku radītus pūciņus.
Drošība un taisnīgums — tas novērš kaitīgu, neobjektīvu vai neatbilstošu rīcību.
Efektivitāte — tā ir pietiekami ātra, pietiekami lēta un pietiekami stabila, lai darbotos plašā mērogā.
Ietekme uz uzņēmējdarbību — tā faktiski ietekmē jums svarīgos KPI.

Ja vēlaties oficiālu atskaites punktu metriku un risku saskaņošanai, NIST mākslīgā intelekta risku pārvaldības sistēma ir stabils atskaites punkts uzticamai sistēmas novērtēšanai. [1]

Augsta līmeņa recepte mākslīgā intelekta veiktspējas mērīšanai 🍳

Domājiet trīs līmeņos:

Uzdevuma metrika — uzdevuma veida pareizība: klasifikācija, regresija, ranžēšana, ģenerēšana, kontrole utt.
Sistēmas rādītāji — latentums, caurlaidspēja, izmaksas par zvanu, kļūmju rādītāji, nobīdes trauksmes signāli, darbības laika SLA.
Rezultātu rādītāji — jūsu faktiski vēlamie biznesa un lietotāju rezultāti: konversija, klientu noturēšana, drošības incidenti, manuālās pārskatīšanas slodze, pieprasījumu skaits.

Lielisks mērījumu plāns apzināti apvieno visus trīs. Pretējā gadījumā iegūstat raķeti, kas nekad neatstāj palaišanas laukumu.

Galvenie rādītāji pēc problēmas veida — un kad kurus izmantot 🎯

1) Klasifikācija

Precizitāte, Atgūšana, F1 — pirmās dienas trio. F1 ir precizitātes un atgūšanas harmoniskais vidējais; noderīgi, ja klases ir nelīdzsvarotas vai izmaksas ir asimetriskas. [2]
ROC-AUC — klasifikatoru sliekšņa agnostisks rangs; ja pozitīvi rezultāti ir reti, pārbaudiet arī PR-AUC. [2]
Sabalansēta precizitāte — vidējā atsaukšanas vērtība dažādās klasēs; ērti lietojams sašķiebtu etiķešu gadījumā. [2]

Kļūdas novēršana: precizitāte vien var būt ārkārtīgi maldinoša, ja pastāv nelīdzsvarotība. Ja 99% lietotāju ir likumīgi, tad muļķīgs, vienmēr likumīgs modelis iegūst 99% rezultātu un pieviļ jūsu krāpnieku komandu pirms pusdienām.

2) Regresija

MAE cilvēkam salasāmai kļūdai; RMSE, ja vēlaties sodīt par lieliem trūkumiem; R² dispersijai, kas izskaidrota. Pēc tam pārbaudiet sadalījumu pamatotību un atlikumu diagrammas. [2]
(Izmantojiet domēnam draudzīgas mērvienības, lai ieinteresētās personas varētu faktiski sajust kļūdu.)

3) Ranžēšana, atgūšana, ieteikumi

nDCG — rūp pozīcija un atbilstības pakāpe; meklēšanas kvalitātes standarts.
MRR — koncentrējas uz to, cik ātri parādās pirmais atbilstošais vienums (lieliski piemērots uzdevumiem “atrast vienu labu atbildi”).
(Ieviešanas atsauces un darba piemēri ir atrodami galvenajās metrikas bibliotēkās.) [2]

4) Teksta ģenerēšana un apkopošana

BLEU un ROUGE — klasiskas pārklāšanās metrikas; noderīgas kā bāzes līnijas.
Uz iegulšanu balstīti rādītāji (piemēram, BERTScore) bieži vien labāk korelē ar cilvēka spriedumu; vienmēr apvienojiet tos ar cilvēka vērtējumiem par stilu, uzticamību un drošību. [4]

5) Atbildēšana uz jautājumiem

Precīza atbilstība un marķiera līmeņa F1 ir izplatītas ekstraktīvā kvalitātes nodrošināšanā; ja atbildēs ir jānorāda avoti, jāizmēra arī pamatojums (atbilžu atbalsta pārbaudes).

Kalibrēšana, pārliecība un Brier lēca 🎚️

Uzticamības rādītāji ir vieta, kur nemanāmi slēpjas daudzas sistēmas. Jums ir nepieciešamas varbūtības, kas atspoguļo realitāti, lai operācijas varētu noteikt sliekšņus, novirzīt cilvēkus vai novērtēt risku.

Kalibrēšanas līknes — vizualizē paredzēto varbūtību attiecībā pret empīrisko biežumu.
Braier vērtējums — atbilstošs vērtēšanas noteikums varbūtības precizitātei; zemāks ir labāks. Tas ir īpaši noderīgi, ja jums rūp kvalitāte varbūtības

Lauka piezīme: nedaudz “sliktāks” F1, bet daudz labāka kalibrēšana var ievērojami uzlabot triāžu, jo cilvēki beidzot var uzticēties rezultātiem.

Drošība, neobjektivitāte un taisnīgums — izmēriet to, kas ir svarīgs 🛡️⚖️

Sistēma var būt kopumā precīza un joprojām kaitēt noteiktām grupām. Izsekojiet grupētos rādītājus un taisnīguma kritērijus:

Demogrāfiskā paritāte — vienādi pozitīvi rādītāji visās grupās.
Vienlīdzīgas izredzes/vienlīdzīgas iespējas — vienāds kļūdu līmenis vai patiesi pozitīvi rādītāji visās grupās; izmantojiet tos, lai atklātu un pārvaldītu kompromisus, nevis kā vienreizējus “apstiprinājums/neapstiprinājums” zīmogus. [5]

Praktisks padoms: sāciet ar informācijas paneļiem, kas sadala pamatrādītājus pēc galvenajiem atribūtiem, pēc tam pievienojiet konkrētus taisnīguma rādītājus atbilstoši jūsu politikām. Tas izklausās sarežģīti, bet ir lētāk nekā incidents.

LLM un RAG — mērīšanas rokasgrāmata, kas patiešām darbojas 📚🔍

Ģeneratīvo sistēmu mērīšana ir… sarežģīta. Dariet to šādi:

Definējiet rezultātus katram lietošanas gadījumam: pareizība, noderīgums, nekaitīgums, stila atbilstība, zīmolam atbilstošs tonis, citēšanas pamatojums, atteikuma kvalitāte.
Automatizējiet sākotnējās novērtēšanas, izmantojot stabilus ietvarus (piemēram, novērtēšanas rīkus savā stekā), un saglabājiet to versijas kopā ar jūsu datu kopām.
Pievienojiet semantiskos rādītājus (uz iegulšanas balstītus) un pārklāšanās rādītājus (BLEU/ROUGE) saprātīguma labad. [4]
Instrumenta iezemēšana RAG: atgūšanas trāpījumu biežums, konteksta precizitāte/atsaukšana, atbilžu un atbalsta pārklāšanās.
Cilvēka veikta pārskatīšana ar vienošanos — izmēriet vērtētāja konsekvenci (piemēram, Koena κ vai Fleisa κ), lai jūsu etiķetes nebūtu vibrācijas.

Bonuss: žurnāla latentuma procentiles un tokena vai skaitļošanas izmaksas par uzdevumu. Nevienam nepatīk poētiska atbilde, kas pienāk nākamajā otrdienā.

Salīdzināšanas tabula — rīki, kas palīdz izmērīt mākslīgā intelekta veiktspēju 🛠️📊

(Jā, tas ir mazliet nekārtīgs ar nolūku — īstas notis ir nekārtīgas.)

Rīks	Labākā auditorija	Cena	Kāpēc tas darbojas — īss pārskats
scikit-learn metrikas	Mašīnmācīšanās praktiķi	Bezmaksas	Kanoniskas klasifikācijas, regresijas un ranžēšanas implementācijas; viegli integrēt testos. [2]
MLflow novērtēšana / GenAI	Datu zinātnieki, MLOps	Bezmaksas + maksas	Centralizētas palaišanas, automatizēti rādītāji, LLM tiesneši, pielāgoti vērtētāji; tīra artefaktu reģistrēšana.
Acīmredzot	Komandas vēlas ātri izveidot informācijas paneļus	OSS + mākonis	Vairāk nekā 100 metrikas, novirzes un kvalitātes ziņojumi, uzraudzības āķi — jauki vizuālie materiāli ārkārtas situācijās.
Svari un aizspriedumi	Organizācijas, kurās dominē eksperimenti	Bezmaksas līmenis	Blakus salīdzinājumi, izvērtēšanas datu kopas, vērtētāji; tabulas un izsekošanas ir diezgan kārtīgas.
LangSmits	LLM lietotņu veidotāji	Apmaksāts	Izsekojiet katram solim, apvienojiet cilvēku veiktu pārskatīšanu ar noteikumu vai LLM vērtētājiem; lieliski piemērots RAG.
TruLens	Atvērtā koda LLM novērtēšanas cienītāji	OSS	Atgriezeniskās saites funkcijas novērtē toksicitāti, pamatotību, atbilstību; integrējiet jebkur.
Lielas cerības	Datu kvalitāti pirmajā vietā nodrošinošas organizācijas	OSS	Formalizējiet datu sagaidāmo rezultātu sasniegšanu, jo slikti dati tik un tā sabojā visus rādītājus.
Dziļās pārbaudes	Testēšana un CI/CD mašīnmācīšanās vajadzībām	OSS + mākonis	Testēšana ar iekļautām baterijām datu nobīdes, modeļa problēmu un uzraudzības noteikšanai; labas aizsargmargas.

Cenas mainās — pārbaudiet dokumentāciju. Un jā, jūs varat šos produktus kombinēt, neierodoties instrumentu policijai.

Sliekšņi, izmaksas un lēmumu līknes — slepenā recepte 🧪

Dīvaina, bet patiesa lieta: diviem modeļiem ar vienādu ROC-AUC var būt ļoti atšķirīga biznesa vērtība atkarībā no jūsu sliekšņa un izmaksu attiecībām.

Ātri veidojama lapa:

Nosakiet viltus pozitīva un viltus negatīva rezultāta izmaksas naudā vai laikā.
Novērtējiet robežvērtības un aprēķiniet paredzamās izmaksas uz 1000 lēmumiem.
Izvēlieties minimālo paredzamo izmaksu slieksni un pēc tam fiksējiet to ar uzraudzību.

PR līknes izmantojiet, ja pozitīvi rezultāti ir reti, ROC līknes vispārējai formai un kalibrēšanas līknes, ja lēmumi balstās uz varbūtībām. [2][3]

Mini gadījums: atbalsta pieprasījumu triāžas modelis ar pieticīgu F1, bet izcilu kalibrēšanu, kas izslēdza manuālu pāradresāciju pēc tam, kad operācijas pārgāja no stingra sliekšņa uz daudzpakāpju maršrutēšanu (piemēram, “automātiska atrisināšana”, “cilvēka veikta pārskatīšana”, “eskalācija”), kas piesaistīta kalibrētām punktu skalām.

Tiešsaistes uzraudzība, novirze un brīdināšana 🚨

Bezsaistes novērtējumi ir sākums, nevis beigas. Ražošanas vidē:

Izsekojiet ievades nobīdi, izvades nobīdiun veiktspējas samazināšanos pa segmentiem.
Iestatiet aizsargbarjeru pārbaudes — maksimālo halucināciju biežumu, toksicitātes sliekšņus, taisnīguma deltas.
Pievienojiet Canary informācijas paneļus P95 latentumam, taimautiem un izmaksām par pieprasījumu.
Lai to paātrinātu, izmantojiet speciāli izveidotas bibliotēkas; tās piedāvā dreifa, kvalitātes un uzraudzības primitīvus uzreiz pēc instalēšanas.

Neliela kļūdaina metafora: iedomājieties savu modeli kā ierauga maizi — jūs to neizcepat tikai vienreiz un neaizejat; jūs to pabarojat, vērojat, ošņājat un dažreiz to atsākat.

Cilvēciskais vērtējums, kas nesadrūp 🍪

Kad cilvēki vērtē rezultātus, procesam ir lielāka nozīme, nekā jūs domājat.

Uzrakstiet stingras rubrikas ar piemēriem "ieskaitīts", "robežstāvokļa" un "neieskaitīts".
Ja iespējams, nejaušiniet un veiciet aklus paraugus.
Izmērīt vērtētāju savstarpējo saskaņu (piemēram, Koena κ diviem vērtētājiem, Fleisa κ daudziem) un atjaunināt rubrikas, ja saskaņa nenotiek.

Tas neļauj jūsu cilvēciskajām etiķetēm mainīties atkarībā no noskaņojuma vai kafijas piedāvājuma.

Padziļināta analīze: kā izmērīt mākslīgā intelekta veiktspēju tiesību zinātņu studentiem (LLM) RAG vidē 🧩

Izguves kvalitāte — recall@k, precision@k, nDCG; zelta faktu pārklājums. [2]
Atbilžu uzticamība — citēšanas un verifikācijas pārbaudes, pamatotības vērtējumi, pretrunīgas iztaujāšanas.
Lietotāju apmierinātība — īkšķi, uzdevuma izpilde, rediģēšanas attālums no ieteiktajiem melnrakstiem.
Drošība — toksicitāte, personiski identificējošas informācijas noplūde, atbilstība politikas noteikumiem.
Izmaksas un latentums — žetoni, kešatmiņas trāpījumi, p95 un p99 latentumi.

Saistiet to ar biznesa darbībām: ja pamatotība nokrītas zem noteiktas robežvērtības, automātiski pārslēdziet uz stingro režīmu vai cilvēka veiktu pārskatīšanu.

Vienkārša rokasgrāmata, lai sāktu jau šodien 🪄

Definējiet darbu — uzrakstiet vienu teikumu: kas mākslīgajam intelektam ir jādara un kam.
Izvēlieties 2–3 uzdevuma rādītājus , kā arī kalibrēšanu un vismaz vienu taisnīguma rādītāju. [2][3][5]
Nosakiet robežvērtības, izmantojot izmaksas — neminiet.
Izveidojiet nelielu novērtēšanas kopu — 100–500 marķētus piemērus, kas atspoguļo ražošanas miksu.
Automatizējiet novērtēšanu — pievienojiet novērtēšanu/uzraudzību konfigurācijas interfeisam (CI), lai katras izmaiņas veiktu vienādas pārbaudes.
Monitors produkcijā — nobīde, latentums, izmaksas, incidentu karodziņi.
Pārskatiet aptuveni reizi mēnesī — izņemiet rādītājus, kurus neviens neizmanto; pievienojiet tos, kas atbild uz reāliem jautājumiem.
Dokumentējiet lēmumus — dzīvu rezultātu tabulu, ko jūsu komanda faktiski nolasa.

Jā, tas burtiski ir viss. Un tas darbojas.

Biežāk sastopamās kļūmes un kā no tām izvairīties 🕳️🐇

Pārmērīga pielāgošana vienai metrikai — izmantojiet metriku grozu , kas atbilst lēmuma kontekstam. [1][2]
Kalibrēšanas ignorēšana — pārliecība bez kalibrēšanas ir tikai lielība. [3]
Bez segmentēšanas — vienmēr sadalījums pēc lietotāju grupām, ģeogrāfijas, ierīces, valodas. [5]
Nenoteiktas izmaksas — ja nenoteiksiet kļūdu cenu, izvēlēsieties nepareizu slieksni.
Cilvēka vērtējuma novirze — novērtējiet atbilstību, atsvaidziniet rubrikas, pārkvalificējiet recenzentus.
Nav drošības instrumentu — pievienojiet taisnīguma, toksicitātes un politikas pārbaudes tagad, nevis vēlāk. [1][5]

Frāze, pēc kuras meklēji: kā izmērīt mākslīgā intelekta veiktspēju — pārāk gara, es to neizlasīju 🧾

Sāciet ar skaidriem rezultātiemun pēc tam apvienojiet uzdevumu, sistēmasun biznesa rādītājus. [1]
Izmantojiet darbam atbilstošos rādītājus — F1 un ROC-AUC klasifikācijai; nDCG/MRR ranžēšanai; pārklāšanās + semantiskās metrikas ģenerēšanai (savienojumā ar cilvēkiem). [2][4]
Kalibrējiet savas varbūtības un nosakiet savu kļūdu cenu , lai izvēlētos robežvērtības. [2][3]
Pievienojiet taisnīguma pārbaudes ar grupas šķēlītēm un skaidri pārvaldiet kompromisus. [5]
Automatizējiet novērtēšanu un uzraudzību , lai jūs varētu atkārtot bez bailēm.

Zini, kā tas ir – mēri to, kas ir svarīgs, citādi uzlabosi to, kas nav svarīgs.

Atsauces

[1] NIST. Mākslīgā intelekta riska pārvaldības ietvars (MI RMF). lasīt vairāk
[2] scikit-learn. Modeļa novērtēšana: prognožu kvalitātes kvantitatīva noteikšana (lietotāja rokasgrāmata). lasīt vairāk
[3] scikit-learn. Varbūtības kalibrēšana (kalibrēšanas līknes, Braier vērtējums). lasīt vairāk
[4] Papineni et al. (2002). BLEU: mašīntulkošanas automātiskas novērtēšanas metode. ACL. lasīt vairāk
[5] Hardt, Price, Srebro (2016). Iespēju vienlīdzība uzraudzītā mācīšanās procesā. NeurIPS. lasīt vairāk

Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru

Valsts/reģions