Kā es varu saprast mākslīgā intelekta precizitāti?

Lai izprastu mākslīgā intelekta precizitāti, ir svarīgi skaidri definēt uzdevumu, jo precizitāte var atšķirties atkarībā no tā, cik labi uzdevums ir definēts, un apstākļiem, kādos mākslīgais intelekts darbojas. Tādu rādītāju kā pareizības, precizitātes, atcerēšanās un kalibrēšanas novērtēšana sniegs ieskatu par to, cik labi mākslīgais intelekts darbojas.

Kāpēc es nevaru paļauties uz vienu precizitātes rādītāju mākslīgajam intelektam?

Precizitāte nav viens rādītājs; tā ietver dažādus elementus, tostarp pareizību, uzticamību un robustumu. Modelis var labi darboties ar tīru datu kopu, bet neizdoties reālās pasaules scenārijos, kur ievades dati atšķiras, padarot vienu vērtējumu nepietiekamu, lai novērtētu veiktspēju.

Ko nozīmē kalibrēšana mākslīgā intelekta precizitātes kontekstā?

Kalibrēšana attiecas uz procesu, kurā tiek nodrošināts, ka modeļa ticamības līmenis atbilst tā faktiskajai veiktspējai. Piemēram, ja mākslīgā intelekta algoritms apgalvo, ka ir 90% pārliecināts par atbildi, kalibrēšana 90% gadījumu pārbauda, vai tā patiešām ir pareiza. Tas palīdz samazināt pārāk pārliecinātu nepareizu rezultātu risku.

Kā laika gaitā varu uzlabot mākslīgā intelekta sistēmas precizitāti?

Lai laika gaitā uzlabotu mākslīgā intelekta precizitāti, nepārtraukti jāizvērtē datu kvalitāte un testēšanas metodes, jāpaplašina perifēro gadījumu klāsts un jāuztur “zelta komplekts” reāliem lietotāju scenārijiem. Regulāra uzraudzība un stresa testi mainīgā vidē ir arī ļoti svarīgi, lai efektīvi pielāgotu sistēmu.

Kādas ir biežāk pieļautās kļūdas, novērtējot mākslīgā intelekta precizitāti?

Biežāk sastopamās kļūdas ir pārmērīga paļaušanās uz tīriem testu komplektiem, kas neatspoguļo reālās pasaules datus, ārpus izplatīšanas esošu testu ignorēšana, kas simulē dažādus ievades datus, un koncentrēšanās tikai uz neapstrādātu precizitāti, neņemot vērā kļūdaini pozitīvu vai negatīvu rezultātu sekas jūsu lietojumprogrammā.

Kā ģeneratīvais mākslīgais intelekts var ietekmēt precizitātes uztveri?

Ģeneratīvais mākslīgais intelekts var radīt šķietami plūstošus rezultātus, kas var nebūt faktiski pareizi, radot problēmas, kas pazīstamas kā "halucinācijas". Ģeneratīvā mākslīgā intelekta precizitāte ir sarežģītāka, jo ir pieļaujamas vairākas pieņemamas atbildes, tāpēc ir svarīgi pamatot atbildes uzticamos avotos.

Kāpēc nepārtraukta novērtēšana ir svarīga mākslīgā intelekta precizitātei?

Pastāvīga novērtēšana ir ļoti svarīga, jo mākslīgā intelekta sistēmas laika gaitā var mainīties lietotāju uzvedības, datu ievades un vides prasību izmaiņu dēļ. Regulāra uzraudzība nodrošina, ka jebkura veiktspējas samazināšanās tiek identificēta un novērsta, saglabājot uzticību sistēmas uzticamībai.

Cik precīzs ir mākslīgais intelekts?

Īsa atbilde: mākslīgais intelekts var būt ļoti precīzs šauros, precīzi definētos uzdevumos ar skaidru pamatojumu, taču “precizitāte” nav viens rādītājs, kam var uzticēties universāli. Tas ir spēkā tikai tad, ja uzdevums, dati un metrika atbilst darbības videi; ja ievades dati mainās vai uzdevumi kļūst atvērti, kļūdu un pārliecinātu halucināciju skaits pieaug.

Galvenie secinājumi:

Uzdevuma atbilstība: precīzi definējiet darbu, lai varētu pārbaudāms, vai tas ir “pareizs” vai “nepareizs”.

Metrikas izvēle: Pielāgojiet novērtēšanas metrikas reālām sekām, nevis tradīcijām vai ērtībām.

Realitātes pārbaude: Izmantojiet reprezentatīvus, trokšņainus datus un stresa testus ārpus izplatīšanas.

Kalibrēšana: Izmēriet, vai ticamība atbilst pareizībai, īpaši attiecībā uz robežvērtībām.

Dzīves cikla uzraudzība: nepārtraukti atkārtoti izvērtējiet, lietotājiem, datiem un videi mainoties laika gaitā.

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Kā soli pa solim apgūt mākslīgo intelektu
Iesācējiem draudzīgs ceļvedis, lai sāktu pārliecinoši apgūt mākslīgo intelektu.

🔗 Kā mākslīgais intelekts atklāj datu anomālijas
Izskaidro metodes, ko mākslīgais intelekts izmanto, lai automātiski atpazītu neparastus modeļus.

🔗 Kāpēc mākslīgais intelekts var būt kaitīgs sabiedrībai
Aptver tādus riskus kā aizspriedumi, ietekme uz darbu un bažas par privātumu.

🔗 Kas ir mākslīgā intelekta datu kopa un kāpēc tā ir svarīga
Definē datu kopas un to, kā tās apmāca un novērtē mākslīgā intelekta modeļus.

1) Tātad… Cik precīzs ir mākslīgais intelekts?🧠✅

Mākslīgais intelekts var būt ārkārtīgi precīzs šauros, precīzi definētos uzdevumos, īpaši, ja “pareizā atbilde” ir nepārprotama un viegli novērtējama.

Bet atvērta tipa uzdevumos (īpaši ģeneratīvajā mākslīgajā intelektā, piemēram, tērzēšanas robotos) “precizitāte” ātri kļūst sarežģīta, jo:

var būt vairākas pieņemamas atbildes
rezultāts var būt plūstošs, bet nebalstīts uz faktiem
modelis var būt pielāgots “noderīguma” vibrācijām, nevis stingrai pareizībai
pasaule mainās, un sistēmas var atpalikt no realitātes

Noderīgs mentālais modelis: precizitāte nav īpašība, kas jums “pieder”. Tā ir īpašība, ko jūs “nopelnāt” konkrētam uzdevumam, konkrētā vidē, ar konkrētu mērīšanas iestatījumu. Tāpēc nopietnās vadlīnijās novērtēšana tiek uzskatīta par dzīves cikla aktivitāti, nevis vienreizēju rezultātu tablo mirkli. [1]

2) Precizitāte nav viena lieta — tā ir vesela raiba ģimene 👨👩👧👦📏

Kad cilvēki saka “precizitāte”, viņi var domāt jebkuru no šiem (un bieži vien viņi domā divus no tiem vienlaikus, to neapzinoties):

Pareizība: vai tas radīja pareizo etiķeti/atbildi?
Precizitāte pretstatā atsaukšanai: vai tā izvairījās no viltus trauksmēm vai uztvēra visu?
Kalibrēšana: vai aptuveni 90% gadījumu, kad tiek parādīts ziņojums “Esmu 90% pārliecināts”, tas tiešām ir pareizi? [3]
Stabilitāte: vai tas joprojām darbojas, ja ievades dati nedaudz mainās (troksnis, jauna frāze, jauni avoti, jauna demogrāfiskā informācija)?
Uzticamība: vai tā uzvedas konsekventi paredzētajos apstākļos?
Patiesīgums/faktualitāte (ģeneratīvais mākslīgais intelekts): vai tas izdomā lietas (halucina) pārliecinātā tonī? [2]

Tāpēc uzticēšanās centri neuztver “precizitāti” kā atsevišķu galveno rādītāju. Tie runā par derīgumu, uzticamību, drošību, pārredzamību, robustumu, taisnīgumu un citiem rādītājiem kā kopumu, jo vienu var “optimizēt” un nejauši sabojāt citu. [1]

3) Kas padara labu mākslīgā intelekta precizitātes mērīšanas versiju? 🧪🔍

Lūk, “labās versijas” kontrolsaraksts (tas, ko cilvēki izlaiž… un vēlāk nožēlo):

✅ Skaidra uzdevuma definīcija (t. i., padariet to pārbaudāmu)

“Rezumēt” ir neskaidrs.
“Apkopojiet 5 aizzīmēs, iekļaujiet 3 konkrētus skaitļus no avota un neizdomājiet citātus” ir pārbaudāms apgalvojums.

✅ Reprezentatīvi testa dati (t. i., apturēt vērtēšanu vienkāršajā režīmā)

Ja jūsu testa komplekts ir pārāk tīrs, precizitāte izskatīsies viltus. Īsti lietotāji rada drukas kļūdas, dīvainus gadījumus un enerģiju, ko sniedz apgalvojums "Es to uzrakstīju savā tālrunī pulksten 2 naktī".

✅ Riskam atbilstošs rādītājs

Mēma nepareiza klasificēšana nav tas pats, kas medicīniska brīdinājuma nepareiza klasificēšana. Metrikas netiek izvēlētas, pamatojoties uz tradīcijām, — tās tiek izvēlētas, pamatojoties uz sekām. [1]

✅ Testēšana ārpus izplatīšanas (jeb: “kas notiek, kad atklājas realitāte?”)

Izmēģiniet dīvainus formulējumus, neskaidrus ievades datus, naidīgus uzdevumus, jaunas kategorijas, jaunus laika periodus. Tas ir svarīgi, jo izplatīšanas maiņa ir klasisks veids, kā modeļi tiek "faceplantēti" ražošanas procesā. [4]

✅ Pastāvīga novērtēšana (t. i., precizitāte nav funkcija “iestati un aizmirsti”)

Sistēmas mainās. Lietotāji mainās. Dati mainās. Jūsu “lieliskais” modelis klusi degradējas — ja vien jūs to nepārtraukti nemērāt. [1]

Neliels reālās pasaules modelis, ko atpazīsiet: komandas bieži vien piegādā materiālus ar augstu “demonstrācijas precizitāti”, bet pēc tam atklāj, ka viņu patiesais kļūmes režīms nav “ nepareizas atbildes”… tā ir “nepareizas atbildes, kas sniegtas pārliecinoši un plašā mērogā”. Tā ir novērtēšanas dizaina problēma, ne tikai modeļa problēma.

4) Kur mākslīgais intelekts parasti ir ļoti precīzs (un kāpēc) 📈🛠️

Mākslīgais intelekts (AI) parasti izpaužas, ja problēma ir:

šaurs
labi marķēts
stabils laika gaitā
līdzīgs apmācības sadalījumam
viegli automātiski aprēķināt punktus

Piemēri:

Surogātpasta filtrēšana
Dokumentu ieguve konsekventos izkārtojumos
Ranžēšanas/ieteikumu cilpas ar daudzām atgriezeniskās saites signāliem
Daudzi redzes klasifikācijas uzdevumi kontrolētos apstākļos

Garlaicīgā superspēja, kas slēpjas aiz daudzām šīm uzvarām: skaidra patiesība + daudz atbilstošu piemēru. Ne glauns - ārkārtīgi efektīvs.

5) Kur bieži vien neizdodas mākslīgā intelekta precizitāte 😬🧯

Šo daļu cilvēki jūt savos kaulos.

Halucinācijas ģeneratīvajā mākslīgajā intelektā 🗣️🌪️

LLM var radīt ticamu, bet faktiem neatbilstošu saturu, un tieši “ticamā” daļa ir iemesls, kāpēc tas ir bīstami. Tas ir viens no iemesliem, kāpēc ģeneratīvajā mākslīgā intelekta riska vadībā tik liela uzmanība tiek pievērsta pamatojumam, dokumentācijai un mērījumiem, nevis uz vibrācijām balstītām demonstrācijām. [2]

Sadalījuma maiņa 🧳➡️🏠

Modelis, kas apmācīts vienā vidē, var paklupt citā: citā lietotāja valodā, citā produktu katalogā, dažādās reģionālajās normās, citā laika periodā. Tādi etaloni kā WILDS pastāv, lai kliegtu: “izplatīšanas iekšējā veiktspēja var ievērojami pārspīlēt reālās pasaules veiktspēju.” [4]

Stimuli, kas atalgo pārliecinātu minēšanu 🏆🤥

Dažās sistēmās nejauši tiek atalgota uzvedība “vienmēr atbilde”, nevis “atbildēt tikai tad, kad zināt”. Tādējādi sistēmas iemācās izklausīties pareizi , nevis būt pareizai. Tāpēc novērtējumā jāiekļauj atturēšanās/nenoteiktības uzvedība, nevis tikai neapstrādātu atbilžu īpatsvars. [2]

Reālās pasaules incidenti un darbības kļūmes 🚨

Pat spēcīgs modelis kā sistēma var neizdoties: slikta izguve, novecojuši dati, salauztas margas vai darbplūsma, kas nemanāmi novirza modeli ap drošības pārbaudēm. Mūsdienu vadlīnijas precizitāti definē kā daļu no plašākas sistēmas uzticamības, nevis tikai modeļa vērtējuma. [1]

6) Nenovērtētā superspēja: kalibrēšana (jeb “zināt to, ko nezini”) 🎚️🧠

Pat ja diviem modeļiem ir vienāda “precizitāte”, viens var būt daudz drošāks, jo tas:

atbilstoši pauž nenoteiktību
izvairās no pārāk pārliecinātām nepareizām atbildēm
sniedz varbūtības, kas atbilst realitātei

Kalibrēšana nav tikai akadēmiska — tā padara pārliecību par praktiski izmantojamu. Klasisks atklājums mūsdienu neironu tīklos ir tāds, ka pārliecības rādītājs var neatbilst patiesajai pareizībai, ja vien to tieši nekalibrē vai neizmēra. [3]

Ja jūsu cauruļvads izmanto tādus sliekšņus kā “automātiska apstiprināšana virs 0,9”, kalibrēšana ir atšķirība starp “automatizāciju” un “automatizētu haosu”

7) Kā tiek novērtēta mākslīgā intelekta precizitāte dažādiem mākslīgā intelekta veidiem 🧩📚

Klasiskajiem prognozēšanas modeļiem (klasifikācija/regresija) 📊

Bieži sastopamie rādītāji:

Precizitāte, precizitāte, atcerēšanās, F1
ROC-AUC / PR-AUC (bieži vien labāk piemērots nelīdzsvarotības problēmām)
Kalibrēšanas pārbaudes (ticamības līknes, paredzamās kalibrēšanas kļūdas domāšana) [3]

Valodu modeļiem un asistentiem 💬

Novērtēšana kļūst daudzdimensionāla:

pareizība (ja uzdevumam ir patiesības nosacījums)
norādījumu ievērošana
drošība un atteikšanās uzvedība (labi atteikumi ir dīvaini grūti)
faktu pamatojums/citēšanas disciplīna (ja jūsu lietošanas gadījums to prasa)
stabilitāte dažādās uzvednēs un lietotāju stilos

Viens no lielākajiem “holistiskās” vērtēšanas domāšanas ieguldījumiem ir skaidra viedokļa norādīšana: ir nepieciešami vairāki rādītāji vairākos scenārijos, jo kompromisi ir reāli. [5]

Sistēmām, kas balstītas uz LLM (darbplūsmām, aģentiem, izguvi) 🧰

Tagad jūs novērtējat visu cauruļvadu:

izguves kvalitāte (vai tika izgūta pareizā informācija?)
rīka loģika (vai tas sekoja procesam?)
izvades kvalitāte (vai tā ir pareiza un noderīga?)
aizsargbarjeras (vai tas novērsa riskantu uzvedību?)
uzraudzība (vai jūs novērojāt kļūmes reālajā dzīvē?) [1]

Vāja saite jebkurā vietā var likt visai sistēmai izskatīties “neprecīzi”, pat ja bāzes modelis ir pienācīgs.

8) Salīdzināšanas tabula: praktiski veidi, kā novērtēt “Cik precīzs ir mākslīgais intelekts?” 🧾⚖️

Rīks/pieeja	Vislabāk piemērots	Izmaksu sajūta	Kāpēc tas darbojas
Lietošanas gadījumu testu komplekti	LLM lietotnes + pielāgoti veiksmes kritēriji	Brīvības pieskaņa	Jūs pārbaudāt savu darbplūsmu, nevis nejaušu līderu sarakstu.
Daudzmetrisks scenāriju aptvērums	Atbildīga modeļu salīdzināšana	Brīvības pieskaņa	Jūs iegūstat spēju “profilu”, nevis vienu maģisku skaitli. [5]
Dzīves cikla risks + izvērtēšanas domāšana	Augstas likmes sistēmas, kurām nepieciešama stingrība	Brīvības pieskaņa	Mudina jūs nepārtraukti definēt, mērīt, pārvaldīt un uzraudzīt. [1]
Kalibrēšanas pārbaudes	Jebkura sistēma, kas izmanto ticamības sliekšņus	Brīvības pieskaņa	Pārbauda, vai frāzei “90% pārliecināts” ir kāda nozīme. [3]
Cilvēku vērtēšanas paneļi	Drošība, tonis, nianses, “vai tas šķiet kaitīgi?”	$$	Cilvēki uztver kontekstu un kaitējumu, ko automatizētā metrika nepamana.
Incidentu monitorings + atgriezeniskās saites cilpas	Mācīšanās no reālās pasaules neveiksmēm	Brīvības pieskaņa	Realitātei ir ieņēmumi, un ražošanas dati māca ātrāk nekā viedokļi. [1]

Formatēšanas īpatnības atzīšanās: “Bezmaksas” šeit dara daudz darba, jo patiesās izmaksas bieži vien ir cilvēku stundas, nevis licences 😅

9) Kā padarīt mākslīgo intelektu precīzāku (praktiski paņēmieni) 🔧✨

Labāki dati un labāki testi 📦🧪

Izvērst malas gadījumus
Līdzsvarojiet retus, bet kritiskus scenārijus
Saglabājiet “zelta komplektu”, kas atspoguļo reālas lietotāja sāpes (un pastāvīgi to atjauniniet)

Pamats faktuāliem uzdevumiem 📚🔍

Ja nepieciešama faktuāla uzticamība, izmantojiet sistēmas, kas iegūst datus no uzticamiem dokumentiem un sniedz atbildes, pamatojoties uz tiem. Daudzas ģeneratīvās mākslīgā intelekta riska vadlīnijas koncentrējas uz dokumentāciju, izcelsmi un novērtēšanas iestatījumiem, kas samazina izdomāta satura daudzumu, nevis tikai cer, ka modelis "uzvedīsies". [2]

Spēcīgākas novērtēšanas cilpas 🔁

Veikt novērtēšanu katrām nozīmīgajām izmaiņām
Vērojiet regresijas
Stresa tests dīvainām uzvednēm un ļaunprātīgām ievadēm

Veiciniet kalibrētu uzvedību 🙏

Nesodiet pārāk bargi to, kurš saka: "Es nezinu."
Novērtējiet nebalsošanas kvalitāti, ne tikai atbilžu īpatsvaru
Uztveriet pārliecību kā kaut ko tādu, ko jūs mērāt un apstiprināt, nevis kā kaut ko tādu, ko jūs pieņemat pēc vibrācijām [3]

10) Ātra pārbaude: kad vajadzētu uzticēties mākslīgā intelekta precizitātei? 🧭🤔

Uzticieties tam vairāk, ja:

uzdevums ir šaurs un atkārtojams
izejas var pārbaudīt automātiski
sistēma tiek uzraudzīta un atjaunināta
pārliecība ir kalibrēta, un tā var atturēties [3]

Uzticieties tam mazāk, ja:

Likmes ir augstas, un sekas ir reālas
Uzdevums ir atvērta tipa (“pastāsti man visu par…”) 😵💫
nav ne iezemējuma, ne verifikācijas, ne cilvēka veiktas pārskatīšanas
sistēma pēc noklusējuma darbojas pārliecinoši [2]

Nedaudz kļūdaina metafora: paļauties uz nepārbaudītu mākslīgo intelektu svarīgu lēmumu pieņemšanā ir kā ēst saulē nostāvējušos suši… tas varbūt ir labi, bet jūsu kuņģis riskē, kam neesat piekritis.

11) Noslēguma piezīmes un īss kopsavilkums 🧃✅

Cik precīzs ir mākslīgais intelekts?
Mākslīgais intelekts var būt neticami precīzs, taču tikai attiecībā pret definētu uzdevumu, mērīšanas metodi un vidi, kurā tas tiek izmantots. Un ģeneratīvajam mākslīgajam intelektam "precizitāte" bieži vien ir mazāk saistīta ar vienu vērtējumu un vairāk ar uzticamu sistēmas dizainu: pamatojumu, kalibrēšanu, pārklājumu, uzraudzību un godīgu novērtēšanu. [1][2][5]

Īss kopsavilkums 🎯

“Precizitāte” nav viens rādītājs — tā ir pareizība, kalibrēšana, robustums, uzticamība un (ģeneratīvā mākslīgā intelekta gadījumā) patiesums. [1][2][3]
Salīdzinošie rādītāji palīdz, bet lietošanas gadījumu izvērtēšana ļauj saglabāt godīgumu. [5]
Ja nepieciešama faktuāla ticamība, pievienojiet pamatojumu + verifikācijas soļus + atturēšanās novērtēšanu. [2]
Dzīves cikla novērtējums ir pieauguša cilvēka pieeja… pat ja tā ir mazāk aizraujoša nekā līderu saraksta ekrānuzņēmums. [1]

Reālās pasaules piemērs: AI atbalsta triāžas asistenta novērtēšana

Scenārijs

Iedomājieties, ka neliels SaaS uzņēmums vēlas izmantot mākslīgo intelektu, lai ienākošos atbalsta pieprasījumus kārtotu četrās rindās:

Norēķini

Pieteikšanās problēmas

Kļūdu ziņojumi

Funkciju pieprasījumi

Uzņēmums neļauj mākslīgajam intelektam tieši atbildēt klientiem. Tā uzdevums ir šaurāks: nolasīt pieprasījumu, izvēlēties pareizo rindu, piešķirt uzticamības vērtējumu un atzīmēt visu neskaidrību, lai cilvēks to pārskatītu.

Tas ievērojami atvieglo precizitātes problēmas pārbaudi. Ir skaidra “pareizā” rinda, cilvēks var pārskatīt kļūdas, un komanda var izmērīt, vai mākslīgais intelekts palīdz, nevis tikai izklausās izpalīdzīgs.

Kas asistentam ir nepieciešams

Lai to pareizi pārbaudītu, komanda sagatavojas:

Marķēts testa komplekts ar 100 reālām vai reālistiskām atbalsta pieteikumiem

Pareizā rinda katrai biļetei, ko apstiprinājis recenzents

Īsa politika, kurā paskaidrots, kas pieder katrai rindai

Noteikums, kas asistentam paredz, ka, ja uzticības līmenis ir zems, viņam jāpasaka “nepieciešama cilvēka pārskatīšana”

Vienkārša izsekošanas lapa ar: biļetes ID, mākslīgā intelekta rindu, cilvēka vadītu rindu, uzticamības rādītāju, pārskatīšanas rezultātu un patērēto laiku

Instrukcijas piemērs

Jūs esat atbalsta triāžas asistents. Izlasiet klienta ziņojumu un piešķiriet to vienai rindai: Rēķini, Pieteikšanās problēmas, Kļūdu ziņojumi, Funkciju pieprasījumi vai Nepieciešama cilvēka pārskatīšana.

Izmantojiet norēķinu sadaļu rēķiniem, atmaksām, maksājumu kļūmēm, plāna izmaiņām un jautājumiem par abonementiem.

Izmantojiet sadaļu “Pieteikšanās problēmas” paroles atiestatīšanai, konta piekļuvei, divfaktoru autentifikācijai, bloķētiem kontiem vai e-pasta verifikācijas problēmām.

Izmantojiet kļūdu ziņojumus, lai uzzinātu par bojātām funkcijām, kļūdu ziņojumiem, trūkstošiem datiem, avārijām vai darbību, kas neatbilst produkta dokumentācijai.

Izmantojiet funkciju pieprasījumus, ja klients pieprasa jaunu iespēju, integrāciju, iestatījumu vai darbplūsmas uzlabojumu.

Ja ziņojums ir neskaidrs, satur vairākas problēmas vai varētu ietekmēt drošību vai privātumu, izvēlieties Neppieciešama cilvēka pārskatīšana.

Atgriezums: rinda, ticamības pakāpe no 0 līdz 100, viena teikuma iemesls un vai cilvēkam tas jāpārbauda.

Kā to pārbaudīt

Sāciet ar nelielu “zelta komplektu”, pirms uzticaties sistēmai ražošanas vidē.

Piemēram:

20 norēķinu kvītis

20 pieteikšanās biļetes

20 kļūdu ziņojumi

20 funkciju pieprasījumi

20 sapinušās vai neskaidras biļetes

Pēc tam palaidiet asistentu ar visām 100 biļetēm un salīdziniet tā izvēlēto rindu ar cilvēka apstiprināto rindu.

Noderīgas pārbaudes ietver:

Kopējā precizitāte: cik biļešu nonāca pareizajā rindā?

Precizitāte pēc rindas: kad mākslīgais intelekts saka “Norēķins”, cik bieži tas izraksta rēķinu?

Atsaukšana pēc rindas: cik daudz reālu norēķinu biļešu tā noķēra?

Eskalācijas kvalitāte: vai sapinušās pieprasījuma atbildes tika pareizi nosūtītas cilvēka pārskatīšanai?

Kalibrēšana: vai lielākoties bija pareizi, ja tika norādīts 90 % vai lielāks ticamības līmenis?

Rezultāts

Ilustratīvais rezultāts: balstīts uz 100 paraugu biļešu laika noteikšanu pirms un pēc šīs darbplūsmas izmantošanas.

Pirms asistenta izmantošanas atbalsta speciālists pavadīja aptuveni 2 minūtes un 30 sekundes katrai pieprasījumam, manuāli nolasot un novirzot pieprasījumus. 100 pieprasījumu gadījumā tas bija aptuveni 250 minūtes triāžas darbam.

Pēc asistenta izmantošanas atbalsta vadītājs pārskatīja tikai mākslīgā intelekta rindas izvēli un pārbaudīja zemas ticamības gadījumus. Pārskatīšanas laiks samazinājās līdz aptuveni 55 sekundēm uz vienu pieteikumujeb aptuveni 92 minūtēm 100 pieteikumiem.

Tas ir aptuveni 158 minūšu ietaupījums uz katriem 100 biļetēmjeb aptuveni par 63% mazāks triāžas laiks.

Fiktīvā 100 biļešu testa komplekta precizitāte izskatījās šādi:

Kopējā rindas precizitāte: 87/100 biļetes pareizas

Biļetes ar augstu ticamības pakāpi virs 85%: 61 biļete

Precizitāte augstas uzticamības biļetēs: 58/61 pareiza

Biļetes nosūtītas cilvēku pārskatīšanai: 18 biļetes

Neskaidrās pieprasījuma atbildes pareizi eskalētas: 15/20

Svarīga detaļa nav tikai 87% precizitāte. Drošāks rezultāts ir tas, ka asistents bija precīzāks, kad bija pārliecināts , un daudzus neskaidrus gadījumus novirzīja cilvēkam, nevis minēja. Tā ir atšķirība starp noderīgu automatizāciju un pārliecinātu muļķību.

Kas var noiet greizi

Visbiežāk pieļautā kļūda ir tikai tīru piemēru testēšana. Reālas pieprasījuma veidlapas ir sapinušās. Klients varētu rakstīt: “Man divreiz tika iekasēta maksa, un tagad es nevaru pieteikties.” Atkarībā no uzņēmuma procesa tas varētu būt saistīts ar norēķiniem, pieteikšanās problēmām vai nepieciešamību pēc cilvēka pārskatīšanas.

Citi riski ietver:

Izmantojot vecas biļetes, kas vairs neatbilst produktam

Ļaujot mākslīgajam intelektam izgudrot politikas noteikumus, kas nav iekļauti atbalsta rokasgrāmatā

Uzticamības rādītāju uzskatīšana par ticamiem, nepārbaudot kalibrēšanu

Mēra tikai kopējo precizitāti un nepamana sliktu veiktspēju vienā rindā

Sodīt tik bargi “Nepieciešama cilvēka pārskatīšana”, ka asistents sāk minēt

Labam testam vajadzētu atalgot pareizu eskalāciju. Daudzās biznesa darbplūsmās “es neesmu pārliecināts” nav kļūme. Tā ir drošības funkcija.

Praktiska līdzņemšana

Labākais veids, kā atbildēt uz jautājumu “Cik precīzs ir mākslīgais intelekts?”, ir pārtraukt to uzdot abstrakti. Izvēlieties vienu uzdevumu, izveidojiet nelielu testu komplektu, definējiet, kas tiek uzskatīts par pareizu, izmēriet kļūdas pa kategorijām un pārbaudiet, vai mākslīgais intelekts zina, kad nodot darbu atpakaļ personai. Tas dod jums konkrētu precizitātes skaitli, ko varat uzlabot, nevis tikai noslīpētu etalona rezultātu.

Bieži uzdotie jautājumi

Mākslīgā intelekta precizitāte praktiskajā ieviešanā

Mākslīgais intelekts var būt ārkārtīgi precīzs, ja uzdevums ir šaurs, precīzi definēts un saistīts ar skaidru, patiesu vērtējumu. Ražošanas vidē “precizitāte” ir atkarīga no tā, vai jūsu novērtēšanas dati atspoguļo trokšņainas lietotāja ievades un apstākļus, ar kuriem jūsu sistēma saskarsies darbībā. Uzdevumiem kļūstot atvērtākiem (piemēram, tērzēšanas robotiem), kļūdas un pārliecinātas halucinācijas parādās biežāk, ja vien nepievienojat pamatojumu, verifikāciju un uzraudzību.

Kāpēc “precizitāte” nav viens no rādītājiem, kam var uzticēties

Cilvēki lieto vārdu “precizitāte” dažādās nozīmēs: pareizība, precizitāte salīdzinājumā ar atcerēšanos, kalibrēšana, robustums un uzticamība. Modelis var izskatīties lieliski tīrā testu komplektā, bet pēc tam paklupt, mainot formulējuma nobīdes, datu novirzes vai likmes. Uz uzticēšanos vērsta novērtēšana izmanto vairākus rādītājus un scenārijus, nevis uzskata vienu skaitli par universālu spriedumu.

Labākais veids, kā izmērīt mākslīgā intelekta precizitāti konkrētam uzdevumam

Sāciet, definējot uzdevumu tā, lai “pareizi” un “nepareizi” būtu pārbaudāmi, nevis neskaidri. Izmantojiet reprezentatīvus, trokšņainus testa datus, kas atspoguļo reālus lietotājus un robežgadījumus. Izvēlieties rādītājus, kas atbilst sekām, īpaši nelīdzsvarotiem vai augsta riska lēmumiem. Pēc tam pievienojiet ārpus izplatīšanas esošus stresa testus un laika gaitā veiciet atkārtotu novērtēšanu, attīstoties jūsu videi.

Kā precizitāte un atcerēšanās formas precizitāte praksē

Precizitāte un atsaukšana ir saistītas ar dažādām kļūmju izmaksām: precizitāte uzsver viltus trauksmju novēršanu, savukārt atsaukšana uzsver visu pamanīšanu. Ja filtrējat surogātpastu, dažas kļūdas var būt pieņemamas, taču viltus pozitīvi rezultāti var satraukt lietotājus. Citos apstākļos retu, bet kritisku gadījumu nepamanīšana ir svarīgāka par papildu atzīmēšanu. Pareizais līdzsvars ir atkarīgs no tā, kādas ir “nepareizas” sekas jūsu darbplūsmā.

Kas ir kalibrēšana un kāpēc tā ir svarīga precizitātei

Kalibrēšana pārbauda, vai modeļa ticamības līmenis atbilst realitātei — ja tas saka “90% pārliecināts”, vai tas ir pareizi aptuveni 90% gadījumu? Tas ir svarīgi, ja iestatāt robežvērtības, piemēram, automātisko apstiprināšanu, virs 0,9. Diviem modeļiem var būt līdzīga precizitāte, taču labāk kalibrētais ir drošāks, jo tas samazina pārāk pārliecinātas nepareizas atbildes un atbalsta gudrāku atturēšanos.

Ģeneratīvā mākslīgā intelekta precizitāte un halucināciju iemesls

Ģeneratīvais mākslīgais intelekts var radīt plūstošu, ticamu tekstu pat tad, ja tas nav balstīts uz faktiem. Precizitāti ir grūtāk noteikt, jo daudzas uzvednes pieļauj vairākas pieņemamas atbildes, un modeļus var optimizēt “noderīgumam”, nevis stingrai pareizībai. Halucinācijas kļūst īpaši riskantas, ja rezultāti tiek piegādāti ar augstu pārliecību. Faktu lietošanas gadījumos pamatojums uzticamos dokumentos un verifikācijas soļi palīdz samazināt safabricētu saturu.

Sadalījuma nobīdes un ārpussadalījuma ievades datu pārbaude

Izplatīšanas ietvaros veiktie etaloni var pārspīlēt veiktspēju, mainoties pasaulei. Veiciet testus ar neparastu frāzējumu, drukas kļūdām, neskaidriem ievades datiem, jauniem laika periodiem un jaunām kategorijām, lai noskaidrotu, kur sistēma sabrūk. Tādi etaloni kā WILDS ir veidoti, balstoties uz šo ideju: veiktspēja var strauji samazināties, mainoties datiem. Uztveriet stresa testēšanu kā galveno novērtēšanas daļu, nevis kā kaut ko patīkamu.

Mākslīgā intelekta sistēmas precīzāka veidošana laika gaitā

Uzlabojiet datus un testus, paplašinot robežgadījumus, līdzsvarojot retus, bet kritiskus scenārijus un uzturot “zelta komplektu”, kas atspoguļo reālas lietotāju sāpes. Faktiskiem uzdevumiem pievienojiet pamatojumu un verifikāciju, nevis ceriet, ka modelis darbosies pareizi. Veiciet novērtējumu katrām nozīmīgām izmaiņām, novērojiet regresijas un uzraugiet ražošanas vidē novirzes. Novērtējiet arī atturēšanos, lai “es nezinu” netiktu sodīts par pārliecinātu minējumu.

Atsauces

[1] NIST AI RMF 1.0 (NIST AI 100-1): Praktisks ietvars AI risku identificēšanai, novērtēšanai un pārvaldībai visā dzīves ciklā. lasīt vairāk
[2] NIST Ģeneratīvais AI profils (NIST AI 600-1): AI RMF papildprofils, kas koncentrējas uz riska apsvērumiem, kas raksturīgi ģeneratīvajām AI sistēmām. lasīt vairāk
[3] Guo et al. (2017) - Mūsdienu neironu tīklu kalibrēšana: Pamatdokuments, kurā parādīts, kā mūsdienu neironu tīklus var nepareizi kalibrēt un kā var uzlabot kalibrēšanu. lasīt vairāk
[4] Koh et al. (2021) - WILDS etalons: Etalonu komplekts, kas paredzēts modeļa veiktspējas pārbaudei reālās pasaules sadalījuma maiņās. lasīt vairāk
[5] Liang et al. (2023) - HELM (Valodu modeļu holistiskā novērtēšana): Ietvars valodu modeļu novērtēšanai dažādos scenārijos un metrikā, lai atklātu reālus kompromisus. lasīt vairāk

Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru