Kas ir izskaidrojamais mākslīgais intelekts?

Kas ir izskaidrojamais mākslīgais intelekts?

Izskaidrojamais mākslīgais intelekts ir viena no tām frāzēm, kas vakariņu laikā izklausās lieliski un kļūst absolūti nepieciešama brīdī, kad algoritms nosaka medicīnisku diagnozi, apstiprina aizdevumu vai atzīmē sūtījumu. Ja kādreiz esat domājuši: labi, bet kāpēc modelis to izdarīja…, jūs jau atrodaties izskaidrojamā mākslīgā intelekta teritorijā. Izklāstīsim šo ideju vienkāršā valodā — nekādas maģijas, tikai metodes, kompromisi un dažas skarbas patiesības.

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Kas ir mākslīgā intelekta aizspriedumi?
Izprast mākslīgā intelekta radītās neobjektivitātes, to avotus, ietekmi un mazināšanas stratēģijas.

🔗 Kas ir paredzošā mākslīgā intelekta (MI) metode?
Izpētiet paredzošo mākslīgo intelektu, tā biežāk lietotos lietojumus, priekšrocības un praktiskos ierobežojumus.

🔗 Kas ir humanoīdu robotu mākslīgais intelekts?
Uzziniet, kā mākslīgais intelekts darbina humanoīdus robotus, iespējas, piemērus un izaicinājumus.

🔗 Kas ir mākslīgā intelekta treneris?
Uzziniet, ko dara mākslīgā intelekta pasniedzēji, nepieciešamās prasmes un karjeras ceļus.


Ko patiesībā nozīmē izskaidrojamais mākslīgais intelekts

Izskaidrojamais mākslīgais intelekts (MI) ir MI sistēmu izstrādes un izmantošanas prakse, lai to rezultātus varētu saprast cilvēki — konkrētas personas, kuras ietekmē lēmumi vai ir par tiem atbildīgas, ne tikai matemātikas burvji. NIST to iedala četros principos: sniegt skaidrojumu , padarīt to jēgpilnu auditorijai, nodrošināt skaidrojuma precizitāti (atbilstoši modelim) un ievērot zināšanu ierobežojumus (nepārspīlēt sistēmas zināšanas) [1].

Īsa vēsturiska atkāpe: drošībai kritiskas jomas jau agrīnā stadijā virzīja šo pieeju, tiecoties pēc modeļiem, kas saglabā precizitāti, bet ir pietiekami interpretējami, lai uzticētos "apļa" procesam. Ziemeļzvaigzne nav mainījusies — izmantojami skaidrojumi, neietekmējot veiktspēju.


Kāpēc izskaidrojamam mākslīgajam intelektam ir lielāka nozīme, nekā jūs domājat 💡

  • Uzticēšanās un pieņemšana — cilvēki pieņem sistēmas, kuras viņi var vaicāt, apšaubīt un labot.

  • Risks un drošība — virsmas bojājumu veidu skaidrojumi, pirms tie jūs pārsteidz mērogā.

  • Regulējošās prasības — ES Mākslīgā intelekta likums nosaka skaidrus pārredzamības pienākumus, piemēram, informējot cilvēkus par to, kad viņi noteiktos kontekstos mijiedarbojas ar mākslīgo intelektu, un atbilstoši marķējot mākslīgā intelekta ģenerētu vai manipulētu saturu [2].

Būsim godīgi — skaisti informācijas paneļi nav skaidrojumi. Labs skaidrojums palīdz cilvēkam izlemt, ko darīt tālāk.


Kas padara izskaidrojamo mākslīgo intelektu noderīgu ✅

Novērtējot jebkuru XAI metodi, jautājiet par:

  1. Uzticība — vai skaidrojums atspoguļo modeļa uzvedību vai tikai stāsta mierinošu stāstu?

  2. Noderīgums auditorijai — datu zinātnieki vēlas gradientus; klīnicisti vēlas hipotētiskus scenārijus vai noteikumus; klienti vēlas vienkāršā valodā formulētus iemeslus, kā arī nākamos soļus.

  3. Stabilitāte — nelielām ievades izmaiņām nevajadzētu apgriezt stāstu no A uz Z.

  4. Rīcība — ja rezultāts ir nevēlams, kas varētu būt mainījies?

  5. Godīgums par nenoteiktību — skaidrojumiem vajadzētu atklāt robežas, nevis tās aizkrāsot.

  6. Skaidra darbības joma — vai tas ir lokāls vienas prognozes skaidrojums vai modeļa uzvedības globāls

Ja atceraties tikai vienu lietu: noderīgs skaidrojums maina kāda cilvēka lēmumu, ne tikai viņa noskaņojumu.


Galvenie jēdzieni, kurus dzirdēsiet daudz 🧩

  • Interpretējamība pret izskaidrojamību — interpretējamība: modelis ir pietiekami vienkāršs, lai to lasītu (piemēram, mazs koks). Izskaidrojamība: pievienojiet metodi, lai sarežģītu modeli padarītu salasāmu.

  • Lokālais pret globālo — lokālais izskaidro vienu lēmumu; globālais apkopo uzvedību kopumā.

  • Post-hoc pret intrinsic — post-hoc izskaidro apmācītu melno kasti; intrinsic izmanto pēc būtības interpretējamus modeļus.

Jā, šīs robežas izplūst. Tas ir labi; valoda attīstās; jūsu risku reģistrs ne.


Populāras izskaidrojamas mākslīgā intelekta metodes — tūre 🎡

Lūk, īsa ekskursija ar muzeja audiogida noskaņu, bet īsāku.

1) Papildu funkciju attiecinājumi

  • SHAP — Piešķir katrai iezīmei ieguldījumu konkrētā prognozē, izmantojot spēļu teorētiskas idejas. Iecienīts skaidru aditīvu skaidrojumu un vienojoša skatījuma dēļ uz dažādiem modeļiem [3].

2) Vietējie surogātmodeļi

  • LIME — apmāca vienkāršu, lokālu modeli ap skaidrojamo instanci. Ātri, cilvēkam lasāmi kopsavilkumi par to, kuras funkcijas bija svarīgas tuvumā. Lieliski piemērots demonstrācijām, noderīgs stabilitātes nodrošināšanai treniņa un novērošanas laikā [4].

3) Gradienta metodes dziļajiem tīkliem

  • Integrētie gradienti — piešķir svarīgumu, integrējot gradientus no bāzes līnijas līdz ievadei; bieži izmanto redzei un tekstam. Jūtamas aksiomas; nepieciešama piesardzība ar bāzes līnijām un troksni [1].

4) Uz piemēriem balstīti skaidrojumi

  • Hipotētiskie fakti — “Kādas minimālas izmaiņas būtu mainījušas rezultātu?” Lieliski piemērots lēmumu pieņemšanai, jo tas ir dabiski īstenojams — dariet X, lai iegūtu Y [1].

5) Prototipi, noteikumi un daļēja atkarība

  • Prototipi rāda reprezentatīvus piemērus; noteikumi atspoguļo modeļus, piemēram, ja ienākumi > X un vēsture = tīrs, tad apstiprināt ; daļēja atkarība parāda pazīmes vidējo efektu noteiktā diapazonā. Vienkāršas idejas, bieži vien nenovērtētas.

6) Valodu modeļiem

  • Token/spans atribūcijas, izgūtie piemēri un strukturēti pamatojumi. Noderīgi, ar ierasto atrunu: kārtīgas siltuma kartes negarantē cēloņsakarību [5].


Ātrs (apkopots) gadījums no lauka 🧪

Vidēja lieluma aizdevējs piedāvā gradientu palielinātu modeli kredītlēmumu pieņemšanai. Vietējais SHAP palīdz aģentiem izskaidrot nelabvēlīgu iznākumu (“Parāda un ienākumu attiecība un nesenā kredīta izmantošana bija galvenie virzītājspēki.”) [3]. Hipotētiskais slānis iesaka iespējamu regresa iespēju (“Samaziniet apgrozāmo izmantošanu par ~10% vai pievienojiet 1500 sterliņu mārciņu pārbaudītos noguldījumos, lai mainītu lēmumu.”) [1]. Komanda iekšēji veic nejaušināšanas testus ar ievērojamības stila vizuāliem materiāliem, ko tā izmanto kvalitātes nodrošināšanā, lai pārliecinātos, ka svarīgākie elementi nav tikai maskēti malu detektori [5]. Viens un tas pats modelis, dažādi skaidrojumi dažādām auditorijām — klientiem, operāciju vadītājiem un auditoriem.


Neērtā daļa: skaidrojumi var maldināt 🙃

Dažas ievērojamības noteikšanas metodes izskatās pārliecinošas pat tad, ja tās nav saistītas ar apmācīto modeli vai datiem. Saprāta pārbaudes parādīja, ka noteiktas metodes var neizturēt pamata testus, radot maldīgu izpratnes sajūtu. Tulkojums: skaisti attēli var būt tīra teātra izrāde. Iestrādājiet validācijas testus savām skaidrojošajām metodēm [5].

Arī reti ≠ godīgi. Viena teikuma iemesls var slēpt lielas mijiedarbības. Nelielas pretrunas skaidrojumā var liecināt par reālu modeļa nenoteiktību vai vienkārši troksni. Tavs uzdevums ir pateikt, kurš ir kurš.


Pārvaldība, politika un pieaugošā pārredzamības latiņa 🏛️

Politikas veidotāji sagaida kontekstam atbilstošu pārredzamību. ES Mākslīgā intelekta likums nosaka tādus pienākumus kā informēt cilvēkus, kad viņi konkrētos gadījumos mijiedarbojas ar mākslīgo intelektu, un marķēt mākslīgā intelekta ģenerētu vai manipulētu saturu ar atbilstošiem paziņojumiem un tehniskiem līdzekļiem, ievērojot izņēmumus (piemēram, likumīga izmantošana vai aizsargāta izpausme) [2]. Inženierijas jomā NIST sniedz uz principiem orientētas vadlīnijas, lai palīdzētu komandām izstrādāt skaidrojumus, ko cilvēki faktiski var izmantot [1].


Kā izvēlēties izskaidrojamu mākslīgā intelekta pieeju — īsa karte 🗺️

  1. Sāciet ar lēmumu — kam ir nepieciešams skaidrojums un kādai rīcībai?

  2. Pielāgojiet metodi modelim un videi

    • Gradienta metodes dziļajiem tīkliem redzē vai NLP [1].

    • SHAP vai LIME tabulāriem modeļiem, ja nepieciešami pazīmju atribūcijas [3][4].

    • Hipotētiski scenāriji klientu apkalpošanas koriģējošai rīcībai un apelācijām [1].

  3. Iestatiet kvalitātes vārtus — uzticamības pārbaudes, stabilitātes testi un cilvēka veiktas pārbaudes [5].

  4. Plānojiet mērogu — skaidrojumiem jābūt reģistrējamiem, pārbaudāmiem un auditējamiem.

  5. Dokumentējiet ierobežojumus — neviena metode nav perfekta; pierakstiet zināmos atteices veidus.

Neliela piezīme — ja nevarat pārbaudīt skaidrojumus tāpat kā testējat modeļus, jums, iespējams, nav skaidrojumu, tikai vibrācijas.


Salīdzināšanas tabula — izplatītas izskaidrojamas mākslīgā intelekta opcijas 🧮

Nedaudz īpatnējs ar nolūku; īstā dzīve ir haotiska.

Rīks/metode Labākā auditorija Cena Kāpēc tas viņiem der
FORMA Datu zinātnieki, auditori Bezmaksas/atvērts Additīvas atribūcijas — konsekventas, salīdzināmas [3].
LAIKS Produktu komandas, analītiķi Bezmaksas/atvērts Ātri lokāli surogāti; viegli uztverami; dažreiz trokšņaini [4].
Integrētie gradienti ML inženieri dziļajos tīklos Bezmaksas/atvērts Uz gradientiem balstītas atribūcijas ar saprātīgām aksiomām [1].
Hipotētiski fakti Gala lietotāji, atbilstība, darbības Jaukts Tieši atbild uz jautājumiem, kas jāmaina; ļoti viegli īstenojams [1].
Noteikumu saraksti / Koki Risku īpašnieki, pārvaldnieki Bezmaksas/atvērts Iekšējā interpretējamība; globāli kopsavilkumi.
Daļēja atkarība Modeļu izstrādātāji, kvalitātes nodrošināšana Bezmaksas/atvērts Vizualizē vidējos efektus dažādos diapazonos.
Prototipi un paraugi Dizaineri, recenzenti Bezmaksas/atvērts Konkrēti, cilvēkam draudzīgi piemēri; saprotami.
Instrumentu platformas Platformas komandas, pārvaldība Komerciāls Uzraudzība + skaidrojums + audits vienuviet.

Jā, šūnas ir nevienmērīgas. Tāda ir dzīve.


Vienkārša darbplūsma izskaidrojamam mākslīgajam intelektam ražošanā 🛠️

1. solis. Definējiet jautājumu.
 Izlemiet, kura vajadzības ir vissvarīgākās. Datu zinātniekam izskaidrojamība nav tas pats, kas klientam iesniegtā apelācijas vēstule.

2. solis. Izvēlieties metodi atbilstoši kontekstam.

  • Tabulveida riska modelis aizdevumiem — sāciet ar SHAP lokāliem un globāliem gadījumiem; pievienojiet hipotētiskos scenārijus regresa situācijai [3][1].

  • Redzes klasifikators — izmantojiet integrētos gradientus vai līdzīgus; pievienojiet saprāta pārbaudes, lai izvairītos no ievērojamības kļūmēm [1][5].

3. solis. Validējiet skaidrojumus.
Veiciet skaidrojumu atbilstības testus; pārbaudiet ievades datus; vai svarīgās funkcijas atbilst nozares zināšanām. Ja jūsu galvenās funkcijas katrā pārkvalificēšanas reizē strauji mainās, apstājieties.

4. solis. Padariet skaidrojumus lietojamus.
Vienkāršā valodā sniedziet iemeslus līdzās diagrammām. Iekļaujiet nākamās labākās darbības. Vajadzības gadījumā piedāvājiet saites uz rezultātu apstrīdēšanu — tieši to pārredzamības noteikumi cenšas atbalstīt [2].

5. solis. Uzraudzīt un reģistrēt.
Laika gaitā izsekot skaidrojumu stabilitātei. Maldinoši skaidrojumi ir riska signāls, nevis kosmētiska kļūda.


Padziļināta analīze 1: lokāli un globāli skaidrojumi praksē 🔍

  • Vietējais konteksts palīdz cilvēkam saprast, kāpēc viņa lieta tika pieņemta šādā lēmumā, kas ir izšķiroši svarīgi jutīgos kontekstos.

  • Globāli palīdz jūsu komandai nodrošināt, ka modeļa apgūtā uzvedība atbilst politikai un jomas zināšanām.

Dariet abus. Jūs varētu sākt lokāli pakalpojumu sniegšanai un pēc tam pievienot globālu uzraudzību novirzes un taisnīguma pārskatīšanai.


2. padziļināta analīze: hipotētiski scenāriji apelācijas sūdzībām un atbalstam 🔄

Cilvēki vēlas zināt minimālās izmaiņas, lai iegūtu labāku rezultātu. Hipotektiskie skaidrojumi dara tieši to — mainot šos konkrētos faktorus, rezultāts mainās [1]. Uzmanību: hipotētiskajiem skaidrojumiem ir jāievēro iespējamība un taisnīgums . Liecināt kādam mainīt nemainīgu atribūtu nav plāns, bet gan brīdinājuma signāls.


Padziļināta analīze 3: Saprāta pārbaude, nozīmīgums 🧪

Ja izmantojat spilgtuma kartes vai gradientus, veiciet sakritības pārbaudes. Dažas metodes ģenerē gandrīz identiskas kartes pat tad, ja modeļa parametrus nejaušina, kas nozīmē, ka tās var izcelt malas un tekstūras, nevis apgūtus pierādījumus. Lieliskas siltuma kartes, maldinošs stāsts. Integrējiet automatizētas pārbaudes CI/CD [5].


Bieži uzdotie jautājumi, kas rodas katrā sanāksmē 🤓

J: Vai izskaidrojamais mākslīgais intelekts ir tas pats, kas taisnīgums?
A: Nē. Skaidrojumi palīdz saskatīt uzvedību; taisnīgums ir īpašība, kas jāpārbauda un jāievieš . Saistīts, nevis identisks.

J: Vai vienkāršāki modeļi vienmēr ir labāki?
A: Dažreiz. Bet vienkāršs un nepareizs joprojām ir nepareizs. Izvēlieties vienkāršāko modeli, kas atbilst veiktspējas un pārvaldības prasībām.

J: Vai skaidrojumi nopludinās intelektuālo īpašumu?
A: Var. Kalibrējiet detaļas atbilstoši auditorijai un riskam; dokumentējiet, ko jūs atklājat un kāpēc.

J: Vai mēs varam vienkārši parādīt funkciju svarīgumu un teikt, ka tas ir pabeigts?
A: Ne īsti. Svarīguma joslas bez konteksta vai atsauces ir tikai dekorācija.


Pārāk gara, neizlasīta versija un noslēguma piezīmes 🌯

Izskaidrojamā mākslīgā intelekta (MI) joma ir tāda, kas padara modeļa uzvedību saprotamu un noderīgu cilvēkiem, kuri uz to paļaujas. Vislabākajiem skaidrojumiem ir uzticamība, stabilitāte un skaidra auditorija. Tādām metodēm kā SHAP, LIME, integrētie gradienti un pretfaktuālie piemēri ir savas stiprās puses — izmantojiet tos apzināti, rūpīgi pārbaudiet tos un prezentējiet valodā, pēc kuras cilvēki var rīkoties. Un atcerieties, ka eleganti vizuālie materiāli var būt teātris; pieprasiet pierādījumus, ka jūsu skaidrojumi atspoguļo modeļa patieso uzvedību. Iekļaujiet izskaidrojamību sava modeļa dzīves ciklā — tas nav glancēts papildinājums, bet gan daļa no tā, kā jūs atbildīgi piegādājat produktus.

Godīgi sakot, tas ir mazliet līdzīgi kā dot savam modelim balsi. Dažreiz tas murmina; dažreiz tas pārspīlē; dažreiz tas pasaka tieši to, kas jums bija jādzird. Tavs uzdevums ir palīdzēt tam pateikt pareizo lietu, pareizajai personai, īstajā brīdī. Un pievienot vienu vai divas labas etiķetes. 🎯


Atsauces

[1] NIST IR 8312 — Četri izskaidrojama mākslīgā intelekta principi . Nacionālais standartu un tehnoloģiju institūts. Lasīt vairāk

[2] Regula (ES) 2024/1689 — Mākslīgā intelekta likums (Oficiālais Vēstnesis/EUR-Lex) . Lasīt vairāk

[3] Lundbergs un Lī (2017) — “Vienota pieeja modeļu paredzējumu interpretācijai”. arXiv. lasīt vairāk

[4] Ribeiro, Singh un Guestrin (2016) — “Kāpēc man tev uzticēties?” Jebkura klasifikatora paredzējumu skaidrojums. arXiv. lasīt vairāk

[5] Adebayo et al. (2018) — “Sanity Checks for Saliency Maps.” NeurIPS (PDF dokuments). Lasīt vairāk

Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru