Kā mākslīgais intelekts atklāj anomālijas?

Anomāliju noteikšana ir datu operāciju klusais varonis — dūmu detektors, kas čukst, pirms kaut kas aizdegas.

Vienkārši sakot: mākslīgais intelekts apgūst, kā izskatās “normāls” stāvoklis, piešķir jauniem notikumiem anomālijas vērtējumuun pēc tam, pamatojoties uz slieksni. Problēma slēpjas tajā, kā jūs definējat “normālu” stāvokli, ja jūsu dati ir sezonāli, haotiski, mainīgi un reizēm melo. [1]

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Kāpēc mākslīgais intelekts var kaitēt sabiedrībai.
Tiek pētīti ētiskie, ekonomiskie un sociālie riski, kas saistīti ar plašu mākslīgā intelekta ieviešanu.

🔗 Cik daudz ūdens faktiski patērē mākslīgā intelekta sistēmas.
Izskaidro datu centra dzesēšanu, apmācības prasības un ietekmi uz ūdeni uz vidi.

🔗 Kas ir mākslīgā intelekta datu kopa un kāpēc tā ir svarīga?
Definē datu kopas, marķēšanu, avotus un to lomu modeļa veiktspējā.

🔗 Kā mākslīgais intelekts prognozē tendences no sarežģītiem datiem.
Aptver modeļu atpazīšanu, mašīnmācīšanās modeļus un prognozēšanas pielietojumu reālajā pasaulē.

"Kā mākslīgais intelekts atklāj anomālijas?"

Labai atbildei vajadzētu būt kas vairāk par algoritmu uzskaitīšanu. Tai vajadzētu izskaidrot mehāniku un to, kā tā izskatās, ja to pielieto reāliem, nepilnīgiem datiem. Vislabākie skaidrojumi:

Norādiet pamatsastāvdaļas: pazīmes, bāzes līnijas, rādītājusun robežvērtības. [1]
Kontrastējošas praktiskas ģimenes: attālums, blīvums, viena klase, izolācija, varbūtība, rekonstrukcija. [1]
Rīkojieties ar laika rindu īpatnībām: “normāls” ir atkarīgs no diennakts laika, nedēļas dienas, izlaidumiem un svētku dienām. [1]
Izturieties pret izvērtēšanu kā pret īstu ierobežojumu: viltus trauksmes signāli nav tikai kaitinoši – tie iedzen uzticību. [4]
Iekļaujiet interpretējamību + cilvēka iesaisti procesā, jo “tas ir dīvaini” nav pamatcēlonis. [5]

Galvenā mehānika: bāzes līnijas, rezultāti, sliekšņi 🧠

Lielākā daļa anomāliju sistēmu – iedomātas vai nē – reducējas uz trim kustīgām daļām:

1) Attēlojums (t. i., ko modelis redz)

Neapstrādāti signāli reti kad ir pietiekami. Jūs vai nu izstrādājat pazīmes (mainīgo statistiku, attiecības, nobīdes, sezonālās deltas), vai arī apgūstat reprezentācijas (iegultos elementus, apakštelpas, rekonstrukcijas). [1]

2) Punktu skaitīšana (cik gan tas ir “dīvaini”?)

Bieži sastopamas vērtēšanas idejas ietver:

Attāluma balstīts: tālu no kaimiņiem = aizdomīgs. [1]
Blīvuma pamatā: zems lokālais blīvums = aizdomīgs (LOF ir plakāta bērns). [1]
Vienas klases robežas: apgūstiet “normālu”, atzīmējiet, kas neietilpst ārpus tām. [1]
Varbūtība: zema iespējamība pēc pielāgota modeļa = aizdomīgs. [1]
Rekonstrukcijas kļūda: ja modelis, kas apmācīts normālā režīmā, to nevar atjaunot, tas, iespējams, ir nepareizi funkcionējis. [1]

3) Sliekšņa noteikšana (jeb, kad zvanīt)

Sliekšņi var būt fiksēti, kvantiļu balstīti, segmentēti vai izmaksu ziņā jutīgi, taču tie jākalibrē, ņemot vērā brīdinājuma budžetus un pakārtotās izmaksas, nevis vibrācijas. [4]

Viena ļoti praktiska detaļa: scikit-learn noviržu/noviržu detektori atklāj neapstrādātus rezultātus un pēc tam piemēro slieksni (bieži vien kontrolētu, izmantojot piesārņojuma stila pieņēmumu), lai pārvērstu rezultātus par netiešiem/noviržu lēmumiem. [2]

Ātras definīcijas, kas vēlāk novērš sāpes 🧯

Divas atšķirības, kas pasargās jūs no smalkām kļūdām:

Noviržu noteikšana: jūsu apmācības dati jau var ietvert novirzes; algoritms jebkurā gadījumā mēģina modelēt “blīvo normālo apgabalu”.
Jaunuma noteikšana: tiek pieņemts, ka apmācības dati ir tīri; jūs vērtējat, vai jaunie novērojumi atbilst apgūtajam normālajam modelim. [2]

Tāpat: jaunuma noteikšana bieži tiek veidota kā vienas klases klasifikācija — normāla modelēšana, jo anomāli piemēri ir reti vai nav definēti. [1]

Neuzraudzīti darba zirgi, kurus jūs patiešām izmantosiet 🧰

Kad etiķešu ir maz (kas būtībā vienmēr ir), šie ir rīki, kas parādās reālos cauruļvados:

Izolācijas mežs: spēcīgs noklusējums daudzos tabulāros gadījumos, plaši izmantots praksē un ieviests scikit-learn. [2]
Vienas klases SVM: var būt efektīvs, bet ir jutīgs pret regulēšanu un pieņēmumiem; scikit-learn skaidri norāda uz nepieciešamību pēc rūpīgas hiperparametru regulēšanas. [2]
Lokālais noviržu faktors (LOF): klasiska blīvumā balstīta vērtēšana; lieliski piemērota, ja “normāls” nav glīts plankums. [1]

Praktisks klupšanas akmens, ko komandas atklāj katru nedēļu: LOF uzvedas atšķirīgi atkarībā no tā, vai veicat noviržu noteikšanu apmācības kopā vai jaunuma noteikšanu jauniem datiem — scikit-learn pat prasa jaunums=True, lai droši iegūtu neredzētus punktus. [2]

Stabila bāzes līnija, kas joprojām darbojas, kad dati ir sarežģīti 🪓

Ja atrodaties režīmā “mums vienkārši vajag kaut ko tādu, kas mūs neieved aizmirstībā”, stabila statistika tiek novērtēta par zemu.

Modificētajā z-rādītājā tiek izmantota mediāna un MAD (mediānā absolūtā novirze) , lai samazinātu jutību pret ekstremālām vērtībām. NIST EDA rokasgrāmatā ir dokumentēta modificētā z-rādītāja forma un norādīts uz bieži lietotu "potenciālo novirzi" kā īkšķa likumu absolūtā vērtībā virs 3,5. [3]

Tas neatrisinās visas anomāliju problēmas, taču bieži vien tā ir spēcīga pirmā aizsardzības līnija, īpaši trokšņainu rādītāju un agrīnās stadijas uzraudzības gadījumā. [3]

Laika rindas realitāte: “Normāli” ir atkarīgs no tā, kad ⏱️📈

Laika rindu anomālijas ir sarežģītas, jo galvenais ir konteksts: varētu būt sagaidāms maksimums pusdienlaikā; tas pats maksimums plkst. 3:00 varētu nozīmēt, ka kaut kas deg. Tāpēc daudzas praktiskas sistēmas modelē normalitāti, izmantojot laika ziņā atkarīgas pazīmes (nobīdes, sezonālās deltas, slīdošos logus) un novērtē novirzes attiecībā pret paredzamo modeli. [1]

Ja atceraties tikai vienu noteikumu: segmentējiet savu bāzes līniju (stunda/diena/reģions/pakalpojuma līmenis), pirms puse no datplūsmas tiek pasludināta par “anomālu”. [1]

Novērtējums: Reto notikumu slazds 🧪

Anomāliju noteikšana bieži vien ir kā “adata siena kaudzē”, kas padara novērtēšanu dīvainu:

ROC līknes var izskatīties maldinoši labas, ja pozitīvi rezultāti ir reti.
Precīzas atsaukšanas skati bieži vien ir informatīvāki nelīdzsvarotos iestatījumos, jo tie koncentrējas uz pozitīvās klases veiktspēju. [4]
Operacionāli ir nepieciešams arī trauksmes signālu budžets: cik trauksmes signālu stundā cilvēki faktiski var šķirot, nepārtraucot dusmu lēkmi? [4]

Atpakaļejošā testēšana dažādos slīdošajos logos palīdz noteikt klasisko kļūmes režīmu: “tas darbojas lieliski… ar pagājušā mēneša izplatījumu.” [1]

Interpretējamība un pamatcēlonis: parādiet savu darbu 🪄

Brīdināt bez paskaidrojuma ir kā saņemt noslēpumainu pastkarti. Noderīgi, bet nomācoši.

Interpretējamības rīki var palīdzēt, norādot, kuras funkcijas visvairāk ietekmēja anomālijas rādītāju, vai sniedzot skaidrojumus stilā “kas būtu jāmaina, lai tas izskatītos normāli?”. Grāmata “Interpretējamā mašīnmācīšanās ” ir pamatīgs un kritisks ceļvedis par izplatītākajām metodēm (tostarp SHAP stila atribūcijām) un to ierobežojumiem. [5]

Mērķis nav tikai ieinteresēto personu komforts — tā ir ātrāka triāža un mazāk atkārtotu incidentu.

Izvietošanas, novirzes un atgriezeniskās saites cilpas 🚀

Modeļi neatrodas slaidos. Tie atrodas cauruļvados.

Bieži sastopams stāsts par “pirmo ražošanas mēnesi”: detektors galvenokārt atzīmē izvietošanas, pakešuzdevumus un trūkstošos datus… kas joprojām ir noderīgi, jo liek atdalīt “datu kvalitātes incidentus” no “biznesa anomālijām”.

Praksē:

Novērot novirzi un atkārtoti apmācīt/atkārtoti kalibrēt, mainoties uzvedībai. [1]
Reģistrējiet vērtējuma ievades datus + modeļa versiju , lai jūs varētu reproducēt, kāpēc kaut kas tika novirzīts uz citu lapu. [5]
Apkopojiet cilvēku sniegtās atsauksmes (noderīgus un trokšņainus brīdinājumus), lai laika gaitā pielāgotu robežvērtības un segmentus. [4]

Drošības leņķis: IDS un uzvedības analītika 🛡️

Drošības komandas bieži apvieno anomāliju idejas ar uz noteikumiem balstītu noteikšanu: bāzes līnijas “normālai resursdatora uzvedībai”, kā arī parakstus un politikas zināmiem sliktiem modeļiem. NIST SP 800-94 (galīgā versija) joprojām ir plaši citēts ietvars ielaušanās atklāšanas un novēršanas sistēmu apsvērumiem; tajā arī norādīts, ka 2012. gada melnraksts “Rev. 1” nekad nekļuva galīgs un vēlāk tika norakstīts. [3]

Tulkojums: izmantojiet mašīnmācīšanos, kur tā palīdz, bet neizmetiet garlaicīgos noteikumus — tie ir garlaicīgi, jo darbojas.

Salīdzināšanas tabula: populāru metožu apskats 📊

Rīks/metode	Vislabāk piemērots	Kāpēc tas darbojas (praksē)
Stabili/modificēti z-rādītāji	Vienkārši rādītāji, ātri bāzes līnijas	Spēcīga pirmā piespēle, kad nepieciešams “pietiekami labs” risinājums, un mazāk viltus trauksmju. [3]
Izolācijas mežs	Tabulveida, jauktas funkcijas	Stabila noklusējuma ieviešana un plaša izmantošana praksē. [2]
Vienas klases SVM	Kompakti “normāli” reģioni	Robežās balstīta jaunuma noteikšana; regulēšanai ir liela nozīme. [2]
Vietējais noviržu faktors	Daudzveidīgas normas	Blīvuma kontrasts salīdzinājumā ar kaimiņiem atspoguļo lokālās dīvainības. [1]
Rekonstrukcijas kļūda (piemēram, autoencoder stilā)	Augstas dimensijas raksti	Apmācība parastajā režīmā; lielas rekonstrukcijas kļūdas var signalizēt par novirzēm. [1]

Krāpšanās kods: sāciet ar robustām bāzes līnijām + garlaicīgu neuzraudzītu metodi, pēc tam pievienojiet sarežģītību tikai tur, kur tā atmaksājas.

Mini rokasgrāmata: no nulles līdz brīdinājumiem 🧭

Definējiet “dīvaino” operacionāli (latentums, krāpšanas risks, centrālā procesora izšķērdēšana, krājumu risks).
Sāciet ar sākotnējo līmeni (stabila statistika vai segmentēti sliekšņi). [3]
Pirmajam mēģinājumam izvēlieties vienu neuzraudzītu modeli (izolācijas mežs / LOF / vienas klases SVM). [2]
Nosakiet robežvērtības ar piesardzīgu budžetuun, ja pozitīvi rezultāti ir reti, veiciet novērtēšanu, izmantojot sabiedrisko attiecību stila domāšanu. [4]
Pievienojiet skaidrojumus + reģistrēšanu , lai katru brīdinājumu varētu reproducēt un atkļūdot. [5]
Atpakaļejošā pārbaude, nosūtīšana, apmācība, atkārtota kalibrēšana — nobīde ir normāla parādība. [1]

To noteikti var izdarīt nedēļas laikā… pieņemot, ka jūsu laika zīmogi nav savienoti kopā ar līmlenti un cerību. 😅

Noslēguma piezīmes — pārāk gari, es tos neizlasīju🧾

Mākslīgais intelekts atklāj anomālijas, apgūstot praktisku “normas” ainu, novērtējot novirzes un atzīmējot to, kas pārsniedz slieksni. Labākās sistēmas uzvar nevis ar to, ka ir uzkrītošas, bet gan ar to, ka tās ir kalibrētas: segmentētas bāzes līnijas, trauksmes budžeti, interpretējamas izejas un atgriezeniskās saites cilpa, kas pārvērš trokšņainus trauksmes signālus par uzticamu signālu. [1]

Atsauces

Pimentel et al. (2014) - Jaunumu noteikšanas apskats (PDF, Oksfordas Universitāte) lasīt vairāk
scikit-learn dokumentācija — jaunumu un noviržu noteikšana lasīt vairāk
NIST/SEMATECH e-rokasgrāmata — noviržu noteikšana (lasīt vairāk) un NIST CSRC — SP 800-94 (galīgā versija): ielaušanās atklāšanas un novēršanas sistēmu (IDPS) ceļvedis (lasīt vairāk)
Saito un Rehmsmeiers (2015) — Precīzijas atsaukšanas diagramma ir informatīvāka nekā ROC diagramma, novērtējot bināros klasifikatorus nelīdzsvarotās datu kopās (PLOS ONE) lasīt vairāk
Molnar — Interpretējama mašīnmācīšanās (tīmekļa grāmata) lasīt vairāk

Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru