Kas ir neironu tīkls mākslīgajā intelektā?

Neironu tīkli izklausās noslēpumaini, līdz tie vairs nešķiet noslēpumaini. Ja kādreiz esat domājuši, kas ir neironu tīkls mākslīgajā intelektā? Un vai tā ir tikai matemātika ar greznu cepuri, esat īstajā vietā. Mēs saglabāsim praktisku pieeju, pieliksim nelielas atkāpes un, jā, dažas emocijzīmes. Jūs zināsiet, kas ir šīs sistēmas, kāpēc tās darbojas, kur tās pieļauj kļūdas un kā par tām runāt, nemācinot rokas.

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Kas ir mākslīgā intelekta aizspriedumi
Izpratne par aizspriedumiem mākslīgā intelekta sistēmās un stratēģijas taisnīguma nodrošināšanai.

🔗 Kas ir paredzošā mākslīgā intelekta
Kā paredzošā mākslīgā intelekta tehnoloģija izmanto modeļus, lai prognozētu nākotnes rezultātus.

🔗 Kas ir mākslīgā intelekta treneris
Izpētīt profesionāļu, kas apmāca mākslīgo intelektu, lomu un pienākumus.

🔗 Kas ir datorredze mākslīgajā intelektā?
Kā mākslīgais intelekts interpretē un analizē vizuālos datus, izmantojot datorredzi.

Kas ir neironu tīkls mākslīgajā intelektā? 10 sekunžu atbilde ⏱️

Neironu tīkls ir vienkāršu aprēķinu vienību, ko sauc par neironiem, kopums, kas nodod skaitļus uz priekšu, apmācības laikā pielāgo savu savienojuma stiprumu un pakāpeniski apgūst datu modeļus. Kad dzirdat dziļo mācīšanos , tas parasti nozīmē neironu tīklu ar daudziem sakrautiem slāņiem, kas apgūst funkcijas automātiski, nevis manuāli. Citiem vārdiem sakot: daudz sīku matemātisku elementu, kas gudri sakārtoti, apmācīti ar datiem, līdz tie ir noderīgi [1].

Kas padara neironu tīklu noderīgu? ✅

Attēlošanas jauda : Ar pareizu arhitektūru un izmēru tīkli var tuvināti attēlot ļoti sarežģītas funkcijas (skatiet Universālās aproksimācijas teorēmu) [4].
Pilnīga mācīšanās : Modelis nevis manuāli izstrādā funkcijas, bet gan tās atrod [1].
Vispārināšana : labi regulēts tīkls ne tikai iegaumē – tas darbojas ar jauniem, neredzētiem datiem [1].
Mērogojamība : Lielāki datu kopumi un lielāki modeļi bieži vien uzlabo rezultātus… līdz praktiskiem ierobežojumiem, piemēram, skaitļošanas jaudai un datu kvalitātei [1].
Pārnesamība : Vienā uzdevumā apgūtās funkcijas var palīdzēt citā (mācīšanās pārnešana un precizēšana) [1].

Neliela lauka piezīme (piemēra scenārijs): Neliela produktu klasifikācijas komanda nomaina ar rokām veidotas funkcijas pret kompaktu CNN, pievieno vienkāršas papildināšanas (apgriešana/apgriešana) un vēro validācijas kļūdu kritumu — nevis tāpēc, ka tīkls ir “maģisks”, bet gan tāpēc, ka tas ir apguvis vairāk noderīgu funkciju tieši no pikseļiem.

“Kas ir neironu tīkls mākslīgajā intelektā?” vienkāršā valodā ar apšaubāmu metaforu 🍞

Iztēlojieties maizes ceptuves līniju. Sastāvdaļas tiek ievadītas, darbinieki pielāgo recepti, degustētāji sūdzas, un komanda atkal atjaunina recepti. Tīklā ievades dati plūst cauri slāņiem, zudumu funkcija novērtē izvadi, un gradienti ietekmē svarus, lai nākamreiz veiktu labākus rezultātus. Kā metafora nav perfekta – maize nav diferencējama –, bet tā turas [1].

Neironu tīkla anatomija 🧩

Neironi : mazi kalkulatori, kas piemēro svērto summu un aktivācijas funkciju.
Svari un nobīdes : regulējami slēdži, kas nosaka signālu apvienošanas veidu.
Slāņi : Ievades slānis saņem datus, slēptie slāņi tos pārveido, izejas slānis veic prognozi.
Aktivācijas funkcijas : Nelineāri pagriezieni, piemēram, ReLU, sigmoīds, tanh un softmax, padara mācīšanos elastīgu.
Zaudējumu funkcija : rādītājs, kas norāda, cik nepareiza ir prognoze (krossentropija klasifikācijai, MSE regresijai).
Optimizētājs : Algoritmi, piemēram, SGD vai Adam, izmanto gradientus, lai atjauninātu svarus.
Regularizācija : tādas metodes kā izkrišana vai svara samazināšana, lai novērstu modeļa pārmērīgu pielāgošanu.

Ja vēlaties formālu pieeju (bet joprojām lasāmu), atvērtā mācību grāmata “ Deep Learning” aptver visu tēmu loku: matemātikas pamatus, optimizāciju un vispārināšanu [1].

Aktivizācijas funkcijas, īsi, bet noderīgi ⚡

ReLU : Nulle negatīviem, lineāra pozitīviem. Vienkārši, ātri, efektīvi.
Sigmoīds : saspiež vērtības no 0 līdz 1 — noderīgi, bet var piesātināt.
Tanh : Līdzīgs sigmoīdam, bet simetrisks ap nulli.
Softmax : Pārvērš neapstrādātus rezultātus varbūtībās dažādās klasēs.

Nav nepieciešams iegaumēt katru līknes formu — vienkārši jāzina kompromisi un biežāk sastopamās noklusējuma vērtības [1, 2].

Kā mācīšanās patiesībā notiek: balsts uz fonu, bet ne biedējoši 🔁

Uz priekšu : Datu plūsma slānis pa slānim, lai izveidotu prognozi.
Aprēķinu zaudējumi : salīdziniet prognozi ar patiesību.
Atpakaļizplatīšana : Aprēķiniet zudumu gradientus attiecībā pret katru svaru, izmantojot ķēdes likumu.
Atjauninājums : Optimizētājs nedaudz maina svarus.
Atkārtot : Daudzas epohas. Modelis pakāpeniski mācās.

Lai iegūtu praktisku intuīciju ar vizuāliem elementiem un kodam blakus esošiem skaidrojumiem, skatiet klasiskās CS231n piezīmes par backprop un optimizāciju [2].

Galvenās neironu tīklu saimes īsumā 🏡

Tiešās saites tīkli (MLP) : Vienkāršākais veids. Dati pārvietojas tikai uz priekšu.
Konvolucionālie neironu tīkli (CNN) : lieliski piemēroti attēliem, pateicoties telpiskajiem filtriem, kas nosaka malas, tekstūras un formas [2].
Rekurenti neironu tīkli (RNN) un varianti : veidoti tādām secībām kā teksts vai laika rindas, saglabājot kārtības sajūtu [1].
Transformatori : pievērsiet uzmanību, lai modelētu attiecības dažādās pozīcijās secībā vienlaikus; dominējošā valodā un ārpus tās [3].
Grafu neironu tīkli (GNN) : darbojas ar grafika mezgliem un malām — noderīgi molekulām, sociālajiem tīkliem, ieteikumiem [1].
Automātiskie kodētāji un VAE : apgūstiet saspiestas reprezentācijas un ģenerējiet variācijas [1].
Ģeneratīvie modeļi : no GAN līdz difūzijas modeļiem, ko izmanto attēliem, audio un pat kodam [1].

CS231n piezīmes ir īpaši draudzīgas CNN, savukārt Transformer raksts ir galvenais avots uzmanības modeļiem [2, 3].

Salīdzināšanas tabula: izplatītākie neironu tīklu veidi, kam tie paredzēti, izmaksu atšķirības un to darbības iemesli 📊

Instruments/tips	Auditorija	Dārgs	Kāpēc tas darbojas
Iepriekšēja atgriezeniskā saite (MLP)	Iesācēji, analītiķi	Zems-vidējs	Vienkāršas, elastīgas, pienācīgas bāzes līnijas
CNN	Vīzijas komandas	Vidējs	Lokālie modeļi + parametru koplietošana
RNN / LSTM / GRU	Secības ļaudis	Vidējs	Laika atmiņai līdzīgi… fiksē kārtību
Transformators	NLP, multimodāls	Vidēji augsts	Uzmanība tiek pievērsta būtiskām attiecībām
GNN	Zinātnieki, recys	Vidējs	Ziņojumu pārsūtīšana grafikos atklāj struktūru
Autoencoder / VAE	Pētnieki	Zems-vidējs	Apgūst saspiestas reprezentācijas
GAN / Difūzija	Radošās laboratorijas	Vidēji augsts	Adversariāla vai iteratīva denoising maģija

Piezīmes: cena ir atkarīga no skaitļošanas un laika; jūsu nobraukums ir atšķirīgs. Viena vai divas šūnas ir tīši pļāpīgas.

“Kas ir neironu tīkls mākslīgajā intelektā?” salīdzinājumā ar klasiskajiem mašīnmācīšanās algoritmiem ⚖️

Funkciju inženierija : klasiskā mašīnmācīšanās bieži vien balstās uz manuālām funkcijām. Neironu tīkli automātiski apgūst funkcijas — liels ieguvums sarežģītu datu apstrādē [1].
Datu trūkums : tīkliem bieži vien ir lielāks datu apjoms; neliels datu apjoms var dot priekšroku vienkāršākiem modeļiem [1].
Aprēķini : Tīkliem patīk paātrinātāji, piemēram, grafiskie procesori [1].
Veiktspējas griesti : Nestrukturētiem datiem (attēliem, audio, tekstam) parasti dominē dziļi tīkli [1, 2].

Apmācības darbplūsma, kas faktiski darbojas praksē 🛠️

Definējiet mērķi : klasifikācija, regresija, ranžēšana, ģenerēšana — izvēlieties atbilstošus zaudējumus.
Datu apstrāde : Sadalīt apmācībā/validācijā/testēšanā. Normalizēt funkcijas. Līdzsvarot klases. Attēliem apsveriet papildināšanu, piemēram, apgriešanu, apgriešanu, nelielu troksni.
Arhitektūras izvēle : Sāciet vienkārši. Pievienojiet jaudu tikai tad, kad nepieciešams.
Apmācības cikls : Datu partijveida apstrāde. Pārsūtīšana uz priekšu. Zaudējumu aprēķināšana. Atjaunināšana. Metriku reģistrēšana.
Regularizēt : Izkrišana, svara samazināšanās, priekšlaicīga apstāšanās.
Novērtēšana : Izmantojiet hiperparametru validācijas kopu. Pēdējai pārbaudei sagatavojiet testa kopu.
Piegāde jāveic uzmanīgi : uzraugiet novirzi, pārbaudiet neobjektivitāti, plānojiet atgriezeniskās saites.

Pilnībā no sākuma līdz beigām izstrādātām, uz kodu orientētām pamācībām ar stabilu teoriju uzticams atbalsts ir atvērtā mācību grāmata un CS231n piezīmes [1, 2].

Pārmērīga pielāgošana, vispārināšana un citi gremlini 👀

Pārmērīga pielāgošana : modelis iegaumē apmācības īpatnības. Labojiet tās ar vairāk datiem, spēcīgāku regularizāciju vai vienkāršākām arhitektūrām.
Nepietiekama atbilstība : modelis ir pārāk vienkāršs vai apmācība ir pārāk bikla. Palieliniet jaudu vai trenējieties ilgāk.
Datu noplūde : informācija no testa komplekta iekļūst apmācībā. Trīs reizes pārbaudiet sadalījumus.
Slikta kalibrēšana : modelis, kas ir pārliecināts, bet nepareizs, ir bīstams. Apsveriet kalibrēšanu vai atšķirīgu zaudējumu svēršanu.
Izplatīšanas maiņa : reālās pasaules datu pārvietošana. Uzraudzīt un pielāgoties.

Vispārināšanas un regularizācijas teorijas pamatā ir standarta atsauces [1, 2].

Drošība, interpretējamība un atbildīga izvietošana 🧭

Neironu tīkli var pieņemt svarīgus lēmumus. Nepietiek ar to, ka tie labi darbojas līderu sarakstā. Visā dzīves ciklā ir nepieciešami pārvaldības, mērīšanas un mazināšanas pasākumi. NIST mākslīgā intelekta risku pārvaldības ietvars izklāsta praktiskas funkcijas — PĀRVALDĪT, KARTĒT, MĒRĪT, PĀRVALDĪT —, lai palīdzētu komandām integrēt risku pārvaldību projektēšanā un ieviešanā [5].

Daži ātri ieteikumi:

Neobjektivitātes pārbaudes : veiciet novērtējumu dažādās demogrāfiskajās grupās, ja tas ir piemēroti un likumīgi.
Interpretējamība : Izmantojiet tādus paņēmienus kā ievērojamības vai pazīmju atribūcijas. Tie ir nepilnīgi, tomēr noderīgi.
Uzraudzība : iestatiet brīdinājumus par pēkšņu rādītāju kritumu vai datu novirzi.
Cilvēka uzraudzība : Informējiet cilvēkus par lēmumiem, kuriem ir liela ietekme. Nekādas varonības, tikai higiēna.

Bieži uzdotie jautājumi, kas jums slepeni bija 🙋

Vai neironu tīkls būtībā ir smadzenes?

Iedvesmojoties no smadzenēm, jā, bet vienkāršoti. Neironi tīklos ir matemātiskas funkcijas; bioloģiskie neironi ir dzīvas šūnas ar sarežģītu dinamiku. Līdzīgas vibrācijas, ļoti atšķirīga fizika [1].

Cik slāņu man vajag?

Sāciet ar mazumiņu. Ja jūsu konfigurācija ir nepietiekama, palieliniet platumu vai dziļumu. Ja konfigurācija ir pārāk augsta, regulējiet vai samaziniet jaudu. Nav burvju skaitļa; ir tikai validācijas līknes un pacietība [1].

Vai man vienmēr ir nepieciešama GPU?

Ne vienmēr. Mazus modeļus ar pieticīgiem datiem var apmācīt procesoros, bet attēliem, lieliem teksta modeļiem vai lieliem datu kopumiem paātrinātāji ietaupa daudz laika [1].

Kāpēc cilvēki saka, ka uzmanībai ir spēks?

Tā kā uzmanība ļauj modeļiem koncentrēties uz ievades datu atbilstošākajām daļām, neievērojot stingru secību, tas atspoguļo globālās attiecības, kas ir ļoti svarīgi valodas un multimodāliem uzdevumiem [3].

Vai jautājums “Kas ir neironu tīkls mākslīgajā intelektā?” atšķiras no jautājuma “Kas ir dziļā mācīšanās”?

Dziļā mācīšanās ir plašāka pieeja, kas izmanto dziļos neironu tīklus. Tāpēc jautājums " Kas ir neironu tīkls mākslīgajā intelektā?" ir līdzīgs jautājumam par galveno varoni; dziļā mācīšanās ir visa filma [1].

Praktiski, nedaudz uzskatiem balstīti padomi 💡

dodiet priekšroku vienkāršām bāzes līnijām . Pat neliels daudzslāņu perceptrons var pateikt, vai dati ir apgūstami.
Saglabājiet savu datu plūsmu reproducējamu . Ja to nevar atkārtoti palaist, tam nevar uzticēties.
Mācīšanās ātrums ir svarīgāks, nekā jūs domājat. Izmēģiniet grafiku. Iesildīšanās var palīdzēt.
partijas lieluma kompromisi . Lielākas partijas stabilizē gradientus, bet var vispārināt atšķirīgi.
Apjukuma gadījumā uzzīmējiet zaudējumu līknes un svara normas . Jūs būtu pārsteigts, cik bieži atbilde ir attēlos.
Dokumentējiet pieņēmumus. Nākotnes tu lietas ātri aizmirst [1, 2].

Padziļināts apvedceļš: datu loma jeb kāpēc atkritumi ienākošajā vidē joprojām nozīmē atkritumus ārā 🗑️➡️✨

Neironu tīkli maģiski neizlabo kļūdainus datus. Nesašķērsotas etiķetes, anotāciju kļūdas vai šaura izlase atbalsosies visā modelī. Veiciet kūrēšanu, auditu un papildiniet. Un, ja neesat pārliecināts, vai jums ir nepieciešams vairāk datu vai labāks modelis, atbilde bieži vien ir kaitinoši vienkārša: abi — bet sāciet ar datu kvalitāti [1].

“Kas ir neironu tīkls mākslīgajā intelektā?” — īsas definīcijas, kuras varat izmantot atkārtoti 🧾

Neironu tīkls ir slāņots funkciju aproksimators, kas apgūst sarežģītus modeļus, pielāgojot svarus, izmantojot gradienta signālus [1, 2].
Tā ir sistēma, kas pārveido ieejas datus izejās, izmantojot secīgus nelineārus soļus, apmācītu zaudējumu samazināšanai [1].
Tā ir elastīga, uz datiem orientēta modelēšanas pieeja, kas plaukst, izmantojot nestrukturētus ievades datus, piemēram, attēlus, tekstu un audio [1, 2, 3].

Pārāk garš, neizlasīju un noslēguma piezīmes 🎯

Ja kāds jums jautā, kas ir neironu tīkls mākslīgajā intelektā, lūk, īss apraksts: neironu tīkls ir vienkāršu vienību kopums, kas soli pa solim pārveido datus, apgūstot transformāciju, samazinot zudumus un sekojot gradientiem. Tie ir jaudīgi, jo tie mērogo, automātiski apgūst funkcijas un var attēlot ļoti sarežģītas funkcijas [1, 4]. Tie ir riskanti, ja ignorējat datu kvalitāti, pārvaldību vai uzraudzību [5]. Un tie nav maģija. Tikai matemātika, skaitļošana un laba inženierija – ar nelielu garšas devu.

Papildu lasāmviela, rūpīgi atlasīta (papildmateriāli bez atsaucēm)

Stenfordas CS231n piezīmes — pieejamas un praktiskas: https://cs231n.github.io/
DeepLearningBook.org — kanoniskā atsauce: https://www.deeplearningbook.org/
NIST mākslīgā intelekta riska pārvaldības sistēma — atbildīga mākslīgā intelekta vadlīnijas: https://www.nist.gov/itl/ai-risk-management-framework
“Uzmanība ir viss, kas jums nepieciešams” — raksts par Transformer: https://arxiv.org/abs/1706.03762

Atsauces

[1] Goodfellow, I., Bengio, Y. un Courville, A. Dziļā mācīšanās . MIT Press. Bezmaksas tiešsaistes versija: lasīt vairāk

[2] Stenfordas CS231n. Konvolucionālie neironu tīkli vizuālajai atpazīšanai (kursa piezīmes): lasīt vairāk

[3] Vaswani, A., Shazeer, N., Parmar, N. u.c. (2017). Uzmanība ir viss, kas jums nepieciešams . NeurIPS. arXiv: lasīt vairāk

[4] Cibenko, G. (1989). Sigmoidālas funkcijas aproksimācija ar superpozīcijām . Vadības, signālu un sistēmu matemātika , 2, 303.–314. lpp. Springer: lasīt vairāk

[5] NIST. Mākslīgā intelekta riska pārvaldības sistēma (AI RMF) : lasīt vairāk

Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru

Valsts/reģions