Ja kādreiz esat atbloķējis tālruni ar sejas apkopi, skenējis čeku vai skatījies pašapkalpošanās kases kamerā, domājot, vai tā vērtē jūsu avokado, esat saskāries ar datorredzi. Vienkārši sakot, datorredze mākslīgajā intelektā ir veids, kā mašīnas iemācās redzēt un saprast attēlus un video, lai pieņemtu lēmumus. Noderīgi? Noteikti. Dažreiz pārsteidzoši? Arī jā. Un reizēm, ja godīgi, nedaudz biedējoši. Labākajā gadījumā tā pārvērš nekārtīgus pikseļus praktiskās darbībās. Sliktākajā gadījumā tā min un šūpojas. Iedziļināsimies tajā – kārtīgi.
Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:
🔗 Kas ir mākslīgā intelekta neobjektivitāte?
Kā neobjektivitāte veidojas mākslīgā intelekta sistēmās un kā to atklāt un mazināt.
🔗 Kas ir paredzošā mākslīgā intelekta (MI) tehnoloģija?
Kā paredzošā mākslīgā intelekta tehnoloģija izmanto datus, lai paredzētu tendences un rezultātus.
🔗 Kas ir mākslīgā intelekta treneris?
Atbildība, prasmes un rīki, ko izmanto profesionāļi, kas apmāca mākslīgo intelektu.
🔗 Kas ir Google Vertex AI?
Pārskats par Google vienoto AI platformu modeļu veidošanai un ieviešanai.
Kas īsti ir datorredze mākslīgajā intelektā? 📸
Datorredze mākslīgajā intelektā ir mākslīgā intelekta nozare, kas māca datoriem interpretēt un spriest par vizuāliem datiem. Tas ir process no neapstrādātiem pikseļiem līdz strukturētai nozīmei: “šī ir STOP zīme”, “tie ir gājēji”, “metinājums ir bojāts”, “rēķina kopsumma ir klāt”. Tas aptver tādus uzdevumus kā klasifikācija, noteikšana, segmentācija, izsekošana, dziļuma novērtēšana, OCR un citus, kas apvienoti ar modeļu apguves modeļiem. Formālā joma aptver klasisko ģeometriju līdz mūsdienīgai dziļajai mācīšanās, ar praktiskām rokasgrāmatām, kuras var kopēt un pielāgot. [1]
Īsa anekdote: iedomājieties iepakošanas līniju ar pieticīgu 720p kameru. Viegls detektors atrod vāciņus, un vienkāršs izsekotājs apstiprina, ka tie ir izlīdzināti piecus secīgus kadrus, pirms iedegas zaļā gaisma pudelei. Nekas grezns, bet lēts, ātrs un samazina atkārtotas apstrādes nepieciešamību.
Kas padara datorredzi mākslīgajā intelektā noderīgu? ✅
-
Signāla plūsma uz darbību : vizuālā ievade kļūst par rīcības rezultātu. Mazāk informācijas paneļa, vairāk lēmumu.
-
Vispārināšana : Ar pareizajiem datiem viens modelis var apstrādāt ļoti dažādus attēlus. Ne perfekti, dažreiz pat šokējoši labi.
-
Datu sviras efekts : Kameras ir lētas un visur. Redze pārvērš šo pikseļu okeānu ieskatos.
-
Ātrums : Modeļi var apstrādāt kadrus reāllaikā, izmantojot pieticīgu aparatūru, vai gandrīz reāllaikā atkarībā no uzdevuma un izšķirtspējas.
-
Savietojamība : vienkāršu darbību apvienošana uzticamās sistēmās: noteikšana → izsekošana → kvalitātes kontrole.
-
Ekosistēma : rīki, iepriekš apmācīti modeļi, etaloni un kopienas atbalsts — viens plašs koda tirgus.
Būsim godīgi, noslēpums nav noslēpums: labi dati, disciplinēta izvērtēšana, rūpīga ieviešana. Pārējais ir prakse... un varbūt kafija. ☕
Kā datorredze mākslīgajā intelektā vienā saprātīgā cauruļvadā 🧪
-
Attēlu iegūšana
Kameras, skeneri, droni, tālruņi. Rūpīgi izvēlieties sensora veidu, ekspozīciju, objektīvu un kadru ātrumu. Atkritumu glabāšana utt. -
Priekšapstrāde
Ja nepieciešams, mainiet izmēru, apgrieziet, normalizējiet, noņemiet izplūšanu vai troksni. Dažreiz neliela kontrasta korekcija pārceļ kalnus. [4] -
Etiķetes un datu kopas
Ierobežojošie lodziņi, daudzstūri, atslēgas punkti, teksta laidumi. Sabalansētas, reprezentatīvas etiķetes — pretējā gadījumā jūsu modelis apgūst nevienmērīgus ieradumus. -
Modelēšana
-
Klasifikācija : "Kura kategorija?"
-
Noteikšana : “Kur atrodas objekti?”
-
Segmentācija : “Kuri pikseļi pieder kurai lietai?”
-
Atslēgas punkti un poza : “Kur atrodas savienojumi vai orientieri?”
-
OCR : “Kāds teksts ir attēlā?”
-
Dziļums un 3D : “Cik tālu viss ir?”
Arhitektūras atšķiras, bet dominē konvolucionālie tīkli un transformatoru stila modeļi. [1]
-
-
Apmācība
Datu sadalīšana, hiperparametru regulēšana, regularizēšana, papildināšana. Agrīna apturēšana pirms fona attēla iegaumēšanas. -
Novērtēšana
OCR izmantojiet uzdevumam atbilstošus rādītājus, piemēram, mAP, IoU, F1, CER/WER. Neizvēlieties selektīvu rezultātu. Salīdziniet godīgi. [3] -
Izvietošana.
Optimizējiet mērķim: mākoņa pakešdarbi, secinājumi ierīcē, perifērijas serveri. Uzraudziet nobīdi. Pārkvalificējieties, kad pasaule mainās.
Dziļie tīkli katalizēja kvalitatīvu lēcienu, tiklīdz lieli datu kopumi un skaitļošanas jauda sasniedza kritisko masu. Tādi etaloni kā ImageNet izaicinājums padarīja šo progresu redzamu un nenogurstošu. [2]
Galvenie uzdevumi, kurus jūs faktiski izmantosiet (un kad) 🧩
-
Attēlu klasifikācija : viena etiķete katram attēlam. Izmantojiet ātrai filtrēšanai, triāžai vai kvalitātes vārtiem.
-
Objektu noteikšana : Kastes ap lietām. Mazumtirdzniecības zaudējumu novēršana, transportlīdzekļu noteikšana, savvaļas dzīvnieku skaitīšana.
-
Instances segmentācija : pikseļa precīzi silueti katram objektam. Ražošanas defekti, ķirurģiskie instrumenti, agrotehnoloģija.
-
Semantiskā segmentācija : klase katrā pikselī, neatdalot eksemplārus. Pilsētas ceļu ainas, zemes segums.
-
Atslēgpunktu noteikšana un poza : locītavas, orientieri, sejas vaibsti. Sporta analītika, ergonomika, papildinātā realitāte.
-
Izsekošana : Sekojiet objektiem laika gaitā. Loģistika, satiksme, drošība.
-
OCR un dokumentu mākslīgais intelekts : teksta ieguve un izkārtojuma parsēšana. Rēķini, kvītis, veidlapas.
-
Dziļums un 3D : rekonstrukcija no vairākiem skatiem vai monokulāriem norādījumiem. Robotika, papildinātā realitāte, kartēšana.
-
Vizuālie paraksti : Apkopojiet ainas dabiskā valodā. Pieejamība, meklēšana.
-
Redzes valodas modeļi : multimodāla spriešana, ar izgūšanu papildināta redze, pamatota kvalitātes nodrošināšana.
Neliela korpusa sajūta: veikalos detektors atzīmē trūkstošas plauktu apdares; izsekotājs novērš dubultu uzskaiti, papildinot darbinieku krājumus; vienkāršs noteikums novirza zemas uzticamības kadrus cilvēka pārskatīšanai. Tas ir mazs orķestris, kas lielākoties saglabā skaņu.
Salīdzināšanas tabula: rīki ātrākai nosūtīšanai 🧰
Nedaudz īpatnēji ar nolūku. Jā, atstarpes ir dīvainas — zinu.
| Rīks/ietvars | Vislabāk piemērots | Licence/Cena | Kāpēc tas darbojas praksē |
|---|---|---|---|
| OpenCV | Priekšapstrāde, klasiskais CV, ātrie POC | Bezmaksas — atvērtā koda | Milzīgs rīku komplekts, stabili API, pārbaudīti kaujās; dažreiz viss, kas jums nepieciešams. [4] |
| PyTorch | Pētniecībai draudzīga apmācība | Bezmaksas | Dinamiski grafiki, milzīga ekosistēma, daudzas pamācības. |
| TensorFlow/Keras | Ražošana plašā mērogā | Bezmaksas | Nobriedušas rādīšanas iespējas, piemērotas gan mobilajām ierīcēm, gan Edge ierīcēm. |
| Ultralytics YOLO | Ātra objektu noteikšana | Bezmaksas + maksas papildinājumi | Vienkāršs treniņu cikls, konkurētspējīgs ātruma un precizitātes sasniegums, pašpārliecināts, bet ērts. |
| Detectron2 / MMDetection | Spēcīgas bāzes līnijas, segmentācija | Bezmaksas | Atsauces klases modeļi ar reproducējamiem rezultātiem. |
| OpenVINO / ONNX izpildlaiks | Secinājumu optimizācija | Bezmaksas | Samaziniet latentumu, plaši izvietojiet bez pārrakstīšanas. |
| Tesseract | OCR budžeta ietvaros | Bezmaksas | Darbojas pieklājīgi, ja iztīrat attēlu… dažreiz tas tiešām ir jādara. |
Kas nosaka datorredzes kvalitāti mākslīgajā intelektā 🔧
-
Datu pārklājums : apgaismojuma izmaiņas, leņķi, fons, malas gadījumi. Ja tas ir iespējams, iekļaujiet to.
-
Etiķetes kvalitāte : Nekonsekventas ailes vai neprecīzi daudzstūri kaitē mAP. Neliela kvalitātes nodrošināšana ir ļoti noderīga.
-
Viedas papildināšanas : apgriešana, pagriešana, spilgtuma trīcēšana, sintētiska trokšņa pievienošana. Esiet reālistiski, nevis nejaušs haoss.
-
Modeļa atlases atbilstība : Izmantojiet noteikšanu tur, kur noteikšana ir nepieciešama — nepiespiediet klasifikatoru uzminēt atrašanās vietas.
-
Ietekmei atbilstošie rādītāji : ja viltus negatīvi rezultāti ir sāpīgāki, optimizējiet atcerēšanos. Ja viltus pozitīvi rezultāti ir sāpīgāki, prioritāte ir precizitāte.
-
Cieša atgriezeniskā saite : reģistrēt kļūmes, pārmarķēt, pārapmācīt. Skalot, atkārtot. Nedaudz garlaicīgi, bet ārkārtīgi efektīvi.
Atklāšanai/segmentēšanai kopienas standarts ir vidējā precizitāte, kas aprēķināta, aprēķinot vidējo vērtību starp IoU sliekšņiem, jeb COCO stila mAP . Zinot, kā tiek aprēķināts IoU un AP@{0.5:0.95}, līderu saraksta apgalvojumi neapžilbina jūs ar decimāldaļām. [3]
Reālās pasaules lietošanas gadījumi, kas nav hipotētiski 🌍
-
Mazumtirdzniecība : plauktu analīze, zaudējumu novēršana, rindu uzraudzība, atbilstība planogrammai.
-
Ražošana : virsmas defektu noteikšana, montāžas pārbaude, robotu vadība.
-
Veselības aprūpe : radioloģiskā triāža, instrumentu noteikšana, šūnu segmentācija.
-
Mobilitāte : ADAS, satiksmes kameras, autostāvvietu aizņemtības izsekošana, mikromobilitātes izsekošana.
-
Lauksaimniecība : kultūraugu skaitīšana, slimību noteikšana, ražas gatavība.
-
Apdrošināšana un finanses : bojājumu novērtēšana, KYC pārbaudes, krāpšanas brīdinājumi.
-
Būvniecība un enerģētika : drošības atbilstība, noplūžu noteikšana, korozijas uzraudzība.
-
Saturs un pieejamība : automātiskie paraksti, moderēšana, vizuālā meklēšana.
Modelis, ko ievērosiet: manuālās skenēšanas aizstāšana ar automātisku atlasi, pēc tam, kad pārliecība krītas, eskalācija pie cilvēkiem. Ne gluži glauni, bet tā ir mērogojama.
Dati, etiķetes un svarīgie rādītāji 📊
-
Klasifikācija : Precizitāte, F1 nelīdzsvarotībai.
-
Noteikšana : mAP pāri IoU robežvērtībām; pārbaudiet AP klasi un izmēru grupas. [3]
-
Segmentācija : mIoU, Dice; pārbaudiet arī kļūdas instances līmenī.
-
Izsekošana : MOTA, IDF1; atkārtotas identifikācijas kvalitāte ir klusais varonis.
-
OCR : rakstzīmju kļūdu līmenis (CER) un vārdu kļūdu līmenis (WER); bieži vien dominējošas ir izkārtojuma kļūmes.
-
Regresijas uzdevumi : dziļuma vai pozas noteikšanai tiek izmantotas absolūtās/relatīvās kļūdas (bieži vien logaritmiskā mērogā).
Dokumentējiet savu novērtēšanas protokolu, lai citi to varētu atkārtot. Tas nav pievilcīgi, bet palīdz saglabāt godīgumu.
Būvēšana pretstatā pirkšanai — un kur to īstenot 🏗️
-
Mākonis : Visvieglāk sākt darbu, lieliski piemērots partijveida darba slodzēm. Sekojiet līdzi izejošajām izmaksām.
-
Perifērijas ierīces : zemāka latentuma pakāpe un labāka privātuma aizsardzība. Jums būs svarīga kvantizācija, atzarošana un paātrinātāji.
-
Mobilais tālrunis ierīcē : lieliski, kad tas iederas. Optimizējiet modeļus un pulksteņa akumulatora darbības laiku.
-
Hibrīds : Priekšfiltrs perifērijā, smaga slodze mākonī. Labs kompromiss.
Garlaicīgi uzticams steks: prototips ar PyTorch, standarta detektora apmācība, eksports uz ONNX, paātrinājums ar OpenVINO/ONNX Runtime un OpenCV izmantošana pirmapstrādei un ģeometrijai (kalibrēšanai, homogrāfijai, morfoloģijai). [4]
Riski, ētika un grūtākās lietas, par kurām runāt ⚖️
Redzes sistēmas var mantot datu kopu neobjektivitāti vai darbības aklās zonas. Neatkarīgi novērtējumi (piemēram, NIST FRVT) ir izmērījuši demogrāfiskās atšķirības sejas atpazīšanas kļūdu līmeņos dažādos algoritmos un apstākļos. Tas nav iemesls panikai, bet gan iemesls rūpīgi pārbaudīt, dokumentēt ierobežojumus un nepārtraukti uzraudzīt ražošanas vidē. Ja jūs ieviešat ar identitāti vai drošību saistītus lietošanas gadījumus, iekļaujiet cilvēku veiktu pārskatīšanas un apelācijas mehānismus. Konfidencialitāte, piekrišana un pārredzamība nav papildu elementi. [5]
Ātras uzsākšanas ceļvedis, kuru jūs patiešām varat ievērot 🗺️
-
Definējiet lēmumu.
Kādu darbību sistēmai vajadzētu veikt pēc attēla ieraudzīšanas? Tas neļauj optimizēt iedomības metrikas. -
Apkopojiet nepilnīgu datu kopu.
Sāciet ar dažiem simtiem attēlu, kas atspoguļo jūsu reālo vidi. Rūpīgi marķējiet — pat ja tas esat jūs un trīs līmlapiņas. -
Izvēlieties bāzes modeli.
Izvēlieties vienkāršu mugurkaulu ar iepriekš apmācītiem svariem. Vēl nemēģiniet īstenot eksotiskas arhitektūras. [1] -
Apmācīt, reģistrēt, novērtēt
izsekošanas metriku, neskaidrību punktus un kļūmju režīmus. Pierakstīt piezīmju grāmatiņu ar "dīvainiem gadījumiem" — sniegu, atspīdumu, atspīdumiem, dīvainiem fontiem. -
Sašauriniet cilpu.
Pievienojiet stingrus negatīvus, izlabojiet etiķešu nobīdi, pielāgojiet palielinājumus un atkārtoti noregulējiet sliekšņus. Nelielas izmaiņas summējas. [3] -
Izvietojiet vienkāršotu versiju
. Kvantificējiet un eksportējiet. Mēriet latentumu/caurlaidspēju reālā vidē, nevis izmantojot rotaļlietu etalonu. -
Uzraudzīt un atkārtot.
Apkopot kļūdas, mainīt apzīmējumus un atkārtoti apmācīt. Ieplānot periodiskas novērtēšanas, lai jūsu modelis nesakrātos.
Profesionāls padoms: pierakstiet nelielu aiztures punktu, ko iestatījis jūsu ciniskākais komandas biedrs. Ja viņš tajā nevar atrast risinājumu, jūs droši vien esat gatavs.
Bieži sastopamas kļūmes, no kurām vajadzētu izvairīties 🧨
-
Apmācība tīru studijas attēlu iegūšanā, ieviešana reālajā pasaulē ar lietus efektu uz objektīva.
-
Optimizācija kopējam mAP, ja jums patiešām rūp viena kritiska klase. [3]
-
Ignorējot klases nelīdzsvarotību un pēc tam brīnoties, kāpēc reti notikumi izzūd.
-
Pārmērīga palielināšana, līdz modelis apgūst mākslīgus artefaktus.
-
Izlaižot kameras kalibrēšanu un pēc tam mūžīgi cīnoties ar perspektīvas kļūdām. [4]
-
Ticība līderu saraksta skaitļiem, neatkārtojot precīzu novērtēšanas iestatījumu. [2][3]
Avoti, kurus ir vērts pievienot grāmatzīmēm 🔗
Ja jums patīk pamatmateriāli un kursu piezīmes, šie ir zelta vērtē pamatiem, praksei un kritērijiem. Saites skatiet Atsauču sadaļa: CS231n piezīmes, ImageNet izaicinājuma dokuments, COCO datu kopa/novērtējuma dokumenti, OpenCV dokumenti un NIST FRVT ziņojumi. [1][2][3][4][5]
Noslēguma piezīmes jeb pārāk gari, neizlasīju 🍃
Datorredze mākslīgajā intelektā pārvērš pikseļus lēmumos. Tā izceļas, kad pareizo uzdevumu sasaista ar pareizajiem datiem, izmērāt pareizās lietas un atkārtojat darbu ar neparastu disciplīnu. Rīki ir dāsni, etaloni ir publiski pieejami, un ceļš no prototipa līdz ražošanai ir pārsteidzoši īss, ja koncentrējaties uz galīgo lēmumu. Izskaidrojiet savas etiķetes, izvēlieties metrikas, kas atbilst ietekmei, un ļaujiet modeļiem paveikt smago darbu. Un, ja palīdz metafora, iedomājieties to kā ļoti ātra, bet burtiska praktikanta apmācību, lai viņš saprastu, kas ir svarīgi. Jūs rādāt piemērus, labojat kļūdas un pakāpeniski uzticat tai reālu darbu. Nav perfekti, bet pietiekami tuvu, lai būtu transformējošs. 🌟
Atsauces
-
CS231n: Dziļā mācīšanās datorredzei (kursa piezīmes) — Stenfordas Universitāte.
Lasīt vairāk -
ImageNet liela mēroga vizuālās atpazīšanas izaicinājums (raksts) — Russakovsky et al.
lasīt vairāk -
COCO datu kopa un novērtējums — oficiālā vietne (uzdevumu definīcijas un mAP/IoU konvencijas).
Lasīt vairāk -
OpenCV dokumentācija (v4.x) — moduļi pirmapstrādei, kalibrēšanai, morfoloģijai utt.
lasīt vairāk -
NIST FRVT 3. daļa: Demogrāfiskie efekti (NISTIR 8280) — sejas atpazīšanas precizitātes neatkarīgs novērtējums dažādās demogrāfiskajās grupās.
Lasīt vairāk