Kas ir mākslīgā intelekta datu kopa?

Ja veidojat, iegādājaties vai pat tikai novērtējat mākslīgā intelekta sistēmas, jūs saskarsieties ar vienu maldinoši vienkāršu jautājumu: kas ir mākslīgā intelekta datu kopa un kāpēc tā ir tik svarīga? Īsumā: tā ir degviela, pavārgrāmata un dažreiz arī kompass jūsu modelim.

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Kā mākslīgais intelekts prognozē tendences
Pēta, kā mākslīgais intelekts analizē modeļus, lai prognozētu nākotnes notikumus un uzvedību.

🔗 Kā izmērīt mākslīgā intelekta veiktspēju
Precizitātes, efektivitātes un modeļa ticamības novērtēšanas rādītāji un metodes.

🔗 Kā runāt ar mākslīgo intelektu
Norādījumi labākas mijiedarbības izveidei, lai uzlabotu mākslīgā intelekta ģenerētās atbildes.

🔗 Kas ir mākslīgā intelekta uzvedne
Pārskats par to, kā uzvednes ietekmē mākslīgā intelekta rezultātus un kopējo komunikācijas kvalitāti.

Kas ir mākslīgā intelekta datu kopa? Īsa definīcija 🧩

Kas ir mākslīgā intelekta datu kopa? Tā ir piemēru kolekcija, no kuras jūsu modelis mācās vai tiek novērtēts. Katram piemēram ir:

Ievades dati — modeļa redzamās funkcijas, piemēram, teksta fragmenti, attēli, audio, tabulas rindas, sensoru rādījumi, grafiki.
Mērķi — etiķetes vai rezultāti, ko modelim vajadzētu paredzēt, piemēram, kategorijas, skaitļi, teksta apjoms, darbības vai dažreiz nekas.
Metadati — konteksts, piemēram, avots, apkopošanas metode, laika zīmogi, licences, piekrišanas informācija un piezīmes par kvalitāti.

Iedomājieties to kā rūpīgi iesaiņotu pusdienu kasti savam modelim: sastāvdaļas, etiķetes, uzturvērtības informācija un, jā, līmlapiņa ar uzrakstu “neēdiet šo daļu”. 🍱

Uzraudzītiem uzdevumiem ievades dati būs redzami pārī ar skaidrām etiķetēm. Neuzraudzītiem uzdevumiem ievades dati būs redzami bez etiķetēm. Pastiprināšanas mācīšanās gadījumā dati bieži izskatās kā epizodes vai trajektorijas ar stāvokļiem, darbībām un atlīdzībām. Multimodālam darbam piemēros vienā ierakstā var apvienot tekstu + attēlu + audio. Izklausās eleganti; pārsvarā ir santehnika.

Noderīgi ievadnotekumi un prakse: datu lapu ideja datu kopām palīdz komandām izskaidrot, kas ir iekļauts un kā tas būtu jāizmanto [1], un modeļu kartes papildina datu dokumentāciju modeļa pusē [2].

Kas veido labu mākslīgā intelekta datu kopu ✅

Būsim godīgi, daudzi modeļi gūst panākumus, jo datu kopa nebija briesmīga. “Labs” datu kopa ir:

Atspoguļo reālus lietošanas gadījumus, ne tikai laboratorijas apstākļus.
Precīzi marķēts, ar skaidrām vadlīnijām un periodisku izskatīšanu. Vienošanās rādītāji (piemēram, kappa stila mērījumi) palīdz pārbaudīt atbilstību normām.
pilnīgs un līdzsvarots, lai izvairītos no klusas neveiksmes garastes gadījumā. Nelīdzsvarotība ir normāla parādība; nolaidība nav.
Skaidra izcelsme, ar dokumentētu piekrišanu, licenci un atļaujām. Garlaicīgā dokumentācija novērš aizraujošas tiesas prāvas.
Labi dokumentēts , izmantojot datu kartes vai datu lapas, kurās ir norādīta paredzētā lietošana, ierobežojumi un zināmie bojājumu režīmi [1]
Pārvaldīts ar versiju pārvaldību, izmaiņu žurnāliem un apstiprinājumiem. Ja nevarat reproducēt datu kopu, nevarat reproducēt arī modeli. NIST mākslīgā intelekta risku pārvaldības ietvara datu kvalitāti un dokumentāciju uzskata par primāriem jautājumiem [3].

Mākslīgā intelekta datu kopu veidi atkarībā no jūsu darbības 🧰

Pēc uzdevuma

Klasifikācija — piem., surogātpasts vai ne surogātpasts, attēlu kategorijas.
Regresija — prognozēt nepārtrauktu vērtību, piemēram, cenu vai temperatūru.
Secības marķēšana — nosauktas entītijas, runas daļas.
Paaudze — apkopošana, tulkošana, attēlu paraksti.
Ieteikums — lietotājs, vienums, mijiedarbība, konteksts.
Anomāliju noteikšana — reti notikumi laika rindās vai žurnālos.
Pastiprināšanas mācīšanās — stāvoklis, darbība, atlīdzība, nākamā stāvokļa secības.
Ieguve — dokumenti, vaicājumi, atbilstības spriedumi.

Pēc modalitātes

Tabulveida — kolonnas, piemēram, vecums, ienākumi, klientu mainība. Nenovērtēts, nežēlīgi efektīvs.
Teksts — dokumenti, tērzēšanas sarunas, kods, foruma ieraksti, produktu apraksti.
Attēli — fotoattēli, medicīniskās skenēšanas, satelīta flīzes; ar vai bez maskām, lodziņi, atslēgas punkti.
Audio — viļņu formas, transkripti, runātāja tagi.
Video — kadri, laika anotācijas, darbību etiķetes.
Grafi — mezgli, šķautnes, atribūti.
Laika rindas — sensori, finanses, telemetrija.

Uzraudzībā

Marķēts (zelta, sudraba, automātiski marķēts), vāji marķēts, nemarķēts, sintētisks. Veikalā nopērkams kūkas maisījums var būt pieklājīgs — ja izlasāt informāciju uz iepakojuma.

Kastes iekšpusē: struktūra, sadalījumi un metadati 📦

Stabils datu kopums parasti ietver:

Shēma — tipizēti lauki, mērvienības, atļautās vērtības, nulles apstrāde.
Sadalījumi — apmācība, validācija, testēšana. Saglabājiet testa datus noslēgtus — izturieties pret tiem kā pret pēdējo šokolādes gabaliņu.
Izlases plāns — kā jūs ieguvāt piemērus no populācijas; izvairieties no ērtības izlasēm no viena reģiona vai ierīces.
Papildinājumi — apgriezieni, apgriešana, troksnis, parafrāzes, maskas. Labi, ja godīgi; kaitīgi, ja tie izdomā modeļus, kas nekad nenotiek dabā.
Versiju pārvaldība — datu kopa v0.1, v0.2… ar izmaiņu žurnāliem, kas apraksta deltas.
Licences un piekrišana — lietošanas tiesības, tālākizplatīšana un dzēšanas plūsmas. Valstu datu aizsardzības regulatori (piemēram, Apvienotās Karalistes ICO) nodrošina praktiskus, likumīgas apstrādes kontrolsarakstus [4].

Datu kopas dzīves cikls, soli pa solim 🔁

Definējiet lēmumu — ko modelis izlems un kas notiks, ja tas būs nepareizs.
Darbības jomas pazīmes un apzīmējumi — izmērāmi, novērojami, ētiski vācami.
Avota dati — instrumenti, žurnāli, apsekojumi, publiskie korpusi, partneri.
Piekrišana un juridiskā informācija — paziņojumi par privātumu, atteikšanās no informācijas, datu minimizēšana. Skatiet regulatora norādījumus par to, kāpēc un kā [4].
Apkopošana un glabāšana — droša glabāšana, uz lomām balstīta piekļuve, personas datus apstrādājoša informācija.
Etiķete — iekšējie anotētāji, pūļa finansēšana, eksperti; kvalitātes pārvaldība ar zelta uzdevumiem, auditiem un vienošanās metriku.
Tīrīt un normalizēt — noņemt dublikātus, apstrādāt trūkumus, standartizēt mērvienības, labot kodējumu. Garlaicīgs, varonīgs darbs.
Sadalīt un validēt — novērst noplūdi; stratificēt, kur nepieciešams; laika ziņā datiem dot priekšroku laika ziņā apzinātai sadalīšanai; un pārdomāti izmantot savstarpējo validāciju, lai iegūtu stabilus aprēķinus [5].
Dokuments — datu lapa vai datu karte; paredzētais lietojums, brīdinājumi, ierobežojumi [1].
Uzraudzība un atjaunināšana — nobīdes noteikšana, atsvaidzināšanas ritms, plānu beigu process. NIST mākslīgā intelekta RMF (militārā operatīvā funkcija) veido šo pastāvīgo pārvaldības ciklu [3].

Ātrs, praktiski izmantojams padoms: komandas bieži vien “uzvar demonstrācijā”, bet kļūdās ražošanas vidē, jo viņu datu kopa nemanāmi mainās — jaunas produktu līnijas, pārdēvēts lauks vai mainīta politika. Vienkāršs izmaiņu žurnāls + periodiska atkārtota anotācija novērš lielāko daļu šo problēmu.

Datu kvalitāte un novērtēšana — nemaz tik garlaicīga, kā izklausās 🧪

Kvalitāte ir daudzpusīga:

Precizitāte — vai etiķetes ir pareizas? Izmantojiet saskaņošanas rādītājus un periodisku izvērtēšanu.
Pilnīgums — aptveriet laukus un klases, kas jums patiešām ir nepieciešamas.
Konsekvence — izvairieties no pretrunīgām etiķetēm līdzīgiem ievades datiem.
Savlaicīgums — novecojuši dati padara pieņēmumus par nemainīgiem.
Godīgums un neobjektivitāte — aptverot dažādas demogrāfiskās grupas, valodas, ierīces, vides; sāciet ar aprakstošiem auditiem, pēc tam stresa testiem. Dokumentācijas prioritātes prakse (datu lapas, modeļu kartes) padara šīs pārbaudes redzamas [1], un pārvaldības sistēmas tās uzsver kā riska kontroles mehānismus [3].

Modeļa novērtēšanai izmantojiet atbilstošus sadalījumus un izsekojiet gan vidējos rādītājus, gan sliktāko grupu rādītājus. Spilgts vidējais rādītājs var slēpt nepilnības. Savstarpējās validācijas pamati ir labi aplūkoti standarta mašīnmācīšanās rīku dokumentācijā [5].

Ētika, privātums un licencēšana — aizsargbarjeras 🛡️

Ētiskie dati nav vibrācija, bet gan process:

Piekrišana un mērķa ierobežojums — skaidri norādiet lietošanas veidus un juridiskos pamatus [4].
Personu identificējošas informācijas apstrāde — pēc vajadzības samaziniet, pseidonimizējiet vai anonimizējiet; apsveriet privātuma uzlabošanas tehnoloģiju izmantošanu, ja pastāv augsts risks.
Atribūcija un licences — ievērojiet koplietošanas līdzīgā veidā un komerciālas izmantošanas ierobežojumus.
Neobjektivitāte un kaitējums — audits, lai noteiktu viltus korelācijas (“dienasgaisma = drošs” naktī radīs lielu apjukumu).
Labošana — zināt, kā pēc pieprasījuma noņemt datus un kā atsaukt uz tiem apmācītus modeļus (dokumentējiet to savā datu lapā) [1].

Cik liels ir pietiekami liels? Izmērs un signāla un trokšņa attiecība 📏

Īkšķa likums: vairāk piemēru parasti palīdz, ja tie ir atbilstoši un nav gandrīz dublikāti. Taču dažreiz labāk ir ar mazāk, tīrākiem un labāk marķētiem paraugiem nekā ar kalniem nekārtīgu piemēru.

Pievērsiet uzmanību:

Mācīšanās līknes — attēlojiet veiktspējas un izlases lieluma salīdzinājumu, lai noskaidrotu, vai jūsu pieeja ir saistīta ar datiem vai modeli.
Ilgtermiņa aptvērums — retas, bet kritiskas klases bieži vien ir jāapkopo mērķtiecīgi, ne tikai jāveic lielāka apjoma apkopošana.
Nosauciet troksni — izmēriet un pēc tam samaziniet; neliels daudzums ir pieļaujams, paisuma vilnis — ne.
Sadalījuma nobīde — apmācības dati no viena reģiona vai kanāla var nebūt vispārināmi uz citu; validējiet ar mērķa tipa testa datiem [5].

Ja rodas šaubas, veiciet nelielus izmēģinājuma darbus un paplašiniet to. Tas ir kā garšvielas — pievienojiet, pagaršojiet, pielāgojiet, atkārtojiet.

Kur atrast un pārvaldīt datu kopas 🗂️

Populāri resursi un rīki (pašlaik nav nepieciešams iegaumēt URL):

Apskaujošo seju datu kopas — programmatiska ielāde, apstrāde, koplietošana.
Google datu kopu meklēšana — meta meklēšana visā tīmeklī.
UCI ML repozitorijs — atlasīti klasiskie materiāli pamatlīnijām un mācīšanai.
OpenML — uzdevumi + datu kopas + izpildes ar izcelsmi.
AWS Open Data / Google Cloud publiskās datu kopas — mitināti, liela mēroga korpusi.

Profesionāls padoms: ne tikai lejupielādējiet. Izlasiet licenci un datu lapuun pēc tam dokumentējiet savu kopiju ar versiju numuriem un izcelsmi [1].

Marķēšana un anotācija — vieta, kur tiek apspriesta patiesība ✍️

Anotācija ir vieta, kur jūsu teorētiskais etiķešu ceļvedis cīnās ar realitāti:

Uzdevuma izstrāde — uzrakstiet skaidrus norādījumus ar piemēriem un pretpiemēriem.
Anotētāja apmācība — sēkla ar zelta atbildēm, kalibrēšanas raundu veikšana.
Kvalitātes kontrole — izmantojiet vienošanās rādītājus, konsensa mehānismus un periodiskas revīzijas.
Rīki — izvēlieties rīkus, kas nodrošina shēmu validāciju un pārskatīšanas rindas; pat izklājlapas var strādāt ar noteikumiem un pārbaudēm.
Atgriezeniskās saites cilpas — fiksējiet anotētāja piezīmes un modelējiet kļūdas, lai uzlabotu rokasgrāmatu.

Ja rodas sajūta, ka jārediģē vārdnīca ar trim draugiem, kuri nepiekrīt komatiem… tas ir normāli. 🙃

Datu dokumentācija — netiešu zināšanu padarīšana par skaidri izteiktām 📒

Viegli lietojamai datu lapai vai datu kartei jāaptver:

Kas to savāca, kā un kāpēc.
Paredzētie lietojumi un lietojumi ārpus darbības jomas.
Zināmas nepilnības, novirzes un atteices režīmi.
Marķēšanas protokols, kvalitātes nodrošināšanas soļi un vienošanās statistika.
Licence, piekrišana, saziņa problēmu gadījumā, noņemšanas process.

Veidnes un piemēri: Datu kopu un modeļu karšu ir plaši izmantoti sākumpunkti [1].

Raksti to veidošanas laikā, nevis pēc tam. Atmiņa ir nestabils datu nesējs.

Salīdzināšanas tabula — vietas, kur atrast vai mitināt mākslīgā intelekta datu kopas 📊

Jā, tas ir nedaudz subjektīvs viedoklis. Un formulējums ir apzināti nedaudz nevienmērīgs. Viss kārtībā.

Rīks / Repozitorijs	Auditorija	Cena	Kāpēc tas darbojas praksē
Apskaujošo seju datu kopas	Pētnieki, inženieri	Brīvā līmeņa	Ātra ielāde, straumēšana, kopienas skripti; izcila dokumentācija; versiju datu kopas
Google datu kopu meklēšana	Ikviens	Bezmaksas	Plaša virsmas platība; lieliski piemērota atklāšanai; dažreiz gan nekonsekventi metadati
UCI ML repozitorijs	Studenti, pedagogi	Bezmaksas	Izvēlēti klasiskie materiāli; nelieli, bet kārtīgi; piemēroti gan sākumskolas līmeņa, gan mācību procesam
OpenML	Reprodukcijas pētnieki	Bezmaksas	Uzdevumi + datu kopas + palaišanas kopā; jaukas izcelsmes takas
AWS atvērto datu reģistrs	Datu inženieri	Pārsvarā bez maksas	Petabaitu mēroga mitināšana; mākoņdatošanas piekļuve; uzraudzības izejošās plūsmas izmaksas
Kaggle datu kopas	Praktizētāji	Bezmaksas	Vienkārša koplietošana, skripti, konkursi; kopienas signāli palīdz filtrēt troksni
Google mākoņa publiskās datu kopas	Analītiķi, komandas	Bezmaksas + mākonis	Hostings skaitļošanas tuvumā; BigQuery integrācija; uzmanīgi ar norēķiniem
Akadēmiskie portāli, laboratorijas	Nišas eksperti	Atšķiras	Augsti specializēts; dažreiz nepietiekami dokumentēts — tomēr ir vērts meklēt

(Ja šūna izskatās pļāpīga, tas ir tīši.)

Sava pirmā būvēšana - praktisks sākuma komplekts 🛠️

Jūs vēlaties pāriet no “kas ir mākslīgā intelekta datu kopa” uz “Es vienu izveidoju, tas darbojas”. Izmēģiniet šo minimālo ceļu:

Uzrakstiet lēmumu un metriku , piemēram, samaziniet ienākošā atbalsta nepareizos maršrutus, prognozējot pareizo komandu. Metrika: makro-F1.
Uzskaitiet 5 pozitīvus un 5 negatīvus piemērus — izmantojiet īstu biļešu paraugus; nefabricējiet tās.
Izstrādājiet etiķetes vadlīnijas — vienu lappusi; skaidri iekļaušanas/izslēgšanas noteikumi.
Apkopojiet nelielu, reālu izlasi — dažus simtus biļešu dažādās kategorijās; noņemiet nevajadzīgo personu apliecinošo informāciju.
Sadalījums ar noplūdes pārbaudēm — saglabājiet visus ziņojumus no viena un tā paša klienta vienā sadalījumā; izmantojiet šķērsvalidāciju, lai novērtētu dispersiju [5].
Anotēt ar kvalitātes nodrošināšanu — divi anotētāji apakškopā; atrisināt domstarpības; atjaunināt rokasgrāmatu.
Apmāciet vienkāršu bāzes līniju — vispirms loģistiku (piemēram, lineārus modeļus vai kompaktus transformatorus). Galvenais ir pārbaudīt datus, nevis iegūt medaļas.
Pārskatiet kļūdas — kur rodas kļūme un kāpēc; atjauniniet datu kopu, ne tikai modeli.
Dokuments — neliela datu lapa: avots, saite uz etiķetes ceļveža, sadalījumi, zināmie ierobežojumi, licence [1].
Plānojiet atsvaidzināšanu — parādās jaunas kategorijas, jauns slengs, jauni domēni; ieplānojiet nelielus, biežus atjauninājumus [3].

No šīs cilpas uzzināsi vairāk nekā no tūkstoš karstiem mēģinājumiem. Lūdzu, saglabā arī rezerves kopijas.

Bieži pieļautas kļūdas, kas rodas komandās 🪤

Datu noplūde — atbilde ieslīg funkcijās (piemēram, izmantojot pēc atrisināšanas laukus, lai prognozētu rezultātus). Šķiet kā krāpšanās, jo tā tāda ir.
Sekla daudzveidība — viena ģeogrāfiska atrašanās vieta vai ierīce maskējas kā globāla. Testi atklās sižeta pavērsienu.
Etiķetes nobīde — kritēriji laika gaitā mainās, bet etiķešu ceļvedis nemainās. Dokumentējiet un versijas izveidojiet savu ontoloģiju.
Nepietiekami definēti mērķi — ja nevarat definēt sliktu prognozi, arī jūsu dati to nedarīs.
Nesakārtotas licences — tagad nokasīt, vēlāk atvainoties, nav stratēģija.
Pārmērīga papildināšana — sintētiski dati, kas māca nereālus artefaktus, piemēram, pavāra apmācību ar plastmasas augļiem.

Ātri bieži uzdotie jautājumi par pašu frāzi ❓

Vai jautājums “Kas ir mākslīgā intelekta datu kopa?” ir tikai definīcijas jautājums? Lielākoties, bet tas ir arī signāls, ka jums rūp garlaicīgās daļas, kas padara modeļus uzticamus.
Vai man vienmēr ir nepieciešamas etiķetes? Nē. Neuzraudzītās, pašaprūpētās un RL iestatījumos bieži vien netiek izmantotas skaidras etiķetes, taču atlasīšana joprojām ir svarīga.
Vai es varu izmantot publiskos datus jebkādiem mērķiem? Nē. Ievērojiet licences, platformas noteikumus un privātuma saistības [4].
Lielāks vai labāks? Ideālā gadījumā abi. Ja jāizvēlas, vispirms izvēlies labāku.

Noslēguma piezīmes — ko var ekrānuzņēmt 📌

Ja kāds jums jautā, kas ir mākslīgā intelekta datu kopa, sakiet: tā ir rūpīgi atlasīta, dokumentēta piemēru kolekcija, kas māca un testē modeli, un ir ietverta pārvaldībā, lai cilvēki varētu uzticēties rezultātiem. Vislabākās datu kopas ir reprezentatīvas, labi marķētas, juridiski tīras un nepārtraukti uzturētas. Pārējais ir detaļas — svarīgas detaļas — par struktūru, sadalījumiem un visiem tiem mazajiem aizsargbarjerām, kas neļauj modeļiem nonākt satiksmē. Dažreiz process šķiet kā dārzkopība ar izklājlapām; dažreiz kā pikseļu barošana. Jebkurā gadījumā ieguldiet datos, un jūsu modeļi rīkosies mazāk dīvaini. 🌱🤖

Atsauces

[1] Datu kopu datu lapas — Gebru et al., arXiv. Saite
[2] Modeļu kartes modeļu ziņošanai — Mitchell et al., arXiv. Saite
[3] NIST mākslīgā intelekta riska pārvaldības sistēma (AI RMF 1.0). Saite
[4] Apvienotās Karalistes GDPR vadlīnijas un resursi — Informācijas komisāra birojs (ICO). Saite
[5] Savstarpēja validācija: novērtētāja veiktspējas novērtēšana — scikit-learn lietotāja rokasgrāmata. Saite

Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru