Kas ir mākslīgā intelekta pirmapstrāde?

Kas ir mākslīgā intelekta pirmapstrāde?

Īsa atbilde: mākslīgā intelekta pirmapstrāde ir atkārtojamu darbību kopums, kas neapstrādātus, augstas dispersijas datus pārvērš konsekventos modeļa ievades datos, tostarp tīrīšanā, kodēšanā, mērogošanā, tokenizēšanā un attēlu transformācijās. Tas ir svarīgi, jo, ja apmācības ievades dati un ražošanas ievades dati atšķiras, modeļi var nemanāmi neizdoties. Ja darbība “apgūst” parametrus, pielāgojiet to tikai apmācības datiem, lai izvairītos no noplūdes.

Mākslīgā intelekta pirmapstrāde ir viss, ko darāt ar neapstrādātiem datiem pirms (un dažreiz arī tās laikā) apmācības vai secinājumu izdarīšanas, lai modelis varētu no tiem mācīties. Ne tikai “tīrīšana”. Tā ir datu tīrīšana, formēšana, mērogošana, kodēšana, papildināšana un iepakošana konsekventā attēlojumā, kas vēlāk nemanāmi neizjauks jūsu modeli. [1]

Galvenie secinājumi:

Definīcija : pirmapstrāde pārveido neapstrādātas tabulas, tekstu, attēlus un žurnālus par modelim gatavām funkcijām.

Konsekvence : apmācības un secinājumu laikā lietojiet tās pašas transformācijas, lai novērstu neatbilstības kļūdas.

Noplūde : Pielāgojiet mērogotājus, kodētājus un tokenizerus tikai apmācības datiem.

Reproducējamība : Veidojiet cauruļvadus ar pārbaudāmu statistiku, nevis ad hoc piezīmju grāmatiņas šūnu secībām.

Ražošanas uzraudzība : Trases novirze un nobīde, lai ievades dati pakāpeniski nesamazinātu veiktspēju.

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Kā pārbaudīt mākslīgā intelekta modeļu veiktspēju reālajā pasaulē
Praktiskas metodes precizitātes, robustuma un neobjektivitātes ātrai novērtēšanai.

🔗 Vai teksta pārveidošana runā ir mākslīgais intelekts un kā tas darbojas?
Izskaidro TTS pamatus, galvenos lietojumus un mūsdienās izplatītākos ierobežojumus.

🔗 Vai mākslīgais intelekts mūsdienās var precīzi nolasīt kursīvu rokrakstu?
Aptver atpazīšanas izaicinājumus, labākos rīkus un padomus par precizitāti.

🔗 Cik precīzs ir mākslīgais intelekts bieži uzdevumos
Sadala precizitātes faktorus, etalonus un uzticamību reālajā pasaulē.


Mākslīgā intelekta pirmapstrāde vienkāršā valodā (un kas tā nav) 🤝

Mākslīgā intelekta pirmapstrāde ir neapstrādātu ievades datu (tabulu, teksta, attēlu, žurnālu) pārveidošana par modelim gatavām funkcijām. Ja neapstrādāti dati ir nekārtīga garāža, tad pirmapstrāde ir kastu marķēšana, salūzušu atkritumu izmešana un lietu sakraušana, lai jūs varētu iziet cauri bez traumām.

Tas nav pats modelis. Tās ir lietas, kas padara modeli iespējamu:

  • kategoriju pārvēršana skaitļos (vienskaitlis, kārtas skaitlis utt.) [1]

  • lielu skaitlisko diapazonu mērogošana saprātīgos diapazonos (standartizācija, min-max utt.) [1]

  • teksta tokenizācija ievades ID (un parasti uzmanības maskā) [3]

  • attēlu izmēru maiņa/apgriešana un atbilstoša deterministisko un nejaušo transformāciju pielietošana [4]

  • atkārtojamu cauruļvadu veidošana, lai apmācības un “reālās dzīves” ievades dati neatšķirtos smalki [2]

Viena neliela praktiska piezīme: “pirmapstrāde” ietver visu, kas notiek konsekventi, pirms modelis redz ievadi . Dažas komandas to iedala “funkciju inženierijā” un “datu tīrīšanā”, taču reālajā dzīvē šīs robežas izplūst.

 

AI priekšapstrāde

Kāpēc mākslīgā intelekta pirmapstrāde ir svarīgāka, nekā cilvēki atzīst 😬

Modelis ir modeļu salīdzinātājs, nevis domu lasītājs. Ja jūsu ievades dati ir pretrunīgi, modelis apgūst pretrunīgus noteikumus. Tas nav filozofiski, tas ir sāpīgi burtiski.

Priekšapstrāde palīdz:

  • Uzlabojiet mācīšanās stabilitāti , ievietojot reprezentācijās pazīmes, kuras novērtētāji var droši izmantot (īpaši, ja ir iesaistīta mērogošana/kodēšana). [1]

  • Samaziniet troksni , padarot haotisko realitāti līdzīgu kaut kam tādam, no kā var vispārināt modeli (nevis iegaumējot dīvainus artefaktus).

  • Novērst klusās kļūmes, piemēram, noplūdes un apmācības/apkalpošanas neatbilstības (tādas, kas validācijas laikā un pēc tam sākotnējās ieviešanas procesā izskatās “pārsteidzoši”). [2]

  • Paātriniet iterāciju, jo atkārtojamās transformācijas katru nedēļas dienu pārspēj piezīmju grāmatiņas saīsinājumu.

Turklāt tieši no turienes rodas liela daļa “modeļa snieguma”. Pārsteidzoši daudz. Dažreiz tas šķiet negodīgi, bet tāda ir realitāte 🙃


Kas veido labu mākslīgā intelekta pirmapstrādes cauruļvadu ✅

“Labai pirmapstrādes versijai” parasti ir šādas īpašības:

  • Reproducējams : tā pati ievade → tā pati izvade (nav noslēpumainas nejaušības, ja vien tā nav apzināta palielināšana).

  • Vilciena apkalpošanas konsekvence : viss, ko darāt apmācības laikā, tiek piemērots tādā pašā veidā secinājumu laikā (tie paši pielāgošanas parametri, tās pašas kategoriju kartes, tā pati tokenizera konfigurācija utt.). [2]

  • Drošs pret noplūdi : nekas novērtējumā/testā neietekmē nevienu pielāgošanas soli. (Vairāk par šo slazdu vēlāk.) [2]

  • Novērojams : varat pārbaudīt, kas mainījās (funkciju statistika, trūkumi, kategoriju skaits), tāpēc atkļūdošana nav uz vibrācijām balstīta inženierija.

Ja jūsu pirmapstrāde ir piezīmju grāmatiņas šūnu kaudze ar nosaukumu final_v7_really_final_ok … jūs zināt, kā tas ir. Tas darbojas, līdz tas vairs nedarbojas 😬


Mākslīgā intelekta pirmapstrādes galvenie pamatelementi 🧱

Domājiet par pirmapstrādi kā par pamatelementu kopumu, ko apvienojat cauruļvadā.

1) Tīrīšana un validācija 🧼

Tipiski uzdevumi:

  • noņemt dublikātus

  • apstrādāt trūkstošās vērtības (atmest, imputēt vai skaidri attēlot trūkumu)

  • ieviest tipus, mērvienības un diapazonus

  • atklāt nepareizi veidotas ievades

  • standartizēt teksta formātus (atstarpes, lielo burtu lietošanas noteikumi, Unicode īpatnības)

Šī daļa nav glaunīga, bet tā novērš ārkārtīgi muļķīgas kļūdas. Es to saku ar mīlestību.

2) Kategorisku datu kodēšana 🔤

Lielākā daļa modeļu nevar tieši izmantot neapstrādātas virknes, piemēram, "red" vai "premium_user" .

Izplatītākās pieejas:

  • Vienreizēja kodēšana (kategorija → binārās kolonnas) [1]

  • Kārtas kodējums (kategorija → vesela skaitļa ID) [1]

Galvenais nav tas, kuru kodētāju izvēlaties, bet gan tas, lai kartējums paliktu konsekvents un "nemainītu formu" starp apmācību un secinājumiem. Tādā veidā jūs iegūstat modeli, kas bezsaistē izskatās labi, bet tiešsaistē darbojas kā vajātājs. [2]

3) Funkciju mērogošana un normalizācija 📏

Mērogošana ir svarīga, ja elementi atrodas ļoti atšķirīgos diapazonos.

Divi klasiskie darbi:

  • Standartizācija : vidējās vērtības noņemšana un mērogošana līdz vienības dispersijai [1]

  • Min.-maks. mērogošana : mērogojiet katru funkciju noteiktā diapazonā [1]

Pat ja izmantojat modeļus, kas "lielākoties tiek galā", mērogošana bieži vien atvieglo cauruļvadu loģiku un apgrūtina nejaušu pārtraukšanu.

4) Funkciju inženierija (t. i., noderīga krāpšanās) 🧪

Šeit jūs atvieglojat modeļa darbu, radot labākus signālus:

  • attiecības (klikšķi/seansi)

  • slīdošie logi (pēdējās N dienas)

  • skaits (notikumu skaits uz vienu lietotāju)

  • logaritmiskās transformācijas smagas astes sadalījumiem

Šeit ir māksla. Dažreiz tu izveido kādu iezīmi, jūties lepns... un tā neko nedod. Vai, vēl ļaunāk, sāp. Tas ir normāli. Nepieķeries emocionāli iezīmēm - tās tevi nemīlēs pretī 😅

5) Datu pareiza sadalīšana ✂️

Tas izklausās acīmredzami, līdz tas vairs nav acīmredzams:

  • nejaušas IID datu dalīšanas

  • laika rindu sadalījumi, kuru pamatā ir laiks

  • grupētas atdalīšanas, ja entītijas atkārtojas (lietotāji, ierīces, pacienti)

Un pats galvenais: sadaliet pirms pielāgošanas priekšapstrādei, kas mācās no datiem . Ja jūsu priekšapstrādes solis “apgūst” parametrus (piemēram, līdzekļus, vārdu krājumu, kategoriju kartes), tam tie jāapgūst tikai no apmācības. [2]


Mākslīgā intelekta pirmapstrāde pēc datu tipa: tabulas, teksts, attēli 🎛️

Priekšapstrāde maina formu atkarībā no tā, ko jūs padodat modelim.

Tabulāri dati (izklājlapas, žurnāli, datubāzes) 📊

Bieži sastopamas darbības:

  • trūkstošās vērtības stratēģija

  • kategoriskā kodēšana [1]

  • skaitlisko kolonnu mērogošana [1]

  • noviržu apstrāde (domēna noteikumi lielākoties pārspēj "nejaušu izgriešanu")

  • atvasinātās funkcijas (apkopojumi, aiztures, mainīgā statistika)

Praktisks padoms: skaidri definējiet kolonnu grupas (skaitliski, kategoriski, identifikatori). Jūsu nākotnes "es" jums pateiksies.

Teksta dati (NLP) 📝

Teksta pirmapstrāde bieži ietver:

  • tokenizācija tokenos/apakšvārdos

  • konvertēšana uz ievades ID

  • papildināšana/saīsināšana

  • uzmanības masku veidošana partiju veidošanai [3]

Neliels noteikums, kas ietaupa laiku: transformeru komplektācijās ievērojiet modeļa paredzētos tokenizer iestatījumus un nepielietojiet brīvo stilu, ja vien jums nav iemesla. Brīvā stila gadījumā rezultāts ir tāds, ka “tas trenējas, bet ir dīvaini”

Attēli (datorredze) 🖼️

Tipiska pirmapstrāde:

  • mainīt izmērus/apgriezt, lai iegūtu vienādas formas

  • deterministiskas transformācijas novērtēšanai

  • nejaušas transformācijas apmācības papildināšanai (piemēram, nejauša apgriešana) [4]

Viena detaļa, ko cilvēki nepamana: “nejaušas transformācijas” nav tikai sajūta — tās burtiski ņem parametru paraugus katru reizi, kad tās tiek izsauktas. Lieliski piemēroti daudzveidības apmācībai, bet briesmīgi novērtēšanai, ja aizmirstat izslēgt nejaušību. [4]


Slazds, kurā iekrīt visi: datu noplūde 🕳️🐍

Noplūde ir tad, kad informācija no novērtēšanas datiem iekļūst apmācībā — bieži vien priekšapstrādes ceļā. Tas var padarīt jūsu modeli maģisku validācijas laikā, bet pēc tam jūs pievilt reālajā pasaulē.

Biežāk sastopamie noplūdes modeļi:

  • mērogošana, izmantojot pilna datu kopas statistiku (nevis tikai apmācību) [2]

  • kategoriju karšu veidošana, izmantojot vilcienu un testu kopā [2]

  • jebkurš fit() vai fit_transform() solis, kas “redz” testa kopu [2]

Īkšķa noteikums (vienkāršs, nežēlīgs, efektīvs):

  • Jebkam ar piemērotu soli jābūt piemērotam tikai treniņiem.

  • Pēc tam jūs transformējat validāciju/pārbaudi, izmantojot šo pielāgoto transformatoru. [2]

Un, ja vēlaties pārbaudīt, “cik slikti tas var būt?”, scikit-learn dokumentācijā ir parādīts noplūdes piemērs, kur nepareiza pirmapstrādes secība nejaušiem mērķiem 0,76 0,5 . Lūk, cik pārliecinoši var izskatīties nepareiza noplūde. [2]


Priekšapstrādes ieviešana ražošanā bez haosa 🏗️

Daudzi modeļi neizdodas ražošanā nevis tāpēc, ka modelis ir “slikts”, bet gan tāpēc, ka ievades realitāte — vai jūsu ražošanas plūsma.

Ražošanas ziņā orientēta pirmapstrāde parasti ietver:

  • Saglabātie artefakti (kodētāja kartējumi, mērogošanas parametri, tokenizera konfigurācija), lai secinājumi izmantotu tieši tās pašas apgūtās transformācijas [2].

  • Stingri ievades līgumi (paredzamās kolonnas/tipi/diapazoni)

  • Novirzes un nobīdes uzraudzība , jo ražošanas dati mainīsies [5]

Ja vēlaties konkrētas definīcijas: Google Vertex AI modeļu uzraudzība izšķir apmācības apkalpošanas novirzi (ražošanas sadalījums atšķiras no apmācības) un secinājumu novirzi (ražošanas sadalījums laika gaitā mainās) un atbalsta gan kategorisko, gan skaitlisko pazīmju uzraudzību [5].

Jo pārsteigumi ir dārgi. Un ne jau tie jautrie.


Salīdzināšanas tabula: izplatītākie pirmapstrādes un uzraudzības rīki (un kam tie paredzēti) 🧰

Rīks/bibliotēka Vislabāk piemērots Cena Kāpēc tas darbojas (un nedaudz godīguma)
scikit-learn pirmapstrāde Tabulveida ML cauruļvadi Bezmaksas Cietvielu kodētāji + skalētāji (OneHotEncoder, StandardScaler u. c.) un paredzama uzvedība [1]
Apskaujošas sejas tokenizeri NLP ievades sagatavošana Bezmaksas Izveido ievades ID + uzmanības maskas konsekventi visās palaišanas reizēs/modeļos [3]
torchvision transformācijas Redzes pārveidošana + palielināšana Bezmaksas Tīrs veids, kā apvienot deterministiskas un nejaušas transformācijas vienā cauruļvadā [4]
Vertex AI modeļa uzraudzība Novirzes/šķībuma noteikšana produktā Apmaksāts (mākonis) Monitori fiksē novirzi/nobīdi un brīdina, ja tiek pārsniegtas robežvērtības [5]

(Jā, tabulā joprojām ir viedokļi. Bet vismaz tie ir godīgi viedokļi 😅)


Praktisks pirmapstrādes kontrolsaraksts, ko varat izmantot 📌

Pirms treniņa

  • Definēt ievades shēmu (tipi, mērvienības, atļautie diapazoni)

  • Trūkstošo vērtību un dublikātu audits

  • Sadaliet datus pareizā veidā (nejauši / pēc laika / grupēti)

  • Pielāgošanas priekšapstrāde tikai apmācības ( fit / fit_transform paliek vilcienā) [2]

  • Saglabāt pirmapstrādes artefaktus, lai secinājumi varētu tos atkārtoti izmantot [2]

Treniņa laikā

  • Nejaušu palielinājumu lietot tikai atbilstošos gadījumos (parasti tikai apmācības sadalījumu) [4]

  • Saglabāt novērtēšanas pirmapstrādi deterministisku [4]

  • Izsekojiet pirmapstrādes izmaiņas tāpat kā modeļa izmaiņas (jo tās tādas ir)

Pirms izvietošanas

  • Nodrošināt, lai secinājumi izmantotu identisku pirmapstrādes ceļu un artefaktus [2]

  • Iestatiet nobīdes/novirzes uzraudzību (pat pamata pazīmju sadalījuma pārbaudes ir ļoti noderīgas) [5]


Padziļināta analīze: bieži sastopamas pirmapstrādes kļūdas (un kā no tām izvairīties) 🧯

1. kļūda: “Es visu ātri normalizēšu” 😵

Ja mērogošanas parametrus aprēķināt visā datu kopā, tiek nopludināta novērtēšanas informācija. Pielāgojiet to vilcienam, pārveidojiet pārējo. [2]

2. kļūda: kategorijas ieslīgst haosā 🧩

Ja jūsu kategoriju kartējums mainās starp apmācību un secinājumiem, jūsu modelis var nemanāmi nepareizi interpretēt pasauli. Saglabājiet kartējumus, izmantojot saglabātus artefaktus. [2]

3. kļūda: nejauša papildināšana ielaužas novērtēšanā 🎲

Nejaušas transformācijas ir lieliskas apmācībā, taču tām nevajadzētu būt “slepeni ieslēgtām”, kad mēģināt mērīt veiktspēju. (Nejaušas nozīmē nejaušas.) [4]


Noslēguma piezīmes 🧠✨

Mākslīgā intelekta pirmapstrāde ir disciplinēta māksla, kā haotisku realitāti pārvērst konsekventos modeļa ievades datos. Tā aptver tīrīšanu, kodēšanu, mērogošanu, tokenizāciju, attēlu transformācijas un, pats galvenais, atkārtojamus cauruļvadus un artefaktus.

  • Veiciet priekšapstrādi apzināti, nevis pavirši. [2]

  • Vispirms sadaliet, pielāgojiet transformācijas tikai apmācības laikā, izvairieties no noplūdes. [2]

  • Izmantojiet modalitātei atbilstošu pirmapstrādi (tokenizerus tekstam, transformācijas attēliem). [3][4]

  • Uzraugiet ražošanas neprecizitāti/novirzi, lai jūsu modelis lēnām nekļūtu par bezjēdzīgu. [5]

Un, ja kādreiz rodas problēmas, pajautājiet sev:
“Vai šim pirmapstrādes solim joprojām būtu jēga, ja es to rīt palaistu ar pavisam jauniem datiem?”
Ja atbilde ir “ēē… varbūt?”, tā ir jūsu norāde 😬


Bieži uzdotie jautājumi

Kas ir mākslīgā intelekta pirmapstrāde vienkāršoti?

Mākslīgā intelekta pirmapstrāde ir atkārtojams darbību kopums, kas pārveido trokšņainus, augstas dispersijas neapstrādātus datus konsekventos ievades datos, no kuriem modelis var mācīties. Tas var ietvert tīrīšanu, validāciju, kategoriju kodēšanu, skaitlisko vērtību mērogošanu, teksta tokenizēšanu un attēlu transformāciju piemērošanu. Mērķis ir nodrošināt, lai apmācības un ražošanas secinājumi redzētu “vienāda veida” ievades datus, lai modelis vēlāk nekļūtu par neparedzamu uzvedību.

Kāpēc mākslīgā intelekta pirmapstrādei ir tik liela nozīme ražošanā?

Priekšapstrāde ir svarīga, jo modeļi ir jutīgi pret ievades attēlojumu. Ja apmācības dati tiek mērogoti, kodēti, tokenizēti vai pārveidoti atšķirīgi no ražošanas datiem, var rasties apmācības/apkalpošanas neatbilstības kļūdas, kas bezsaistē izskatās labi, bet tiešsaistē klusi neizdodas. Spēcīgi priekšapstrādes cauruļvadi arī samazina troksni, uzlabo mācīšanās stabilitāti un paātrina iterāciju, jo netiek atšķetināts nebeidzams piezīmju bloka darbs.

Kā izvairīties no datu noplūdes pirmapstrādes laikā?

Darbojas vienkāršs noteikums: jebkam ar pielāgošanas soli ir jābūt pielāgotam tikai apmācības datiem. Tas ietver mērogotājus, kodētājus un tokenizerus, kas apgūst tādus parametrus kā līdzekļi, kategoriju kartes vai vārdu krājumu. Vispirms jūs sadalāt, pielāgojat apmācības sadalījumam un pēc tam transformējat validāciju/testu, izmantojot pielāgoto transformatoru. Noplūde var padarīt validāciju “maģiski” labu un pēc tam sabrukt ražošanas vidē.

Kādi ir visbiežāk veicamie tabulveida datu pirmapstrādes soļi?

Tabulveida datiem parasti tiek izmantota tīrīšana un validācija (tipi, diapazoni, trūkstošās vērtības), kategoriskā kodēšana (vienreizēja vai kārtas kodēšana) un skaitliskā mērogošana (standartizācija vai min-max). Daudzi cauruļvadi pievieno domēna vadītu funkciju inženieriju, piemēram, attiecības, slīdošos logus vai skaitļus. Praktisks ieradums ir skaidri definēt kolonnu grupas (skaitliskas, kategoriskas vai identifikatori), lai jūsu transformācijas saglabātu konsekventu raksturu.

Kā darbojas teksta modeļu pirmapstrāde?

Teksta pirmapstrāde parasti nozīmē tokenizāciju tokenos/apakšvārdos, to pārveidošanu ievades ID un papildināšanas/saīsināšanas apstrādi partijveida apstrādei. Daudzas transformatoru darbplūsmas izveido arī uzmanības masku līdzās ID. Izplatīta pieeja ir izmantot modeļa paredzēto tokenizera konfigurāciju, nevis improvizēt, jo nelielas atšķirības tokenizera iestatījumos var izraisīt rezultātus, kas "tas apmācās, bet uzvedas neparedzami".

Kāda ir atšķirība attēlu pirmapstrādē mašīnmācībai?

Attēlu pirmapstrāde parasti nodrošina konsekventas formas un pikseļu apstrādi: izmēru maiņu/apgriešanu, normalizēšanu un skaidru nodalījumu starp deterministiskām un nejaušām transformācijām. Novērtēšanai transformācijām jābūt deterministiskām, lai metrikas būtu salīdzināmas. Apmācībai nejauša palielināšana (piemēram, nejauša apgriešana) var uzlabot robustumu, taču nejaušībai jābūt apzināti ierobežotai līdz apmācības sadalījumam, nevis nejauši atstātai ieslēgtai novērtēšanas laikā.

Kas padara pirmapstrādes cauruļvadu “labu”, nevis trauslu?

Labs mākslīgā intelekta pirmapstrādes cauruļvads ir reproducējams, drošs pret noplūdi un novērojams. Reproducējams nozīmē, ka viena un tā pati ievade rada tādu pašu izvadi, ja vien nejaušība nav apzināta papildināšana. Drošs pret noplūdi nozīmē, ka atbilstības soļi nekad nesaskaras ar validāciju/testēšanu. Novērojams nozīmē, ka varat pārbaudīt tādus statistiku kā trūkumus, kategoriju skaitu un pazīmju sadalījumu, tāpēc atkļūdošana balstās uz pierādījumiem, nevis uz sajūtām. Cauruļvadi katru reizi pārspēj ad-hoc piezīmju grāmatiņu secības.

Kā nodrošināt apmācības un secinājumu pirmapstrādes konsekventu darbību?

Svarīgākais ir secinājumu izdarīšanas laikā atkārtoti izmantot tieši tos pašus apgūtos artefaktus: mērogošanas parametrus, kodētāja kartējumus un tokenizera konfigurācijas. Jums ir nepieciešams arī ievades līgums (paredzamās kolonnas, tipi un diapazoni), lai ražošanas dati nevarētu nemanāmi krist nederīgās formās. Konsekvence nenozīmē tikai "veikt tās pašas darbības" — tā ir "veikt tās pašas darbības ar tiem pašiem pielāgotajiem parametriem un kartējumiem"

Kā laika gaitā varu uzraudzīt tādas pirmapstrādes problēmas kā nobīdi un šķībumu?

Pat ar stabilu cauruļvadu ražošanas dati mainās. Izplatīta pieeja ir uzraudzīt funkciju sadalījuma izmaiņas un brīdināt par apmācības apkalpošanas novirzi (ražošana atšķiras no apmācības) un secinājumu novirzi (ražošana mainās laika gaitā). Uzraudzība var būt viegla (pamata sadalījuma pārbaudes) vai pārvaldīta (piemēram, Vertex AI modeļa uzraudzība). Mērķis ir laikus pamanīt ievades nobīdes — pirms tās lēnām pasliktina modeļa veiktspēju.

Atsauces

[1] scikit-learn API:
sklearn.preprocessing (kodētāji, mērogotāji, normalizācija) [2] scikit-learn: Biežāk sastopamās kļūmes — datu noplūde un kā no tās izvairīties
[3] Hugging Face Transformers dokumentācija: Tokenizeri (ievades ID, uzmanības maskas)
[4] PyTorch Torchvision dokumentācija: Transformācijas (izmēra maiņa/normalizācija + nejaušas transformācijas)
[5] Google Cloud Vertex AI dokumentācija: Modeļa uzraudzības pārskats (funkciju novirze un nobīde)

Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru