Kā izmantot NVIDIA GPU mākslīgā intelekta apmācībai

Kā izmantot NVIDIA GPU mākslīgā intelekta apmācībai

Īsa atbilde: nvidia-smi pārbaudot, ka draiveris un GPU ir redzami , pēc tam instalējot saderīgu ietvaru/CUDA steku un palaižot nelielu “model + batch on CUDA” testu. Ja rodas problēmas ar atmiņu, samaziniet partijas lielumu un izmantojiet jauktu precizitāti, vienlaikus uzraugot noslodzi, atmiņu un temperatūru.

Galvenie secinājumi:

Pamatpārbaudes : Sāciet ar nvidia-smi ; pirms ietvaru instalēšanas salabojiet draiveru redzamību.

Steka saderība : Saglabājiet draivera, CUDA izpildlaika un ietvara versijas saskaņotas, lai novērstu avārijas un nestabilas instalācijas.

Nelieli panākumi : pirms eksperimentu paplašināšanas pārliecinieties, vai CUDA vidē darbojas viena uz priekšu vērsta pārbaude.

VRAM disciplīna : Paļaujieties uz jauktu precizitāti, gradientu uzkrāšanu un kontrolpunktiem, lai tie atbilstu lielākiem modeļiem.

Uzraudzības paradums : izsekojiet izmantošanu, atmiņas modeļus, jaudu un temperatūru, lai laikus pamanītu sastrēgumus.

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Kā izveidot mākslīgā intelekta aģentu
Izstrādājiet sava aģenta darbplūsmu, rīkus, atmiņu un drošības līdzekļus.

🔗 Kā izvietot mākslīgā intelekta modeļus
Iestatiet vides, pakotņu modeļus un droši nosūtiet uz ražošanu.

🔗 Kā izmērīt mākslīgā intelekta veiktspēju
Izvēlieties rādītājus, veiciet novērtējumus un laika gaitā izsekojiet sniegumam.

🔗 Kā automatizēt uzdevumus ar mākslīgo intelektu
Automatizējiet atkārtotu darbu, izmantojot uzvednes, darbplūsmas un integrācijas.


1) Kopskats — ko jūs darāt, kad “trenējaties ar GPU” 🧠⚡

Apmācot mākslīgā intelekta modeļus, jūs galvenokārt veicat milzīgu matricu matemātikas darbu. Grafiskās procesoras (GPU) ir paredzētas šāda veida paralēlam darbam, tāpēc tādi ietvari kā PyTorch, TensorFlow un JAX var atvieglot darbu, uzliekot to GPU. ( PyTorch CUDA dokumentācija , TensorFlow instalēšana (pip) , JAX ātrā pamācība )

Praksē “NVIDIA GPU izmantošana apmācībai” parasti nozīmē:

  • Jūsu modeļa parametri (lielākoties) atrodas GPU VRAM atmiņā

  • Jūsu partijas tiek pārvietotas no RAM uz VRAM katrā solī

  • Jūsu uz priekšu un atpakaļgaitas pārsūtīšana darbojas ar CUDA kodoliem ( CUDA programmēšanas rokasgrāmata )

  • Optimizatora atjauninājumi tiek veikti GPU (ideālā gadījumā)

  • Jūs uzraugāt temperatūru, atmiņu un izmantošanu, lai nekas netiktu sabojāts 🔥 ( NVIDIA nvidia-smi dokumentācija )

Ja tas izklausās daudz, neuztraucieties. Tas galvenokārt ir kontrolsaraksts un daži ieradumi, ko veidojat laika gaitā.


2) Kas veido labu NVIDIA GPU AI apmācības iestatījumu 🤌

Šī ir sadaļa “nebūvē māju uz želejas”. Labs iestatījums NVIDIA GPU izmantošanai mākslīgā intelekta apmācībai ir tāds, kurā ir maz dramatisma. Maz dramatisma ir stabils. Stabils ir ātrs. Ātrs ir… nu, ātrs 😄

Stabilam treniņu režīmam parasti ir:

  • Pietiekami daudz VRAM jūsu partijas lielumam + modelim + optimizētāja stāvokļiem

    • Videoatmiņa (VRAM) ir kā čemodāna ietilpība. Var iesaiņot gudrāk, bet nevar iesaiņot bezgalīgi daudz.

  • Saskaņots programmatūras komplekts (draiveris + CUDA izpildlaiks + ietvara saderība) ( PyTorch Get Started (CUDA selektors) , TensorFlow instalēšana (pip) )

  • Ātra glabāšana (NVMe ļoti palīdz lielu datu kopu apstrādei)

  • Pienācīgs centrālais procesors + operatīvā atmiņa , lai datu ielāde nepārslogotu grafisko procesoru ( PyTorch veiktspējas regulēšanas rokasgrāmata )

  • Dzesēšanas un jaudas rezerve (tiek novērtēta par zemu, līdz tā vairs nav 😬)

  • Reproducējama vide (venv/conda vai konteineri), lai jauninājumi neradītu haosu ( NVIDIA Container Toolkit pārskats )

Un vēl viena lieta, ko cilvēki izlaiž:

  • Uzraudzības ieradums — jūs pārbaudāt GPU atmiņu un izmantošanu tāpat kā pārbaudāt spoguļus braukšanas laikā. ( NVIDIA nvidia-smi dokumentācija )


3) Salīdzināšanas tabula — populāri veidi, kā trenēties ar NVIDIA GPU (ar īpatnībām) 📊

Zemāk ir īsa “kurš der?” apkrāptu lapa. Cenas ir aptuvenas (jo realitāte mainās), un jā, viena no šīm šūnām ir nedaudz nevienmērīga, ar nolūku.

Rīks/pieeja Vislabāk piemērots Cena Kāpēc tas darbojas (lielākoties)
PyTorch (vaniļas) PyTorch lielākā daļa cilvēku, lielākā daļa projektu Bezmaksas Elastīga, milzīga ekosistēma, vienkārša atkļūdošana — arī ikvienam ir savs viedoklis
PyTorch Lightning Lightning dokumentācija komandas, strukturēta apmācība Bezmaksas Samazina standarta rutīnu, tīrākas cilpas; dažreiz šķiet kā “maģija”, līdz tā vairs nav
Apskaujošās sejas transformeri + treneris, trenera dokumentācija NLP + LLM precizēšana Bezmaksas Treniņi ar iekļautām baterijām, lieliski noklusējuma iestatījumi, ātras uzvaras 👍
Paātrināt Paātrināt dokumentāciju vairāku GPU bez sāpēm Bezmaksas Padara DDP mazāk kaitinošu, piemērots mērogošanai, nepārrakstot visu
DeepSpeed ​​ZeRO dokumentācija lieli modeļi, atmiņas triki Bezmaksas Nulles slodzes samazināšana, atslodze, mērogošana — var būt sarežģīta, bet apmierinoša, kad tā noklikšķ
TensorFlow + Keras TF instalēšana ražošanas cauruļvadi Bezmaksas Spēcīga rīkkopa, labs ieviešanas stāsts; dažiem cilvēkiem tas patīk, citiem klusībā nepatīk
JAX + Flax JAX īsā pamācība / Flax dokumentācija pētniecības + ātruma nūģi Bezmaksas XLA kompilācija var būt neticami ātra, bet atkļūdošana var šķist…abstrakta
NVIDIA NeMo NeMo pārskats runas + LLM darbplūsmas Bezmaksas NVIDIA optimizēts steks, labas receptes — sajūta, ka gatavojat ar modernu cepeškrāsni 🍳
Docker + NVIDIA konteineru rīkkopa rīkkopas pārskats reproducējamas vides Bezmaksas “Darbojas manā datorā” kļūst par “darbojas mūsu datorā” (lielākoties, atkal)

4) Pirmais solis — pārliecinieties, vai jūsu GPU ir pareizi redzams 🕵️♂️

Pirms duča lietu instalēšanas pārbaudiet pamatus.

Lietas, kurām vēlaties būt patiesām:

  • Mašīna redz GPU

  • NVIDIA draiveris ir pareizi instalēts

  • GPU nav iestrēdzis darot kaut ko citu

  • Jūs varat to droši apšaubīt

Klasiskā pārbaude ir šāda:

Ko jūs meklējat:

Ja nvidia-smi neizdodas, apstājieties tieši tur. Vēl neinstalējiet ietvarus. Tas ir kā mēģināt cept maizi, kad cepeškrāsns nav pievienota elektrotīklam. ( NVIDIA sistēmas pārvaldības saskarne (NVSMI) )

Neliela cilvēciska piezīme: dažreiz nvidia-smi darbojas, bet apmācība joprojām neizdodas, jo jūsu ietvara izmantotais CUDA izpildlaiks neatbilst draivera cerībām. Tā nav jūsu muļķība. Tā tas vienkārši ir 😭 ( PyTorch Get Started (CUDA selektors) , TensorFlow instalēšana (pip) )


5) Izveidojiet programmatūras steku — draiverus, CUDA, cuDNN un “saderības deju” 💃

Šeit cilvēki zaudē stundas. Knifs ir: izvēlies ceļu un pieturies pie tā .

A variants: Ar ietvaru saistīta CUDA (bieži vien vienkāršākais)

Daudzas PyTorch versijas tiek piegādātas ar savu CUDA izpildlaiku, kas nozīmē, ka jums nav nepieciešams pilns CUDA rīku komplekts, kas instalēts visā sistēmā. Jums galvenokārt ir nepieciešams tikai saderīgs NVIDIA draiveris. ( PyTorch darba sākšana (CUDA atlasītājs) , iepriekšējās PyTorch versijas (CUDA ritenīši) )

Plusi:

  • Mazāk kustīgu daļu

  • Vienkāršāka instalēšana

  • Labāk atkārtojamība katrā vidē

Mīnusi:

  • Ja nejauši sajaucat vides, varat apjukt

B variants: Sistēmas CUDA rīkkopa (lielāka kontrole)

Jūs instalējat CUDA rīku komplektu sistēmā un visu pielāgojat tam. ( CUDA rīku komplekta dokumentācija )

Plusi:

  • Lielāka kontrole pielāgotām konstrukcijām, daži īpaši rīki

  • Ērti noteiktu operāciju kompilēšanai

Mīnusi:

  • Vairāk veidu, kā nesaskaņot versijas un klusi raudāt

cuDNN un NCCL cilvēka izpratnē

  • cuDNN paātrina dziļās mācīšanās primitīvus (konvolūcijas, RNN bitus utt.) ( NVIDIA cuDNN dokumentācija )

  • NCCL ir ātra “GPU savstarpējās komunikācijas” bibliotēka vairāku GPU apmācībai ( NCCL pārskats ).

Ja veicat apmācību ar vairākiem GPU, NCCL ir jūsu labākais draugs un dažreiz pat kaprīzs istabas biedrs. ( NCCL pārskats )


6) Jūsu pirmais GPU apmācības skrējiens (PyTorch domāšanas piemērs) ✅🔥

Lai sekotu līdzi pamācībai “Kā izmantot NVIDIA GPU mākslīgā intelekta apmācībai” , vispirms nav nepieciešams milzīgs projekts. Jums ir nepieciešami nelieli panākumi.

Galvenās idejas:

  • Noteikt ierīci

  • Pārvietot modeli uz GPU

  • Pārvietot tenzorus uz GPU

  • Apstipriniet, ka uz priekšu vērstais sitiens tur notiek ( PyTorch CUDA dokumentācija )

Lietas, kurām vienmēr pārbaudu savu veselo saprātu:

Bieži uzdotie jautājumi “kāpēc tas ir lēns?”, sapratu

  • Jūsu datu ielādētājs ir pārāk lēns (GPU gaida dīkstāvē) ( PyTorch veiktspējas regulēšanas rokasgrāmata )

  • Aizmirsāt pārvietot datus uz GPU (ups)

  • Partijas lielums ir niecīgs (GPU netiek pietiekami izmantots)

  • Apmācības posmā jūs veicat intensīvu CPU priekšapstrādi

Jā, un, ja sašaurinājums ir dati, jūsu grafiskais procesors bieži vien izskatīsies “ne tik aizņemts”. Tas ir līdzīgi kā nolīgt sacīkšu braucēju un likt viņam katrā aplī gaidīt uz degvielu.


7) VRAM spēle — partijas lielums, jaukta precizitāte un neeksplodējoša darbība 💥🧳

Lielākā daļa praktisko apmācību problēmu ir saistītas ar atmiņu. Ja apgūstat vienu prasmi, apgūstiet VRAM pārvaldību.

Ātri veidi, kā samazināt atmiņas izmantošanu

Brīdis “kāpēc videoatmiņa joprojām ir pilna pēc tam, kad esmu apturējis?”

Ietvari bieži vien saglabā kešatmiņu veiktspējas nodrošināšanai. Tas ir normāli. Tas izskatās biedējoši, bet tā ne vienmēr ir noplūde. Jūs iemācāties lasīt modeļus. ( PyTorch CUDA semantika: kešatmiņas piešķīrējs )

Praktisks ieradums:


8) Lieciet GPU faktiski darboties — veiktspējas regulēšana, kas ir jūsu laika vērta 🏎️

Pirmais solis ir panākt, lai “GPU apmācība darbotos”. Otrais solis ir ātri

Augstas ietekmes optimizācijas

Visvairāk nepamanītā sašaurinājuma vieta

Jūsu krātuves un pirmapstrādes cauruļvads. Ja jūsu datu kopa ir milzīga un tiek glabāta lēnā diskā, jūsu GPU kļūst par dārgu telpas sildītāju. Ļoti progresīvs, ļoti spīdīgs telpas sildītājs.

Vēl neliela atzīšanās: es stundu “optimizēju” modeli, tikai lai saprastu, ka reģistrēšana bija vājā vieta. Pārāk liela drukāšana var palēnināt apmācību. Jā, tā var.


9) Vairāku GPU apmācība — DDP, NCCL un mērogošana bez haosa 🧩🤝

Kad vēlaties lielāku ātrumu vai lielākus modeļus, varat izvēlēties vairāku GPU sistēmu. Šeit lietas kļūst pikantas.

Izplatītas pieejas

  • Datu paralēlais (DDP)

  • Modelis paralēli / Tenzors paralēli

    • Sadalīt modeli starp GPU (ļoti lieliem modeļiem)

  • Cauruļvada paralēlais

    • Sadalīt modeļa slāņus posmos (līdzīgi kā montāžas līnija, bet tenzoriem)

Ja sākat, DDP stila apmācība ir ideāls risinājums. ( PyTorch DDP pamācība )

Praktiski padomi darbam ar vairākiem GPU

  • Pārliecinieties, vai GPU ir līdzīgi spējīgi (sajaukšana var radīt sašaurinājumu)

  • Skatieties savienojumu: NVLink un PCIe atšķirība ir svarīga sinhronizācijas ziņā lielām darba slodzēm ( NVIDIA NVLink pārskats , NVIDIA NVLink dokumentācija ).

  • Saglabājiet līdzsvarotus partiju izmērus katram GPU

  • Neignorējiet centrālo procesoru un krātuvi — vairāku grafisko procesoru (GPU) izmantošana var pastiprināt datu pārraides sastrēgumus

Un jā, NCCL kļūdas var šķist kā mīkla, kas ietīta noslēpumā, kas ietīts jautājumā “kāpēc tieši tagad”. Jūs neesat nolādēts. Iespējams. ( NCCL pārskats )


10) Uzraudzība un profilēšana — nepievilcīgas lietas, kas ietaupa jūsu stundas 📈🧯

Sākumā nav nepieciešami grezni informācijas paneļi. Jums ir jāpamana, kad kaut kas nav kārtībā.

Galvenie signāli, kas jāuzrauga

  • GPU noslodze : vai tā ir pastāvīgi augsta vai strauji pieaug?

  • Atmiņas izmantošana : stabila, kāpjoša vai dīvaina?

  • Jaudas patēriņš : neparasti zems var nozīmēt nepietiekamu izmantošanu

  • Temperatūra : ilgstoša augsta temperatūra var ierobežot veiktspēju

  • CPU izmantošana : šeit parādās datu cauruļvada problēmas ( PyTorch veiktspējas regulēšanas rokasgrāmata )

Profilēšanas domāšanas veids (vienkāršā versija)

  • Ja GPU ir zema noslodze — datu vai procesora sastrēgums

  • Ja GPU ir augsts, bet lēns — kodola neefektivitāte, precizitāte vai modeļa arhitektūra

  • Ja apmācības ātrums nejauši samazinās — termiskā droseļvārstīšana, fona procesi, I/O darbības traucējumi

Zinu, ka uzraudzība neizklausās nepatīkami. Bet tā ir kā zobu diega lietošana. Kaitinoši, un tad pēkšņi dzīve uzlabojas.


11) Problēmu novēršana — parastie aizdomīgie (un retāk sastopamie) 🧰😵💫

Šī sadaļa būtībā ir: “tie paši pieci jautājumi mūžīgi”

Problēma: CUDA nepietiek atmiņas

Labojumi:

Problēma: Apmācība nejauši tiek veikta, izmantojot centrālo procesoru (CPU)

Labojumi:

  • pārliecinieties, ka modelis ir pārvietots uz Cuda

  • pārliecinieties, ka tenzori ir pārvietoti uz CUDA

  • pārbaudiet ietvara ierīces konfigurāciju ( PyTorch CUDA dokumentācija )

Problēma: Dīvainas avārijas vai nelegāla piekļuve atmiņai

Labojumi:

Problēma: Lēnāk nekā gaidīts

Labojumi:

Problēma: Vairāku GPU darbības pārtraukumi

Labojumi:

  • apstiprināt pareizos aizmugursistēmas iestatījumus ( PyTorch izkliedētā dokumentācija )

  • pārbaudiet NCCL vides konfigurācijas (uzmanīgi) ( NCCL pārskats )

  • vispirms pārbaudiet vienu GPU

  • pārliecinieties, vai tīkls/savienojums ir veselīgs

Neliela atkāpšanās: dažreiz labojums ir burtiski pārstartēšana. Tas šķiet muļķīgi. Tas darbojas. Datori ir tādi.


12) Izmaksas un praktiskums — pareizā NVIDIA GPU un iestatījumu izvēle bez liekas domāšanas 💸🧠

Ne katram projektam ir nepieciešams vislielākais GPU. Dažreiz ir nepieciešams pietiekami daudz GPU.

Ja jūs precizējat vidēja izmēra modeļus

Ja apmācāt lielākus modeļus no nulles

Ja veicat eksperimentus

  • Jūs vēlaties ātru iterāciju

  • Netērējiet visu savu naudu GPU un pēc tam neizmantojiet atmiņas un RAM resursus

  • Sabalansēta sistēma pārspēj nevienmērīgu (vairumā dienu)

Un patiesībā jūs varat tērēt nedēļas, dzenoties pakaļ “ideālai” aparatūras izvēlei. Izveidojiet kaut ko funkcionējošu, izmēriet un pēc tam pielāgojiet. Īstais ienaidnieks ir atgriezeniskās saites trūkums.


Noslēguma piezīmes — kā izmantot NVIDIA GPU mākslīgā intelekta apmācībai, nezaudējot prātu 😌✅

NVIDIA GPU izmantošanu mākslīgā intelekta apmācībai neko citu nezināt , ņemiet vērā šo:

Apmācība darbā ar NVIDIA GPU ir viena no tām prasmēm, kas šķiet biedējoša, bet pēkšņi tā kļūst vienkārši... normāla. Kā mācīties vadīt automašīnu. Sākumā viss ir skaļš un mulsinošs, un tu pārāk cieši turi stūri. Tad kādu dienu tu brauc mierīgi, malko kafiju un ikdienišķi atkļūdo partijas lieluma problēmu, it kā tā nebūtu nekas liels ☕😄

Bieži uzdotie jautājumi

Ko nozīmē apmācīt mākslīgā intelekta modeli NVIDIA GPU

Apmācība NVIDIA GPU nozīmē, ka jūsu modeļa parametri un apmācības paketes atrodas GPU VRAM, un sarežģītie matemātikas uzdevumi (uz priekšu, atpakaļprop, optimizētāja soļi) tiek izpildīti, izmantojot CUDA kodolus. Praksē tas bieži vien nozīmē nodrošināt, lai modelis un tenzori atrastos CUDA , pēc tam sekojot līdzi atmiņai, izmantošanai un temperatūrai, lai caurlaidspēja saglabātu nemainīgu vērtību.

Kā pārliecināties, ka NVIDIA GPU darbojas, pirms instalējat jebko citu

Sāciet ar nvidia-smi . Tam vajadzētu parādīt GPU nosaukumu, draivera versiju, pašreizējo atmiņas izmantošanu un visus darbojošos procesus. Ja nvidia-smi neizdodas, pagaidiet ar PyTorch/TensorFlow/JAX — vispirms salabojiet draivera redzamību. Tā ir pamata pārbaude "vai krāsns ir pievienota elektrotīklam" GPU apmācībai.

Izvēle starp sistēmas CUDA un CUDA, kas komplektā ar PyTorch

Izplatīta pieeja ir izmantot ar ietvaru saistītu CUDA (tāpat kā daudzus PyTorch diskus), jo tas samazina kustīgo daļu skaitu — galvenokārt ir nepieciešams saderīgs NVIDIA draiveris. Pilna sistēmas CUDA rīkkopa instalēšana piedāvā lielāku kontroli (pielāgotas versijas, kompilēšanas operācijas), taču tā rada arī vairāk iespēju versiju neatbilstībām un mulsinošām izpildlaika kļūdām.

Kāpēc apmācība joprojām var būt lēna pat ar NVIDIA GPU

Bieži vien GPU nogurst no ievades plūsmas. Datu ielādētāju aiztures, intensīva centrālā procesora (CPU) priekšapstrāde apmācības posmā, mazi partiju izmēri vai lēna krātuve var likt jaudīgam GPU darboties kā dīkstāves telpas sildītājam. Pirms vainas novelšanas uz modeli, bieži vien vispirms tiek veikti pasākumi, lai palielinātu datu ielādētāja darbinieku skaitu, iespējotu piesaistītu atmiņu, pievienotu priekšielādi un apgrieztu reģistrēšanu.

Kā novērst kļūdas “CUDA atmiņa ir tukša” NVIDIA GPU apmācības laikā

Lielākā daļa labojumu ir saistīti ar VRAM taktiku: samazināt partijas lielumu, iespējot jauktu precizitāti (FP16/BF16), izmantot gradienta uzkrāšanu, saīsināt secības garumu/apgriešanas lielumu vai izmantot aktivizācijas kontrolpunktus. Pārbaudiet arī citus GPU procesus, kas patērē atmiņu. Zināma izmēģinājumu un kļūdu metode ir normāla parādība — VRAM budžeta plānošana kļūst par pamata ieradumu praktiskajā GPU apmācībā.

Kāpēc VRAM joprojām var izskatīties pilna pēc apmācības skripta beigām

Ietvari bieži vien kešatmiņā saglabā GPU atmiņu ātruma labad, tāpēc rezervētā atmiņa var saglabāties liela pat tad, ja piešķirtās atmiņas apjoms samazinās. Tas var atgādināt noplūdi, taču bieži vien kešatmiņas piešķīrējs darbojas kā paredzēts. Praktiskais ieradums ir izsekot modelim laika gaitā un salīdzināt "piešķirto un rezervēto", nevis koncentrēties uz vienu satraucošu momentuzņēmumu.

Kā pārliecināties, ka modelis klusi netrenējas ar centrālo procesoru (CPU)

Veiciet savlaicīgu pārbaudi: confirm torch.cuda.is_available() atgriež True , verificējiet next(model.parameters()).device rāda cuda un palaidiet vienu uz priekšu vērstu piegājienu bez kļūdām. Ja veiktspēja šķiet aizdomīgi lēna, pārliecinieties arī, vai jūsu partijas tiek pārvietotas uz GPU. Bieži vien modelis tiek pārvietots, nejauši atstājot datus.

Vienkāršākais ceļš uz vairāku GPU apmācību

Datu paralēlā apstrāde (DDP stila apmācība) bieži vien ir labākais pirmais solis: sadalīt partijas starp GPU un sinhronizēt gradientus. Tādi rīki kā Accelerate var padarīt vairāku GPU darbu mazāk sarežģītu bez pilnīgas pārrakstīšanas. Sagaidiet papildu mainīgos — NCCL komunikāciju, starpsavienojumu atšķirības (NVLink pret PCIe) un pastiprinātas datu vājās vietas —, tāpēc pakāpeniska mērogošana pēc stabilas viena GPU palaišanas parasti norit labāk.

Kas jāuzrauga NVIDIA GPU apmācības laikā, lai laikus pamanītu problēmas

Vērojiet GPU izmantošanu, atmiņas izmantošanu (stabils vai augošs), jaudas patēriņu un temperatūru — ātruma ierobežošana var nemanāmi samazināt ātrumu. Sekojiet līdzi arī centrālā procesora noslodzei, jo datu cauruļvada problēmas bieži vien vispirms parādās tur. Ja noslodze ir augsta vai zema, aizdomājieties par I/O vai datu ielādētājiem; ja tā ir augsta, bet soļu laiks joprojām ir lēns, profilējiet kodolus, precizitātes režīmu un soļu laika sadalījumu.

Atsauces

  1. NVIDIANVIDIA nvidia-smi dokumentācijadocs.nvidia.com

  2. NVIDIANVIDIA sistēmas pārvaldības saskarne (NVSMI)developer.nvidia.com

  3. NVIDIANVIDIA NVLink pārskatsnvidia.com

  4. PyTorchPyTorch darba sākšana (CUDA atlasītājs)pytorch.org

  5. PyTorchPyTorch CUDA dokumentācijadocs.pytorch.org

  6. TensorFlowTensorFlow instalēšana (pip)tensorflow.org

  7. JAXJAX īsā pamācībadocs.jax.dev

  8. Apskaujoša sejatrenera dokumentācijahuggingface.co

  9. Zibens mākslīgais intelektsZibens dokumentācijalightning.ai

  10. DeepSpeed ​​— ZeRO dokumentācijadeepspeed.readthedocs.io

  11. Microsoft ResearchMicrosoft Research: ZeRO/DeepSpeed ​​— microsoft.com

  12. PyTorch forumiPyTorch forums: modeļa pārbaude CUDAdiscuss.pytorch.org

Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru