Īsa atbilde: mākslīgā intelekta mērogošana darbojas, apmācot modeli ar pārī savienotiem zemas un augstas izšķirtspējas attēliem un pēc tam izmantojot to, lai mērogošanas laikā paredzētu ticamus papildu pikseļus. Ja modelis apmācības laikā ir redzējis līdzīgas tekstūras vai sejas, tas var pievienot pārliecinošas detaļas; ja nē, tas var "halucinēt" artefaktus, piemēram, oreolus, vaskainu ādu vai mirgošanu video.
Galvenie secinājumi:
Prognoze: modelis ģenerē ticamas detaļas, nevis garantētu realitātes rekonstrukciju.
Modeļa izvēle: CNN parasti ir stabilāki; GAN var izskatīties asāki, taču pastāv risks, ka tiks izgudrotas jaunas funkcijas.
Artefaktu pārbaudes: Pievērsiet uzmanību oreoliem, atkārtotām tekstūrām, “gandrīz burtiem” un plastmasas sejām.
Video stabilitāte: izmantojiet laika metodes, pretējā gadījumā redzēsiet mirgošanu un nobīdi no viena kadra uz otru.
Augstas likmes lietošana: ja precizitātei ir nozīme, atklājiet apstrādes informāciju un rezultātus uzskatiet par ilustratīviem.

Jūs droši vien esat to redzējuši: mazs, kraukšķīgs attēls pārvēršas pietiekami skaidrā bildē, lai to varētu izdrukāt, straumēt vai ievietot prezentācijā bez saraušanās. Tas atgādina krāpšanos. Un – labākajā nozīmē – tas tā arī ir 😅
Tātad, kā darbojas mākslīgā intelekta mērogošana, ir kaut kas konkrētāks nekā "dators uzlabo detaļas" (ar roku vicināts) un tuvāks "modelis prognozē ticamu augstas izšķirtspējas struktūru, pamatojoties uz modeļiem, ko tas apguvis no daudziem piemēriem" (Deep Learning for Image Super-resolution: A Survey). Šis prognozēšanas solis ir visa spēle — un tāpēc mākslīgā intelekta mērogošana var izskatīties satriecoši… vai nedaudz plastmasas… vai kā jūsu kaķim izaugušas papildu ūsas.
Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:
🔗 Kā darbojas mākslīgais intelekts
Apgūstiet modeļu, datu un secinājumu pamatus mākslīgajā intelektā.
🔗 Kā mācās mākslīgais intelekts
Skatiet, kā apmācības dati un atsauksmes laika gaitā uzlabo modeļa veiktspēju.
🔗 Kā mākslīgais intelekts atklāj anomālijas
Izprotiet modeļu bāzes līnijas un to, kā mākslīgais intelekts ātri atzīmē neparastu uzvedību.
🔗 Kā mākslīgais intelekts prognozē tendences
Izpētiet prognozēšanas metodes, kas pamana signālus un paredz nākotnes pieprasījumu.
Kā darbojas mākslīgā intelekta mērogošana: pamatideja ikdienas vārdos 🧩
Uzlabošana nozīmē izšķirtspējas palielināšanu: vairāk pikseļu, lielāks attēls. Tradicionālā uzlabotā metode (piemēram, bikubiskā) būtībā izstiepj pikseļus un izlīdzina pārejas (bikubiskā interpolācija). Tā ir laba, taču tā nevar radīt jaunas detaļas — tā tikai interpolē.
Mākslīgā intelekta mērogošana mēģina kaut ko drosmīgāku (pētniecības pasaulē pazīstamu arī kā “superizšķirtspēju”) (Dziļā mācīšanās attēlu superizšķirtspējai: aptauja):
-
Tas aplūko zemas izšķirtspējas ieeju
-
Atpazīst rakstus (malas, tekstūras, sejas vaibstus, teksta triepienus, auduma pinumu…)
-
izšķirtspējas versija augstākas , kā izskatīsies
-
Ģenerē papildu pikseļu datus, kas atbilst šiem modeļiem
Nevis "perfekti atjaunot realitāti", bet gan "izteikt ļoti ticamu minējumu" (attēla superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN)). Ja tas izklausās nedaudz aizdomīgi, jūs nekļūdāties — bet tas ir arī iemesls, kāpēc tas darbojas tik labi 😄
Un jā, tas nozīmē, ka mākslīgā intelekta mērogošana būtībā ir kontrolēta halucinācija… bet produktīvā, pikseļus respektējošā veidā.
Kas veido labu mākslīgā intelekta uzlabošanas versiju? ✅🛠️
Ja vērtējat mākslīgā intelekta uzlabotāju (vai iestatījumu iepriekšiestatījumu), vissvarīgākais parasti ir šāds:
-
Detaļu atgūšana bez pārcepšanas.
Laba mērogošana piešķir kraukšķīgumu un struktūru, nevis kraukšķīgu troksni vai mākslīgas poras. -
Malu disciplīna
Tīras līnijas paliek tīras. Slikti modeļi liek malām šūpoties vai veidot oreolus. -
Tekstūras reālisms.
Matiem nevajadzētu kļūt par otas triepienu. Ķieģeļiem nevajadzētu kļūt par atkārtotu raksta zīmogu. -
Trokšņa un saspiešanas apstrāde
Daudzi ikdienas attēli tiek JPEG formātā līdz nāvei apstrādāti. Labs palielinātājs šo bojājumu nepastiprina (Real-ESRGAN). -
Sejas un teksta atpazīšana
Sejas un teksts ir visvieglāk pamanāmas kļūdas. Labi modeļi pret tām izturas saudzīgi (vai tiem ir specializēti režīmi). -
Saskaņotība visos kadros (video).
Ja detaļas mirgo no viena kadra uz otru, jūsu acis iekliedzas. Video mērogošana pastāv vai iet bojā, pateicoties laika stabilitātei (BasicVSR (CVPR 2021)). -
Vadības ierīces, kurām ir jēga.
Jums ir nepieciešami slīdņi, kas atbilst reāliem rezultātiem: trokšņu mazināšanai, izplūšanas novēršanai, artefaktu noņemšanai, graudu saglabāšanai, asināšanai… praktiskās lietas.
Neizteiksmīgs noteikums, kas joprojām darbojas: “labākā” uzlabotā attēla kvalitāte bieži vien ir tā, ko tik tikko pamanāt. Izskatās, ka jums jau sākotnēji bija labāka kamera 📷✨
Salīdzināšanas tabula: populāras mākslīgā intelekta uzlabošanas iespējas (un kam tās ir piemērotas) 📊🙂
Zemāk ir sniegts praktisks salīdzinājums. Cenas ir apzināti neskaidras, jo rīki atšķiras pēc licences, pakotnēm, skaitļošanas izmaksām un visām pārējām izklaidēm.
| Rīks/pieeja | Vislabāk piemērots | Cenas vibrācija | Kāpēc tas darbojas (aptuveni) |
|---|---|---|---|
| Topaz stila darbvirsmas palielinātāji (Topaz Photo, Topaz Video) | Fotoattēli, video, vienkārša darbplūsma | Apmaksāts | Spēcīgi vispārīgi modeļi + daudz regulēšanas, mēdz "vienkārši darboties"... lielākoties |
| Adobe “Super Resolution” tipa funkcijas (Adobe Enhance > Super Resolution) | Fotogrāfi, kas jau ir šajā ekosistēmā | Abonēšanas iespējas | Cieta detaļu rekonstrukcija, parasti konservatīva (mazāk dramatisma) |
| Real-ESRGAN/ESRGAN varianti (Real-ESRGAN, ESRGAN) | Pašdarināti darbi, izstrādātāji, partijveida darbi | Bez maksas (bet laikietilpīgi) | Lieliski sastāda tekstūras detaļas, uz sejām var būt pikants efekts, ja neesat uzmanīgs |
| Difūzijas bāzes mērogošanas režīmi (SR3) | Radošs darbs, stilizēti rezultāti | Jaukts | Var radīt krāšņas detaļas — var arī izdomāt muļķības, tāpēc… jā |
| Spēļu uzlabotāji (DLSS/FSR stilā) (NVIDIA DLSS, AMD FSR 2) | Reāllaika spēles un renderēšana | Komplektā | Izmanto kustības datus un apgūtos prioros — vienmērīgas veiktspējas uzvara 🕹️ |
| Mākoņpakalpojumu uzlabošana | Ērtības, ātras uzvaras | Maksa par lietošanas reizi | Ātrs + mērogojams, taču jūs tirgojaties ar kontroli un dažreiz ar smalkumiem |
| Uz video orientēti mākslīgā intelekta uzlabotāji (BasicVSR, Topaz Video) | Veci kadri, anime, arhīvi | Apmaksāts | Īslaicīgi triki mirgošanas samazināšanai + specializēti video modeļi |
| “Viedā” tālruņa/galerijas mērogošana | Ikdienas lietošana | Iekļauts | Vieglie modeļi, kas noregulēti patīkamai jaudai, nevis pilnībai (joprojām ērti) |
Formatēšanas īpatnības atzīšanās: “Apmaksāts” šajā tabulā veic daudz darba. Bet jūs saprotat domu 😅
Lielais noslēpums: modeļi apgūst kartējumu no zemas izšķirtspējas uz augstu izšķirtspēju 🧠➡️🖼️
Lielākās daļas mākslīgā intelekta uzlabošanas pamatā ir uzraudzīta mācīšanās iestatīšana (attēla superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN)):
-
Sāciet ar augstas izšķirtspējas attēliem (“patiesību”)
-
Samazināt to izšķirtspēju līdz zemai (“ievades”) versijai
-
Apmācīt modeli, lai rekonstruētu sākotnējo augstas izšķirtspējas attēlu no zemas izšķirtspējas attēla
Laika gaitā modelis apgūst korelācijas, piemēram:
-
“Šāda veida izplūdums ap aci parasti pieder pie skropstām.”
-
“Šis pikseļu klasteris bieži norāda uz serif tekstu”
-
“Šis malu gradients izskatās pēc jumta līnijas, nevis nejauša trokšņa.”
Tā nav konkrētu attēlu iegaumēšana (vienkāršā nozīmē), bet gan statistiskās struktūras apguve (Deep Learning for Image Super-resolution: A Survey). Iedomājieties to kā tekstūru un malu gramatikas apguvi. Nevis dzejas gramatiku, drīzāk… IKEA rokasgrāmatas gramatika 🪑📦 (neveikla metafora, tomēr pietiekami tuvu).
Īsumā: kas notiek secinājumu laikā (kad veicat augšupvērstu mērogošanu) ⚙️✨
Kad attēlu ievadāt mākslīgā intelekta palielinātājā, parasti ir šāds cauruļvads:
-
Priekšapstrāde
-
Krāsu telpas konvertēšana (dažreiz)
-
Normalizēt pikseļu vērtības
-
Sadaliet attēlu fragmentos, ja tas ir liels (VRAM realitātes pārbaude 😭) (Real-ESRGAN repo (mozaīkas opcijas))
-
-
Funkciju ieguve
-
Agrīnie slāņi nosaka malas, stūrus, gradientus
-
Dziļāki slāņi atklāj modeļus: tekstūras, formas, sejas komponentus
-
-
Rekonstrukcija
-
Modelis ģenerē augstākas izšķirtspējas iezīmju karti
-
Pēc tam to pārveido faktiskajā pikseļu izvadē
-
-
Pēcapstrāde
-
Asināšana pēc izvēles
-
Papildu trokšņu slāpēšana
-
Papildu artefaktu slāpēšana (zvana, oreoli, blokveida efekti)
-
Viena smalka detaļa: daudzi rīki palielina flīžu izmērus un pēc tam sapludina šuves. Lieliski rīki paslēpj flīžu robežas. Lietderīgi rīki atstāj blāvas režģa atzīmes, ja samiedz acis. Un jā, jūs samiedzīsiet acis, jo cilvēkiem patīk pārbaudīt sīkas nepilnības ar 300% tālummaiņu kā maziem gremliniem 🧌
Galvenās modeļu saimes, ko izmanto mākslīgā intelekta uzlabošanai (un kāpēc tās šķiet atšķirīgas) 🤖📚
1) CNN balstīta superizšķirtspēja (klasiskais darba zirgs)
Konvolucionālie neironu tīkli lieliski noder lokālu modeļu attēlošanai: malām, tekstūrām, mazām struktūrām (attēla superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN)).
-
Plusi: diezgan ātrs, stabils, mazāk pārsteigumu
-
Mīnusi: var izskatīties nedaudz “apstrādāts”, ja tiek pārāk uzspiests
2) GAN balstīta mērogošana (ESRGAN stilā) 🎭
GAN (Ģeneratīvie pretinieku tīkli) apmāca ģeneratoru ģenerēt augstas izšķirtspējas attēlus, kurus diskriminētājs nevar atšķirt no reāliem attēliem (Ģeneratīvie pretinieku tīkli).
-
Plusi: izteiksmīgas detaļas, iespaidīga tekstūra
-
Mīnusi: var izdomāt detaļas, kuru tur nebija — dažreiz nepareizi, dažreiz neparasti (SRGAN, ESRGAN)
GAN var sniegt jums elpu aizraujošu asumu. Tas var arī piešķirt jūsu portreta objektam papildu uzaci. Tāpēc… izvēlieties savas cīņas 😬
3) Uz difūziju balstīta mērogošana (radošais aizstājējzīme) 🌫️➡️🖼️
Difūzijas modeļi pakāpeniski novērš trokšņus un tos var vadīt, lai iegūtu augstas izšķirtspējas detaļas (SR3).
-
Plusi: var būt neticami labs ticamu detaļu attēlošanā, īpaši radošam darbam
-
Mīnusi: var novirzīties no sākotnējās identitātes/struktūras, ja iestatījumi ir agresīvi (SR3)
Šeit “uzlabošana” sāk saplūst ar “pārdomāšanu”. Dažreiz tas ir tieši tas, ko vēlaties. Dažreiz tas nav.
4) Video mērogošana ar laika konsekvenci 🎞️
Video mērogošana bieži vien pievieno kustību atpazīšanas loģiku:
-
Izmanto blakus esošos kadrus, lai stabilizētu detaļas (BasicVSR (CVPR 2021))
-
Centās izvairīties no mirgošanas un rāpošanas artefaktiem
-
Bieži vien apvieno superizšķirtspēju ar trokšņu samazināšanu un interlācijas novēršanu (Topaz Video).
Ja attēla uzlabošana ir kā vienas gleznas restaurācija, tad video uzlabošana ir kā šķirstāmās grāmatas restaurācija, neliekot varoņa degunam mainīt formu katrā lappusē. Kas ir… grūtāk, nekā izklausās.
Kāpēc mākslīgā intelekta mērogošana dažreiz izskatās viltota (un kā to atpazīt) 👀🚩
Mākslīgā intelekta mērogošana neizdodas atpazīstamos veidos. Kad būsiet apguvis modeļus, jūs tos redzēsiet visur, piemēram, iegādājoties jaunu automašīnu un pēkšņi pamanot šo modeli uz katras ielas 😵💫
Common stāsta:
-
Vaska āda uz sejas (pārāk daudz trokšņu slāpēšanas + izlīdzināšanas)
-
Pārāk asināti oreoli ap malām (klasiskā "pārsniegšanas" teritorija) (bikubiskā interpolācija)
-
Atkārtotas tekstūras (ķieģeļu sienas kļūst par kopēšanas un ielīmēšanas rakstiem)
-
Kraukšķīgs mikrokontrasts , kas kliedz pēc “algoritma”
-
Teksta sagrozīšana, kur burti kļūst gandrīz burti (vissliktākais veids)
-
Detaļu nobīde , kur mazas iezīmes nedaudz mainās, īpaši difūzijas darbplūsmās (SR3)
Sarežģītākā daļa: dažreiz šie artefakti no pirmā acu uzmetiena izskatās “labāk”. Jūsu smadzenēm patīk asums. Bet pēc brīža tas šķiet… dīvaini.
Laba taktika ir attālināt attēlu un pārbaudīt, vai tas izskatās dabiski normālā skatīšanās attālumā. Ja tas izskatās labi tikai ar 400% tālummaiņu, tā nav uzvara, tas ir hobijs 😅
Kā darbojas mākslīgā intelekta mērogošana: apmācības puse bez matemātikas galvassāpēm 📉🙂
Superizšķirtspējas modeļu apmācība parasti ietver:
-
Pāroti datu kopumi (zemas izšķirtspējas ievade, augstas izšķirtspējas mērķis) (attēla superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN))
-
Zaudējumu funkcijas , kas soda par nepareizām rekonstrukcijām (SRGAN)
Tipiski zaudējumu veidi:
-
Pikseļu zudums (L1/L2)
veicina precizitāti. Var radīt nedaudz mīkstus rezultātus. -
Uztveres zudums.
Salīdzina dziļākas iezīmes (piemēram, “vai tas izskatās līdzīgi”), nevis precīzus pikseļus (uztveres zudumi (Johnson et al., 2016)). -
Sacensību zaudējums (GAN)
veicina reālismu, dažreiz uz burtiskās precizitātes rēķina (SRGAN, Ģeneratīvie sacensību tīkli).
Pastāvīga cīņa:
-
Padariet to uzticīgu oriģinālam
vs -
Padariet to vizuāli pievilcīgu
Dažādi rīki atrodas dažādās šī spektra vietās. Un jūs varētu dot priekšroku vienam no tiem atkarībā no tā, vai restaurējat ģimenes fotoattēlus vai gatavojat plakātu, kur “izskats” ir svarīgāks par ekspertīzes precizitāti.
Praktiskas darbplūsmas: fotoattēli, veci skenējumi, anime un video 📸🧾🎥
Fotogrāfijas (portreti, ainavas, produktu fotoattēli)
Labākā prakse parasti ir šāda:
-
Vispirms neliela trokšņu slāpēšana (ja nepieciešams)
-
Augstas klases ar konservatīviem iestatījumiem
-
Pievienojiet graudus atpakaļ, ja viss šķiet pārāk gluds (jā, tiešām)
Graudi ir kā sāls. Pārāk daudz graudu sabojā vakariņas, bet nekādi graudi var garšot mazliet plakani 🍟
Veci skenējumi un stipri saspiesti attēli
Tie ir sarežģītāki, jo modelis var apstrādāt saspiešanas blokus kā “tekstūru”.
Izmēģiniet:
-
Artefaktu noņemšana vai atbloķēšana
-
Tad paaugstiniet līmeni
-
Tad viegla asināšana (ne pārāk daudz... zinu, visi tā saka, bet tomēr)
Anime un līnijzīmējums
Līniju zīmēšanai ir šādas priekšrocības:
-
Modeļi, kas saglabā tīras malas
-
Samazinātas tekstūras halucinācijas.
Anime uzlabota versija bieži izskatās lieliski, jo formas ir vienkāršākas un konsekventākas. (Par laimi.)
Video
Videoklipā ir pievienotas papildu darbības:
-
Trokšņu slāpēšana
-
Deinterlace (noteiktiem avotiem)
-
Augstas klases
-
Laika izlīdzināšana vai stabilizācija (BasicVSR (CVPR 2021))
-
Graudu atkārtota ievešana kohēzijas nodrošināšanai (pēc izvēles)
Ja izlaiž laika konsekvenci, iegūsti šo mirdzošo detaļu mirgošanu. Kad to pamanīsi, vairs nevarēsi to aizmirst. Kā čīkstošs krēsls klusā istabā 😖
Iestatījumu izvēle bez liekām minēšanām (neliela apkrāptu lapa) 🎛️😵💫
Lūk, labs sākuma domāšanas veids:
-
Ja sejas izskatās plastiskas,
samaziniet trokšņu slāpēšanu, samaziniet asināšanu, izmēģiniet seju saglabājošu modeli vai režīmu. -
Ja tekstūras izskatās pārāk intensīvas,
samaziniet slīdņus “detaļu uzlabošana” vai “detaļu atgūšana” un pievienojiet nelielu graudainību pēc tam. -
Ja malas spīd,
samaziniet asumu, pārbaudiet oreola slāpēšanas opcijas. -
Ja attēls izskatās pārāk “mākslīgais intelekts”,
rīkojieties konservatīvāk. Dažreiz labākais risinājums ir vienkārši… mazāk.
Tāpat: nepalielini attēlu 8x tikai tāpēc, ka vari. Tīrs 2x vai 4x palielinājums bieži vien ir optimālais palielinājums. Ja tā nav, tu lūdz modelim rakstīt fanu stāstus par taviem pikseļiem 📖😂
Ētika, autentiskums un neveiklais jautājums par “patiesību” 🧭😬
Mākslīgā intelekta mērogošana sapludina robežu:
-
Restaurācija nozīmē atgūt to, kas tur bija
-
Uzlabošana nozīmē pievienot to, kas nebija
Ar personīgajām fotogrāfijām parasti viss ir kārtībā (un jauki). Ar žurnālistiku, juridiskiem pierādījumiem, medicīnisko attēlveidošanu vai jebko citu, kur ir svarīga precizitāte… jums jābūt uzmanīgiem (OSAC/NIST: Standarta rokasgrāmata tiesu medicīnas digitālo attēlu pārvaldībai, SWGDE vadlīnijas tiesu medicīnas attēlu analīzei).
Vienkāršs noteikums:
-
Ja likmes ir augstas, uztveriet mākslīgā intelekta mērogošanu kā ilustratīvu, nevis noteicošu.
Arī atklātība ir svarīga profesionālā kontekstā. Ne tāpēc, ka mākslīgais intelekts ir ļaunums, bet gan tāpēc, ka auditorijai ir tiesības zināt, vai detaļas tika rekonstruētas vai iemūžinātas. Tas ir vienkārši… cieņas pilns.
Noslēguma piezīmes un īss kopsavilkums 🧡✅
Tātad, mākslīgā intelekta mērogošana darbojas šādi: modeļi apgūst, kā augstas izšķirtspējas detaļas mēdz būt saistītas ar zemas izšķirtspējas modeļiem, un pēc tam mērogošanas laikā prognozē ticamus papildu pikseļus (Deep Learning for Image Super-resolution: A Survey). Atkarībā no modeļu saimes (CNN, GAN, difūzijas, video-temporālā), šī prognoze var būt konservatīva un precīza… vai arī pārspīlēta un dažreiz nekontrolējama 😅
Īss kopsavilkums
-
Tradicionālā mērogošana izstiepj pikseļus (bikubiskā interpolācija)
-
Mākslīgā intelekta mērogošana paredz trūkstošās detaļas, izmantojot apgūtus modeļus (attēla superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN)).
-
Lieliski rezultāti rodas no pareizā modeļa + atturības
-
Videoklipā meklējiet oreolus, vaskainas sejas, atkārtotas tekstūras un mirgošanu (BasicVSR (CVPR 2021)).
-
Mērogošana bieži vien ir “ticama rekonstrukcija”, nevis pilnīga patiesība (SRGAN, ESRGAN).
Ja vēlies, pastāsti man, ko tu uzlabo (sejas, vecas fotogrāfijas, video, anime, teksta skenējumus), un es ieteikšu iestatījumu stratēģiju, kas parasti novērš bieži sastopamās “mākslīgā intelekta izskata” kļūdas 🎯🙂
Reālās pasaules piemērs: vecu tirgus produktu fotoattēlu uzlabošana 📸
Scenārijs
Nelielā lietotu kameru veikalā no vecas tīmekļa vietnes ir eksportēti 40 produktu fotoattēli 800 pikseļu platumā. Īpašnieks vēlas tos atkārtoti izmantot jaunā e-komercijas lapā, kur ieteicamais attēla izmērs ir 1600 pikseļi platumā.
Problēma: parasta izmēru maiņa liek kamerām izskatīties mīkstām, savukārt agresīva mākslīgā intelekta mērogošana var likt gumijas rokturiem, sērijas numuriem un objektīva marķējumiem izskatīties aizdomīgi viltotiem. Tas ir svarīgi, jo pircēji pirms pirkšanas paļaujas uz šīm detaļām.
Mērķis nav perfekti “atjaunot” trūkstošo informāciju. Tas ir paredzēts, lai izveidotu tīrākus sarakstu attēlus, vienlaikus saglabājot sākotnējos failus pieejamus, jo mākslīgā intelekta mērogošana paredz ticamas detaļas, nevis garantētu patiesumu.
Kas nepieciešams darbplūsmai
Oriģinālās produktu fotogrāfijas, ideālā gadījumā vismazāk saspiestās pieejamās versijas
Mērķa izvades izmērs, piemēram, 2× palielināts platums no 800 pikseļiem līdz 1600 pikseļiem
Rīks vai modelis ar atsevišķām vadības ierīcēm trokšņu mazināšanai, asināšanai un artefaktu noņemšanai
Vienkāršs teksta, malu, logotipu, skrūvju, pogu, ādas tekstūras un atspīdumu pārskatīšanas kontrolsaraksts
Mape oriģināliem un atsevišķa mape rediģētajiem eksportētajiem failiem, lai nekas netiktu pārrakstīts
Instrukcijas piemērs
Testējot AI palielinātāju, izmantojiet šāda veida instrukcijas:
E-komercijas sarakstam palieliniet šī produkta fotoattēlu 2 reizes. Saglabājiet objekta formu, logotipa novietojumu, objektīva marķējumus, pogu malas un virsmas tekstūru pēc iespējas tuvāk oriģinālam. Izmantojiet nelielu saspiešanas tīrīšanu, zemu asumu un izvairieties no papildu teksta, skrāpējumu, etiķešu, sērijas numuru vai dekoratīvu detaļu izdomāšanas. Gala attēlam ir jāizskatās dabiski normālā produkta lapas izmērā, nevis mākslīgi asam 400 % tālummaiņā.
Kā to pārbaudīt
Pirms pilnas partijas apstrādes sāciet ar pieciem jauktiem attēliem:
Viens tīrs produkta fotoattēls ar labu apgaismojumu
Viens JPEG formātā saspiests attēls ar bloku skaitu
Viens fotoattēls ar sīku drukātu tekstu vai objektīva atzīmēm
Viens tumšs attēls ar troksni ēnās
Viens attēls ar atstarojošu metālu vai stiklu
Pēc palielināšanas salīdziniet katru rezultātu ar oriģinālu 100% un 200% izmērā. Pārbaudiet, vai zīmolu nosaukumi, ciparnīcas, skrūves, porti un tekstūras raksti joprojām sakrīt. Ja modelis rada “gandrīz burtus” vai viltus virsmas atzīmes, samaziniet asināšanas vai detaļu atgūšanas iestatījumu.
Rezultāts
Ilustratīvais rezultāts: balstīts uz piecu attēlu testa laika mērījumiem pirms un pēc šīs darbplūsmas izmantošanas.
Manuāla tīrīšana un izmēru maiņa aizņēma aptuveni 9 minūtes katram attēlam vai 45 minūtes pieciem attēliem.
Ar mākslīgo intelektu atbalstītā darbplūsma aizņēma aptuveni 3 minūtes katram attēlam vai 15 minūtes pieciem attēliem.
Tas ir aptuveni 30 minūšu ietaupījums pieciem attēliem vai aptuveni 4 stundas, kas ietaupītas 40 attēlu paketei.
Kvalitātes pārbaudes rezultāts: 4 no 5 attēliem izturēja pirmo pārskatīšanu. Viens attēls nebija pārbaudīts, jo palielinātājs izkropļoja mazu objektīva tekstu, tāpēc tas tika atkārtoti apstrādāts ar zemāku asumu un bez teksta uzlabošanas.
Vērtīgais rādītājs šeit nav tikai “asāks izskats”. Tas ir: cik attēlu iztur blakus apskati bez izdomātām detaļām?
Kas var noiet greizi
Modelis var pārvērst putekļus, JPEG blokus vai skrambas “īstā” tekstūrā.
Sīks teksts var kļūt par viltotu tekstu, kas izskatās ticams, līdz pietuvināt attēlu.
Pārāk daudz trokšņu var padarīt gumiju, ādu vai matētu metālu vaskainu.
Spēcīga asināšana var radīt oreolus ap izstrādājuma malām.
Pakešapstrāde var slēpt kļūdas, tāpēc pirms visu eksportēšanas pārskatiet paraugu.
E-komercijā drošākais noteikums ir vienkāršs: nekad neizmantojiet mākslīgā intelekta mērogošanu, lai slēptu bojājumus, mainītu produkta stāvokli vai liktu tam izskatīties jaunākam, nekā tas ir patiesībā.
Praktiska līdzņemšana
Mākslīgā intelekta mērogošana vislabāk darbojas, ja to uztverat kā kontrolētu pabeigšanas soli, nevis kā burvju labošanas pogu. Izmantojiet konservatīvus 2× iestatījumus, pārbaudiet detaļas, kas pircējiem ir svarīgas, un saglabājiet oriģinālo attēlu, lai rediģētā versija saglabātu ticamību.
Reālās pasaules piemērs: veca apmācības video uzlabošana, nepadarot to mirdzošu
Scenārijs
Nelielam apmācību uzņēmumam ir 7 minūšu drošības demonstrācijas video, kas ierakstīts 2014. gadā 720p izšķirtspējā. Saturam joprojām ir vērtība, taču videoieraksts uzņēmuma jaunajā tīmekļa vietnē izskatās neizteiksmīgs, it īpaši lielākos klēpjdatoru ekrānos.
Komanda vēlas eksportēt tīrāku 1080p versiju bez atkārtotas filmēšanas. Pastāv risks, ka agresīva mākslīgā intelekta mērogošana varētu padarīt sejas vaskainas, pārvērst tekstu uz zīmēm par "gandrīz vārdiem" vai radīt mirgojošu tekstūru no kadra uz kadru.
Mērķis nav panākt, lai video izskatītos pavisam jauns. Mērķis ir padarīt to skaidrāku, stabilāku un mazāk saspiestu, vienlaikus saglabājot instruktora seju, brīdinājuma uzlīmes, roku kustības un aprīkojuma detaļas oriģinālam.
Kas nepieciešams darbplūsmai
Oriģināls video fails, ja iespējams, nevis saspiests sociālo mediju lejupielādes fails
Mērķa eksporta lielums, piemēram, no 720p uz 1080p, nevis uzreiz pāriet uz 4K
Video palielinātājs ar trokšņu slāpēšanas, asināšanas, saspiešanas labošanas un laika konsekvences opcijām
Īss testa klips ar sejām, kustību, tekstu un detalizētām virsmām
Pārskatīšanas kontrolsaraksts mirgošanai, oreoliem, deformētam tekstam, sejas tekstūrai un kustīgām malām
Saglabāta oriģinālā video kopija salīdzināšanai un informācijas atklāšanai, ja nepieciešams
Instrukcijas piemērs
Pirms pilna video apstrādes izmantojiet šāda veida norādījumus:
Palieliniet šī 720p apmācības video izšķirtspēju līdz 1080p. Prioritāte tiek dota dabiskai kustībai, stabilām malām, salasāmam esošajam tekstam un reālistiskai ādas tekstūrai. Izmantojiet nelielu saspiešanas labojumu un zemu asumu. Neizgudrojiet trūkstošu tekstu, logotipus, etiķetes, skrāpējumus, sejas detaļas vai aprīkojuma marķējumus. Izvairieties no mirgošanas no viena kadra līdz otram. Gala rezultātam jābūt skaidrākam normālā skatīšanās izmērā, nevis mākslīgi asam, kad video ir apturēts un pietuvināts.
Kā to pārbaudīt
Pirms pilna 7 minūšu faila apstrādes eksportējiet 20 sekunžu paraugu, kas ietver:
Instruktora seja runāšanas laikā
Roka pārvietojas pāri kadram
Brīdinājuma uzlīme vai sīks drukāts teksts
Teksturēta virsma, piemēram, audums, betons, matēts metāls vai plastmasa
Kameras panoramēšana vai jebkura trīcoša kustība
Noskatieties paraugu divreiz: vienreiz normālā ātrumā un vienreiz pauzējot, kadru pa kadram. Normālā ātrumā meklējiet mirgošanu, rāpojošu tekstūru vai nedabisku kustību ap malām. Pauzes laikā salīdziniet sākotnējo un palielināto versiju, lai pārbaudītu, vai teksts, pogas, rīki un sejas vaibsti joprojām atbilst.
Rezultāts
Ilustratīvais rezultāts: balstīts uz viena 20 sekunžu testa klipa laika noteikšanu un pēc tam tādu pašu iestatījumu piemērošanu 7 minūšu video.
Manuāla darbplūsma “izmēra maiņa un asināšana” aizņēma aptuveni 35 minūtes, ieskaitot eksportēšanu un pārskatīšanu, taču rezultātā instruktora matos bija redzama mirdzēšana un drošības zīmju apvērsumi.
Ar mākslīgo intelektu atbalstītā darbplūsma, ieskaitot testa eksportus, aizņēma aptuveni 55 minūtes, taču pārskatīšanas problēmas tika samazinātas no 8 redzamām problēmām pirmajā eksportā līdz 2 nelielām problēmām galīgajā eksportā.
Galīgā versija izturēja 10 no 12 pārbaudes punktiem pārskatīšanas kontrolsarakstā. Divas atlikušās problēmas bija neliels fona teksta izplūšana un neliels troksnis vienā tumšā stūrī. Abas tika pieņemtas, jo instruktors, aprīkojums un drošības pasākumi vizuāli saglabājās konsekventi.
Šeit jēgpilnais rādītājs nav "sasniegts 1080p". Tas ir: cik video sekundēs normālas atskaņošanas laikā ir redzami traucējoši artefakti?
Kas var noiet greizi
Modelis var asināt saspiešanas blokus un padarīt tos līdzīgus īstai tekstūrai.
Smalks teksts var izskatīties pārliecinošāk, bet mazāk precīzs.
Sejas var kļūt pārāk gludas, ja trokšņu līmenis ir pārāk augsts.
Kustīgās malas var mirgot, ja rīks apstrādā katru kadru pārāk atsevišķi.
4K eksports var izskatīties sliktāk nekā ierobežots 1080p eksports, jo modelim ir jāizgudro pārāk daudz detaļu.
Lielākā kļūda ir vērtēt tikai apturētu kadru. Video uzlabošanai ir jāizskatās dabiski kustībā, nevis tikai iespaidīgi kā nekustīgam attēlam.
Praktiska līdzņemšana
Videoklipiem AI mērogošana vislabāk darbojas, ja vispirms pārbaudāt īsu daļu, saglabājat mērenu mērogu un vispirms novērtējat kustību. Nedaudz maigāks, bet stabilāks rezultāts parasti ir labāks nekā asa versija, kas mirgo katru reizi, kad kāds kustas.
Bieži uzdotie jautājumi
Mākslīgā intelekta uzlabošana un tās darbības princips
Mākslīgā intelekta uzlabotā mērogošana (bieži saukta par “superizšķirtspēju”) palielina attēla izšķirtspēju, paredzot trūkstošās augstas izšķirtspējas detaļas no apmācības laikā apgūtajiem modeļiem. Tā vietā, lai vienkārši izstieptu pikseļus, piemēram, veicot bikubisku interpolāciju, modelis pēta malas, tekstūras, sejas un tekstam līdzīgus triepienus, pēc tam ģenerējot jaunus pikseļu datus, kas atbilst šiem apgūtajiem modeļiem. Tas mazāk “atjauno realitāti” un vairāk “izdara ticamu minējumu”, kas skan dabiski.
AI mērogošana salīdzinājumā ar bikubisku vai tradicionālo izmēru maiņu
Tradicionālās mērogošanas metodes (piemēram, bikubiskā) galvenokārt interpolē esošos pikseļus, izlīdzinot pārejas, neradot patiesi jaunas detaļas. Mākslīgā intelekta mērogošanas mērķis ir rekonstruēt ticamu struktūru, atpazīstot vizuālas norādes un prognozējot, kā parasti izskatās šo norāžu augstas izšķirtspējas versijas. Tāpēc mākslīgā intelekta rezultāti var šķist ievērojami asāki, kā arī tāpēc tie var ieviest artefaktus vai "izgudrot" detaļas, kuru avotā nebija.
Kāpēc sejas var izskatīties vaskainas vai pārāk gludas
Vaskainas sejas parasti rodas no agresīvas trokšņu slāpēšanas un izlīdzināšanas apvienojumā ar asināšanu, kas noņem dabisko ādas tekstūru. Daudzi rīki līdzīgi apstrādā troksni un smalku tekstūru, tāpēc attēla "attīrīšana" var izdzēst poras un smalkas detaļas. Izplatīta pieeja ir samazināt trokšņu slāpēšanu un asināšanu, izmantot sejas saglabāšanas režīmu, ja tāds ir pieejams, un pēc tam atkal pievienot nedaudz graudainības, lai rezultāts šķistu mazāk plastisks un fotogrāfiskāks.
Bieži sastopami mākslīgā intelekta mērogošanas artefakti, kas jāņem vērā
Tipiskas pazīmes ir oreoli ap malām, atkārtoti tekstūras raksti (piemēram, kopēšanas un ielīmēšanas ķieģeļi), kraukšķīgs mikrokontrasts un teksts, kas pārvēršas “gandrīz burtos”. Izplatīšanas darbplūsmās var redzēt arī detaļu nobīdi, kur mazas detaļas nemanāmi mainās. Videoklipā mirgošana un detaļu rāpošana pāri kadriem ir lielas brīdinājuma zīmes. Ja labi izskatās tikai ar ārkārtīgu tālummaiņu, iestatījumi, iespējams, ir pārāk agresīvi.
Kā GAN, CNN un difūzijas palielinātāju rezultāti mēdz atšķirties
Uz CNN balstīta superizšķirtspēja parasti ir stabilāka un paredzamāka, taču, ja to izmanto pārāk spēcīgi, tā var izskatīties “apstrādāta”. Uz GAN balstītas opcijas (ESRGAN stilā) bieži rada izteiktāku tekstūru un uztverto asumu, taču tās var halucinēt nepareizas detaļas, īpaši uz sejām. Uz difūziju balstīta mērogošana var radīt skaistas, ticamas detaļas, tomēr tās var novirzīties no sākotnējās struktūras, ja vadības vai stipruma iestatījumi ir pārāk spēcīgi.
Praktiska iestatījumu stratēģija, lai izvairītos no “pārāk mākslīgā intelekta” izskata
Sāciet konservatīvi: palieliniet mērogu 2× vai 4×, pirms ķeraties pie ekstremāliem faktoriem. Ja sejas izskatās plastiskas, samaziniet trokšņu slāpēšanu un asināšanu un izmēģiniet sejas uztveršanas režīmu. Ja tekstūras kļūst pārāk intensīvas, samaziniet detaļu uzlabošanu un apsveriet iespēju pēc tam pievienot nelielu graudainību. Ja malas spīd, samaziniet asināšanu un pārbaudiet oreola vai artefaktu slāpēšanu. Daudzos kanālos uzvar "mazāk", jo tas saglabā ticamu reālismu.
Vecu skenētu attēlu vai stipri JPEG saspiestu attēlu apstrāde pirms mērogošanas
Saspiestu attēlu apstrāde ir sarežģīta, jo modeļi var apstrādāt bloku artefaktus kā reālu tekstūru un tos pastiprināt. Bieži sastopama darbplūsma vispirms ir artefaktu noņemšana vai atbloķēšana, pēc tam mērogošana un pēc tam viegla asināšana tikai tad, ja nepieciešams. Skenēšanas gadījumā maiga tīrīšana var palīdzēt modelim koncentrēties uz faktisko struktūru, nevis bojājumiem. Mērķis ir samazināt "viltus tekstūras norādes", lai mērogošanas veicējam nebūtu jāizdara pārliecinoši minējumi no trokšņainiem ievades datiem.
Kāpēc video mērogošana ir sarežģītāka nekā fotoattēlu mērogošana
Video mērogošanas uzlabošanai ir jābūt vienādai visos kadros, ne tikai labai vienam nekustīgam attēlam. Ja detaļas mirgo no viena kadra uz otru, rezultāts ātri kļūst traucējošs. Uz video orientētas pieejas izmanto laika informāciju no blakus esošajiem kadriem, lai stabilizētu rekonstrukciju un izvairītos no mirgošanas artefaktiem. Daudzas darbplūsmas ietver arī trokšņu mazināšanu, deinterlāciju noteiktiem avotiem un papildu graudu atkārtotu ieviešanu, lai visa secība šķiet saliedēta, nevis mākslīgi asa.
Kad mākslīgā intelekta mērogošana nav piemērota vai uz to ir riskanti paļauties
Mākslīgā intelekta uzlabošana vislabāk ir jāuztver kā uzlabošana, nevis pierādījums. Augstas likmes kontekstos, piemēram, žurnālistikā, juridiskos pierādījumos, medicīniskajā attēlveidošanā vai kriminālistikā, “ticamu” pikseļu ģenerēšana var maldināt, jo tā var pievienot detaļas, kas netika uztvertas. Drošāks ietvars ir to izmantot ilustratīvi un atklāt, ka mākslīgā intelekta process ir rekonstruējis detaļu. Ja precizitāte ir kritiski svarīga, saglabājiet oriģinālus un dokumentējiet katru apstrādes soli un vidi.
Atsauces
-
arXiv — Dziļā mācīšanās attēlu superizšķirtspējai: aptauja — arxiv.org
-
arXiv — attēlu superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN) — arxiv.org
-
arXiv — Real-ESRGAN — arxiv.org
-
arXiv — ESRGAN — arxiv.org
-
arXiv — SR3 — arxiv.org
-
NVIDIA izstrādātājs — NVIDIA DLSS — developer.nvidia.com
-
AMD GPUOpen — FidelityFX Super Resolution 2 — gpuopen.com
-
Datorredzes fonda (CVF) atvērtā piekļuve — BasicVSR: Būtisku komponentu meklējumi video superizšķirtspējā (CVPR 2021) — openaccess.thecvf.com
-
arXiv — Ģeneratīvie sacīkstes tīkli — arxiv.org
-
arXiv — SRGAN — arxiv.org
-
arXiv — Uztveres zudumi (Džonsons et al., 2016) — arxiv.org
-
GitHub — Real-ESRGAN repozitorijs (flīžu opcijas) — github.com
-
Vikipēdija — Bikubiskā interpolācija — wikipedia.org
-
Topaz Labs — Topaz fotoattēls — topazlabs.com
-
Topaz Labs — Topaz video — topazlabs.com
-
Adobe palīdzības centrs — Adobe Enhance > Super izšķirtspēja — helpx.adobe.com
-
NIST/OSAC — Standarta rokasgrāmata kriminālistikas digitālo attēlu pārvaldībai (1.0 versija) — nist.gov
-
SWGDE — Tiesu attēlu analīzes vadlīnijas — swgde.org