Īsa atbilde: mākslīgā intelekta mērogošana darbojas, apmācot modeli ar pārī savienotiem zemas un augstas izšķirtspējas attēliem un pēc tam izmantojot to, lai mērogošanas laikā paredzētu ticamus papildu pikseļus. Ja modelis apmācības laikā ir redzējis līdzīgas tekstūras vai sejas, tas var pievienot pārliecinošas detaļas; ja nē, tas var "halucinēt" artefaktus, piemēram, oreolus, vaskainu ādu vai mirgošanu video.
Galvenie secinājumi:
Prognoze : modelis ģenerē ticamas detaļas, nevis garantētu realitātes rekonstrukciju.
Modeļa izvēle : CNN parasti ir stabilāki; GAN var izskatīties asāki, taču pastāv risks, ka tiks izgudrotas jaunas funkcijas.
Artefaktu pārbaudes : Pievērsiet uzmanību oreoliem, atkārtotām tekstūrām, “gandrīz burtiem” un plastmasas sejām.
Video stabilitāte : izmantojiet laika metodes, pretējā gadījumā redzēsiet mirgošanu un nobīdi no viena kadra uz otru.
Augstas likmes lietošana : ja precizitātei ir nozīme, atklājiet apstrādes informāciju un rezultātus uzskatiet par ilustratīviem.

Jūs droši vien esat to redzējuši: mazs, kraukšķīgs attēls pārvēršas pietiekami skaidrā bildē, lai to varētu izdrukāt, straumēt vai ievietot prezentācijā bez saraušanās. Tas atgādina krāpšanos. Un – labākajā nozīmē – tas tā arī ir 😅
Tātad, kā darbojas mākslīgā intelekta mērogošana, ir kaut kas konkrētāks nekā "dators uzlabo detaļas" (ar roku vicināts) un tuvāks "modelis prognozē ticamu augstas izšķirtspējas struktūru, pamatojoties uz modeļiem, ko tas apguvis no daudziem piemēriem" ( Deep Learning for Image Super-resolution: A Survey ). Šis prognozēšanas solis ir visa spēle — un tāpēc mākslīgā intelekta mērogošana var izskatīties satriecoši… vai nedaudz plastmasas… vai kā jūsu kaķim izaugušas papildu ūsas.
Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:
🔗 Kā darbojas mākslīgais intelekts
Apgūstiet modeļu, datu un secinājumu pamatus mākslīgajā intelektā.
🔗 Kā mācās mākslīgais intelekts
Skatiet, kā apmācības dati un atsauksmes laika gaitā uzlabo modeļa veiktspēju.
🔗 Kā mākslīgais intelekts atklāj anomālijas
Izprotiet modeļu bāzes līnijas un to, kā mākslīgais intelekts ātri atzīmē neparastu uzvedību.
🔗 Kā mākslīgais intelekts prognozē tendences
Izpētiet prognozēšanas metodes, kas pamana signālus un paredz nākotnes pieprasījumu.
Kā darbojas mākslīgā intelekta mērogošana: pamatideja ikdienas vārdos 🧩
Uzlabošana nozīmē izšķirtspējas palielināšanu: vairāk pikseļu, lielāks attēls. Tradicionālā uzlabotā metode (piemēram, bikubiskā) būtībā izstiepj pikseļus un izlīdzina pārejas ( bikubiskā interpolācija ). Tā ir laba, taču tā nevar radīt jaunas detaļas — tā tikai interpolē.
Mākslīgā intelekta mērogošana mēģina kaut ko drosmīgāku (pētniecības pasaulē pazīstamu arī kā “superizšķirtspēju”) ( Dziļā mācīšanās attēlu superizšķirtspējai: aptauja ):
-
Tas aplūko zemas izšķirtspējas ieeju
-
Atpazīst rakstus (malas, tekstūras, sejas vaibstus, teksta triepienus, auduma pinumu…)
-
, kā izskatīsies augstākas izšķirtspējas versija
-
Ģenerē papildu pikseļu datus, kas atbilst šiem modeļiem
Nevis "perfekti atjaunot realitāti", bet gan "izteikt ļoti ticamu minējumu" ( attēla superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN) ). Ja tas izklausās nedaudz aizdomīgi, jūs nekļūdāties — bet tas ir arī iemesls, kāpēc tas darbojas tik labi 😄
Un jā, tas nozīmē, ka mākslīgā intelekta mērogošana būtībā ir kontrolēta halucinācija… bet produktīvā, pikseļus respektējošā veidā.
Kas veido labu mākslīgā intelekta uzlabošanas versiju? ✅🛠️
Ja vērtējat mākslīgā intelekta uzlabotāju (vai iestatījumu iepriekšiestatījumu), vissvarīgākais parasti ir šāds:
-
Detaļu atgūšana bez pārcepšanas.
Laba mērogošana piešķir kraukšķīgumu un struktūru, nevis kraukšķīgu troksni vai mākslīgas poras. -
Malu disciplīna
Tīras līnijas paliek tīras. Slikti modeļi liek malām šūpoties vai veidot oreolus. -
Tekstūras reālisms.
Matiem nevajadzētu kļūt par otas triepienu. Ķieģeļiem nevajadzētu kļūt par atkārtotu raksta zīmogu. -
Trokšņa un saspiešanas apstrāde
Daudzi ikdienas attēli tiek JPEG formātā līdz nāvei apstrādāti. Labs palielinātājs šo bojājumu nepastiprina ( Real-ESRGAN ). -
Sejas un teksta atpazīšana
Sejas un teksts ir visvieglāk pamanāmas kļūdas. Labi modeļi pret tām izturas saudzīgi (vai tiem ir specializēti režīmi). -
Saskaņotība visos kadros (video).
Ja detaļas mirgo no viena kadra uz otru, jūsu acis iekliedzas. Video mērogošana pastāv vai iet bojā, pateicoties laika stabilitātei ( BasicVSR (CVPR 2021) ). -
Vadības ierīces, kurām ir jēga.
Jums ir nepieciešami slīdņi, kas atbilst reāliem rezultātiem: trokšņu mazināšanai, izplūšanas novēršanai, artefaktu noņemšanai, graudu saglabāšanai, asināšanai… praktiskās lietas.
Neizteiksmīgs noteikums, kas joprojām darbojas: “labākā” uzlabotā attēla kvalitāte bieži vien ir tā, ko tik tikko pamanāt. Izskatās, ka jums jau sākotnēji bija labāka kamera 📷✨
Salīdzināšanas tabula: populāras mākslīgā intelekta uzlabošanas iespējas (un kam tās ir piemērotas) 📊🙂
Zemāk ir sniegts praktisks salīdzinājums. Cenas ir apzināti neskaidras, jo rīki atšķiras pēc licences, pakotnēm, skaitļošanas izmaksām un visām pārējām izklaidēm.
| Rīks/pieeja | Vislabāk piemērots | Cenas vibrācija | Kāpēc tas darbojas (aptuveni) |
|---|---|---|---|
| Topaz stila darbvirsmas palielinātāji ( Topaz Photo , Topaz Video ) | Fotoattēli, video, vienkārša darbplūsma | Apmaksāts | Spēcīgi vispārīgi modeļi + daudz regulēšanas, mēdz "vienkārši darboties"... lielākoties |
| Adobe “Super Resolution” tipa funkcijas ( Adobe Enhance > Super Resolution ) | Fotogrāfi, kas jau ir šajā ekosistēmā | Abonēšanas iespējas | Cieta detaļu rekonstrukcija, parasti konservatīva (mazāk dramatisma) |
| Real-ESRGAN/ESRGAN varianti ( Real-ESRGAN , ESRGAN ) | Pašdarināti darbi, izstrādātāji, partijveida darbi | Bez maksas (bet laikietilpīgi) | Lieliski sastāda tekstūras detaļas, uz sejām var būt pikants efekts, ja neesat uzmanīgs |
| Difūzijas bāzes mērogošanas režīmi ( SR3 ) | Radošs darbs, stilizēti rezultāti | Jaukts | Var radīt krāšņas detaļas — var arī izdomāt muļķības, tāpēc… jā |
| Spēļu uzlabotāji (DLSS/FSR stilā) ( NVIDIA DLSS , AMD FSR 2 ) | Reāllaika spēles un renderēšana | Komplektā | Izmanto kustības datus un apgūtos prioros — vienmērīgas veiktspējas uzvara 🕹️ |
| Mākoņpakalpojumu uzlabošana | Ērtības, ātras uzvaras | Maksa par lietošanas reizi | Ātrs + mērogojams, taču jūs tirgojaties ar kontroli un dažreiz ar smalkumiem |
| Uz video orientēti mākslīgā intelekta uzlabotāji ( BasicVSR , Topaz Video ) | Veci kadri, anime, arhīvi | Apmaksāts | Īslaicīgi triki mirgošanas samazināšanai + specializēti video modeļi |
| “Viedā” tālruņa/galerijas mērogošana | Ikdienas lietošana | Iekļauts | Vieglie modeļi, kas noregulēti patīkamai jaudai, nevis pilnībai (joprojām ērti) |
Formatēšanas īpatnības atzīšanās: “Apmaksāts” šajā tabulā veic daudz darba. Bet jūs saprotat domu 😅
Lielais noslēpums: modeļi apgūst kartējumu no zemas izšķirtspējas uz augstu izšķirtspēju 🧠➡️🖼️
Lielākās daļas mākslīgā intelekta uzlabošanas pamatā ir uzraudzīta mācīšanās iestatīšana ( attēla superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN) ):
-
Sāciet ar augstas izšķirtspējas attēliem (“patiesību”)
-
Samazināt to izšķirtspēju līdz zemai (“ievades”) versijai
-
Apmācīt modeli, lai rekonstruētu sākotnējo augstas izšķirtspējas attēlu no zemas izšķirtspējas attēla
Laika gaitā modelis apgūst korelācijas, piemēram:
-
“Šāda veida izplūdums ap aci parasti pieder pie skropstām.”
-
“Šis pikseļu klasteris bieži norāda uz serif tekstu”
-
“Šis malu gradients izskatās pēc jumta līnijas, nevis nejauša trokšņa.”
Tā nav konkrētu attēlu iegaumēšana (vienkāršā nozīmē), bet gan statistiskās struktūras apguve ( Deep Learning for Image Super-resolution: A Survey ). Iedomājieties to kā tekstūru un malu gramatikas apguvi. Nevis dzejas gramatiku, drīzāk… IKEA rokasgrāmatas gramatika 🪑📦 (neveikla metafora, tomēr pietiekami tuvu).
Īsumā: kas notiek secinājumu laikā (kad veicat augšupvērstu mērogošanu) ⚙️✨
Kad attēlu ievadāt mākslīgā intelekta palielinātājā, parasti ir šāds cauruļvads:
-
Priekšapstrāde
-
Krāsu telpas konvertēšana (dažreiz)
-
Normalizēt pikseļu vērtības
-
Sadaliet attēlu fragmentos, ja tas ir liels (VRAM realitātes pārbaude 😭) ( Real-ESRGAN repo (mozaīkas opcijas) )
-
-
Funkciju ieguve
-
Agrīnie slāņi nosaka malas, stūrus, gradientus
-
Dziļāki slāņi atklāj modeļus: tekstūras, formas, sejas komponentus
-
-
Rekonstrukcija
-
Modelis ģenerē augstākas izšķirtspējas iezīmju karti
-
Pēc tam to pārveido faktiskajā pikseļu izvadē
-
-
Pēcapstrāde
-
Asināšana pēc izvēles
-
Papildu trokšņu slāpēšana
-
Papildu artefaktu slāpēšana (zvana, oreoli, blokveida efekti)
-
Viena smalka detaļa: daudzi rīki palielina flīžu izmērus un pēc tam sapludina šuves. Lieliski rīki paslēpj flīžu robežas. Lietderīgi rīki atstāj blāvas režģa atzīmes, ja samiedz acis. Un jā, jūs samiedzīsiet acis, jo cilvēkiem patīk pārbaudīt sīkas nepilnības ar 300% tālummaiņu kā maziem gremliniem 🧌
Galvenās modeļu saimes, ko izmanto mākslīgā intelekta uzlabošanai (un kāpēc tās šķiet atšķirīgas) 🤖📚
1) CNN balstīta superizšķirtspēja (klasiskais darba zirgs)
Konvolucionālie neironu tīkli lieliski noder lokālu modeļu attēlošanai: malām, tekstūrām, mazām struktūrām ( attēla superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN) ).
-
Plusi: diezgan ātrs, stabils, mazāk pārsteigumu
-
Mīnusi: var izskatīties nedaudz “apstrādāts”, ja tiek pārāk uzspiests
2) GAN balstīta mērogošana (ESRGAN stilā) 🎭
GAN (Ģeneratīvie pretinieku tīkli) apmāca ģeneratoru ģenerēt augstas izšķirtspējas attēlus, kurus diskriminētājs nevar atšķirt no reāliem attēliem ( Ģeneratīvie pretinieku tīkli ).
-
Plusi: izteiksmīgas detaļas, iespaidīga tekstūra
-
Mīnusi: var izdomāt detaļas, kuru tur nebija — dažreiz nepareizi, dažreiz neparasti ( SRGAN , ESRGAN )
GAN var sniegt jums elpu aizraujošu asumu. Tas var arī piešķirt jūsu portreta objektam papildu uzaci. Tāpēc… izvēlieties savas cīņas 😬
3) Uz difūziju balstīta mērogošana (radošais aizstājējzīme) 🌫️➡️🖼️
Difūzijas modeļi pakāpeniski novērš trokšņus un tos var vadīt, lai iegūtu augstas izšķirtspējas detaļas ( SR3 ).
-
Plusi: var būt neticami labs ticamu detaļu attēlošanā, īpaši radošam darbam
-
Mīnusi: var novirzīties no sākotnējās identitātes/struktūras, ja iestatījumi ir agresīvi ( SR3 )
Šeit “uzlabošana” sāk saplūst ar “pārdomāšanu”. Dažreiz tas ir tieši tas, ko vēlaties. Dažreiz tas nav.
4) Video mērogošana ar laika konsekvenci 🎞️
Video mērogošana bieži vien pievieno kustību atpazīšanas loģiku:
-
Izmanto blakus esošos kadrus, lai stabilizētu detaļas ( BasicVSR (CVPR 2021) )
-
Centās izvairīties no mirgošanas un rāpošanas artefaktiem
-
Bieži vien apvieno superizšķirtspēju ar trokšņu samazināšanu un interlācijas novēršanu ( Topaz Video ).
Ja attēla uzlabošana ir kā vienas gleznas restaurācija, tad video uzlabošana ir kā šķirstāmās grāmatas restaurācija, neliekot varoņa degunam mainīt formu katrā lappusē. Kas ir… grūtāk, nekā izklausās.
Kāpēc mākslīgā intelekta mērogošana dažreiz izskatās viltota (un kā to atpazīt) 👀🚩
Mākslīgā intelekta mērogošana neizdodas atpazīstamos veidos. Kad būsiet apguvis modeļus, jūs tos redzēsiet visur, piemēram, iegādājoties jaunu automašīnu un pēkšņi pamanot šo modeli uz katras ielas 😵💫
Common stāsta:
-
Vaska āda uz sejas (pārāk daudz trokšņu slāpēšanas + izlīdzināšanas)
-
Pārāk asināti oreoli ap malām (klasiskā "pārsniegšanas" teritorija) ( bikubiskā interpolācija )
-
Atkārtotas tekstūras (ķieģeļu sienas kļūst par kopēšanas un ielīmēšanas rakstiem)
-
Kraukšķīgs mikrokontrasts , kas kliedz pēc “algoritma”
-
Teksta sagrozīšana, kur burti kļūst gandrīz burti (vissliktākais veids)
-
Detaļu nobīde , kur mazas iezīmes nedaudz mainās, īpaši difūzijas darbplūsmās ( SR3 )
Sarežģītākā daļa: dažreiz šie artefakti no pirmā acu uzmetiena izskatās “labāk”. Jūsu smadzenēm patīk asums. Bet pēc brīža tas šķiet… dīvaini.
Laba taktika ir attālināt attēlu un pārbaudīt, vai tas izskatās dabiski normālā skatīšanās attālumā. Ja tas izskatās labi tikai ar 400% tālummaiņu, tā nav uzvara, tas ir hobijs 😅
Kā darbojas mākslīgā intelekta mērogošana: apmācības puse bez matemātikas galvassāpēm 📉🙂
Superizšķirtspējas modeļu apmācība parasti ietver:
-
Pāroti datu kopumi (zemas izšķirtspējas ievade, augstas izšķirtspējas mērķis) ( attēla superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN) )
-
Zaudējumu funkcijas , kas soda par nepareizām rekonstrukcijām ( SRGAN )
Tipiski zaudējumu veidi:
-
Pikseļu zudums (L1/L2)
veicina precizitāti. Var radīt nedaudz mīkstus rezultātus. -
Uztveres zudums.
Salīdzina dziļākas iezīmes (piemēram, “vai tas izskatās līdzīgi”), nevis precīzus pikseļus ( uztveres zudumi (Johnson et al., 2016) ). -
Sacensību zaudējums (GAN)
veicina reālismu, dažreiz uz burtiskās precizitātes rēķina ( SRGAN , Ģeneratīvie sacensību tīkli ).
Pastāvīga cīņa:
-
Padariet to uzticīgu oriģinālam
vs -
Padariet to vizuāli pievilcīgu
Dažādi rīki atrodas dažādās šī spektra vietās. Un jūs varētu dot priekšroku vienam no tiem atkarībā no tā, vai restaurējat ģimenes fotoattēlus vai gatavojat plakātu, kur “izskats” ir svarīgāks par ekspertīzes precizitāti.
Praktiskas darbplūsmas: fotoattēli, veci skenējumi, anime un video 📸🧾🎥
Fotogrāfijas (portreti, ainavas, produktu fotoattēli)
Labākā prakse parasti ir šāda:
-
Vispirms neliela trokšņu slāpēšana (ja nepieciešams)
-
Augstas klases ar konservatīviem iestatījumiem
-
Pievienojiet graudus atpakaļ, ja viss šķiet pārāk gluds (jā, tiešām)
Graudi ir kā sāls. Pārāk daudz graudu sabojā vakariņas, bet nekādi graudi var garšot mazliet plakani 🍟
Veci skenējumi un stipri saspiesti attēli
Tie ir sarežģītāki, jo modelis var apstrādāt saspiešanas blokus kā “tekstūru”.
Izmēģiniet:
-
Artefaktu noņemšana vai atbloķēšana
-
Tad paaugstiniet līmeni
-
Tad viegla asināšana (ne pārāk daudz... zinu, visi tā saka, bet tomēr)
Anime un līnijzīmējums
Līniju zīmēšanai ir šādas priekšrocības:
-
Modeļi, kas saglabā tīras malas
-
Samazinātas tekstūras halucinācijas.
Anime uzlabota versija bieži izskatās lieliski, jo formas ir vienkāršākas un konsekventākas. (Par laimi.)
Video
Videoklipā ir pievienotas papildu darbības:
-
Trokšņu slāpēšana
-
Deinterlace (noteiktiem avotiem)
-
Augstas klases
-
Laika izlīdzināšana vai stabilizācija ( BasicVSR (CVPR 2021) )
-
Graudu atkārtota ievešana kohēzijas nodrošināšanai (pēc izvēles)
Ja izlaiž laika konsekvenci, iegūsti šo mirdzošo detaļu mirgošanu. Kad to pamanīsi, vairs nevarēsi to aizmirst. Kā čīkstošs krēsls klusā istabā 😖
Iestatījumu izvēle bez liekām minēšanām (neliela apkrāptu lapa) 🎛️😵💫
Lūk, labs sākuma domāšanas veids:
-
Ja sejas izskatās plastiskas,
samaziniet trokšņu slāpēšanu, samaziniet asināšanu, izmēģiniet seju saglabājošu modeli vai režīmu. -
Ja tekstūras izskatās pārāk intensīvas,
samaziniet slīdņus “detaļu uzlabošana” vai “detaļu atgūšana” un pievienojiet nelielu graudainību pēc tam. -
Ja malas spīd,
samaziniet asumu, pārbaudiet oreola slāpēšanas opcijas. -
Ja attēls izskatās pārāk “mākslīgais intelekts”,
rīkojieties konservatīvāk. Dažreiz labākais risinājums ir vienkārši… mazāk.
Tāpat: nepalielini attēlu 8x tikai tāpēc, ka vari. Tīrs 2x vai 4x palielinājums bieži vien ir optimālais palielinājums. Ja tā nav, tu lūdz modelim rakstīt fanu stāstus par taviem pikseļiem 📖😂
Ētika, autentiskums un neveiklais jautājums par “patiesību” 🧭😬
Mākslīgā intelekta mērogošana sapludina robežu:
-
Restaurācija nozīmē atgūt to, kas tur bija
-
Uzlabošana nozīmē pievienot to, kas nebija
Ar personīgajām fotogrāfijām parasti viss ir kārtībā (un jauki). Ar žurnālistiku, juridiskiem pierādījumiem, medicīnisko attēlveidošanu vai jebko citu, kur ir svarīga precizitāte… jums jābūt uzmanīgiem ( OSAC/NIST: Standarta rokasgrāmata tiesu medicīnas digitālo attēlu pārvaldībai , SWGDE vadlīnijas tiesu medicīnas attēlu analīzei ).
Vienkāršs noteikums:
-
Ja likmes ir augstas, uztveriet mākslīgā intelekta mērogošanu kā ilustratīvu , nevis noteicošu.
Arī atklātība ir svarīga profesionālā kontekstā. Ne tāpēc, ka mākslīgais intelekts ir ļaunums, bet gan tāpēc, ka auditorijai ir tiesības zināt, vai detaļas tika rekonstruētas vai iemūžinātas. Tas ir vienkārši… cieņas pilns.
Noslēguma piezīmes un īss kopsavilkums 🧡✅
Tātad, mākslīgā intelekta mērogošana darbojas šādi: modeļi apgūst, kā augstas izšķirtspējas detaļas mēdz būt saistītas ar zemas izšķirtspējas modeļiem, un pēc tam mērogošanas laikā prognozē ticamus papildu pikseļus ( Deep Learning for Image Super-resolution: A Survey ). Atkarībā no modeļu saimes (CNN, GAN, difūzijas, video-temporālā), šī prognoze var būt konservatīva un precīza… vai arī pārspīlēta un dažreiz nekontrolējama 😅
Īss kopsavilkums
-
Tradicionālā mērogošana izstiepj pikseļus ( bikubiskā interpolācija )
-
Mākslīgā intelekta mērogošana paredz trūkstošās detaļas, izmantojot apgūtus modeļus ( attēla superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN) ).
-
Lieliski rezultāti rodas no pareizā modeļa + atturības
-
Videoklipā meklējiet oreolus, vaskainas sejas, atkārtotas tekstūras un mirgošanu ( BasicVSR (CVPR 2021) ).
-
Uzlabošana bieži vien ir “ticama rekonstrukcija”, nevis pilnīga patiesība ( SRGAN , ESRGAN ).
Ja vēlies, pastāsti man, ko tu uzlabo (sejas, vecas fotogrāfijas, video, anime, teksta skenējumus), un es ieteikšu iestatījumu stratēģiju, kas parasti novērš bieži sastopamās “mākslīgā intelekta izskata” kļūdas 🎯🙂
Bieži uzdotie jautājumi
Mākslīgā intelekta uzlabošana un tās darbības princips
Mākslīgā intelekta uzlabotā mērogošana (bieži saukta par “superizšķirtspēju”) palielina attēla izšķirtspēju, paredzot trūkstošās augstas izšķirtspējas detaļas no apmācības laikā apgūtajiem modeļiem. Tā vietā, lai vienkārši izstieptu pikseļus, piemēram, veicot bikubisku interpolāciju, modelis pēta malas, tekstūras, sejas un tekstam līdzīgus triepienus, pēc tam ģenerējot jaunus pikseļu datus, kas atbilst šiem apgūtajiem modeļiem. Tas mazāk “atjauno realitāti” un vairāk “izdara ticamu minējumu”, kas skan dabiski.
AI mērogošana salīdzinājumā ar bikubisku vai tradicionālo izmēru maiņu
Tradicionālās mērogošanas metodes (piemēram, bikubiskā) galvenokārt interpolē esošos pikseļus, izlīdzinot pārejas, neradot patiesi jaunas detaļas. Mākslīgā intelekta mērogošanas mērķis ir rekonstruēt ticamu struktūru, atpazīstot vizuālas norādes un prognozējot, kā parasti izskatās šo norāžu augstas izšķirtspējas versijas. Tāpēc mākslīgā intelekta rezultāti var šķist ievērojami asāki, kā arī tāpēc tie var ieviest artefaktus vai "izgudrot" detaļas, kuru avotā nebija.
Kāpēc sejas var izskatīties vaskainas vai pārāk gludas
Vaskainas sejas parasti rodas no agresīvas trokšņu slāpēšanas un izlīdzināšanas apvienojumā ar asināšanu, kas noņem dabisko ādas tekstūru. Daudzi rīki līdzīgi apstrādā troksni un smalku tekstūru, tāpēc attēla "attīrīšana" var izdzēst poras un smalkas detaļas. Izplatīta pieeja ir samazināt trokšņu slāpēšanu un asināšanu, izmantot sejas saglabāšanas režīmu, ja tāds ir pieejams, un pēc tam atkal pievienot nedaudz graudainības, lai rezultāts šķistu mazāk plastisks un fotogrāfiskāks.
Bieži sastopami mākslīgā intelekta mērogošanas artefakti, kas jāņem vērā
Tipiskas pazīmes ir oreoli ap malām, atkārtoti tekstūras raksti (piemēram, kopēšanas un ielīmēšanas ķieģeļi), kraukšķīgs mikrokontrasts un teksts, kas pārvēršas “gandrīz burtos”. Izplatīšanas darbplūsmās var redzēt arī detaļu nobīdi, kur mazas detaļas nemanāmi mainās. Videoklipā mirgošana un detaļu rāpošana pāri kadriem ir lielas brīdinājuma zīmes. Ja labi izskatās tikai ar ārkārtīgu tālummaiņu, iestatījumi, iespējams, ir pārāk agresīvi.
Kā GAN, CNN un difūzijas palielinātāju rezultāti mēdz atšķirties
Uz CNN balstīta superizšķirtspēja parasti ir stabilāka un paredzamāka, taču, ja to izmanto pārāk spēcīgi, tā var izskatīties “apstrādāta”. Uz GAN balstītas opcijas (ESRGAN stilā) bieži rada izteiktāku tekstūru un uztverto asumu, taču tās var halucinēt nepareizas detaļas, īpaši uz sejām. Uz difūziju balstīta mērogošana var radīt skaistas, ticamas detaļas, tomēr tās var novirzīties no sākotnējās struktūras, ja vadības vai stipruma iestatījumi ir pārāk spēcīgi.
Praktiska iestatījumu stratēģija, lai izvairītos no “pārāk mākslīgā intelekta” izskata
Sāciet konservatīvi: palieliniet mērogu 2× vai 4×, pirms ķeraties pie ekstremāliem faktoriem. Ja sejas izskatās plastiskas, samaziniet trokšņu slāpēšanu un asināšanu un izmēģiniet sejas uztveršanas režīmu. Ja tekstūras kļūst pārāk intensīvas, samaziniet detaļu uzlabošanu un apsveriet iespēju pēc tam pievienot nelielu graudainību. Ja malas spīd, samaziniet asināšanu un pārbaudiet oreola vai artefaktu slāpēšanu. Daudzos kanālos uzvar "mazāk", jo tas saglabā ticamu reālismu.
Vecu skenētu attēlu vai stipri JPEG saspiestu attēlu apstrāde pirms mērogošanas
Saspiestu attēlu apstrāde ir sarežģīta, jo modeļi var apstrādāt bloku artefaktus kā reālu tekstūru un tos pastiprināt. Bieži sastopama darbplūsma vispirms ir artefaktu noņemšana vai atbloķēšana, pēc tam mērogošana un pēc tam viegla asināšana tikai tad, ja nepieciešams. Skenēšanas gadījumā maiga tīrīšana var palīdzēt modelim koncentrēties uz faktisko struktūru, nevis bojājumiem. Mērķis ir samazināt "viltus tekstūras norādes", lai mērogošanas veicējam nebūtu jāizdara pārliecinoši minējumi no trokšņainiem ievades datiem.
Kāpēc video mērogošana ir sarežģītāka nekā fotoattēlu mērogošana
Video mērogošanas uzlabošanai ir jābūt vienādai visos kadros, ne tikai labai vienam nekustīgam attēlam. Ja detaļas mirgo no viena kadra uz otru, rezultāts ātri kļūst traucējošs. Uz video orientētas pieejas izmanto laika informāciju no blakus esošajiem kadriem, lai stabilizētu rekonstrukciju un izvairītos no mirgošanas artefaktiem. Daudzas darbplūsmas ietver arī trokšņu mazināšanu, deinterlāciju noteiktiem avotiem un papildu graudu atkārtotu ieviešanu, lai visa secība šķiet saliedēta, nevis mākslīgi asa.
Kad mākslīgā intelekta mērogošana nav piemērota vai uz to ir riskanti paļauties
Mākslīgā intelekta uzlabošana vislabāk ir jāuztver kā uzlabošana, nevis pierādījums. Augstas likmes kontekstos, piemēram, žurnālistikā, juridiskos pierādījumos, medicīniskajā attēlveidošanā vai kriminālistikā, “ticamu” pikseļu ģenerēšana var maldināt, jo tā var pievienot detaļas, kas netika uztvertas. Drošāks ietvars ir to izmantot ilustratīvi un atklāt, ka mākslīgā intelekta process ir rekonstruējis detaļu. Ja precizitāte ir kritiski svarīga, saglabājiet oriģinālus un dokumentējiet katru apstrādes soli un vidi.
Atsauces
-
arXiv — Dziļā mācīšanās attēlu superizšķirtspējai: aptauja — arxiv.org
-
arXiv — attēlu superizšķirtspēja, izmantojot dziļos konvolucionālos tīklus (SRCNN) — arxiv.org
-
arXiv — Real-ESRGAN — arxiv.org
-
arXiv — ESRGAN — arxiv.org
-
arXiv — SR3 — arxiv.org
-
NVIDIA izstrādātājs — NVIDIA DLSS — developer.nvidia.com
-
AMD GPUOpen — FidelityFX Super Resolution 2 — gpuopen.com
-
Datorredzes fonda (CVF) atvērtā piekļuve — BasicVSR: Būtisku komponentu meklējumi video superizšķirtspējā (CVPR 2021) — openaccess.thecvf.com
-
arXiv — Ģeneratīvie sacīkstes tīkli — arxiv.org
-
arXiv — SRGAN — arxiv.org
-
arXiv — Uztveres zudumi (Džonsons et al., 2016) — arxiv.org
-
GitHub — Real-ESRGAN repozitorijs (flīžu opcijas) — github.com
-
Vikipēdija — Bikubiskā interpolācija — wikipedia.org
-
Topaz Labs — Topaz fotoattēls — topazlabs.com
-
Topaz Labs — Topaz video — topazlabs.com
-
Adobe palīdzības centrs — Adobe Enhance > Super izšķirtspēja — helpx.adobe.com
-
NIST/OSAC — Standarta rokasgrāmata kriminālistikas digitālo attēlu pārvaldībai (1.0 versija) — nist.gov
-
SWGDE — Tiesu attēlu analīzes vadlīnijas — swgde.org