Mākslīgais intelekts vairs nav iesprūdis izklājlapās. Tas skicē, glezno, veido kolāžas — dažreiz pat satraucoši labi. Ja kādreiz esat apsēdies un domājis: labi, bet kā lai es īsti pasaku mākslīgajam intelektam, ko zīmēt? —, tad rodas ideja par “mākslas stiliem mākslīgajam intelektam”.
Tālāk mēs apskatīsim, kuri stili vislabāk darbojas ar teksta pārveidošanas attēlos sistēmām, kāpēc tie to dara un kā jūs varat tos vadīt, nezaudējot savu dzirksti. Es iekļaušu dažas praktiskas piezīmes no praktiskajiem testiem (tostarp to, kas faktiski izturēja vairākos testos), kā arī dažus tehniskus aspektus, lai process nedaudz mazāk atgādinātu kauliņu mešanu [1][2][3][4][5].
Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:
🔗 Kā veidot mākslīgā intelekta mākslu: pilnīgs ceļvedis iesācējiem
Soli pa solim iesācēja ceļvedis mākslīgā intelekta ģenerētu digitālo mākslas darbu veidošanā.
🔗 Mākslīgā intelekta radītas mākslas pirmsākumi: radošuma atraisīšana vai strīdu izraisīšana
Radošuma, ētikas un debašu izpēte saistībā ar mākslīgā intelekta ģenerētu mākslu.
🔗 Labākie mākslīgā intelekta rīki grafiskajam dizainam: labākā mākslīgā intelekta darbināma dizaina programmatūra
Atklājiet jaudīgus mākslīgā intelekta rīkus, kas pārveido mūsdienu grafikas dizaina darbplūsmas.
Kas padara mākslīgā intelekta mākslas stilus patiesībā labus? ✨
Stilu izvēle nav tikai sekošana tendencēm. Dažus stilus modelēm vienkārši ir vieglāk noturēt. Daži iemesli, kāpēc:
-
Skaidrība — stili ar patiešām atšķirīgiem “noteikumiem” (kubisma lauztā ģeometrija; mangas paneļi ar daudzām līnijām) ir atkārtojamāki, jo mērķa vizuālie efekti tik ļoti nenovirzās [3][4].
-
Elastība — sajaukšanai draudzīgi stili (piemēram, “kiberpanks + reālisms”) ļauj mūsdienu difūzijas modeļiem paļauties uz savstarpēju uzmanību, lai lietas tīri sajauktu [1].
-
Atpazīstamība — stili, ko apmācības dati ir redzējuši tūkstoš reižu (anime, impresionisms, fotoreālisms), tiek attēloti precīzāk [2].
-
Noskaņojums/Atmosfēra — tādi vārdi kā “melanholisks”, “mierīgs” vai “neona apgaismojums” droši maina apgaismojumu, paleti un kompozīciju veidos, kas šķiet apzināti [5].
Mērķis nav kaut kāda klīniska “precizitāte”. Tas ir stils kā jūsu noskaņojuma vai stāsta konteiners — un iemācīties pamudināt modeli, lai tas varētu trāpīt šim konteineram atkal un atkal.
Kā mākslīgais intelekts “redz” stilu (vienkārša versija, bez žargona pārslodzes)
Mūsdienu teksta-attēla modeļi žonglē ar trim lietām:
-
Teksta un attēla saskaņošana — tādas sistēmas kā CLIP apgūst, “kuri vārdi atbilst katram izskatam”. Tātad, kad jūs sakāt “gritty ink wash” (“smakaina tintes mazgāšana”), tā sasaista šo frāzi vizuālos elementos [3].
-
Difūzija latentā telpā — zem pārsega latentā difūzija pakāpeniski asina trokšņainu attēlu, lai tas atbilstu jūsu aprakstam. Tādā veidā tā iegūst gan efektivitāti, gan kontroli [1].
-
Uzvednes modifikatori — mazie “kopienas triki” — kinematogrāfisks apgaismojums, malu apgaismojums, augsta kontrasta filmas graudainība — ir kā regulējami ciparnīcas, kuras var sakraut [5].
Kāpēc tas ir svarīgi: ja stils ir skaidri redzams apmācības datos un jūs to aprakstāt ar pareizajiem papildinājumiem, jūs ātri iegūsiet konsekventus rezultātus [1][2][5].
Salīdzināšanas tabula: populāri mākslas stili mākslīgajam intelektam 🖌️
Saņemta nekārtīga, bet noderīga apkrāptu lapa:
| Mākslas stils | Auditorija | Cena (mākslīgā intelekta rīki) | Kāpēc tas darbojas |
|---|---|---|---|
| Reālisms | Fotogrāfi, zīmoli | Bezmaksas – $$$ | Izskatās izsmalcināts un uzticams |
| Anime/Manga | Jaunākie fani, spēlētāji | Bezmaksas – vidējas izmaksas | Spēcīga līniju struktūra; uzreiz salasāma |
| Sirreālisms | Radoši cilvēki, sapņotāji | Brīvības pieskaņa | Dīvaini sajaukumi labi iederas difūzijas vadlīnijās |
| Kiberpanks | Tehnoloģiju cienītāji, futūristi | Bieži vien bezmaksas papildinājumi | Neons + kontrasts = tūlītējs "wow" efekts ⚡ |
| Impresionisms | Mākslas entuziasti | Vidējās izmaksas | Gaišas + otiņas tekstūras ir draudzīgas modeļiem |
| Zema poligonālā 3D | Dizaineri, izstrādātāji | Dažāds | Vienkārša ģeometrija nodrošina rezultātu saskaņotību |
| Pikseļu māksla | Spēlētāji, nostalģijas meklētāji | Bezmaksas (lielākoties) | Stingri ierobežojumi vada kompozīciju |
Lauka ķēpāšana: Kiberpankam “mīkstās malas gaismas + apjomīgās miglas” padara objektus izcilus. Pikseļu mākslai to ierobežo ar “8 bitu, 32×32, ierobežotas paletes” , lai izvairītos no pārāk tīras rezultāta.
Padziļināta analīze: reālisms pret sirreālismu 🎭
Reālisms ir saistīts ar proporcijām un detaļām — ideāli piemērots mārketinga kompānijām vai produktu dizainam, kur ticamība ir svarīga. Tādi ieteikumi kā fotoreālisms, sekla dziļuma fokusa zona, studijas apgaismojums, 85 mm objektīvs sniedz mākslīgajam intelektam skaidrus tehniskos pamatprincipus.
Sirreālisms, no otras puses, sliecas uz dīvainību. Šeit patiešām izceļas difūzijas modeļi: “no pulksteņiem veidots gliemezis”, “vijoles stīgu pilsēta” — lietas, ko cilvēki nevar racionalizēt, bet modelis var vizuāli salikt kopā. Tā ir savstarpēja uzmanība, kas klusi dara savu burvību [1]. Labi tagi: sapņains, neiespējama ģeometrija, Ešera stils .
Anime un manga: Mākslīgā intelekta mīļā 🌸
Anime/manga ir gandrīz negodīgi efektīva. Definētā lineārā diagramma, šūnu ēnojums un ikoniskās proporcijas piešķir modelim fiksētu veidni, turklāt tas ir smieklīgi bieži sastopams apmācības datos [2]. Un hibrīdi? Zelts. Pamēģiniet kiberpanka anime samuraju vai steampunk manga detektīvā .
Pamudiniet sastatnes, uz kurām atbalstīties:
-
“Anime vizuālais pamatojums, dinamiska poza, tīras līnijas, celiņu ēnojums, izteiksmīgas acis, detalizēts fons”
-
“manga panelis, ekrāna toņu ēnojums, holandiešu leņķis, tintes uzsvars”
Piezīme sev: ja rezultāti izskatās neskaidri, pievienojiet “tīru lineāru, plakanu ēnojumu” vai ierobežojiet krāsas ar “ierobežotu paleti”.
Kiberpanka un futūristiskie stili ⚡
Neona zīmes, hroma atspīdumi, lietainas naktis — modelis to visu absorbē. Diffusion lieliski augsta kontrasta apgaismojumu un atstarojošiem materiāliem “neona apgaismota aleja, apjomīga migla, peļķes atspīdumi” bieži izskatās plakāta cienīgi.
Labošanas padoms: Vaskam līdzīgas virsmas? Pievienojiet “zemvirsmas izkliedi, plēves gradāciju” un samaziniet “trokšņa” svaru uzvednē.
Impresionisms un gleznainas tekstūras 🎨
Šeit detaļas nav karalis. Impresionismam raksturīgas maigās malas, lauztas krāsas un gaismas spēles. Tādi pavedieni kā redzami otas triepieni, plenēra apgaismojums, zelta stunda darbojas labi. Modelis piedāvā detaļas bez pārrenderēšanas, kas – lai cik smieklīgi tas nebūtu – ir gan autentiski, gan skaitļošanas ziņā viegli [4].
Minimālisms, pikseļu māksla un retro 🕹️
Ierobežojumi vienkāršo. Zema poligonu skaita režīms nodrošina ģeometrijas skaidrību; pikseļu māksla tiek fiksēta ar izšķirtspēju + paleti.
Noderīgi uzvedņu rāmji:
-
“zema poligonu skaita diorāma, asas malas, plakana ēnošana, apkārtējās vides aizsegums”
-
“Pikseļu māksla, 32×32 спрайts, NES stils, ierobežota dithering”
Piezīme: ja pikseļu māksla izskatās pārāk gluda, pievienojiet “CRT skenēšanas līnijas, toņotas ēnas”, lai iegūtu analogu graudu daudzumu.
Hibrīdie miksējumi: kur mākslīgais intelekts spīd ✨
Nepatīkamais variants: savstarpēja apputeksnēšana. Difūzija ļauj apvienot ietekmes, kurām vairums mākslinieku nepieskartos – Van Goga kiberpanku , anime noir kubismu , renesanses meha eņģeli. Tas ir līdzīgi kā neironu stila pārnese 2.0, bet daudz vieglāk kontrolējama [1][4].
Receptes formāts:
[Tēma] + [Laikmets/Kustība] + [Apgaismojums] + [Medijs/Materiāls] + [Kompozīcija] + [Palete/Noskaņa]
Piemēram: “vijolnieks uz jumta — impresionisma eļļas glezna — zelta stundas pretgaisma — nobīdīts no centra — nostalģiska palete.”
Uzvedņu modeļi, kas faktiski maina rezultātus 🛠️
No atkārtotiem izmēģinājuma braucieniem:
-
Medija + stila apvienojums precizē robežas/tekstūras: eļļas sirreālisms, digitālā manga [5].
-
Lighting First maina reālismu vairāk nekā vārdu sakraušana.
-
Kameras valoda (leņķi, objektīva garums) nodrošina tūlītēju paredzamību.
-
Ierobežojumiem ir nozīme — tie skaidri piespiež minimālismam vai pikseļu mākslai izmantot izšķirtspēju/paleti.
-
Nelielas izmaiņas > Lielas pārrakstīšanas . “Neona” aizstāšana ar “nātrija tvaiku” bieži vien ir efektīvāka nekā pilnīga pārveidošana [5].
Ātra realitātes pārbaude 🔍
-
Neobjektivitāte — rezultātos dominē tiešsaistē izplatīti stili (anime, fotoreālisms); retāk sastopamajiem stiliem nepieciešama atsauce vai precizēšana [2].
-
Kāpēc sirreālisms darbojas — difūzijas vaļīgums slēpj anatomiskas nepilnības, liekot dīvainībām izskatīties tīšām [1].
-
Uzvednes novirze — ja katra izvade izskatās vienādi, pirms tēmas pārveidošanas pielāgojiet modifikatorus [5].
-
Tiesības/ētika — datu kopas apstrādā plaši; izejas dati jāizmanto atbildīgi, īpaši komerciāliem nolūkiem [2].
Mini lietu piezīmes (no manas smilšu kastes) 🧪
-
Kiberpanka portrets — “portrets, zilganzaļa-fuksīna neona gaisma, lietaina aleja, gaisma uz malas, 85 mm, kinematogrāfisks bokeh”.
Noderēja, jo: objektīvs + apgaismojums, precīza objekta/fona atdalīšana. -
Impresionisma ainava — “upes krasts zelta stundā, impresionisma eļļas glezna, redzami otas triepieni”.
Derēja, jo: vidēji fiksēta tekstūra, apgaismojums, apstrādāta siltums. -
Pikseļu mākslas radījums — “32 × 32 pikseļu pūķis, ierobežota toņošana, 1 px kontūra, izometrisks”
Nostrādāja, jo ierobežojumi vairs nemainījās.
Ātrās uzziņas uzvednes (kopēšana/ielīmēšana)
-
Reālisms (produkts): “studijas produkta foto, softbox apgaismojums, 50 mm objektīvs, spīdīga keramika, tīra virsma”
-
Anime darbība: “anime galvenais vizuālais elements, saīsināta dinamiska poza, cel ēnojums, ātruma līnijas”
-
Sirreāla kolāža: “sapņu ainava, neiespējama ģeometrija, peldošas kāpnes, maiga migla, zeltainas stundas gaismas graudi”
-
Zema poligonu aina: “izometriska zema poligonu pilsēta, plakana ēnošana, apkārtējās vides oklūzija, pasteļtoņu palete”
-
Impresionisma portrets: “eļļa uz audekla, irdeni otas triepieni, gaiša mala, impasto akcenti”
Kopsavilkums 🖼️
“Mākslīgā intelekta mākslas stili” nav noteikumu grāmatas — tie ir rotaļu laukumi. Reālisms darbojas, kad ir svarīga uzticēšanās; sirreālisms, kad vēlaties salauzt realitāti; anime/manga, kad nepieciešama skaidrība ar vietu stilu apvienošanai. Uzvarētāju stratēģija ir strukturēta spēle: izvēlieties stilu, izvēlieties apgaismojumu + vidi, pievienojiet dažus modifikatorus un pēc tam atkārtojiet. Ja tas liek jums kaut ko sajust — pat ja tas ir dīvaini nepilnīgs —, jūs esat īstajā vietā.
Atsauces
[1] Rombach, R. et al. (2022). Augstas izšķirtspējas attēlu sintēze ar latentās difūzijas modeļiem (CVPR). PDF
[2] Schuhmann, C. et al. (2022). LAION-5B: Atvērts liela mēroga datu kopums nākamās paaudzes attēlu-teksta modeļu apmācībai. PDF
[3] Radford, A. et al. (2021). Pārnesamu vizuālo modeļu apguve no dabiskās valodas uzraudzības (CLIP). PDF
[4] Gatys, L. et al. (2016). Attēlu stila pārsūtīšana, izmantojot konvolucionālos neironu tīklus (CVPR). PDF
[5] Oppenlaender, J. (2024). Uzvednes modifikatoru taksonomija teksta pārveidošanai attēlā. Uzvedība un informācijas tehnoloģijas. Raksts