OpenAIs nya bildfunktion.

I samband med lanseringen av OpenAIs nya bildfunktion delade jag några tankar i en LinkedIn-post. Nu försöker jag utveckla resonemanget lite konkreta exempel och reflektioner. jag tänkte försöka mig på att utveckla.

För att sätta scenen så är nu följande möjligt och mitt exempel är bara ETT av MÅNGA, för att visa att man kan gå från idé till visuellt material DIREKT!

Jag lade in prompten:
”Skapa en ett Rick and Morty serietidningssida, där du har mig som huvudkaraktär (se bild), och du ska använda min blogpost nedan som handling! Fokusera på det viktigaste!”

Tillsammans med en tidigare blogpost och resultatet på denna one-shot var följande.

Skulle jag använt detta på riktigt så hade jag efteråt finjusterat och sett till att texterna blev korrekta, kanske använt vår egen kompass i bilden.

Information om modellen utan att bli nördig

Modellen är integrerad i GPT-4o, en multimodal modell som hanterar text, bilder och ljud, vilket förbättrar bildgenereringen.
Detta betyder i korthet att modellen har "större förståelse för den riktiga världen". Den kan dra nytta av sin multimodala träning på text, bilder och ljud. Detta gör att den bättre kan tolka sammanhang och kopplingar från verkligheten, till exempel hur objekt, scener eller begrepp hänger ihop och därmed skapa mer realistiska och relevanta bilder baserat på användarens instruktioner.

Bättre textåtergivning: Den kan återge text i bilder, vilket tidigare modeller ofta hade svårt med.

Precisa instruktioner: Modellen följer användarens instruktioner noggrant och kan hantera komplexa prompts med upp till 10-20 objekt.

Interaktiv förbättring: Användare kan förfina bilder genom naturligt språk, vilket gör processen mer flexibel.

En ny tid för visuellt innehåll

Den nya bildgenereringsfunktionen innebär ett tydligt skifte i hur vi hanterar visuellt innehåll. Tidigare krävdes kodning, filterlösningar eller blod, svett och tårar för att skapa bilder som matchade en specifik vision. Nu räcker det med några välvalda nyckelord för att få fram resultat som tidigare tog timmar eller dagar, som involverade hela team som modeller, fotografer, designers. Det är inte bara en teknisk uppgradering, utan något som kan omforma både arbetsprocesser och hur vi interagerar med visuella medier i vardagen.

Grafiska designers: Efterfrågan på enklare designuppgifter kan minska, men de kan istället fokusera på konceptuellt och strategiskt arbete.

Kodare och utvecklare: Behöver lära sig nya verktyg och API:er för att integrera bildgenerering i applikationer.

Marknadsförare: Kan utnyttja snabbare bildskapande för kampanjer, men kan behöva utveckla färdigheter i prompt-engineering.

Automatisering av annonser

En av de mest omedelbara effekterna syns inom annonsering. Traditionellt har skapandet av visuella annonser varit en tidskrävande process som involverat designers, copywriters och marknadsförare i flera iterationer. Nu kan bildvarianter genereras direkt från textpromptar och testas i kampanjer på nolltid. Det gör att företag kan experimentera med fler alternativ och snabbt anpassa innehållet baserat på hur målgruppen reagerar. För marknadsförare innebär det en chans att fatta mer datadrivna beslut, men det kan också leda till att roller inom kreativa team förändras. Vissa manuella uppgifter kan försvinna, medan fokus kanske flyttas till strategi och analys.

Annonsskapare och copywriters: Mindre manuellt arbete, men ökat fokus på att skriva effektiva textpromptar.

Datadrivna marknadsförare: Kan dra nytta av snabbare iterationer och datadrivna beslut i kampanjer.

Kreativa teamledare: Kan behöva omstrukturera team och arbetsflöden för att maximera automatiseringens fördelar.

Nytt liv åt gamla texter

En annan möjlighet som taggar mig mest just nu är hur detta kan blåsa liv i äldre material. Tänk dig att ta en gammal text, kanske en klassisk bok eller ett historiskt dokument, och omvandla den till ett visuellt format som serietidningar eller illustrerade berättelser. Det skulle kunna göra innehållet mer tillgängligt och engagerande, särskilt för barn eller yngre generationer som kanske inte lockas av ren text. Det är ett sätt att bevara och förnya kulturarv, samtidigt som det öppnar dörrar för nya kreativa uttryck.

Författare och innehållsskapare: Kan återanvända och omforma äldre material till nya format.

Illustratörer och serietecknare: Traditionella uppdrag kan minska, men nya verktyg kan öka deras produktivitet.

Utbildningsdesigners: Kan skapa mer engagerande utbildningsmaterial med visuella inslag.

Som ett ”kul” experiment så tänkte jag att jag testa Dostojevskijs Brott och straff, men i en lite annan take på min 5-åriga dotter. Men när jag tyckte mord var lite för dramatiskt för en 5-åring och försökte med andra exempel som att tränga sig före i kön till gungan och liknande så slog content filtret ifrån :D

Slutet för generiska stockbilder

Stockbilder har länge varit en enkel lösning för presentationer, webbplatser och annat innehåll, men de känns ofta opersonliga och uttjatade. Nu kan vi istället skapa bilder som är skräddarsydda för varje sammanhang, oavsett om det är en PowerPoint-slide eller en produktsida online. Det minskar beroendet av externa bildbanker och gör det möjligt att producera visuella element som verkligen speglar budskapet. För webbutvecklare kan det till och med fungera som en slags platshållare, där bilder genereras i en stil som matchar sajtens tema redan från start.

Fotografer och bildbanksskapare: Efterfrågan på generiska stockbilder kan minska.

Webbdesigners: Får tillgång till snabbare och mer anpassade bildlösningar.

Presentationsdesigners: Traditionella designuppgifter kan bli mindre efterfrågade.

Modeller: Kan ersättas i vissa sammanhang av AI-genererade människor, särskilt eftersom man kan skapa en återkommande karaktär som används konsekvent i alla visuella sammanhang.

Sociala medier och kreativ explosion

På sociala plattformar ser jag en tydlig utveckling framför mig. Tänk dig en knapp för att "skapa bild" bredvid varje uppladdningsalternativ, där användare kan generera visuellt innehåll direkt från sina textbeskrivningar. Det skulle sänka tröskeln för att delta i den digitala kulturen och leda till en våg av kreativitet. Särskilt inom memekulturen tror jag att vi kommer att se en tydlig skillnad. Memes blir inte nödvändigtvis roligare, men de visuella resultaten blir bättre och mer tillgängliga för alla, även för dem utan tekniska färdigheter. Det är en demokratisering av visuellt skapande som kan bredda vilka röster som hörs.

Sociala medieansvariga: Kan skapa engagerande innehåll snabbare.

Influencers och content creators: Får nya möjligheter att producera varierat och attraktivt innehåll. (Influencer ligger dock redan risigt till idag och det kommer vara svårare och svårare att konkurera med AI-genererade avatarer. Trenden är tydlig redan nu!)

Bildsök i en ny form

Bildsök är ett annat område som kan förändras i grunden. Istället för att bläddra igenom sidor av befintliga bilder för att hitta något som passar, kan vi snart generera exakt det vi vill se baserat på våra egna beskrivningar. Det sparar tid och gör processen mer effektiv, men det väcker också frågor om originalitet. När det blir så enkelt att skapa precis det man behöver, hur värderar vi då unikt innehåll? Kanske flyttas fokus från själva bilden till dess kontext och budskap.

Budskapet blir det centrala

Nu blir högkvalitativa bilder så lättillgängliga att skillnaden mellan innehåll inte längre kommer att ligga i hur det ser ut, utan i vad det faktiskt kommunicerar. Ett starkt och unikt budskap blir avgörande, medan estetiken riskerar att bli sekundär. Det kan leda till en förskjutning i hur vi bedömer kreativt arbete, där djup och originalitet värderas högre än yta. För kreatörer innebär det en möjlighet att sticka ut genom att fokusera på innehåll och idéer snarare än bara visuell perfektion.

Kreatörer och konstnärer: Bedöms mer på budskap och originalitet än visuell perfektion.

Marknadsförare och kommunikatörer: Kan fokusera mer på strategi och vad man vill säga med en bild och mindre på estetik.

Designers och illustratörer: Behöver anpassa sig till krav på konceptuell originalitet.

Påverkan på konstnärliga yrken

En aspekt jag inte tänkte på direkt är hur detta kan påverka konstnärliga yrken. Automatiseringen av bildskapande kan minska efterfrågan på traditionella designers och illustratörer för vissa uppgifter, vilket är en utmaning för branschen. Samtidigt kan det frigöra tid för mer konceptuellt arbete, där mänsklig kreativitet och strategisk insikt fortfarande är oersättliga. Kanske ser vi en framtid där teknologin blir ett verktyg som förstärker snarare än ersätter den mänskliga touchen.

Designers och illustratörer: Vissa uppgifter automatiseras, men de kan använda tekniken för mer konceptuellt arbete.

Konstnärliga ledare: Kan behöva omorganisera team för att integrera nya verktyg.

Etiska utmaningar

En viktig punkt som jag inte får missa är de etiska aspekterna. Möjligheten att generera realistiska bilder från text ökar risken för missbruk, som att skapa vilseledande eller skadligt innehåll. Det är avgörande att plattformar och utvecklare tar ansvar för att sätta upp tydliga gränser och säkerhetsåtgärder. Utan det riskerar vi att teknologin används på sätt som skadar. Även etiska granskare och policy-makers måste utveckla riktlinjer för att hantera risker.

Säkerhetsingenjörer: Behöver skapa verktyg för att förhindra missbruk av tekniken.

Användare: Kräver ökad medvetenhet om etiska frågor.

Kreationsbomb!

Slutligen ser jag en positiv effekt i hur det här kommer demokratisera skapande. Personer som tidigare saknade tillgång till avancerade verktyg eller utbildning (eller som jag, saknar talang) kan nu producera professionellt utseende bilder med minimal ansträngning. Det kan leda till en bredare mångfald av perspektiv i den visuella kulturen, vilket jag tycker är en väldigt spännande möjlighet.

Amatörskapare och hobbyister: Kan producera professionella bilder utan avancerade färdigheter.

Utbildningsinstitutioner: Kan och BÖR integrera tekniken i undervisningen.

Kreativa team: Får en bredare mångfald av idéer och perspektiv.

Avslutande reflektion

Den nya bildfunktionen är ett kraftfullt verktyg som kommer att förändra hur vi arbetar med och konsumerar visuellt innehåll. Det är en inkörsport till skapande, ökar effektiviteten och öppnar nya möjligheter men det finns också risker som måste hanteras.

Ett scenario jag ser är att låta en AI-agent, som känner till företagets grafiska profil, ta en produktbild och själv iterera fram den perfekta prompten. Den ger sig inte förrän resultatet håller hela vägen. Vilken plats ska då vi finna?

För en tid sedan hade jag följande slide med i en presentation, lite skämtsamt men även på allvar, som ett ”call to action”. Denna slide är inte längre skämtsam.

Om man tycker att tekniken utvecklats fort tidigare (Moore’s Law osv.) där utvecklingen varit exponentiell, så gäller det att tänka om. Många har pratat om platå sedan 2023. AI är extremt hajpat, men det gäller att ”se skogen för alla träd”. Ta ett djupt andetag, låt följande graf sjunka in…