NCSU-forskare rapporterar genombrott i att skapa bilder genom artificiell intelligens
Publiceringsdatum:av Matt Shipman – 3 juni 2021.
Forskare från North Carolina State University har utvecklat en ny toppmodern metod för att kontrollera hur system med artificiell intelligens (AI) skapar bilder. Arbetet har applikationer för områden från autonom robotik till AI-träning.
Det handlar om en typ av AI-uppgift som kallas villkorad bildgenerering, där AI-system skapar bilder som uppfyller en specifik uppsättning villkor. Ett system skulle till exempel kunna tränas för att skapa originalbilder av katter eller hundar, beroende på vilket djur användaren efterfrågade. Nyare tekniker har byggt på detta för att införliva villkor för en bildlayout. Detta tillåter användare att specificera vilka typer av objekt de vill ska visas på särskilda platser på skärmen. Till exempel kan himlen gå i en ruta, ett träd kan vara i en annan ruta, en bäck kan vara i en separat ruta, och så vidare.
Det nya arbetet bygger på dessa tekniker för att ge användarna mer kontroll över de resulterande bilderna och för att behålla vissa egenskaper över en serie bilder.
"Vårt tillvägagångssätt är mycket omkonfigurerbart", säger Tianfu Wu, medförfattare till en artikel om arbetet och biträdande professor i datateknik vid NC State. "Precis som tidigare tillvägagångssätt tillåter vår användare att få systemet att generera en bild baserat på en specifik uppsättning villkor. Men vår låter dig också behålla den bilden och lägga till den. Användare kan till exempel låta AI skapa en bergsscen. Användarna kan sedan låta systemet lägga till skidåkare till den scenen."
Dessutom tillåter det nya tillvägagångssättet användare att få AI:n att manipulera specifika element så att de är identifierbart samma, men har flyttats eller ändrats på något sätt. Till exempel kan AI skapa en serie bilder som visar skidåkare vända sig mot betraktaren när de rör sig över landskapet.
Få de bästa nyheterna i din inkorg varje eftermiddag
"En applikation för detta skulle vara att hjälpa autonoma robotar att 'föreställa sig' hur slutresultatet kan se ut innan de påbörjar en given uppgift", säger Wu. "Du kan också använda systemet för att generera bilder för AI-träning. Så istället för att kompilera bilder från externa källor kan du använda det här systemet för att skapa bilder för att träna andra AI-system.”
Forskarna testade sitt nya tillvägagångssätt med hjälp av COCO-Stuff dataset och Visual Genome dataset. Baserat på standardmått på bildkvalitet överträffade det nya tillvägagångssättet de tidigare toppmoderna bildskapande teknikerna.
"Vårt nästa steg är att se om vi kan utöka det här arbetet till video och tredimensionella bilder", säger Wu.
Utbildning för det nya tillvägagångssättet kräver en hel del beräkningskraft; forskarna använde en arbetsstation med 4 GPU. Det är dock billigare att använda systemet.
"Vi upptäckte att en GPU ger dig nästan realtidshastighet", säger Wu.
”Förutom vårt papper har vi gjort vår källkod för denna metod tillgänglig på GitHub. Som sagt, vi är alltid öppna för att samarbeta med branschpartners.”
Pappret, "Inlärning av layout och stil Omkonfigurerbara GAN:er för kontrollerbar bildsyntes", publiceras i tidskriften IEEE-transaktioner på mönsteranalys och maskinintelligens. Första författare till uppsatsen är Wei Sun, en nyligen doktorand. examen från staten NC.
Arbetet stöddes av National Science Foundation, under anslag 1909644, 1822477, 2024688 och 2013451; av US Army Research Office, under anslag W911NF1810295; och av Administration for Community Living, under bidrag 90IFDV0017-01-00.
Ursprunglig källa: WRAL TechWire