NCSU-forskere rapporterer om gennembrud i at skabe billeder gennem kunstig intelligens

Udgivelsesdato:

af Matt Shipman - 3. juni 2021.

Forskere fra North Carolina State University har udviklet en ny state-of-the-art metode til at kontrollere, hvordan systemer med kunstig intelligens (AI) skaber billeder. Arbejdet har applikationer til områder fra autonom robotik til AI-træning.

Det drejer sig om en type AI-opgave kaldet betinget billedgenerering, hvor AI-systemer skaber billeder, der opfylder et bestemt sæt betingelser. For eksempel kunne et system trænes til at skabe originale billeder af katte eller hunde, afhængigt af hvilket dyr brugeren efterspurgte. Nyere teknikker har bygget på dette for at inkorporere betingelser vedrørende et billedlayout. Dette giver brugerne mulighed for at angive, hvilke typer objekter de ønsker skal vises på bestemte steder på skærmen. For eksempel kan himlen gå i en kasse, et træ kan være i en anden kasse, en strøm kan være i en separat kasse, og så videre.

Det nye arbejde bygger på disse teknikker for at give brugerne mere kontrol over de resulterende billeder og for at bevare visse egenskaber på tværs af en række billeder.

"Vores tilgang er meget rekonfigurerbar," siger Tianfu Wu, medforfatter til et papir om arbejdet og en assisterende professor i computerteknik ved NC State. "Ligesom tidligere tilgange giver vores brugere mulighed for at få systemet til at generere et billede baseret på et specifikt sæt betingelser. Men vores giver dig også mulighed for at beholde det billede og tilføje det. For eksempel kunne brugere få AI til at skabe en bjergscene. Brugerne kunne derefter få systemet til at tilføje skiløbere til den scene."

Derudover giver den nye tilgang brugere mulighed for at få AI til at manipulere specifikke elementer, så de er identificerbart de samme, men har flyttet eller ændret sig på en eller anden måde. For eksempel kan AI'en skabe en række billeder, der viser skiløbere, der vender sig mod seeren, når de bevæger sig hen over landskabet.

Få de bedste historier i din indbakke hver eftermiddag

"En applikation til dette ville være at hjælpe autonome robotter med at 'forstille sig', hvordan slutresultatet kunne se ud, før de påbegynder en given opgave," siger Wu. "Du kan også bruge systemet til at generere billeder til AI-træning. Så i stedet for at kompilere billeder fra eksterne kilder, kan du bruge dette system til at skabe billeder til træning af andre AI-systemer."

Forskerne testede deres nye tilgang ved hjælp af COCO-Stuff-datasættet og Visual Genome-datasættet. Baseret på standardmål for billedkvalitet overgik den nye tilgang de tidligere avancerede billedskabelsesteknikker.

"Vores næste skridt er at se, om vi kan udvide dette arbejde til video og tredimensionelle billeder," siger Wu.

Træning til den nye tilgang kræver en rimelig mængde regnekraft; forskerne brugte en 4-GPU arbejdsstation. Det er dog mindre beregningsmæssigt dyrt at implementere systemet.

"Vi fandt ud af, at én GPU giver dig næsten realtidshastighed," siger Wu.

”Ud over vores papir har vi lavet vores kildekode til denne tilgang tilgængelig på GitHub. Når det er sagt, er vi altid åbne over for at samarbejde med industripartnere."

Papiret, "Læring af layout og stil Rekonfigurerbare GAN'er til kontrollerbar billedsyntese", er publiceret i tidsskriftet IEEE-transaktioner på mønsteranalyse og maskinintelligens. Første forfatter af papiret er Wei Sun, en nylig ph.d. kandidat fra NC State.

Arbejdet blev støttet af National Science Foundation, under bevillinger 1909644, 1822477, 2024688 og 2013451; af US Army Research Office, under bevilling W911NF1810295; og af Administration for Community Living, under bevilling 90IFDV0017-01-00.

Oprindelig kilde: WRAL TechWire