NCSU-onderzoekers melden een doorbraak in het creëren van beelden via kunstmatige intelligentie

Datum gepubliceerd:

door Matt Shipman — 3 juni 2021 .

Onderzoekers van North Carolina State University hebben een nieuwe state-of-the-art methode ontwikkeld om te controleren hoe kunstmatige intelligentie (AI) systemen beelden creëren. Het werk heeft toepassingen voor vakgebieden variërend van autonome robotica tot AI-training.

Het gaat om een type AI-taak genaamd conditionele beeldgeneratie, waarbij AI-systemen beelden creëren die voldoen aan een specifieke set voorwaarden. Een systeem kan bijvoorbeeld worden getraind om originele beelden van katten of honden te creëren, afhankelijk van welk dier de gebruiker heeft aangevraagd. Recentere technieken hebben hierop voortgebouwd om voorwaarden met betrekking tot een beeldlay-out op te nemen. Hiermee kunnen gebruikers specificeren welke typen objecten ze op bepaalde plekken op het scherm willen laten verschijnen. De lucht kan bijvoorbeeld in het ene vak staan, een boom in een ander vak, een stroom in een apart vak, enzovoort.

Het nieuwe werk bouwt voort op deze technieken om gebruikers meer controle te geven over de resulterende afbeeldingen en om bepaalde kenmerken in een reeks afbeeldingen te behouden.

"Onze aanpak is zeer herconfigureerbaar", zegt Tianfu Wu, medeauteur van een paper over het werk en assistent-professor computertechniek aan NC State. "Net als eerdere benaderingen, stelt de onze gebruikers in staat om het systeem een afbeelding te laten genereren op basis van een specifieke set voorwaarden. Maar de onze stelt je ook in staat om die afbeelding te behouden en eraan toe te voegen. Gebruikers kunnen bijvoorbeeld de AI een bergscène laten maken. De gebruikers kunnen het systeem vervolgens skiërs aan die scène laten toevoegen."

Bovendien stelt de nieuwe aanpak gebruikers in staat om de AI specifieke elementen te laten manipuleren zodat ze herkenbaar hetzelfde zijn, maar op een of andere manier zijn verplaatst of veranderd. De AI kan bijvoorbeeld een reeks afbeeldingen maken waarin skiërs zich naar de kijker toe draaien terwijl ze door het landschap bewegen.

Ontvang elke middag de beste verhalen in je inbox

"Eén toepassing hiervan zou zijn om autonome robots te helpen 'voorstellen' hoe het eindresultaat eruit zou kunnen zien voordat ze aan een bepaalde taak beginnen," zegt Wu. "Je zou het systeem ook kunnen gebruiken om afbeeldingen te genereren voor AI-training. Dus in plaats van afbeeldingen van externe bronnen te compileren, zou je dit systeem kunnen gebruiken om afbeeldingen te maken voor het trainen van andere AI-systemen."

De onderzoekers testten hun nieuwe aanpak met behulp van de COCO-Stuff-dataset en de Visual Genome-dataset. Gebaseerd op standaardmetingen van beeldkwaliteit, overtrof de nieuwe aanpak de vorige state-of-the-art beeldcreatietechnieken.

"Onze volgende stap is om te kijken of we dit werk kunnen uitbreiden naar video en driedimensionale beelden", zegt Wu.

Training voor de nieuwe aanpak vereist een behoorlijke hoeveelheid rekenkracht; de onderzoekers gebruikten een 4-GPU-werkstation. Het implementeren van het systeem is echter minder rekenintensief.

"We ontdekten dat één GPU je bijna realtimesnelheid geeft", zegt Wu.

“Naast ons papier hebben we ook onze broncode voor deze aanpak is beschikbaar op GitHub. Dat gezegd hebbende, staan we altijd open voor samenwerking met industriële partners.”

De krant, "Leer lay-out en stijl Herconfigureerbare GAN's voor controleerbare beeldsynthese”, wordt gepubliceerd in het tijdschrift IEEE-transacties over patroonanalyse en machine-intelligentieDe eerste auteur van het artikel is Wei Sun, een recent afgestudeerde Ph.D. van NC State.

Het werk werd ondersteund door de National Science Foundation, via subsidies 1909644, 1822477, 2024688 en 2013451; door het US Army Research Office, via subsidie W911NF1810295; en door de Administration for Community Living, via subsidie 90IFDV0017-01-00.

Originele bron: WRAL TechWire