Naukowcy z NCSU donoszą o przełomie w tworzeniu obrazów za pomocą sztucznej inteligencji
Data opublikowania:autor: Matt Shipman — 3 czerwca 2021 r.
Naukowcy z North Carolina State University opracowali nową, najnowocześniejszą metodę kontrolowania sposobu, w jaki systemy sztucznej inteligencji (AI) tworzą obrazy. Praca ma zastosowania w dziedzinach od robotyki autonomicznej po szkolenia AI.
Chodzi o rodzaj zadania sztucznej inteligencji zwanego warunkowym generowaniem obrazów, w ramach którego systemy sztucznej inteligencji tworzą obrazy spełniające określony zestaw warunków. Na przykład system można przeszkolić do tworzenia oryginalnych obrazów kotów lub psów, w zależności od tego, o jakie zwierzę poprosił użytkownik. Nowsze techniki opierają się na tym, aby uwzględnić warunki dotyczące układu obrazu. Dzięki temu użytkownicy mogą określić, jakiego rodzaju obiekty chcą pojawiać się w poszczególnych miejscach ekranu. Na przykład niebo może znajdować się w jednym pudełku, drzewo może znajdować się w innym pudełku, strumień może znajdować się w oddzielnym pudełku i tak dalej.
Nowa praca opiera się na tych technikach, aby zapewnić użytkownikom większą kontrolę nad powstałymi obrazami i zachować pewne cechy w serii obrazów.
„Nasze podejście daje duże możliwości rekonfiguracji” – mówi Tianfu Wu, współautor artykułu na temat tej pracy i adiunkt inżynierii komputerowej w NC State. „Podobnie jak poprzednie podejścia, nasze pozwala użytkownikom generować obraz przez system na podstawie określonego zestawu warunków. Ale nasz pozwala również zachować ten obraz i dodać do niego. Na przykład użytkownicy mogą poprosić sztuczną inteligencję o utworzenie sceny górskiej. Użytkownicy mogliby następnie poprosić system o dodanie narciarzy do tej sceny”.
Ponadto nowe podejście umożliwia użytkownikom manipulowanie przez sztuczną inteligencję określonymi elementami, tak aby można było je zidentyfikować tak samo, ale zostały w jakiś sposób przesunięte lub zmienione. Na przykład sztuczna inteligencja może utworzyć serię obrazów przedstawiających narciarzy zwracających się w stronę widza podczas poruszania się po krajobrazie.
Otrzymuj najpopularniejsze artykuły w swojej skrzynce odbiorczej każdego popołudnia
„Jednym z zastosowań może być pomoc autonomicznym robotom w «wyobrażeniu», jak może wyglądać efekt końcowy, zanim zaczną wykonywać dane zadanie” – mówi Wu. „System można również wykorzystać do generowania obrazów na potrzeby szkolenia AI. Zamiast więc kompilować obrazy ze źródeł zewnętrznych, można użyć tego systemu do tworzenia obrazów do szkolenia innych systemów sztucznej inteligencji”.
Naukowcy przetestowali swoje nowe podejście, korzystając ze zbioru danych COCO-Stuff i zbioru danych Visual Genome. W oparciu o standardowe pomiary jakości obrazu nowe podejście przewyższało poprzednie, najnowocześniejsze techniki tworzenia obrazów.
„Naszym następnym krokiem będzie sprawdzenie, czy możemy rozszerzyć tę pracę na wideo i obrazy trójwymiarowe” – mówi Wu.
Szkolenie w zakresie nowego podejścia wymaga sporej mocy obliczeniowej; badacze wykorzystali stację roboczą z 4 procesorami graficznymi. Jednak wdrożenie systemu jest mniej kosztowne obliczeniowo.
„Odkryliśmy, że jeden procesor graficzny zapewnia prędkość niemal w czasie rzeczywistym” – mówi Wu.
„Oprócz naszego papieru zrobiliśmy nasz kod źródłowy tego podejścia dostępny w GitHub. To powiedziawszy, jesteśmy zawsze otwarci na współpracę z partnerami branżowymi.”
Papier, "Nauka układu i stylu Rekonfigurowalne sieci GAN do kontrolowanej syntezy obrazu” – ukazuje się w czasopiśmie Transakcje IEEE dotyczące analizy wzorców i inteligencji maszynowej. Pierwszym autorem artykułu jest Wei Sun, niedawny doktorant. absolwent NC State.
Praca została wsparta przez Narodową Fundację Nauki w ramach grantów 1909644, 1822477, 2024688 i 2013451; przez Biuro Badań Armii Stanów Zjednoczonych w ramach grantu W911NF1810295; oraz przez Administrację ds. Życia Społecznego w ramach dotacji 90IFDV0017-01-00.
Pierwotnym źródłem: WRALTechWire