NCSU:n tutkijat raportoivat läpimurron kuvien luomisessa tekoälyn avulla
Julkaisupäivä:kirjoittanut Matt Shipman – 3. kesäkuuta 2021.
North Carolina State Universityn tutkijat ovat kehittäneet uuden huippuluokan menetelmän valvoa, kuinka tekoälyjärjestelmät luovat kuvia. Työssä on sovelluksia autonomisista robotiikasta tekoälykoulutukseen.
Kyseessä on eräänlainen tekoälytehtävä, jota kutsutaan ehdollisen kuvan luomiseksi, jossa tekoälyjärjestelmät luovat kuvia, jotka täyttävät tietyt ehdot. Järjestelmä voitaisiin esimerkiksi kouluttaa luomaan alkuperäisiä kuvia kissoista tai koirista riippuen siitä, mitä eläintä käyttäjä pyysi. Uusimmat tekniikat ovat rakentuneet tähän sisällyttämään ehtoja kuvan asettelun suhteen. Tämän avulla käyttäjät voivat määrittää, minkä tyyppisiä objekteja he haluavat näkyvän tietyissä paikoissa näytöllä. Esimerkiksi taivas voi mennä yhteen laatikkoon, puu voi olla toisessa laatikossa, puro voi olla erillisessä laatikossa ja niin edelleen.
Uusi teos perustuu näihin tekniikoihin antaakseen käyttäjille enemmän hallintaa tuloksena oleviin kuviin ja säilyttääkseen tietyt ominaisuudet kuvasarjassa.
"Meidän lähestymistapamme on erittäin konfiguroitavissa", sanoo Tianfu Wu, työtä käsittelevän paperin toinen kirjoittaja ja tietokonetekniikan apulaisprofessori NC Statessa. "Aiempien lähestymistapojen tapaan meidänkin lähestymistapamme antaa käyttäjille mahdollisuuden saada järjestelmä luomaan kuvan tiettyjen olosuhteiden perusteella. Mutta meidän avulla voit myös säilyttää tämän kuvan ja lisätä siihen. Käyttäjät voivat esimerkiksi saada tekoälyn luomaan vuoristomaiseman. Käyttäjät voivat sitten saada järjestelmän lisäämään hiihtäjiä tähän kohtaukseen."
Lisäksi uusi lähestymistapa antaa käyttäjille mahdollisuuden saada tekoäly manipuloimaan tiettyjä elementtejä niin, että ne ovat tunnistettavasti samoja, mutta ovat siirtyneet tai muuttuneet jollain tavalla. Tekoäly voi esimerkiksi luoda sarjan kuvia, joissa hiihtäjät kääntyvät katsojaa kohti liikkuessaan maiseman poikki.
Hanki suosituimmat tarinat postilaatikkoosi joka iltapäivä
"Yksi sovellus tähän olisi auttaa autonomisia robotteja "kuvittelemaan", miltä lopputulos voisi näyttää ennen kuin he aloittavat tietyn tehtävän", Wu sanoo. "Voit käyttää järjestelmää myös kuvien luomiseen tekoälyharjoitteluun. Joten sen sijaan, että kokoaisit kuvia ulkoisista lähteistä, voit käyttää tätä järjestelmää kuvien luomiseen muiden tekoälyjärjestelmien kouluttamiseen.
Tutkijat testasivat uutta lähestymistapaansa käyttämällä COCO-Stuff-tietoaineistoa ja Visual Genome -tietoaineistoa. Kuvanlaadun vakiomittareihin perustuva uusi lähestymistapa ylitti aiemmat huippuluokan kuvanluontitekniikat.
"Seuraava askeleemme on nähdä, voimmeko laajentaa tätä työtä videoon ja kolmiulotteisiin kuviin", Wu sanoo.
Uuden lähestymistavan harjoittelu vaatii melkoisen määrän laskentatehoa; tutkijat käyttivät 4-GPU-työasemaa. Järjestelmän käyttöönotto on kuitenkin laskennallisesti halvempaa.
"Huomasimme, että yksi GPU antaa sinulle lähes reaaliaikaisen nopeuden", Wu sanoo.
”Paperimme lisäksi olemme tehneet tämän lähestymistavan lähdekoodimme saatavilla GitHubissa. Olemme kuitenkin aina valmiita tekemään yhteistyötä alan kumppaneiden kanssa."
Paperi, "Uudelleenkonfiguroitavien GAN-verkkojen asettelu ja tyyli oppiminen ohjattavaa kuvasynteesiä varten”, julkaistaan lehdessä IEEE Transactions on Pattern Analysis and Machine Intelligence. Paperin ensimmäinen kirjoittaja on Wei Sun, tuore Ph.D. valmistunut NC osavaltiosta.
Työtä tuki National Science Foundation, apurahoilla 1909644, 1822477, 2024688 ja 2013451; Yhdysvaltain armeijan tutkimustoimiston apuraha W911NF1810295; ja Administration for Community Living apurahalla 90IFDV0017-01-00.
Alkuperäinen lähde: WRAL TechWire