NCSU 研究人員報告透過人工智慧創建圖像取得突破

發布日期:

作者:馬特希普曼 — 2021 年 6 月 3 日。

北卡羅來納州立大學的研究人員開發了一種最先進的新方法來控制人工智慧 (AI) 系統創建圖像的方式。這項工作可應用於從自主機器人到人工智慧培訓等領域。

問題在於一種稱為條件影像生成的人工智慧任務,其中人工智慧系統創建滿足一組特定條件的圖像。例如,可以訓練系統來創建貓或狗的原始圖像,這取決於使用者要求的動物。最近的技術已經在此基礎上結合了有關影像佈局的條件。這允許使用者指定他們想要在螢幕上的特定位置顯示哪些類型的物件。例如,天空可能位於一個盒子中,一棵樹可能位於另一個盒子中,溪流可能位於另一個盒子中,等等。

這項新工作建立在這些技術的基礎上,讓使用者能夠更好地控制生成的圖像,並保留一系列圖像的某些特徵。

「我們的方法是高度可重構的,」該研究論文的合著者、北卡羅來納州立大學電腦工程助理教授吳天福說。 「與以前的方法一樣,我們的方法允許使用者讓系統根據一組特定條件產生圖像。但我們的也允許您保留該圖像並為其添加內容。例如,使用者可以讓人工智慧建立一個山景。然後,用戶可以讓系統將滑雪者添加到該場景中。

此外,新方法允許用戶讓人工智慧操縱特定元素,使它們明顯相同,但以某種方式移動或改變。例如,人工智慧可能會創建一系列圖像,顯示滑雪者在穿越景觀時轉向觀眾。

每天下午在收件匣中獲取熱門新聞

「它的一個應用是幫助自主機器人在開始執行特定任務之前『想像』最終結果可能會是什麼樣子,」吳說。 「你也可以使用該系統產生用於人工智慧訓練的圖像。因此,您可以使用該系統創建圖像來訓練其他人工智慧系統,而不是從外部來源編譯圖像。

研究人員使用 COCO-Stuff 資料集和 Visual Genome 資料集測試了他們的新方法。基於影像品質的標準測量,新方法優於以前最先進的影像創建技術。

「我們的下一步是看看是否可以將這項工作擴展到視訊和三維圖像,」吳說。

新方法的訓練需要相當多的運算能力;研究人員使用了 4-GPU 工作站。然而,部署該系統的計算成本較低。

「我們發現一個 GPU 可以為您提供幾乎即時的速度,」Wu 說。

「除了我們的論文之外,我們還製作了 我們在 GitHub 上提供了這種方法的源代碼。也就是說,我們始終願意與產業合作夥伴合作。

該論文“學習用於可控影像合成的佈局和風格可重構 GAN,」發表在雜誌上 IEEE 模式分析與機器智能彙刊。論文的第一作者是最近獲得博士學位的孫偉。畢業於北卡羅來納州立大學。

這項工作得到了美國國家科學基金會的支持,撥款編號為 1909644、1822477、2024688 和 2013451;由美國陸軍研究辦公室授予 W911NF1810295;以及社區生活管理局的撥款 90IFDV0017-01-00。

原始來源: WRAL 技術線