NCSU 研究人员报告通过人工智能创建图像取得突破

发布日期:

作者:Matt Shipman — 2021 年 6 月 3 日。

北卡罗来纳州立大学的研究人员开发出了一种控制人工智能 (AI) 系统如何创建图像的先进新方法。该研究成果可应用于从自主机器人到 AI 训练的各个领域。

问题在于一种称为条件图像生成的 AI 任务,其中 AI 系统创建满足特定条件的图像。例如,可以训练系统根据用户要求的动物创建猫或狗的原始图像。在此基础上,更新的技术结合了与图像布局相关的条件。这允许用户指定他们希望在屏幕上的特定位置显示哪些类型的对象。例如,天空可能放在一个框中,树木可能放在另一个框中,溪流可能放在单独的框中,等等。

新工作以这些技术为基础,让用户对生成的图像有更多的控制,并在一系列图像中保留某些特征。

“我们的方法具有高度可重构性,”这项研究的论文合著者、北卡罗来纳州立大学计算机工程助理教授吴天福说。“与以前的方法一样,我们的方法允许用户让系统根据一组特定条件生成图像。但我们的方法还允许您保留该图像并向其中添加内容。例如,用户可以让人工智能创建一个山景。然后用户可以让系统将滑雪者添加到该场景中。”

此外,新方法还允许用户让人工智能操纵特定元素,使它们看起来相同,但以某种方式移动或改变。例如,人工智能可能会创建一系列图像,显示滑雪者在穿越风景时转向观看者。

每天下午在收件箱中获取热门新闻

“该系统的一个应用是帮助自主机器人在开始执行给定任务之前‘想象’最终结果可能是什么样子,”吴说。“你还可以使用该系统生成用于 AI 训练的图像。因此,你无需从外部来源编译图像,而是可以使用该系统创建用于训练其他 AI 系统的图像。”

研究人员使用 COCO-Stuff 数据集和 Visual Genome 数据集测试了他们的新方法。根据图像质量的标准衡量标准,新方法的表现优于之前最先进的图像创建技术。

“我们的下一步是看看是否可以将这项工作扩展到视频和三维图像,”吴说。

新方法的训练需要相当多的计算能力;研究人员使用了 4-GPU 工作站。不过,部署该系统的计算成本较低。

“我们发现一个 GPU 就能提供几乎实时的速度,”吴说。

“除了我们的论文,我们还 这种方法的源代码可在 GitHub 上找到。尽管如此,我们始终愿意与行业伙伴合作。”

该论文“学习布局和样式可重构 GAN,实现可控图像合成,”发表在杂志上 IEEE 模式分析与机器智能学报. 论文第一作者是北卡罗来纳州立大学刚毕业的博士生孙伟。

这项工作得到了美国国家科学基金会(拨款编号 1909644、1822477、2024688 和 2013451)的支持;美国陆军研究办公室(拨款编号 W911NF1810295)的支持;以及社区生活管理局(拨款编号 90IFDV0017-01-00)的支持。

原始来源: WRAL 技术线