NCSU の研究者が人工知能による画像作成の画期的な進歩を報告
発行日:マット・シップマン著 — 2021年6月3日 。
ノースカロライナ州立大学の研究者は、人工知能 (AI) システムが画像を作成する方法を制御するための新しい最先端の方法を開発しました。この研究は、自律ロボット工学から AI トレーニングまでの分野に応用できます。
問題となっているのは、条件付き画像生成と呼ばれる AI タスクの一種で、AI システムが特定の条件を満たす画像を作成します。たとえば、ユーザーが要求した動物に応じて、猫や犬のオリジナル画像を作成するようにシステムをトレーニングすることができます。最近の技術はこれに基づいて、画像レイアウトに関する条件を組み込んでいます。これにより、ユーザーは画面上の特定の場所に表示するオブジェクトのタイプを指定できます。たとえば、空は 1 つのボックスに、木は別のボックスに、小川は別のボックスに、というようになります。
新しい研究はこれらの技術に基づいて構築されており、ユーザーが結果の画像をより詳細に制御できるようになり、一連の画像全体で特定の特性を保持できるようになります。
「私たちのアプローチは高度に再構成可能です」と、この研究に関する論文の共著者であり、ノースカロライナ州立大学のコンピュータ工学助教授であるティアンフ・ウー氏は言う。 「以前のアプローチと同様に、私たちのアプローチでは、ユーザーがシステムに特定の一連の条件に基づいて画像を生成させることができます。しかし、私たちのものでは、そのイメージを保持して追加することもできます。たとえば、ユーザーは AI に山の風景を作成させることができます。その後、ユーザーはシステムにスキーヤーをそのシーンに追加させることができます。」
さらに、新しいアプローチにより、ユーザーは AI に特定の要素を操作させて、それらが同じであると識別できるが、何らかの方法で移動または変更されるようにすることができます。たとえば、AI は、スキーヤーが風景の中を移動するときに視聴者の方を向く様子を示す一連の画像を作成する可能性があります。
毎日午後にトップニュースが受信箱に届きます
「これの応用例の 1 つは、自律ロボットが特定のタスクを開始する前に、最終結果がどうなるかを『想像』できるようにすることです」とウー氏は言います。 「このシステムを使用して、AI トレーニング用の画像を生成することもできます。したがって、外部ソースから画像をコンパイルする代わりに、このシステムを使用して他の AI システムをトレーニングするための画像を作成できます。」
研究者らは、COCO-Stuff データセットと Visual Genome データセットを使用して新しいアプローチをテストしました。画質の標準的な尺度に基づいて、新しいアプローチは以前の最先端の画像作成技術を上回りました。
「次のステップは、この研究をビデオや 3D 画像にも拡張できるかどうかを確認することです」とウー氏は言います。
新しいアプローチのトレーニングにはかなりの計算能力が必要です。研究者らは 4 GPU ワークステーションを使用しました。ただし、システムの導入は計算コストが低くなります。
「1 つの GPU でほぼリアルタイムの速度が得られることがわかりました」とウー氏は言います。
「私たちは論文に加えて、 このアプローチのソース コードは GitHub で入手できます。とはいえ、私たちは常に業界パートナーとの協力に前向きです。」
紙、 "制御可能な画像合成のための再構成可能な GAN のレイアウトとスタイルの学習』が雑誌に掲載されました パターン分析とマシンインテリジェンスに関する IEEE トランザクション。この論文の最初の著者は、最近博士号を取得した Wei Sun です。ノースカロライナ州立大学を卒業。
この研究は、助成金 1909644、1822477、2024688、および 2013451 に基づき、国立科学財団によって支援されました。米国陸軍研究局による、助成金 W911NF1810295 に基づく。およびコミュニティ生活局による補助金 90IFDV0017-01-00 によるものです。
元の情報源: WRAL TechWire