Des chercheurs du NCSU signalent une percée dans la création d’images grâce à l’intelligence artificielle
Date publiée:par Matt Shipman — 3 juin 2021 .
Des chercheurs de l’Université d’État de Caroline du Nord ont développé une nouvelle méthode de pointe pour contrôler la manière dont les systèmes d’intelligence artificielle (IA) créent des images. Les travaux ont des applications dans des domaines allant de la robotique autonome à la formation en IA.
Le problème concerne un type de tâche d’IA appelée génération d’images conditionnelles, dans laquelle les systèmes d’IA créent des images qui répondent à un ensemble spécifique de conditions. Par exemple, un système pourrait être entraîné à créer des images originales de chats ou de chiens, en fonction de l'animal demandé par l'utilisateur. Des techniques plus récentes se sont appuyées sur cela pour incorporer des conditions concernant la disposition d'une image. Cela permet aux utilisateurs de spécifier les types d'objets qu'ils souhaitent voir apparaître à des endroits particuliers de l'écran. Par exemple, le ciel peut être placé dans une case, un arbre dans une autre case, un ruisseau dans une case séparée, et ainsi de suite.
Le nouveau travail s'appuie sur ces techniques pour donner aux utilisateurs plus de contrôle sur les images résultantes et pour conserver certaines caractéristiques dans une série d'images.
"Notre approche est hautement reconfigurable", explique Tianfu Wu, co-auteur d'un article sur les travaux et professeur adjoint de génie informatique à NC State. « Comme les approches précédentes, la nôtre permet aux utilisateurs de laisser le système générer une image basée sur un ensemble spécifique de conditions. Mais la nôtre vous permet également de conserver cette image et de l’enrichir. Par exemple, les utilisateurs pourraient demander à l’IA de créer une scène de montagne. Les utilisateurs pourraient alors demander au système d’ajouter des skieurs à cette scène.
De plus, la nouvelle approche permet aux utilisateurs de demander à l'IA de manipuler des éléments spécifiques afin qu'ils soient identifiables les mêmes, mais qu'ils aient été déplacés ou modifiés d'une manière ou d'une autre. Par exemple, l’IA pourrait créer une série d’images montrant des skieurs se tournant vers le spectateur alors qu’ils se déplacent dans le paysage.
Recevez les meilleures actualités dans votre boîte de réception chaque après-midi
"Une des applications possibles serait d'aider les robots autonomes à "imaginer" à quoi pourrait ressembler le résultat final avant de commencer une tâche donnée", explique Wu. « Vous pouvez également utiliser le système pour générer des images pour la formation en IA. Ainsi, au lieu de compiler des images à partir de sources externes, vous pouvez utiliser ce système pour créer des images destinées à entraîner d’autres systèmes d’IA.
Les chercheurs ont testé leur nouvelle approche en utilisant l’ensemble de données COCO-Stuff et l’ensemble de données Visual Genome. Basée sur des mesures standard de qualité d’image, la nouvelle approche a surpassé les précédentes techniques de création d’images de pointe.
"Notre prochaine étape consiste à voir si nous pouvons étendre ce travail à la vidéo et aux images tridimensionnelles", explique Wu.
La formation à la nouvelle approche nécessite une grande puissance de calcul ; les chercheurs ont utilisé une station de travail à 4 GPU. Cependant, le déploiement du système est moins coûteux en termes de calcul.
"Nous avons constaté qu'un seul GPU vous offre une vitesse presque en temps réel", explique Wu.
« En plus de notre papier, nous avons réalisé notre code source pour cette approche disponible sur GitHub. Cela dit, nous sommes toujours ouverts à collaborer avec des partenaires industriels.
Le papier, "Apprentissage des GAN reconfigurables en matière de mise en page et de style pour une synthèse d'images contrôlable», est publié dans la revue Transactions IEEE sur l'analyse de modèles et l'intelligence artificielle. Le premier auteur de l'article est Wei Sun, un récent doctorant. diplômé de NC State.
Le travail a été soutenu par la National Science Foundation, au titre des subventions 1909644, 1822477, 2024688 et 2013451 ; par le Bureau de recherche de l'armée américaine, sous la subvention W911NF1810295 ; et par l'Administration pour la Vie Communautaire, sous la subvention 90IFDV0017-01-00.
Source primaire: WRAL TechWire