Investigadores de NCSU informan de un gran avance en la creación de imágenes mediante inteligencia artificial
Fecha de publicación:por Matt Shipman - 3 de junio de 2021.
Investigadores de la Universidad Estatal de Carolina del Norte han desarrollado un nuevo método de última generación para controlar cómo los sistemas de inteligencia artificial (IA) crean imágenes. El trabajo tiene aplicaciones en campos que van desde la robótica autónoma hasta el entrenamiento de IA.
Se trata de un tipo de tarea de IA llamada generación de imágenes condicional, en la que los sistemas de IA crean imágenes que cumplen un conjunto específico de condiciones. Por ejemplo, se podría entrenar un sistema para crear imágenes originales de gatos o perros, según el animal que solicite el usuario. Técnicas más recientes se han basado en esto para incorporar condiciones relacionadas con el diseño de una imagen. Esto permite a los usuarios especificar qué tipos de objetos quieren que aparezcan en lugares particulares de la pantalla. Por ejemplo, el cielo podría estar en un cuadro, un árbol podría estar en otro cuadro, un arroyo podría estar en un cuadro separado, y así sucesivamente.
El nuevo trabajo se basa en esas técnicas para brindar a los usuarios más control sobre las imágenes resultantes y conservar ciertas características en una serie de imágenes.
"Nuestro enfoque es altamente reconfigurable", afirma Tianfu Wu, coautor de un artículo sobre el trabajo y profesor asistente de ingeniería informática en NC State. “Al igual que los enfoques anteriores, el nuestro permite a los usuarios hacer que el sistema genere una imagen basada en un conjunto específico de condiciones. Pero el nuestro también le permite conservar esa imagen y agregarle. Por ejemplo, los usuarios podrían hacer que la IA cree una escena de montaña. Luego, los usuarios podrían hacer que el sistema agregue esquiadores a esa escena”.
Además, el nuevo enfoque permite a los usuarios hacer que la IA manipule elementos específicos para que sean identificablemente iguales, pero se hayan movido o cambiado de alguna manera. Por ejemplo, la IA podría crear una serie de imágenes que muestren a los esquiadores volteándose hacia el espectador mientras se mueven por el paisaje.
Recibe las noticias más destacadas en tu bandeja de entrada todas las tardes
"Una aplicación de esto sería ayudar a los robots autónomos a 'imaginar' cómo sería el resultado final antes de comenzar una tarea determinada", afirma Wu. “También se podría utilizar el sistema para generar imágenes para el entrenamiento de IA. Entonces, en lugar de compilar imágenes de fuentes externas, podrías usar este sistema para crear imágenes para entrenar otros sistemas de IA”.
Los investigadores probaron su nuevo enfoque utilizando el conjunto de datos COCO-Stuff y el conjunto de datos Visual Genome. Basado en medidas estándar de calidad de imagen, el nuevo enfoque superó las técnicas de creación de imágenes de última generación anteriores.
"Nuestro siguiente paso es ver si podemos ampliar este trabajo al vídeo y a las imágenes tridimensionales", afirma Wu.
La formación para el nuevo enfoque requiere una buena cantidad de potencia computacional; Los investigadores utilizaron una estación de trabajo de 4 GPU. Sin embargo, implementar el sistema es menos costoso desde el punto de vista computacional.
"Descubrimos que una GPU ofrece velocidad casi en tiempo real", afirma Wu.
“Además de nuestro papel, hemos hecho nuestro código fuente para este enfoque disponible en GitHub. Dicho esto, siempre estamos abiertos a colaborar con socios de la industria”.
El papel, "Aprendizaje de diseño y estilo de GAN reconfigurables para síntesis de imágenes controlable”, se publica en la revista Transacciones IEEE sobre análisis de patrones e inteligencia artificial. El primer autor del artículo es Wei Sun, un doctorado reciente. Graduado del estado de Carolina del Norte.
El trabajo fue apoyado por la Fundación Nacional de Ciencias, bajo las subvenciones 1909644, 1822477, 2024688 y 2013451; por la Oficina de Investigación del Ejército de EE. UU., con la subvención W911NF1810295; y por la Administración para la Vida Comunitaria, bajo la subvención 90IFDV0017-01-00.
Fuente original: WRAL TechWire