Rendre l'IA plus précise : les chercheurs du NCSU développent un moyen de mieux identifier et classer les images

Date publiée:

Les transformateurs de vision (ViT) sont de puissantes technologies d'intelligence artificielle (IA) capables d'identifier ou de catégoriser des objets dans des images. Cependant, il existe des défis importants liés à la fois aux besoins en puissance de calcul et à la transparence de la prise de décision. Les chercheurs ont désormais développé une nouvelle méthodologie qui répond à ces deux défis, tout en améliorant la capacité du ViT à identifier, classer et segmenter les objets dans les images.

Les transformateurs font partie des modèles d’IA existants les plus puissants. Par exemple, ChatGPT est une IA qui utilise une architecture de transformateur, mais les entrées utilisées pour la former sont le langage. Les ViT sont des IA basées sur des transformateurs et entraînées à l’aide d’entrées visuelles. Par exemple, les ViT pourraient être utilisés pour détecter et catégoriser des objets dans une image, par exemple pour identifier toutes les voitures ou tous les piétons dans une image.

Cependant, les ViT sont confrontés à deux défis.

Premièrement, les modèles de transformateurs sont très complexes. Par rapport à la quantité de données connectées à l’IA, les modèles de transformateur nécessitent une puissance de calcul importante et utilisent une grande quantité de mémoire. Ceci est particulièrement problématique pour les ViT, car les images contiennent une grande quantité de données.

Deuxièmement, il est difficile pour les utilisateurs de comprendre exactement comment les ViT prennent leurs décisions. Par exemple, vous avez peut-être formé un ViT à identifier les chiens dans une image. Mais on ne sait pas exactement comment le ViT détermine ce qui est un chien et ce qui ne l'est pas. Selon l'application, la compréhension du processus décisionnel du ViT, également appelé interprétabilité du modèle, peut s'avérer très importante.

La nouvelle méthodologie ViT, appelée « Patch-to-Cluster attention » (PaCa), répond à ces deux défis.

"Nous relevons le défi lié aux demandes de calcul et de mémoire en utilisant des techniques de clustering, qui permettent à l'architecture du transformateur de mieux identifier et de mieux se concentrer sur les objets dans une image", explique Tianfu Wu, auteur correspondant d'un article sur le travail et professeur agrégé de génie électrique et informatique à la North Carolina State University. « Le regroupement se produit lorsque l’IA regroupe des sections de l’image, en fonction des similitudes qu’elle trouve dans les données de l’image. Cela réduit considérablement les demandes de calcul sur le système. Avant le clustering, les demandes de calcul pour un ViT sont quadratiques. Par exemple, si le système décompose une image en 100 unités plus petites, il devra comparer les 100 unités entre elles, ce qui représenterait 10 000 fonctions complexes.

« Grâce au regroupement, nous sommes en mesure d'en faire un processus linéaire, dans lequel chaque unité plus petite doit simplement être comparée à un nombre prédéterminé de clusters. Supposons que vous demandiez au système d'établir 10 clusters ; cela ne représenterait que 1 000 fonctions complexes », explique Wu.

« Le clustering nous permet également d'aborder l'interprétabilité du modèle, car nous pouvons examiner comment les clusters ont été créés en premier lieu. Quelles fonctionnalités ont-elles jugées importantes lors du regroupement de ces sections de données ? Et comme l’IA ne crée qu’un petit nombre de clusters, nous pouvons les examiner assez facilement. »

Les chercheurs ont effectué des tests complets de PaCa, en le comparant à deux ViT de pointe appelés SWin et PVT.

"Nous avons constaté que PaCa surpassait SWin et PVT à tous égards", explique Wu. « PaCa était meilleur dans la classification des objets dans les images, dans l'identification des objets dans les images et dans la segmentation – décrivant essentiellement les limites des objets dans les images. Il était également plus efficace, ce qui signifie qu’il était capable d’effectuer ces tâches plus rapidement que les autres ViT.

« La prochaine étape pour nous consiste à étendre PaCa en nous formant sur des ensembles de données fondamentaux plus vastes. »

Le papier, "PaCa-ViT : apprentissage de l'attention patch-to-cluster dans les transformateurs de vision", sera présenté à la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, qui se tiendra du 18 au 22 juin à Vancouver, au Canada. Le premier auteur de l'article est Ryan Grainger, titulaire d'un doctorat. étudiant à NC State. L'article a été co-écrit par Thomas Paniagua, titulaire d'un doctorat. étudiant à NC State; Xi Song, chercheur indépendant ; et Naresh Cuntoor et Mun Wai Lee de BlueHalo.

Les travaux ont été réalisés avec le soutien du Bureau du Directeur du Renseignement National, sous le numéro de contrat 2021-21040700003 ; le Bureau de recherche de l'armée américaine, grâce aux subventions W911NF1810295 et W911NF2210010 ; et la National Science Foundation, dans le cadre des subventions 1909644, 1822477, 2024688 et 2013451.

(C) NCSU

Source originale de l’article : WRAL TechWire