让人工智能更清晰:北卡罗来纳州立大学研究人员开发出更好地识别、分类图像的方法

发布日期:

视觉转换器 (ViT) 是一种强大的人工智能 (AI) 技术,可以识别或分类图像中的物体 - 然而,在计算能力要求和决策透明度方面存在重大挑战。研究人员现在已经开发出一种新方法来解决这两个挑战,同时还提高了 ViT 识别、分类和分割图像中物体的能力。

Transformer 是现有最强大的 AI 模型之一。例如,ChatGPT 是一种使用 Transformer 架构的 AI,但用于训练它的输入是语言。ViT 是基于 Transformer 的 AI,使用视觉输入进行训练。例如,ViT 可用于检测和分类图像中的对象,例如识别图像中的所有汽车或所有行人。

然而,ViT 面临两大挑战。

首先,Transformer 模型非常复杂。相对于输入到 AI 的数据量,Transformer 模型需要大量的计算能力并使用大量内存。这对于 ViT 来说尤其成问题,因为图像包含大量数据。

其次,用户很难准确理解 ViT 如何做出决策。例如,您可能已经训练 ViT 识别图像中的狗。但目前尚不完全清楚 ViT 如何确定哪些是狗哪些不是狗。根据应用的不同,了解 ViT 的决策过程(也称为模型可解释性)可能非常重要。

新的 ViT 方法称为“Patch-to-Cluster 注意”(PaCa),解决了这两个挑战。

“我们通过使用聚类技术来解决与计算和内存需求相关的挑战,这使 Transformer 架构能够更好地识别和聚焦图像中的对象,”该论文的通讯作者、北卡罗来纳州立大学电气与计算机工程副教授吴天福 (Tianfu Wu) 表示。“聚类是指人工智能根据在图像数据中发现的相似性将图像的各个部分集中在一起。这大大降低了系统的计算需求。在聚类之前,ViT 的计算需求是二次的。例如,如果系统将图像分解成 100 个较小的单元,则需要将所有 100 个单元相互比较 - 这将是 10,000 个复杂函数。

“通过聚类,我们可以将其变成一个线性过程,每个较小的单元只需要与预定数量的聚类进行比较。假设你告诉系统建立 10 个聚类;那只需要 1,000 个复杂函数,”吴说。

“聚类还使我们能够解决模型的可解释性问题,因为我们可以查看它最初是如何创建聚类的。在将这些数据部分集中在一起时,它认为哪些特征很重要?而且由于人工智能只创建了少量的聚类,我们可以很容易地查看它们。”

研究人员对 PaCa 进行了全面的测试,并将其与两种最先进的 ViT(SWin 和 PVT)进行了比较。

“我们发现 PaCa 在各方面都比 SWin 和 PVT 表现更好,”吴说。“PaCa 更擅长对图像中的物体进行分类,更擅长识别图像中的物体,更擅长分割——本质上是勾勒出图像中物体的边界。它也更高效,这意味着它能够比其他 ViT 更快地完成这些任务。

“我们的下一步是通过对更大的基础数据集进行训练来扩大 PaCa 的规模。”

该论文“PaCa-ViT:在 Vision Transformers 中学习 Patch-to-Cluster 注意力机制”将在 6 月 18 日至 22 日于加拿大温哥华举行的 IEEE/CVF 计算机视觉和模式识别会议上发表。该论文的第一作者是北卡罗来纳州立大学的博士生 Ryan Grainger。该论文由北卡罗来纳州立大学的博士生 Thomas Paniagua、独立研究员 Xi Song 以及 BlueHalo 的 Naresh Cuntoor 和 Mun Wai Lee 共同撰写。

这项工作得到了以下机构的支持:国家情报总监办公室(合同编号为 2021-21040700003);美国陆军研究办公室(拨款编号为 W911NF1810295 和 W911NF2210010);以及国家科学基金会(拨款编号为 1909644、1822477、2024688 和 2013451)。

(C) 北卡罗来纳州立大学

原文来源: WRAL 技术线