讓人工智慧更清晰:北卡羅來納州立大學研究人員開發出更好地識別、分類影像的方法
發布日期:視覺轉換器 (ViT) 是強大的人工智慧 (AI) 技術,可對影像中的物件進行識別或分類 - 然而,在運算能力要求和決策透明度方面存在重大挑戰。研究人員現在已開發出一種新方法,可以解決這兩個挑戰,同時也提高了 ViT 識別、分類和分割影像中物件的能力。
Transformer 是現有最強大的人工智慧模型之一。例如,ChatGPT 是一種使用 Transformer 架構的 AI,但用於訓練它的輸入是語言。 ViT 是基於 Transformer 的人工智慧,使用視覺輸入進行訓練。例如,ViT 可用於偵測和分類影像中的對象,例如識別影像中的所有汽車或所有行人。
然而,ViT 面臨兩個挑戰。
首先,變壓器模型非常複雜。相對於插入人工智慧的資料量,變壓器模型需要大量的運算能力並使用大量的記憶體。這對於 ViT 來說尤其成問題,因為圖像包含大量資料。
其次,使用者很難準確理解ViT如何做出決策。例如,您可能已經訓練了 ViT 來識別圖像中的狗。但目前尚不完全清楚 ViT 如何確定什麼是狗、什麼不是狗。根據應用的不同,了解 ViT 的決策過程(也稱為其模型可解釋性)可能非常重要。
新的 ViT 方法被稱為「補丁到群集注意力」(PaCa),解決了這兩個挑戰。
「我們透過使用聚類技術來解決與計算和記憶體需求相關的挑戰,這使得 Transformer 架構能夠更好地識別和關注圖像中的對象,」該工作論文的通訊作者、該研究的副教授吳天福說。北卡羅來納州立大學電機與電腦工程專業。 「聚類是指人工智慧根據影像資料中發現的相似性將影像的各個部分集中在一起。這顯著降低了系統的計算需求。在聚類之前,ViT 的計算需求是二次的。例如,如果系統將影像分解為 100 個較小的單元,則需要將所有 100 個單元進行相互比較,這將是 10,000 個複雜的函數。
「透過聚類,我們能夠使其成為一個線性過程,其中每個較小的單元只需要與預定數量的聚類進行比較。假設你告訴系統建立10個集群;那隻會有 1,000 個複雜的函數,」Wu 說。
「聚類也使我們能夠解決模型的可解釋性問題,因為我們可以先了解它是如何創建聚類的。將這些資料部分匯總在一起時,它認為哪些特徵很重要?因為人工智慧只創建少量集群,所以我們可以輕鬆查看這些集群。”
研究人員對 PaCa 進行了全面測試,並將其與兩種最先進的 ViT(稱為 SWin 和 PVT)進行了比較。
「我們發現 PaCa 在各方面都優於 SWin 和 PVT,」Wu 說。 「PaCa 更擅長對影像中的對象進行分類,更擅長識別影像中的對象,並且更擅長分割——本質上勾勒出影像中對象的邊界。它的效率也更高,這意味著它能夠比其他 ViT 更快地執行這些任務。
“我們的下一步是透過在更大的基礎數據集上進行訓練來擴大 PaCa 規模。”
該論文“PaCa-ViT:在視覺 Transformer 中學習補丁到集群的注意力,」將於 6 月 18 日至 22 日在加拿大溫哥華舉行的 IEEE/CVF 電腦視覺和模式識別會議上發表。論文的第一作者是 Ryan Grainger,博士。北卡羅來納州立大學的學生。該論文由 Thomas Paniagua 博士共同撰寫。北卡羅來納州立大學的學生;奚松,獨立研究員;以及 BlueHalo 的 Naresh Cuntoor 和 Mun Wai Lee。
這項工作是在國家情報總監辦公室的支援下完成的,合約編號為2021-21040700003;美國陸軍研究辦公室,撥款 W911NF1810295 和 W911NF2210010;以及美國國家科學基金會的撥款 1909644、1822477、2024688 和 2013451。
(C) 北卡羅來納州立大學
原文來源: WRAL 技術線