Rendere l'intelligenza artificiale più nitida: i ricercatori dell'NCSU sviluppano un modo per identificare e classificare meglio le immagini
Data di pubblicazione:I trasformatori di visione (ViT) sono potenti tecnologie di intelligenza artificiale (AI) in grado di identificare o classificare gli oggetti nelle immagini; tuttavia, esistono sfide significative legate sia ai requisiti di potenza di calcolo che alla trasparenza del processo decisionale. I ricercatori hanno ora sviluppato una nuova metodologia che affronta entrambe le sfide, migliorando al tempo stesso la capacità del ViT di identificare, classificare e segmentare gli oggetti nelle immagini.
I trasformatori sono tra i modelli di intelligenza artificiale esistenti più potenti. Ad esempio, ChatGPT è un'intelligenza artificiale che utilizza l'architettura del trasformatore, ma gli input utilizzati per addestrarla sono il linguaggio. I ViT sono IA basate su trasformatori addestrati utilizzando input visivi. Ad esempio, i ViT potrebbero essere utilizzati per rilevare e classificare oggetti in un'immagine, ad esempio identificando tutte le auto o tutti i pedoni in un'immagine.
Tuttavia, i ViT devono affrontare due sfide.
Innanzitutto, i modelli di trasformatore sono molto complessi. Rispetto alla quantità di dati inseriti nell’intelligenza artificiale, i modelli del trasformatore richiedono una quantità significativa di potenza di calcolo e utilizzano una grande quantità di memoria. Ciò è particolarmente problematico per i ViT, perché le immagini contengono così tanti dati.
In secondo luogo, è difficile per gli utenti capire esattamente come i ViT prendono le decisioni. Ad esempio, potresti aver addestrato un ViT a identificare i cani in un'immagine. Ma non è del tutto chiaro come il ViT determini cosa è un cane e cosa non lo è. A seconda dell'applicazione, può essere molto importante comprendere il processo decisionale del ViT, noto anche come interpretabilità del modello.
La nuova metodologia ViT, chiamata “Patch-to-Cluster Attention” (PaCa), affronta entrambe le sfide.
"Affrontiamo la sfida relativa alle esigenze computazionali e di memoria utilizzando tecniche di clustering, che consentono all'architettura del trasformatore di identificare e mettere a fuoco meglio gli oggetti in un'immagine", afferma Tianfu Wu, autore corrispondente di un articolo sul lavoro e professore associato di ingegneria elettrica e informatica presso la North Carolina State University. “Il clustering avviene quando l’intelligenza artificiale raggruppa insieme sezioni dell’immagine, in base alle somiglianze che trova nei dati dell’immagine. Ciò riduce significativamente le richieste computazionali del sistema. Prima del clustering, le richieste computazionali per un ViT sono quadratiche. Ad esempio, se il sistema suddivide un’immagine in 100 unità più piccole, dovrebbe confrontare tutte le 100 unità tra loro, il che corrisponderebbe a 10.000 funzioni complesse.
“Grazie al clustering, siamo in grado di rendere questo processo lineare, in cui ogni unità più piccola deve essere confrontata solo con un numero predeterminato di cluster. Supponiamo che tu dica al sistema di stabilire 10 cluster; sarebbero solo 1.000 funzioni complesse”, afferma Wu.
“Il clustering ci consente anche di affrontare l’interpretabilità del modello, perché possiamo vedere in primo luogo come ha creato i cluster. Quali caratteristiche ha ritenuto importanti nel raggruppare insieme queste sezioni di dati? E poiché l’intelligenza artificiale crea solo un numero limitato di cluster, possiamo esaminarli abbastanza facilmente”.
I ricercatori hanno effettuato test approfonditi sul PaCa, confrontandolo con due ViT all’avanguardia chiamati SWin e PVT.
"Abbiamo scoperto che PaCa ha sovraperformato SWin e PVT in ogni modo", afferma Wu. “PaCa era migliore nel classificare gli oggetti nelle immagini, nell’identificare gli oggetti nelle immagini e nella segmentazione, essenzialmente delineando i confini degli oggetti nelle immagini. Era anche più efficiente, nel senso che era in grado di eseguire tali compiti più rapidamente rispetto agli altri ViT.
“Il prossimo passo per noi è ampliare il PaCa formandosi su set di dati fondamentali e più ampi”.
La carta, "PaCa-ViT: apprendimento dell'attenzione da patch a cluster nei trasformatori di visione”, sarà presentato alla conferenza IEEE/CVF sulla visione artificiale e il riconoscimento dei modelli, che si terrà dal 18 al 22 giugno a Vancouver, in Canada. Il primo autore dell'articolo è Ryan Grainger, un Ph.D. studente presso NC State. L'articolo è stato scritto in collaborazione con Thomas Paniagua, un Ph.D. studente presso NC State; Xi Song, un ricercatore indipendente; e Naresh Cuntoor e Mun Wai Lee di BlueHalo.
Il lavoro è stato svolto con il supporto dell'Ufficio del Direttore dell'intelligence nazionale, con il numero di contratto 2021-21040700003; l'Ufficio di ricerca dell'esercito americano, con le sovvenzioni W911NF1810295 e W911NF2210010; e la National Science Foundation, con le sovvenzioni 1909644, 1822477, 2024688 e 2013451.
(C) NCSU
Fonte articolo originale: WRAL TechWire