Gör AI skarpare: NCSU-forskare utvecklar sätt att bättre identifiera, klassificera bilder

Publiceringsdatum:

Visionstransformatorer (ViTs) är kraftfulla tekniker för artificiell intelligens (AI) som kan identifiera eller kategorisera objekt i bilder – men det finns betydande utmaningar relaterade till både krav på datorkraft och öppenhet i beslutsfattande. Forskare har nu utvecklat en ny metodik som tar itu med båda utmaningarna, samtidigt som den förbättrar ViT:s förmåga att identifiera, klassificera och segmentera objekt i bilder.

Transformatorer är bland de mest kraftfulla existerande AI-modellerna. ChatGPT är till exempel en AI som använder transformatorarkitektur, men ingångarna som används för att träna den är språk. ViTs är transformatorbaserad AI som tränas med hjälp av visuella input. Till exempel kan ViTs användas för att upptäcka och kategorisera objekt i en bild, som att identifiera alla bilar eller alla fotgängare i en bild.

ViTs står dock inför två utmaningar.

För det första är transformatormodeller mycket komplexa. I förhållande till mängden data som ansluts till AI:n kräver transformatormodeller en betydande mängd beräkningskraft och använder en stor mängd minne. Detta är särskilt problematiskt för ViTs, eftersom bilder innehåller så mycket data.

För det andra är det svårt för användare att förstå exakt hur ViTs fattar beslut. Till exempel kan du ha tränat en ViT för att identifiera hundar i en bild. Men det är inte helt klart hur ViT avgör vad som är en hund och vad som inte är det. Beroende på applikation kan det vara mycket viktigt att förstå ViT:s beslutsprocess, även känd som dess modelltolkbarhet.

Den nya ViT-metoden, kallad "Patch-to-Cluster attention" (PaCa), tar upp båda utmaningarna.

"Vi tar itu med utmaningen relaterade till beräknings- och minneskrav genom att använda klustringstekniker, som gör det möjligt för transformatorarkitekturen att bättre identifiera och fokusera på objekt i en bild", säger Tianfu Wu, motsvarande författare till en artikel om arbetet och docent i el- och datateknik vid North Carolina State University. "Klustring är när AI:n klumpar ihop delar av bilden, baserat på likheter den hittar i bilddata. Detta minskar avsevärt beräkningskraven på systemet. Innan klustring är beräkningskraven för en ViT kvadratiska. Till exempel, om systemet delar upp en bild i 100 mindre enheter, skulle det behöva jämföra alla 100 enheter med varandra – vilket skulle vara 10 000 komplexa funktioner.

”Genom klustring kan vi göra detta till en linjär process, där varje mindre enhet bara behöver jämföras med ett förutbestämt antal kluster. Låt oss säga att du säger åt systemet att etablera 10 kluster; det skulle bara vara 1 000 komplexa funktioner, säger Wu.

"Klustring tillåter oss också att ta itu med modelltolkbarhet, eftersom vi kan titta på hur det skapade klustren i första hand. Vilka funktioner bestämde den sig för var viktiga när de slog ihop dessa datasektioner? Och eftersom AI bara skapar ett litet antal kluster kan vi titta på dem ganska enkelt."

Forskarna gjorde omfattande tester av PaCa och jämförde det med två toppmoderna ViTs som kallas SWin och PVT.

"Vi fann att PaCa överträffade SWin och PVT på alla sätt," säger Wu. "PaCa var bättre på att klassificera objekt i bilder, bättre på att identifiera objekt i bilder och bättre på segmentering - i huvudsak beskriva gränserna för objekt i bilder. Det var också mer effektivt, vilket innebär att det kunde utföra dessa uppgifter snabbare än de andra ViTs.

"Nästa steg för oss är att skala upp PaCa genom att träna på större, grundläggande datamängder."

Pappret, "PaCa-ViT: Lär dig uppmärksamhet från patch-till-kluster i Vision Transformers, kommer att presenteras på IEEE/CVF-konferensen om datorseende och mönsterigenkänning, som hålls 18-22 juni i Vancouver, Kanada. Uppsatsens första författare är Ryan Grainger, en Ph.D. student vid NC State. Uppsatsen var medförfattare av Thomas Paniagua, en Ph.D. student vid NC State; Xi Song, en oberoende forskare; och Naresh Cuntoor och Mun Wai Lee från BlueHalo.

Arbetet utfördes med stöd från Office of the Director of National Intelligence, under kontraktsnummer 2021-21040700003; US Army Research Office, under anslag W911NF1810295 och W911NF2210010; och National Science Foundation, under anslag 1909644, 1822477, 2024688 och 2013451.

(C) NCSU

Ursprunglig artikelkälla: WRAL TechWire