Gør AI skarpere: NCSU-forskere udvikler måde til bedre at identificere, klassificere billeder

Udgivelsesdato:

Visionstransformatorer (ViT'er) er kraftfulde kunstig intelligens (AI) teknologier, der kan identificere eller kategorisere objekter i billeder - dog er der betydelige udfordringer relateret til både krav til computerkraft og gennemsigtighed i beslutningstagningen. Forskere har nu udviklet en ny metode, der adresserer begge udfordringer, samtidig med at de forbedrer ViT'ens evne til at identificere, klassificere og segmentere objekter i billeder.

Transformere er blandt de mest kraftfulde eksisterende AI-modeller. For eksempel er ChatGPT en AI, der bruger transformerarkitektur, men de input, der bruges til at træne det, er sprog. ViT'er er transformerbaseret AI, der trænes ved hjælp af visuelle input. For eksempel kunne ViT'er bruges til at opdage og kategorisere objekter i et billede, såsom at identificere alle bilerne eller alle fodgængere på et billede.

ViTs står dog over for to udfordringer.

For det første er transformatormodeller meget komplekse. I forhold til mængden af data, der tilsluttes AI'en, kræver transformatormodeller en betydelig mængde regnekraft og bruger en stor mængde hukommelse. Dette er især problematisk for ViT'er, fordi billeder indeholder så meget data.

For det andet er det svært for brugere at forstå præcis, hvordan ViT'er træffer beslutninger. For eksempel kan du have trænet en ViT til at identificere hunde på et billede. Men det er ikke helt klart, hvordan ViT bestemmer, hvad der er en hund, og hvad der ikke er. Afhængigt af applikationen kan det være meget vigtigt at forstå ViT's beslutningsproces, også kendt som dens modelfortolkning.

Den nye ViT-metode, kaldet "Patch-to-Cluster Attention" (PaCa), adresserer begge udfordringer.

"Vi løser udfordringen relateret til beregnings- og hukommelseskrav ved at bruge klyngeteknikker, som gør det muligt for transformatorarkitekturen bedre at identificere og fokusere på objekter i et billede," siger Tianfu Wu, tilsvarende forfatter til et papir om arbejdet og lektor i el- og computeringeniør ved North Carolina State University. "Clustering er, når AI'en klumper dele af billedet sammen, baseret på ligheder, den finder i billeddataene. Dette reducerer de beregningsmæssige krav til systemet betydeligt. Før klyngedannelse er beregningskravene til en ViT kvadratiske. For eksempel, hvis systemet opdeler et billede i 100 mindre enheder, skal det sammenligne alle 100 enheder med hinanden - hvilket ville være 10.000 komplekse funktioner.

”Ved at klynge, er vi i stand til at gøre dette til en lineær proces, hvor hver mindre enhed kun skal sammenlignes med et forudbestemt antal klynger. Lad os sige, at du fortæller systemet at etablere 10 klynger; det ville kun være 1.000 komplekse funktioner,” siger Wu.

“Clustering giver os også mulighed for at adressere modelfortolkning, fordi vi kan se på, hvordan det skabte klyngerne i første omgang. Hvilke funktioner besluttede den var vigtige, når disse datasektioner blev slået sammen? Og fordi AI kun skaber et lille antal klynger, kan vi se på dem ret nemt."

Forskerne lavede omfattende test af PaCa og sammenlignede det med to avancerede ViT'er kaldet SWin og PVT.

"Vi fandt ud af, at PaCa klarede sig bedre end SWin og PVT på alle måder," siger Wu. "PaCa var bedre til at klassificere objekter i billeder, bedre til at identificere objekter i billeder og bedre til segmentering - i det væsentlige skitsere grænserne for objekter i billeder. Det var også mere effektivt, hvilket betyder, at det var i stand til at udføre disse opgaver hurtigere end de andre ViT'er.

"Det næste skridt for os er at opskalere PaCa ved at træne i større, grundlæggende datasæt."

Papiret, "PaCa-ViT: At lære patch-to-cluster opmærksomhed i Vision Transformers,” vil blive præsenteret på IEEE/CVF-konferencen om computersyn og mønstergenkendelse, der afholdes 18.-22. juni i Vancouver, Canada. Første forfatter af papiret er Ryan Grainger, en Ph.D. studerende ved NC State. Artiklen var medforfatter af Thomas Paniagua, en ph.d. studerende ved NC State; Xi Song, en uafhængig forsker; og Naresh Cuntoor og Mun Wai Lee fra BlueHalo.

Arbejdet blev udført med støtte fra Office of the Director of National Intelligence, under kontraktnummer 2021-21040700003; US Army Research Office, under bevillinger W911NF1810295 og W911NF2210010; og National Science Foundation, under tilskud 1909644, 1822477, 2024688 og 2013451.

(C) NCSU

Original artikelkilde: WRAL TechWire