AI scherper maken: NCSU-onderzoekers ontwikkelen een manier om afbeeldingen beter te identificeren en classificeren
Datum gepubliceerd:Vision Transformers (ViTs) zijn krachtige kunstmatige intelligentie (AI)-technologieën die objecten in afbeeldingen kunnen identificeren of categoriseren. Er zijn echter aanzienlijke uitdagingen met betrekking tot zowel de vereisten voor rekenkracht als de transparantie van besluitvorming. Onderzoekers hebben nu een nieuwe methodologie ontwikkeld die beide uitdagingen aanpakt, en tegelijkertijd het vermogen van de ViT verbetert om objecten in afbeeldingen te identificeren, classificeren en segmenteren.
Transformers behoren tot de krachtigste bestaande AI-modellen. ChatGPT is bijvoorbeeld een AI die gebruikmaakt van transformatorarchitectuur, maar de input die wordt gebruikt om deze te trainen is taal. ViTs zijn op transformatoren gebaseerde AI die worden getraind met behulp van visuele input. ViTs kunnen bijvoorbeeld worden gebruikt om objecten in een afbeelding te detecteren en te categoriseren, zoals het identificeren van alle auto's of alle voetgangers in een afbeelding.
ViTs worden echter geconfronteerd met twee uitdagingen.
Ten eerste zijn transformatormodellen erg complex. In verhouding tot de hoeveelheid gegevens die in de AI wordt ingeplugd, vereisen transformatormodellen een aanzienlijke hoeveelheid rekenkracht en gebruiken ze een grote hoeveelheid geheugen. Dit is vooral problematisch voor ViTs, omdat afbeeldingen zoveel data bevatten.
Ten tweede is het voor gebruikers moeilijk om precies te begrijpen hoe ViT's beslissingen nemen. U heeft bijvoorbeeld een ViT getraind om honden in een afbeelding te identificeren. Maar het is niet helemaal duidelijk hoe de ViT bepaalt wat een hond is en wat niet. Afhankelijk van de toepassing kan het begrijpen van het besluitvormingsproces van de ViT, ook wel de modelinterpretabiliteit genoemd, van groot belang zijn.
De nieuwe ViT-methodologie, genaamd ‘Patch-to-Cluster Attention’ (PaCa), pakt beide uitdagingen aan.
“We pakken de uitdaging aan die verband houdt met computer- en geheugenvereisten door clusteringtechnieken te gebruiken, waardoor de transformatorarchitectuur objecten in een afbeelding beter kan identificeren en erop kan focussen”, zegt Tianfu Wu, corresponderend auteur van een artikel over het werk en universitair hoofddocent van elektrische en computertechniek aan de North Carolina State University. “Clustering is wanneer de AI delen van de afbeelding samenvoegt, op basis van overeenkomsten die zij in de afbeeldingsgegevens vindt. Dit vermindert de rekenkracht van het systeem aanzienlijk. Vóór clustering zijn de computationele eisen voor een ViT kwadratisch. Als het systeem bijvoorbeeld een afbeelding opsplitst in 100 kleinere eenheden, zou het alle 100 eenheden met elkaar moeten vergelijken – wat 10.000 complexe functies zou zijn.
“Door te clusteren kunnen we dit een lineair proces maken, waarbij elke kleinere eenheid alleen maar vergeleken hoeft te worden met een vooraf bepaald aantal clusters. Stel dat u het systeem opdracht geeft tien clusters op te zetten; dat zouden slechts 1.000 complexe functies zijn”, zegt Wu.
“Clustering stelt ons ook in staat om de interpreteerbaarheid van modellen aan te pakken, omdat we kunnen kijken hoe de clusters in de eerste plaats zijn ontstaan. Welke kenmerken achtte zij belangrijk bij het samenvoegen van deze gegevenssecties? En omdat de AI maar een klein aantal clusters creëert, kunnen we daar vrij gemakkelijk naar kijken.”
De onderzoekers hebben PaCa uitgebreid getest en vergeleken met twee ultramoderne ViT's, SWin en PVT genaamd.
“We ontdekten dat PaCa in alle opzichten beter presteerde dan SWin en PVT”, zegt Wu. “PaCa was beter in het classificeren van objecten in afbeeldingen, beter in het identificeren van objecten in afbeeldingen en beter in segmenteren – in essentie het afbakenen van de grenzen van objecten in afbeeldingen. Het was ook efficiënter, waardoor het deze taken sneller kon uitvoeren dan de andere ViT's.
“De volgende stap voor ons is het opschalen van PaCa door te trainen op grotere, fundamentele datasets.”
De krant, "PaCa-ViT: Patch-to-Cluster-aandacht leren in Vision Transformers”, zal worden gepresenteerd op de IEEE/CVF-conferentie over computervisie en patroonherkenning, die van 18 tot 22 juni wordt gehouden in Vancouver, Canada. De eerste auteur van het artikel is Ryan Grainger, een Ph.D. student aan NC State. Het artikel was co-auteur van Thomas Paniagua, een Ph.D. student aan NC State; Xi Song, een onafhankelijke onderzoeker; en Naresh Cuntoor en Mun Wai Lee van BlueHalo.
Het werk werd uitgevoerd met steun van het bureau van de directeur van de nationale inlichtingendienst, onder contractnummer 2021-21040700003; het US Army Research Office, onder subsidies W911NF1810295 en W911NF2210010; en de National Science Foundation, onder subsidies 1909644, 1822477, 2024688 en 2013451.
(C) NCSU
Originele artikelbron: WRAL TechWire