Zwiększanie ostrości sztucznej inteligencji: badacze z NCSU opracowują sposób na lepszą identyfikację i klasyfikację obrazów
Data opublikowania:Transformatory wizyjne (ViT) to zaawansowane technologie sztucznej inteligencji (AI), które mogą identyfikować i kategoryzować obiekty na obrazach – istnieją jednak poważne wyzwania związane zarówno z wymaganiami dotyczącymi mocy obliczeniowej, jak i przejrzystością procesu decyzyjnego. Naukowcy opracowali obecnie nową metodologię, która pozwala sprostać obu wyzwaniom, a jednocześnie poprawia zdolność ViT do identyfikowania, klasyfikowania i segmentowania obiektów na obrazach.
Transformatory należą do najpotężniejszych istniejących modeli sztucznej inteligencji. Na przykład ChatGPT to sztuczna inteligencja wykorzystująca architekturę transformatora, ale danymi wejściowymi używanymi do jej uczenia jest język. ViT to sztuczna inteligencja oparta na transformatorach, szkolona przy użyciu danych wizualnych. Na przykład ViT można wykorzystać do wykrywania i kategoryzowania obiektów na obrazie, na przykład identyfikowania wszystkich samochodów lub wszystkich pieszych na obrazie.
Jednak przed ViT stoją dwa wyzwania.
Po pierwsze, modele transformatorów są bardzo złożone. W stosunku do ilości danych podłączanych do sztucznej inteligencji modele transformatorów wymagają znacznej ilości mocy obliczeniowej i wykorzystują dużą ilość pamięci. Jest to szczególnie problematyczne w przypadku ViT, ponieważ obrazy zawierają bardzo dużo danych.
Po drugie, użytkownikom trudno jest dokładnie zrozumieć, w jaki sposób ViT podejmują decyzje. Na przykład mogłeś przeszkolić ViT w zakresie rozpoznawania psów na obrazie. Nie jest jednak do końca jasne, w jaki sposób ViT określa, co jest psem, a co nie. W zależności od zastosowania zrozumienie procesu decyzyjnego ViT, zwanego również interpretowalnością modelu, może być bardzo ważne.
Nowa metodologia ViT, zwana „Uwagą typu Patch-to-Cluster” (PaCa), pozwala sprostać obu wyzwaniom.
„Rozwiązujemy wyzwanie związane z wymaganiami obliczeniowymi i pamięciowymi, stosując techniki grupowania, które pozwalają architekturze transformatora lepiej identyfikować obiekty na obrazie i skupiać się na nich” – mówi Tianfu Wu, autor korespondent artykułu na temat tej pracy i profesor nadzwyczajny inżynierii elektrycznej i komputerowej na Uniwersytecie Stanowym Karoliny Północnej. „Klustrowanie polega na tym, że sztuczna inteligencja łączy w całość sekcje obrazu na podstawie podobieństw znalezionych w danych obrazu. To znacznie zmniejsza wymagania obliczeniowe systemu. Przed grupowaniem wymagania obliczeniowe dla ViT są kwadratowe. Na przykład, jeśli system podzieli obraz na 100 mniejszych jednostek, musiałby porównać ze sobą wszystkie 100 jednostek – co oznaczałoby 10 000 złożonych funkcji.
„Dzięki grupowaniu jesteśmy w stanie uczynić ten proces liniowym, w którym każdą mniejszą jednostkę wystarczy porównać jedynie z wcześniej określoną liczbą klastrów. Załóżmy, że każesz systemowi utworzyć 10 klastrów; byłoby to tylko 1000 złożonych funkcji” – mówi Wu.
„Klustrowanie pozwala nam również zająć się interpretacją modelu, ponieważ możemy przede wszystkim przyjrzeć się temu, w jaki sposób utworzył on klastry. Jakie funkcje uznano za ważne przy łączeniu tych sekcji danych w jedną całość? A ponieważ sztuczna inteligencja tworzy tylko niewielką liczbę klastrów, możemy łatwo im się przyjrzeć”.
Naukowcy przeprowadzili kompleksowe testy PaCa, porównując go z dwoma najnowocześniejszymi ViT zwanymi SWin i PVT.
„Odkryliśmy, że PaCa pod każdym względem przewyższa SWin i PVT” – mówi Wu. „PaCa lepiej radziła sobie z klasyfikowaniem obiektów na obrazach, lepiej identyfikowała obiekty na obrazach i lepiej segmentowała – zasadniczo wyznaczając granice obiektów na obrazach. Był także bardziej wydajny, co oznacza, że był w stanie wykonywać te zadania szybciej niż inne ViT.
„Następnym krokiem dla nas jest zwiększenie skali PaCa poprzez szkolenie na większych, podstawowych zbiorach danych”.
Papier, "PaCa-ViT: Uczenie się uwagi od patcha do klastra w transformatorach wizyjnych” zostanie zaprezentowany na konferencji IEEE/CVF na temat widzenia komputerowego i rozpoznawania wzorców, która odbędzie się w dniach 18–22 czerwca w Vancouver w Kanadzie. Pierwszym autorem artykułu jest dr Ryan Grainger. student NC State. Współautorem artykułu jest dr Thomas Paniagua. student stanu NC; Xi Song, niezależny badacz; oraz Naresh Cuntoor i Mun Wai Lee z BlueHalo.
Prace wykonano przy wsparciu Biura Dyrektora Wywiadu Narodowego, w ramach kontraktu nr 2021-21040700003; Biuro Badań Armii Stanów Zjednoczonych w ramach grantów W911NF1810295 i W911NF2210010; oraz National Science Foundation, w ramach grantów 1909644, 1822477, 2024688 i 2013451.
(C) NCSU
Oryginalne źródło artykułu: WRALTechWire