KI schärfer machen: NCSU-Forscher entwickeln eine Möglichkeit, Bilder besser zu identifizieren und zu klassifizieren
Veröffentlichungsdatum:Vision Transformers (ViTs) sind leistungsstarke Technologien der künstlichen Intelligenz (KI), die Objekte in Bildern identifizieren oder kategorisieren können – allerdings gibt es erhebliche Herausforderungen sowohl im Hinblick auf die Anforderungen an die Rechenleistung als auch auf die Transparenz der Entscheidungsfindung. Forscher haben nun eine neue Methodik entwickelt, die beide Herausforderungen angeht und gleichzeitig die Fähigkeit des ViT verbessert, Objekte in Bildern zu identifizieren, zu klassifizieren und zu segmentieren.
Transformatoren gehören zu den leistungsstärksten existierenden KI-Modellen. ChatGPT ist beispielsweise eine KI, die eine Transformer-Architektur verwendet, aber die zum Trainieren verwendeten Eingaben sind Sprache. ViTs sind transformatorbasierte KI, die mithilfe visueller Eingaben trainiert wird. Beispielsweise könnten ViTs dazu verwendet werden, Objekte in einem Bild zu erkennen und zu kategorisieren, etwa um alle Autos oder alle Fußgänger in einem Bild zu identifizieren.
ViTs stehen jedoch vor zwei Herausforderungen.
Erstens sind Transformatormodelle sehr komplex. Im Verhältnis zur Datenmenge, die in die KI eingespeist wird, benötigen Transformer-Modelle eine erhebliche Menge an Rechenleistung und verbrauchen viel Speicher. Dies ist besonders für ViTs problematisch, da Bilder so viele Daten enthalten.
Zweitens ist es für Benutzer schwierig, genau zu verstehen, wie ViTs Entscheidungen treffen. Beispielsweise könnten Sie einem ViT beigebracht haben, Hunde in einem Bild zu identifizieren. Es ist jedoch nicht ganz klar, wie das ViT bestimmt, was ein Hund ist und was nicht. Je nach Anwendung kann es sehr wichtig sein, den Entscheidungsprozess des ViT, auch Modellinterpretierbarkeit genannt, zu verstehen.
Die neue ViT-Methodik mit dem Namen „Patch-to-Cluster Attention“ (PaCa) geht beide Herausforderungen an.
„Wir begegnen der Herausforderung im Zusammenhang mit dem Rechen- und Speicherbedarf, indem wir Clustering-Techniken verwenden, die es der Transformatorarchitektur ermöglichen, Objekte in einem Bild besser zu identifizieren und zu fokussieren“, sagt Tianfu Wu, korrespondierender Autor einer Arbeit über die Arbeit und außerordentlicher Professor für Elektro- und Computertechnik an der North Carolina State University. „Beim Clustering fasst die KI Bildabschnitte zusammen, basierend auf Ähnlichkeiten, die sie in den Bilddaten findet. Dadurch wird der Rechenaufwand für das System deutlich reduziert. Vor dem Clustering sind die Rechenanforderungen für einen ViT quadratisch. Wenn das System beispielsweise ein Bild in 100 kleinere Einheiten zerlegt, müsste es alle 100 Einheiten miteinander vergleichen – das wären 10.000 komplexe Funktionen.
„Durch die Clusterbildung können wir dies zu einem linearen Prozess machen, bei dem jede kleinere Einheit nur mit einer vorgegebenen Anzahl von Clustern verglichen werden muss. Nehmen wir an, Sie weisen das System an, 10 Cluster einzurichten. das wären nur 1.000 komplexe Funktionen“, sagt Wu.
„Clustering ermöglicht es uns auch, die Interpretierbarkeit von Modellen zu untersuchen, da wir uns ansehen können, wie die Cluster überhaupt erstellt wurden. Welche Funktionen waren Ihrer Meinung nach bei der Zusammenfassung dieser Datenabschnitte wichtig? Und da die KI nur eine kleine Anzahl von Clustern erstellt, können wir uns diese ziemlich einfach ansehen.“
Die Forscher führten umfassende Tests von PaCa durch und verglichen es mit zwei hochmodernen ViTs namens SWin und PVT.
„Wir haben festgestellt, dass PaCa SWin und PVT in jeder Hinsicht übertrifft“, sagt Wu. „PaCa war besser in der Klassifizierung von Objekten in Bildern, besser in der Identifizierung von Objekten in Bildern und besser in der Segmentierung – im Wesentlichen beim Umreißen der Grenzen von Objekten in Bildern.“ Es war auch effizienter, was bedeutete, dass es diese Aufgaben schneller erledigen konnte als die anderen ViTs.
„Der nächste Schritt für uns besteht darin, PaCa durch Training auf größeren, grundlegenden Datensätzen zu erweitern.“
Das Papier, "PaCa-ViT: Erlernen der Patch-zu-Cluster-Aufmerksamkeit bei Vision Transformern„“ wird auf der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung vorgestellt, die vom 18. bis 22. Juni in Vancouver, Kanada, stattfindet. Erstautor des Papiers ist Ryan Grainger, ein Ph.D. Student an der NC State. Der Artikel wurde von Thomas Paniagua, einem Ph.D., mitverfasst. Student an der NC State; Xi Song, ein unabhängiger Forscher; und Naresh Cuntoor und Mun Wai Lee von BlueHalo.
Die Arbeit wurde mit Unterstützung des Büros des Direktors des Nationalen Geheimdienstes unter der Vertragsnummer 2021-21040700003 durchgeführt; das US Army Research Office, im Rahmen der Zuschüsse W911NF1810295 und W911NF2210010; und der National Science Foundation im Rahmen der Zuschüsse 1909644, 1822477, 2024688 und 2013451.
(C) NCSU
Originalquelle des Artikels: WRAL TechWire