NCSU-Forscher berichten über einen Durchbruch bei der Erstellung von Bildern mithilfe künstlicher Intelligenz
Veröffentlichungsdatum:von Matt Shipman — 3. Juni 2021 .
Forscher der North Carolina State University haben eine neue hochmoderne Methode entwickelt, um zu steuern, wie künstliche Intelligenzsysteme (KI) Bilder erstellen. Die Arbeit kann in Bereichen von der autonomen Robotik bis zum KI-Training eingesetzt werden.
Es geht um eine Art von KI-Aufgabe namens bedingte Bildgenerierung, bei der KI-Systeme Bilder erstellen, die bestimmte Bedingungen erfüllen. Ein System könnte beispielsweise darauf trainiert werden, Originalbilder von Katzen oder Hunden zu erstellen, je nachdem, welches Tier der Benutzer angefordert hat. Neuere Techniken bauen darauf auf und integrieren Bedingungen hinsichtlich eines Bildlayouts. Auf diese Weise können Benutzer angeben, welche Arten von Objekten an bestimmten Stellen auf dem Bildschirm erscheinen sollen. Beispielsweise könnte der Himmel in ein Feld kommen, ein Baum in ein anderes, ein Bach in ein anderes Feld und so weiter.
Die neue Arbeit baut auf diesen Techniken auf, um den Benutzern mehr Kontrolle über die resultierenden Bilder zu geben und bestimmte Eigenschaften über eine Bildserie hinweg beizubehalten.
„Unser Ansatz ist hochgradig rekonfigurierbar“, sagt Tianfu Wu, Co-Autor eines Artikels über die Arbeit und Assistenzprofessor für Computertechnik an der NC State. „Wie bei früheren Ansätzen können Benutzer das System ein Bild basierend auf bestimmten Bedingungen erstellen lassen. Aber bei unserem Ansatz können Sie dieses Bild auch behalten und ergänzen. Benutzer könnten beispielsweise die KI eine Bergszene erstellen lassen. Die Benutzer könnten das System dann Skifahrer zu dieser Szene hinzufügen lassen.“
Darüber hinaus ermöglicht der neue Ansatz den Benutzern, die KI bestimmte Elemente so manipulieren zu lassen, dass sie erkennbar gleich sind, sich aber in irgendeiner Weise bewegt oder verändert haben. Beispielsweise könnte die KI eine Reihe von Bildern erstellen, die zeigen, wie sich Skifahrer dem Betrachter zuwenden, während sie durch die Landschaft fahren.
Erhalten Sie jeden Nachmittag die Top-Storys in Ihrem Posteingang
„Eine Anwendung hierfür wäre, autonomen Robotern zu helfen, sich das Endergebnis ‚vorzustellen‘, bevor sie mit einer bestimmten Aufgabe beginnen“, sagt Wu. „Man könnte das System auch verwenden, um Bilder für das KI-Training zu generieren. Anstatt also Bilder aus externen Quellen zusammenzustellen, könnte man dieses System verwenden, um Bilder für das Training anderer KI-Systeme zu erstellen.“
Die Forscher testeten ihren neuen Ansatz mit dem COCO-Stuff-Datensatz und dem Visual Genome-Datensatz. Basierend auf Standardmaßen für die Bildqualität übertraf der neue Ansatz die bisherigen hochmodernen Bilderzeugungstechniken.
„Unser nächster Schritt besteht darin, zu prüfen, ob wir diese Arbeit auf Videos und dreidimensionale Bilder ausweiten können“, sagt Wu.
Das Training für den neuen Ansatz erfordert eine Menge Rechenleistung; die Forscher verwendeten eine 4-GPU-Workstation. Der Einsatz des Systems ist jedoch weniger rechenintensiv.
„Wir haben festgestellt, dass eine GPU nahezu Echtzeitgeschwindigkeit bietet“, sagt Wu.
„Zusätzlich zu unserem Papier haben wir unser Quellcode für diesen Ansatz ist auf GitHub verfügbar. Dennoch sind wir immer offen für eine Zusammenarbeit mit Industriepartnern.“
Das Papier, "Lernen von Layout und Stil Rekonfigurierbare GANs für eine steuerbare Bildsynthese„, wird in der Zeitschrift veröffentlicht IEEE-Transaktionen zur Musteranalyse und maschinellen Intelligenz. Erstautor des Artikels ist Wei Sun, ein frischgebackener Doktorand der NC State.
Die Arbeit wurde von der National Science Foundation im Rahmen der Zuschüsse 1909644, 1822477, 2024688 und 2013451, vom US Army Research Office im Rahmen des Zuschusses W911NF1810295 und von der Administration for Community Living im Rahmen des Zuschusses 90IFDV0017-01-00 gefördert.
Originalquelle: WRAL TechWire