Tekoälyn terävöittäminen: NCSU:n tutkijat kehittävät tapoja tunnistaa ja luokitella kuvia paremmin

Julkaisupäivä:

Näkömuuntajat (ViTs) ovat tehokkaita tekoälyteknologioita, jotka voivat tunnistaa tai luokitella kohteet kuvissa – kuitenkin sekä laskentatehovaatimuksiin että päätöksenteon läpinäkyvyyteen liittyy merkittäviä haasteita. Tutkijat ovat nyt kehittäneet uuden metodologian, joka vastaa molempiin haasteisiin ja parantaa samalla ViT:n kykyä tunnistaa, luokitella ja segmentoida kuvissa olevia kohteita.

Transformers ovat tehokkaimpia olemassa olevia tekoälymalleja. Esimerkiksi ChatGPT on tekoäly, joka käyttää muuntaja-arkkitehtuuria, mutta sen opettamiseen käytetyt syötteet ovat kieltä. ViT:t ovat muuntajapohjaisia tekoälyjä, jotka on koulutettu visuaalisten tulojen avulla. ViT:itä voitaisiin käyttää esimerkiksi kuvan kohteiden havaitsemiseen ja luokitteluun, kuten kaikkien autojen tai kaikkien jalankulkijoiden tunnistamiseen kuvassa.

ViT:t kohtaavat kuitenkin kaksi haastetta.

Ensinnäkin muuntajamallit ovat hyvin monimutkaisia. Tekoälyyn kytketyn datan määrään verrattuna muuntajamallit vaativat huomattavan määrän laskentatehoa ja käyttävät paljon muistia. Tämä on erityisen ongelmallista ViT:ille, koska kuvat sisältävät niin paljon dataa.

Toiseksi käyttäjien on vaikea ymmärtää tarkasti, kuinka ViT:t tekevät päätöksiä. Olet esimerkiksi saattanut kouluttaa ViT:n tunnistamaan koiria kuvasta. Mutta ei ole täysin selvää, kuinka ViT määrittää, mikä on koira ja mikä ei. Sovelluksesta riippuen ViT:n päätöksentekoprosessin ymmärtäminen, joka tunnetaan myös mallin tulkittavuutena, voi olla erittäin tärkeää.

Uusi ViT-metodologia, nimeltään "Patch-to-Cluster attention" (PaCa), vastaa molempiin haasteisiin.

"Tarkastelemme laskenta- ja muistivaatimuksiin liittyvää haastetta käyttämällä klusterointitekniikoita, joiden avulla muuntaja-arkkitehtuuri pystyy paremmin tunnistamaan ja keskittymään kuvan kohteet", sanoo Tianfu Wu, vastaavan työn kirjoittaja ja apulaisprofessori. sähkö- ja tietokonetekniikka North Carolina State Universityssä. "Klusterointi tarkoittaa sitä, että tekoäly niputtaa kuvan osia yhteen kuvadatasta löytämiensä yhtäläisyuksien perusteella. Tämä vähentää merkittävästi järjestelmän laskentavaatimuksia. Ennen klusterointia ViT:n laskentavaatimukset ovat neliöllisiä. Jos järjestelmä esimerkiksi jakaa kuvan 100 pienempään yksikköön, sen pitäisi verrata kaikkia 100 yksikköä toisiinsa – mikä olisi 10 000 monimutkaista funktiota.

”Klusteroimalla voimme tehdä tästä lineaarisen prosessin, jossa jokaista pienempää yksikköä tarvitsee verrata vain ennalta määrättyyn määrään klustereita. Oletetaan, että käsket järjestelmää perustamaan 10 klusteria; se olisi vain 1 000 monimutkaista funktiota”, Wu sanoo.

"Klusteroinnilla voimme myös käsitellä mallien tulkittavuutta, koska voimme tarkastella, kuinka se alun perin loi klusterit. Mitkä ominaisuudet se päätti olevan tärkeitä, kun nämä tietoosiot yhdistettiin? Ja koska tekoäly luo vain pienen määrän klustereita, voimme tarkastella niitä melko helposti."

Tutkijat tekivät kattavan PaCa-testauksen vertaamalla sitä kahteen huippuluokan ViT:hen, nimeltään SWin ja PVT.

"Huomasimme, että PaCa suoriutui SWinistä ja PVT:stä kaikin tavoin", Wu sanoo. "PaCa oli parempi luokittelemaan kohteet kuvissa, tunnistamaan paremmin kuvissa olevat kohteet ja paremmin segmentoimaan - olennaisesti hahmottelemaan kuvissa olevien objektien rajat. Se oli myös tehokkaampi, mikä tarkoittaa, että se pystyi suorittamaan nämä tehtävät nopeammin kuin muut ViT:t.

"Seuraava askel meille on laajentaa PaCaa harjoittelemalla suurempia perustietosarjoja."

Paperi, "PaCa-ViT: Patch-to-Cluster Attention oppiminen Vision Transformersissa”, esitellään IEEE/CVF-konferenssissa Computer Vision and Pattern Recognition, joka pidetään 18.–22. kesäkuuta Vancouverissa, Kanadassa. Paperin ensimmäinen kirjoittaja on Ryan Grainger, Ph.D. opiskelija NC Statessa. Paperin on kirjoittanut Thomas Paniagua, Ph.D. opiskelija NC State; Xi Song, riippumaton tutkija; ja Naresh Cuntoor ja Mun Wai Lee BlueHalosta.

Työ tehtiin Kansallisen tiedustelupalvelun johtajan toimiston tuella sopimusnumerolla 2021-21040700003; Yhdysvaltain armeijan tutkimustoimisto apurahoilla W911NF1810295 ja W911NF2210010; ja National Science Foundation, apurahoilla 1909644, 1822477, 2024688 ja 2013451.

(C) NCSU

Alkuperäinen artikkelin lähde: WRAL TechWire