AI をより鮮明にする: NCSU の研究者が画像をより適切に識別、分類する方法を開発
発行日:ビジョン トランスフォーマー (ViT) は、画像内のオブジェクトを識別または分類できる強力な人工知能 (AI) テクノロジーですが、コンピューティング能力要件と意思決定の透明性の両方に関連する重大な課題があります。研究者たちは現在、両方の課題に対処すると同時に、画像内のオブジェクトを識別、分類、セグメント化する ViT の能力を向上させる新しい方法論を開発しました。
トランスフォーマーは、既存の AI モデルの中で最も強力なものの 1 つです。たとえば、ChatGPT はトランスフォーマー アーキテクチャを使用する AI ですが、そのトレーニングに使用される入力は言語です。 ViT は、視覚入力を使用してトレーニングされるトランスフォーマーベースの AI です。たとえば、ViT を使用すると、画像内のすべての車やすべての歩行者を識別するなど、画像内のオブジェクトを検出および分類できます。
ただし、ViT は 2 つの課題に直面しています。
まず、変圧器のモデルは非常に複雑です。 AI に接続されるデータの量に比べて、トランスフォーマー モデルは大量の計算能力を必要とし、大量のメモリを使用します。画像には非常に多くのデータが含まれているため、これは ViT にとって特に問題です。
次に、ViT がどのように意思決定を行うかをユーザーが正確に理解するのは困難です。たとえば、画像内の犬を識別するように ViT をトレーニングしたとします。しかし、ViT が何が犬で何が犬ではないかをどのように判断しているのかは完全には明らかではありません。アプリケーションによっては、ViT の意思決定プロセス (モデルの解釈可能性とも呼ばれます) を理解することが非常に重要になる場合があります。
「パッチ対クラスター アテンション」(PaCa) と呼ばれる新しい ViT 手法は、両方の課題に対処します。
「私たちは、クラスタリング技術を使用することで、計算量とメモリの需要に関連する課題に取り組んでいます。これにより、トランスフォーマ アーキテクチャが画像内のオブジェクトをより適切に識別し、焦点を合わせることができるようになります」と、この研究に関する論文の責任著者であり、同大学准教授の Tianfu Wu 氏は述べています。ノースカロライナ州立大学で電気工学およびコンピュータ工学を専攻。 「クラスタリングとは、AI が画像データ内で見つけた類似性に基づいて画像のセクションをひとまとめにすることです。これにより、システムの計算要求が大幅に軽減されます。クラスタリングの前に、ViT の計算要求は 2 次です。たとえば、システムが画像を 100 個の小さな単位に分割する場合、100 個すべての単位を相互に比較する必要があります。これは 10,000 個の複雑な関数になります。
「クラスタリングにより、これを線形プロセスにすることができ、各小さな単位を所定の数のクラスターと比較するだけで済みます。システムに 10 個のクラスターを確立するように指示したとします。それは 1,000 個の複雑な関数にすぎません」とウー氏は言います。
「クラスタリングを使用すると、そもそもクラスタがどのように作成されたかを確認できるため、モデルの解釈可能性にも対処できます。データのこれらのセクションをひとまとめにするときに、どの機能が重要であると判断されましたか? AI は少数のクラスターのみを作成するため、それらを非常に簡単に確認できます。」
研究者らは、PaCa の包括的なテストを実施し、SWin および PVT と呼ばれる 2 つの最先端の ViT と比較しました。
「あらゆる面で PaCa が SWin や PVT よりも優れていることがわかりました」と Wu 氏は言います。 「PaCa は、画像内のオブジェクトの分類、画像内のオブジェクトの識別、そして基本的に画像内のオブジェクトの境界の輪郭を描くセグメンテーションにおいて優れていました。また、効率性も高く、他の ViT よりもこれらのタスクをより迅速に実行できました。
「私たちの次のステップは、より大規模な基礎データセットでトレーニングすることで PaCa をスケールアップすることです。」
紙、 "PaCa-ViT: ビジョン トランスフォーマーにおけるパッチ対クラスターの注意の学習」は、6 月 18 日から 22 日までカナダのバンクーバーで開催されるコンピューター ビジョンとパターン認識に関する IEEE/CVF カンファレンスで発表されます。この論文の最初の著者は、Ryan Grainger 博士です。ノースカロライナ州立大学の学生。この論文は、トーマス・パニアグア博士の共著者です。ノースカロライナ州立大学の学生。 Xi Song、独立研究者。そしてBlueHaloのNaresh CuntorとMun Wai Lee。
この作業は、契約番号 2021-21040700003 に基づき、国家情報長官室の支援を受けて行われました。米国陸軍研究局、助成金 W911NF1810295 および W911NF2210010 に基づく。および国立科学財団(助成金 1909644、1822477、2024688、および 2013451)を受けています。
(C)NCSU
元の記事の出典: WRAL TechWire