הפיכת AI לחדד יותר: חוקרי NCSU מפתחים דרך לזהות טוב יותר, לסווג תמונות

תאריך פרסום:

שנאי ראייה (ViTs) הם טכנולוגיות בינה מלאכותית (AI) עוצמתיות שיכולות לזהות או לסווג אובייקטים בתמונות - עם זאת, ישנם אתגרים משמעותיים הקשורים הן לדרישות כוח המחשוב והן לשקיפות קבלת ההחלטות. חוקרים פיתחו כעת מתודולוגיה חדשה הנותנת מענה לשני האתגרים, ובמקביל גם משפרת את יכולת ה-ViT לזהות, לסווג ולפלח אובייקטים בתמונות.

רובוטריקים הם בין דגמי הבינה המלאכותית החזקים ביותר הקיימים. לדוגמה, ChatGPT הוא בינה מלאכותית שמשתמשת בארכיטקטורת שנאים, אבל התשומות המשמשות לאימון זה הן שפה. ViTs הם בינה מלאכותית מבוססת שנאים אשר מאומנים באמצעות תשומות חזותיות. לדוגמה, ניתן להשתמש ב-ViTs כדי לזהות ולסווג אובייקטים בתמונה, כגון זיהוי כל המכוניות או כל הולכי הרגל בתמונה.

עם זאת, ViTs עומדים בפני שני אתגרים.

ראשית, דגמי שנאים הם מורכבים מאוד. יחסית לכמות הנתונים שמתחברים ל-AI, דגמי שנאים דורשים כמות משמעותית של כוח חישוב ומשתמשים בכמות גדולה של זיכרון. זה בעייתי במיוחד עבור ViTs, מכיוון שתמונות מכילות כל כך הרבה נתונים.

שנית, למשתמשים קשה להבין בדיוק כיצד ViTs מקבלים החלטות. לדוגמה, ייתכן שאימנת ViT לזהות כלבים בתמונה. אבל לא לגמרי ברור איך ה-ViT קובע מה זה כלב ומה לא. בהתאם ליישום, הבנת תהליך קבלת ההחלטות של ה-ViT, המכונה גם פרשנות המודל שלו, יכולה להיות חשובה מאוד.

מתודולוגיית ה-ViT החדשה, הנקראת "תשומת לב תיקון לאשכול" (PaCa), נותנת מענה לשני האתגרים.

"אנו מתייחסים לאתגר הקשור לדרישות חישוביות וזיכרון על ידי שימוש בטכניקות מקבץ, המאפשרות לארכיטקטורת השנאים לזהות ולהתמקד טוב יותר באובייקטים בתמונה", אומר טיאנפו וו, מחבר מקביל של מאמר על העבודה ופרופסור חבר הנדסת חשמל ומחשבים באוניברסיטת צפון קרוליינה. "אשכולות היא כאשר הבינה המלאכותית מגבשת חלקים של התמונה יחד, בהתבסס על קווי דמיון שהיא מוצאת בנתוני התמונה. זה מפחית משמעותית את הדרישות החישוביות למערכת. לפני קיבוץ, הדרישות החישוביות עבור ViT הן ריבועיות. לדוגמה, אם המערכת מפרקת תמונה ל-100 יחידות קטנות יותר, היא תצטרך להשוות את כל 100 היחידות זו לזו - שיהיו 10,000 פונקציות מורכבות.

"על ידי אשכול, אנו מסוגלים להפוך את זה לתהליך ליניארי, שבו כל יחידה קטנה יותר צריך להיות רק מושווה למספר קבוע מראש של אשכולות. נניח שאתה אומר למערכת להקים 10 אשכולות; אלו יהיו רק 1,000 פונקציות מורכבות", אומר וו.

"אשכולות גם מאפשרת לנו להתייחס לפרשנות המודל, כי אנחנו יכולים להסתכל איך זה יצר את האשכולות מלכתחילה. אילו תכונות היא החליטה שחשובות כשחיברו את חלקי הנתונים הללו יחד? ומכיוון שה-AI יוצר רק מספר קטן של אשכולות, אנחנו יכולים להסתכל עליהם די בקלות."

החוקרים ערכו בדיקות מקיפות של PaCa, והשוו אותו לשני ViTs חדישים בשם SWin ו-PVT.

"גילינו ש-PaCa עלה על SWin ו-PVT בכל המובנים", אומר וו. "PaCa היה טוב יותר בסיווג אובייקטים בתמונות, טוב יותר בזיהוי אובייקטים בתמונות, וטוב יותר בפילוח - בעצם מתווה את הגבולות של אובייקטים בתמונות. זה גם היה יעיל יותר, כלומר היה מסוגל לבצע את המשימות האלה מהר יותר מאשר שאר ה-ViTs.

"השלב הבא עבורנו הוא להגדיל את PaCa על ידי הכשרה על מערכי נתונים גדולים יותר ובסיסיים."

הנייר, "PaCa-ViT: לימוד תשומת לב של תיקון לאשכול ב-Vision Transformers", יוצג בכנס IEEE/CVF בנושא ראייה ממוחשבת וזיהוי דפוסים, שיתקיים ב-18-22 ביוני בוונקובר, קנדה. המחבר הראשון של המאמר הוא Ryan Grainger, Ph.D. סטודנט במדינת NC. המאמר נכתב בשיתוף תומס פאניאגואה, דוקטור. סטודנט במדינת NC; שי סונג, חוקר עצמאי; ו- Naresh Cuntor ו- Mun Wai Lee מ- BlueHalo.

העבודה נעשתה בתמיכת משרד מנהל המודיעין הלאומי, תחת חוזה מספר 2021-21040700003; משרד המחקר של צבא ארה"ב, במסגרת המענקים W911NF1810295 ו-W911NF2210010; והקרן הלאומית למדע, במסגרת מענקים 1909644, 1822477, 2024688 ו-2013451.

(ג) NCSU

מקור המאמר המקורי: WRAL TechWire