חוקרי NCSU מדווחים על פריצת דרך ביצירת תמונות באמצעות בינה מלאכותית

תאריך פרסום:

מאת מאט שיפמן - 3 ביוני 2021.

חוקרים מאוניברסיטת צפון קרוליינה סטייט פיתחו שיטה חדישה וחדשנית לשליטה כיצד מערכות בינה מלאכותית (AI) יוצרות תמונות. לעבודה יש יישומים לתחומים מרובוטיקה אוטונומית ועד אימון בינה מלאכותית.

על הפרק עומדת סוג של משימת בינה מלאכותית הנקראת יצירת תמונה מותנית, שבה מערכות בינה מלאכותית יוצרות תמונות העונות על סט ספציפי של תנאים. לדוגמה, ניתן לאמן מערכת ליצור תמונות מקוריות של חתולים או כלבים, תלוי באיזו חיה המשתמש ביקש. טכניקות עדכניות יותר בנו על זה כדי לשלב תנאים לגבי פריסת תמונה. זה מאפשר למשתמשים לציין אילו סוגי אובייקטים הם רוצים שיופיעו במקומות מסוימים על המסך. לדוגמה, השמיים עשויים להיכנס לקופסה אחת, עץ יכול להיות בתיבה אחרת, נחל יכול להיות בקופסה נפרדת, וכן הלאה.

העבודה החדשה מתבססת על טכניקות אלו כדי לתת למשתמשים שליטה רבה יותר על התמונות המתקבלות, ולשמור על מאפיינים מסוימים על פני סדרה של תמונות.

"הגישה שלנו ניתנת להגדרה מחדש", אומר טיאנפו וו, מחבר שותף של מאמר על העבודה ועוזר פרופסור להנדסת מחשבים ב-NC State. "כמו גישות קודמות, שלנו מאפשרת למשתמשים לגרום למערכת ליצור תמונה על סמך סט ספציפי של תנאים. אבל שלנו גם מאפשר לך לשמור על התמונה ולהוסיף לה. לדוגמה, משתמשים יכולים לבקש מה-AI ליצור סצנת הר. לאחר מכן, המשתמשים יוכלו לבקש מהמערכת להוסיף גולשים לסצנה הזו."

בנוסף, הגישה החדשה מאפשרת למשתמשים לאפשר ל-AI לתפעל אלמנטים ספציפיים כך שהם יהיו זהים לזיהוי, אך זזו או השתנו בדרך כלשהי. לדוגמה, הבינה המלאכותית עשויה ליצור סדרה של תמונות המציגות גולשים פונים לכיוון הצופה כשהם נעים על פני הנוף.

קבל את הסיפורים המובילים בתיבת הדואר הנכנס שלך בכל אחר צהריים

"יישום אחד עבור זה יהיה לעזור לרובוטים אוטונומיים 'לדמיין' איך התוצאה הסופית עשויה להיראות לפני שהם מתחילים במשימה נתונה", אומר וו. "אתה יכול גם להשתמש במערכת כדי ליצור תמונות לאימון בינה מלאכותית. אז, במקום להרכיב תמונות ממקורות חיצוניים, אתה יכול להשתמש במערכת הזו כדי ליצור תמונות לאימון מערכות AI אחרות."

החוקרים בדקו את הגישה החדשה שלהם באמצעות מערך הנתונים של COCO-Stuff ומערך הנתונים של הגנום החזותי. בהתבסס על מדדים סטנדרטיים של איכות תמונה, הגישה החדשה עלתה על הטכניקות הקודמות של יצירת תמונה מתקדמות.

"השלב הבא שלנו הוא לראות אם אנחנו יכולים להרחיב את העבודה הזו לווידאו ותלת מימד", אומר וו.

הכשרה לגישה החדשה דורשת מידה לא מבוטלת של כוח חישוב; החוקרים השתמשו בתחנת עבודה עם 4 GPU. עם זאת, פריסת המערכת היא פחות יקרה מבחינה חישובית.

"גילינו ש-GPU אחד נותן לך מהירות כמעט בזמן אמת", אומר Wu.

"בנוסף לעיתון שלנו, עשינו קוד המקור שלנו לגישה זו זמין ב-GitHub. עם זאת, אנו תמיד פתוחים לשיתוף פעולה עם שותפים בתעשייה."

הנייר, "למידה של פריסה וסגנון GAN הניתנים להגדרה מחדש עבור סינתזת תמונה ניתנת לשליטה", מתפרסם בכתב העת עסקאות IEEE על ניתוח דפוסים ואינטליגנציה של מכונה. המחבר הראשון של המאמר הוא Wei Sun, דוקטור לאחרונה. בוגר ממדינת NC.

העבודה נתמכה על ידי הקרן הלאומית למדע, במסגרת מענקים 1909644, 1822477, 2024688 ו-2013451; על ידי משרד המחקר של צבא ארה"ב, תחת מענק W911NF1810295; ועל ידי המינהל לחיים בקהילה, במסגרת מענק 90IFDV0017-01-00.

מקור מקורי: WRAL TechWire