ד"ר איתן פתיה מלמד מחשבים לראות

אצל רוב בעלי החיים – ובכלל זה בני האדם – חוש הראייה הוא אחד החושים הדומיננטיים ביותר. אנחנו מסוגלים לראות תמונה ולזהות בקלות אובייקטים, להבדיל בין יום או לילה, להבין מה מלפנים ומה מאחור. מחשבים, לעומת זאת, עדיין מתקשים לעשות זאת - למרות התפתחות אדירה בתחום – וזהו אחר האתגרים העומדים כרגע בפני חוקרים בתחום הראייה הממוחשבת: חילוץ מידע סמנטי בתמונה. "אם מסתכלים על זה אלגוריתמית, תמונה זה אוסף של מאות אלפי פיקסלים. ההחלטה איזה אוסף של פיקסלים הוא פנים, למשל, היא מורכבת מאוד, והדרך הטובה ביותר לנסות לפצח את הנושא היא ללמוד מדוגמאות: המחשב מקבל למשל אוסף של דוגמאות עם פנים, אוסף של דוגמאות בלי פנים, ומנסה ללמוד להבדיל ביניהן," מסביר ד"ר איתן פתיה, המתמחה בלמידה ממוחשבת עם אפליקציות לראייה.

לדברי פתיה, בבואנו לבחון עקרונות של למידה בתחום הראייה הממוחשבת, עולות מספר שאלות מעניינות. "אחת הסוגיות הקלאסיות בתחום היא סוגיית ההכללה: נאמר שהמחשב ראה אלף דוגמאות. אם אנחנו מחפשים מודל מאוד מורכב, יכול להיות שנמצא מודל שעובד נהדר על הדוגמאות האלה – אבל לא על דוגמאות אחרות. לעומת זאת, אם המודל פשוט מדי, הביצועים שלו יהיו גרועים גם על תמונות שראית וגם על תמונות חדשות. לדוגמה, נגיד שאני מנסה להבדיל בין גברים לנשים, ויש לי רק שלוש תמונות של גברים ולכולם יש עיניים ירוקות – המחשב יכול להחליט עכשיו שגבר זה כל מי שיש לו עיניים ירוקות. המטרה, אם כן, היא למצוא את האיזון, ולבנות מודלים שמצד אחד הם מספיק מורכבים – ומצד שני הם מצליחים למצוא את התבנית שאנחנו מחפשים. זה נקרא הכללה: האם המודל שלך תופס את התוכנית האמיתית, ולא איזו תבנית אקראית."

”סוג אחד של מערכת לומדות הן רשתות הנוירונים – מודל שמחקה באופן גס את המוח. יש להן הצלחות פנומנאליות, בעיקר בתחום הראייה – אבל להן יש בעיות אחרות, ואחת מהן היא שניתן לרמות אותן בקלות. אתה יכול למשל לקחת תמונה של חתול, לשנות אותה מעט, בצורה שהעין אפילו לא רואה, והמודל בטוח עכשיו שזה כלב. לשיבוש מהסוג הזה יכולות להיות השלכות לתחומים כמו נהיגה אוטונומית למשל, שזה תחום שההשפעה שלו על החיים שלנו תהיה עצומה, אבל עוד צפויים בו קשיים מאוד רציניים. רמת האמינות והדיוק צריכים להיות גבוהים מאוד - אסור שמערכות שאחראיות לחיים של אנשים יהיו כל כך שבירות ומועדות לטעויות."

פתיה, בן 37, נשוי ואב לשני ילדים, עוסק בראייה ממוחשבת מאז הדוקטורט שלו, אותו עשה במכון ויצמן ("אחרי תואר ראשון ושני במתמטיקה רציתי משהו פרקטי"). לאחר שסיים אותו עבד בחברת ג'נרל מוטורס, במחלקה שעסקה בנהיגה אוטומטית, ולאחר מכן המשיך לפוסט דוקטורט בתחום באוניברסיטת טורונטו שבקנדה. בתחילת השנה האקדמית הנוכחית שב לארץ, היישר לפקולטה להנדסה. בסמסטר הקודם לימד קורס של מודלים דגנרטיביים לתארים מתקדמים, ובימים אלו הוא מקים את הקבוצה שלו ומחפש "סטודנטים עם רקע מתמטי חזק ויכולת תכנותית, יצירתיות וסקרנות".

מלבד ראייה ממוחשבת, עוסק פתיה בבעיות נוספות בתחום הלמידה הממוחשבת. בעיה כזו לדוגמה היא  few shot learning – למידה ממעט דוגמאות. "בני האדם יכולים ללמוד ממעט מאוד דוגמאות, אפילו כילדים קטנים, לעומת מערכות המחשב שצריכות הרבה מאוד מידע", הוא אומר. בעיה נוספת שמעסיקה אותו היא מודלים שמתייחסים לסימטריות. "אחת התכונות של רשתות נוירוניות היא universal approximation – אם יש לנו מספיק כוח חישוב, ואם ניתן מספיק פרמטרים - אנחנו יכול לקרב כל דבר. ועכשיו נשאלת השאלה, האם זה עדיין נכון אם אנחנו מגבילים את המודל? האם כשאני מצמצם את המודל אני מחליש אותו? וכאן נכנסת סוגיית הסימטריות: אם למשל יש לנו אוסף של דברים שאין להם סדר מסוים, לדוגמה רשימת שחקנים של קבוצת כדורסל, והמודל שלי אמור לעשות תחזית שלוקחת בחשבון את האובייקטים האלה – אני רוצה שהוא יחזיר לי את אותה התוצאה, ולא משנה באיזה סדר אני מכניס אותם. מהי הדרך הנכונה למדל את המצב הזה? איך אנחנו משיגים את מה שאנחנו רוצים בלי להגביל אותו מדי? אם אנחנו מכריחים את המודל להיות סימטרי – האם אנחנו יכולים לתפוס כל פונקציה שמקיימת את הסימטריות האלה?". כך שלמרות הצלחות רבות בשנים האחרונות, מסכם פתיה, הפער בין היכולת של אנשים ומכונות ללמוד הוא עדיין גדול, ויש הרבה שאלות מעניינות לעבוד עליהם.