מאמר של הפקולטה בכנס CVPR היוקרתי
המאמר של שי דקל, דוקטורנט של פרופ' יוסי קלר, מגיע מעולמות הראייה הממוחשבת, ועוסק בשערוך זווית הראייה בין שתי תמונות שמסתכלות על אותו אובייקט
מאמר של הדוקטורנט שי דקל התפרסם בכנסCVPR - the Conference on Computer Vision and Pattern Recognition . הכנס שייך ל- IEEE- Institute of Electrical and Electronics Engineers, אגודת מהנדסי החשמל והאלקטרוניקה הבינלאומית הגדולה בעולם. האגודה עוסקת בתחומי הנדסת החשמל, האלקטרוניקה, המחשבים והתוכנה. CVPR נחשב לאחד הכנסים החשובים בעולם בתחום הראייה הממוחשבת, ואחוז הקבלה אליו עומד על כ-20%.
המחקר של דקל, שנעשה בהנחיתו של פרופ' יוסי קלר, מתמקד ברשתות נוירונים לראיית מכונה או ראייה ממוחשבת. "רשתות נוירונים מבוססות בעקרון על למידה, כלומר יש שלב של למידה או אימון בו הרשת מתכווננת ולומדת מדוגמאות, ואז בשלב הבחינה, כלומר בזמן אמת, הן מקבלות מידע חדש, שלא ראו אף פעם - ומסיקות מסקנות על בסיס הידע שצברו", מסביר דקל. "רשתות נוירונים לראייה ממוחשבת מקבלות תמונות כקלט, מעבדות אותה באלגוריתם מבוסס רשתות, ומוציאות כפלט מידע לגבי התמונה. אחת הדוגמאות הקלאסיות היא רשת נוירונים שמזהה מה יש בכל תמונה. אם, לדוגמה, מאמנים את הרשת לזהות מהו חתול לפי מספר גדול של תמונות חתולים, הציפיה היא שבזמן אמת, גם אם מזינים לרשת תמונה של חתול שהיא לא ראתה אף פעם - האלגוריתם ידע לזהות שזה אכן חתול. זה תחום מחקר חדש יחסית, שעד לפני כעשור נחשב בגדר מדע בדיוני".
המאמר שהגיש דקל לכנס עוסק בשערוך זווית הראייה בין שתי תמונות שמסתכלות על אותו אובייקט. "בסיטואציה שבה עסקתי, הרשת מקבלת שתי תמונות שיש בהם חפיפה מינימלית, או אפילו ללא חפיפה כלל, מאתרת רמזים שיש בשתי התמונות, ויודעת לומר מה הזווית ביניהן. אם יש חפיפה בין שתי התמונות, הרשת מאתרת פיצ'רים זהים בין התמונות, ובמצב קיצוני בו אין חפיפה כלל בין שתי התמונות אז הרשת מאתרת רמזים כמו קווים ישרים של מתאר מבנים וביניינים, מדרכות או חפצים בעלי צורה אנליטית", מסביר דקל. "למעשה, הרשת לומדת שבניין למשל מאונך לקרקע, או שמדרכות מקבילות לרצפה. יש לציין שהמדיניות בלבחור מה 'להסתכל' בתמונות נלמד אוטומטית בתהליך האימון".
במסגרת המחקר, השתמש דקל ברשתות מסוג transformers, רשתות הנחשבות חדשות יחסית בעולם הראייה הממוחשבת. "הטרנספורמר לכשעצמו לומד על מה לתת יותר דגש בתמונות. כלומר אם יש תמונה של דשא, שמים ואיש, הוא מצליח להבין שהאיש חשוב יותר מהדשא והשמיים", אומר דקל. "אנחנו השתמשנו בשלושה סוגי טרנספורמר: טרנספורמר שיודע לקבל מידע משתי התמונות בהצלבה; טרנספורמר שמקודד מידע חשוב; וטרנספורמר שעושה 'זיקוק' של המידע מתוך המידע המקודד, כדי לסנן רק את מה שצריך מתוך כלל האינפורמציה. למשל בין שתי התמונות המצורפות בדוגמה, החפיפה ממש מינימלית, אבל הרשתות הצליחו לזהות שהזווית בין התמונות היא 72 מעלות אופקית ו-27 מעלות אנכית".
המחקר הזה הוא בשורה אמיתית בתחום הרובוטיקה דווקא. בעולם הרובוטיקה, מסביר דקל, המצלמה היא העיניים של הרובוט. "אם הרובוט מאבד את נתיב התנועה שלו, אלגוריתם מהסוג הזה יוכל לשערך את הסטייה של הרובוט מהמסלול, ולהחזיר אותו ללא מאמץ בחזרה לנתיב".
תאריך עדכון אחרון : 18/04/2024