איכון דוברים בחדרים מהדהדים
לבעיה הקלאסית הנ"ל בתחום עיבוד האותות, מצא פרופסור שרון גנות פתרון באמצעות שיטות לימוד על יריעות
בחודש פברואר האחרון נתן פרופסור שרון גנות הרצאת Keynote בכנס LVA-ICA שנערך בצרפת. גנות, בן 52, המתמחה בעיבוד אותות דיבור, התייחס בהרצאתו לבעיה של איכון דובר בחדרים מהדהדים. "בדרך כלל, כשאדם מדבר בחדר או חלל סגור, אנחנו קולטים אותו הן ישירות והן כהד חוזר מכל מיני עצמים בחדר. תופעה זו, המכונה הדהוד, פוגעת ביכולת לזהות את מיקום הדובר, כי האות הקולי מגיע למעשה מהרבה מקומות בו-זמנית. זו בעיה קלאסית בתחום עיבוד האותות, והיא רלוונטית כשרוצים איכון מדויק של דוברים – למשל כשרוצים להפנות אוטומטית מצלמה למרצה אשר מדבר מעל במה, או לדובר מסוים בחדר ישיבות."
"רוב השיטות שניסו להתמודד עם בעיה זו ניסו להתעלם או למחוק את ההחזרים האלה ולהתמקד בהגעה הישירה בלבד. אנחנו ניסינו להתמודד עם הבעיה בדרך שונה ובעצם לנצל את תבנית ההחזרים לאיכון מדויק יותר: השיטה שלנו אומרת שתבנית ההחזרים מאפיינת מיקומים בחדר, כלומר לכל מיקום בחדר יש מעין 'טביעת אצבע' משלו, והמטרה שלנו היא לזהות את המיקום מתוך התבנית הזאת. לכאורה זה נשמע פשוט – נסרוק את כל טביעות האצבע האפשריות ונמצא את המתאימה ביותר – אבל זה לא עובד משום שתבנית ההחזרים מאוד מסובכת ומורכבת. יתרה מזו, אם התנאים האקוסטיים משתנים מעט, למשל כשרהיט מוזז ממקומו או כשחלון נפתח, תבנית ההחזרים עלולה להשתנות באופן שלא נוכל לזהותה יותר. לכן, אנו מחפשים שיטה שיודעת למדוד מרחקים 'בעלי משמעות' בין התבניות הללו. אנו עושים זאת בשיטה המכונה הורדת מימד: אנו מחפשים שיטה שתצליח לחלץ את הפרמטרים השולטים, או את 'המהות', של התבניות האלה, ואז לקשר בין המהות למיקום."
"כדי שזה יקרה, אנו מחפשים דרך לארגן את התבניות האלה, קרי לעשות סדר בתבניות גדולות מימד. לשם כך ניצלנו שיטה שנקראת 'לימוד על יריעות'. השיטה הזו מתארת את מרחב התבניות כ'יריעה', ויודעת לארגן את התבניות על פניה באופן שבו מדידת המרחק ביניהן משמעותית. ניתן להקביל זאת ל'שטיח מעופף': כאשר השטיח מרחף בחדר הוא תלת-מימדי, הוא מקבל גליות וקימורים, אבל בפועל הוא דו-מימדי. לכן כשנמדוד מרחק בין נקודות בקו אווירי נקבל מרחק חסר-משמעות. כדי למדוד מרחק בעל משמעות, נצטרך לשטח את השטיח על הרצפה ולמדוד מרחקים עם סרגל. עקרון דומה ניתן ליחס למדידת מרחקים על יריעות: אם נרצה למדוד מרחק משמעותי בין נקודות על היריעה אנו חייבים לכבד את הקימורים שלה."
"עכשיו, השאלה היא כיצד אנו יודעים מה צורת היריעה. כאמור, כדי לאכן דובר עלינו לקחת תבניות החזרים מוכרות ולהשוות אליהן את תבנית ההחזרים המאפיינת מיקום אותו אנו מעוניינים לאכן. אין לנו, כמובן, אפשרות למדוד את כל הנקודות בחדר - זו עבודה מתישה. לכן אנחנו משתמשים בשילוב של למידה מונחית (Supervised Learning) ולמידה לא-מונחית (Unsupervised Learning): בשלב הראשון אנו לומדים מספר קטן של נקודות במדויק. ב'לימוד', אנו מתייחסים למציאת התאמה בין מיקום לתבנית החזרות. מספר קטן של נקודות אימון (משמע, נקודות הנמדדות במדויק לפני הפעלת האלגוריתם בתנאי אמת) לא מספיק כדי לזהות את כל הקימורים ביריעה – אבל הן מהוות עוגן. בשלב השני, הלא-מונחה, אנו מוסיפים עוד ועוד נקודות מאותו החדר, וכך מקבלים תבניות החזרים מרובות העוזרות לנו להבין את מבנה היריעה ואת קימוריה. אחרי פרק זמן מסוים שבו נלמד החדר ונצבר מידע על המיקום של מספר נקודות רב - יהיה לנו קל לאכן כל נקודה חדשה, כי מצד אחד קימורי היריעה נלמדו, ומצד שני העוגנים, שנלמדו באופן מונחה, עיגנו אותה במרחב. לכן, כשתגיע נקודה חדשה ולא מוכרת, נוכל לזהות היכן היא ממוקמת בתוך היריעה הזו, מתוך השוואה לכל הנקודות שנצברו עד כה."
נשאלת השאלה האם ניתן להניח בתנאים ריאליים את קיומו של מידע אימון כנדרש. גנות טוען כי איסוף המידע הנחוץ אפשרי בהחלט, והוא מסתמך על העובדה שהרבה מאוד מהחיים המקצועיים שלנו מתנהלים במקומות קבועים, דוגמת המשרד שלנו, או כיתת הלימוד. עם זאת, כמובן - בחדר חדש תמיד נזדקק למדידה הראשונית, שנותנת את העוגן.
השיטה, שפותחה במסגרת עבודת הדוקטורט של ברכה לאופר-גולדשטיין בהנחיית פרופ' רונן טלמון מהטכניון וגנות, מדגימה ביצועים משופרים ביחס לגישות קלאסיות לאיכון בחדרים מהדהדים, וניתנת להרחבה גם למעקב אחר דובר הנע בחדר.
תאריך עדכון אחרון : 08/09/2020