Visually Supervised Speaker Detection and Localization via Microphone Array
זיהוי ולוקליזציית דוברים בעזרת מערך מיקרופונים בפיקוח supervision וידיאו
הרקע לפרויקט:
זיהוי דוברים (ASD-Active Speaker Detection) היא משימה רב-מודאלי אודיו-ויזואליות (AV- Audio Video) שמטרתה לזהות מי (אם מישהו) מדבר מתוך קבוצה של מועמדים.
גישות AV נוכחיות עבור ASD מסתמכות בדרך כלל על מעקב וחילוץ רצפים עוקבים של תמונות פנים מווידאו ומאודיו חד ערוצי בהתאמה.
עם זאת, שיעור ההצלחה נמוך שכן בווידאו רק הפנים הגלויות נכללות במערך המועמדים. והאודיו החד ערוצי שיכול לזהות בהצלחה נוכחות של פעילות דיבור נכשל בלוקליזציה של הדובר עקב היעדר מידע מרחביים. הפתרון המוצע מרחיב את חזית האודיו באמצעות שימוש במערך מיקרופונים ואימון של רשתות קונבולוציה (CNN-Involutional Neural Network) בשילוב טכניקות של יצירת אלומה (BF-Beam Forming) כדי לשערך את המיקום האופקי של הדובר ישירות במסגרות הווידאו.
מטרת הפרויקט:
בפרויקט הסטודנטים יממשו ויאמנו רשתות אודיו-וידאו שמסוגלות לעקוב אחרי תמונות של פנים במסגרות הוידאו ולבצע גילוי וזיהוי של דובר מתוך קבוצה של דוברים. נחקור כיצד לחבר את הוידאו לאודיו ע"י רשתות ייעודיות ולבצע את הגילוי על הפריימים של הווידאו.
תכולת הפרויקט:
- למידת חומר מתקדם בעיבוד המרחבי ושיטות שערוך מבוססות יצירת אלומה (BF-Beam Forming)
- למידת חומר מתקדם בלמידה עמוקה
- שליטה בקוד פייתון עם ספריות יעודיות בתחום
- אינטגרציה, אימון ומימוש של מודלים מתקדמים בלמידה עמוקה בתחום האודיו והווידאו
קורסי קדם:
- עיבוד ספרתי 2
- למידה עמוקה
דרישות נוספות:
ידע/נסיון קודם שאינו קורס, או קורסים שרצוי לקחת אך אינם חובה.
מקורות:
- Visually Supervised Speaker Detection and Localization via Microphone Array main_paper
- face tracks algo (generate stack of face crops) python-seetaface2
- ASD- automatic speech detector Paper: Active_Speakers_in_Context Code: https://github.com/fuankarion/active-speakers-context Dataset: AVA-ActiveSpeaker
תאריך עדכון אחרון : 05/12/2024