Visually Supervised Speaker Detection and Localization via Microphone Array | הפקולטה להנדסה ע"ש אלכסנדר קופקין

זיהוי ולוקליזציית דוברים בעזרת מערך מיקרופונים בפיקוח supervision וידיאו

מספר פרויקט

432

סטטוס - הצעה

הצעה

אחראי אקדמי

גנות שרון

שנה

2025

מסלול

התמחות בעיבוד אותות

מסלול משני

הנדסת תעשייה ומערכות מידע

הרקע לפרויקט:

זיהוי דוברים (ASD-Active Speaker Detection) היא משימה רב-מודאלי אודיו-ויזואליות (AV- Audio Video) שמטרתה לזהות מי (אם מישהו) מדבר מתוך קבוצה של מועמדים.

גישות AV נוכחיות עבור ASD מסתמכות בדרך כלל על מעקב וחילוץ רצפים עוקבים של תמונות פנים מווידאו ומאודיו חד ערוצי בהתאמה.

עם זאת, שיעור ההצלחה נמוך שכן בווידאו רק הפנים הגלויות נכללות במערך המועמדים. והאודיו החד ערוצי שיכול לזהות בהצלחה נוכחות של פעילות דיבור נכשל בלוקליזציה של הדובר עקב היעדר מידע מרחביים. הפתרון המוצע מרחיב את חזית האודיו באמצעות שימוש במערך מיקרופונים ואימון של רשתות קונבולוציה (CNN-Involutional Neural Network) בשילוב טכניקות של יצירת אלומה (BF-Beam Forming) כדי לשערך את המיקום האופקי של הדובר ישירות במסגרות הווידאו.

מטרת הפרויקט:

בפרויקט הסטודנטים יממשו ויאמנו רשתות אודיו-וידאו שמסוגלות לעקוב אחרי תמונות של פנים במסגרות הוידאו ולבצע גילוי וזיהוי של דובר מתוך קבוצה של דוברים. נחקור כיצד לחבר את הוידאו לאודיו ע"י רשתות ייעודיות ולבצע את הגילוי על הפריימים של הווידאו.

תכולת הפרויקט:

למידת חומר מתקדם בעיבוד המרחבי ושיטות שערוך מבוססות יצירת אלומה (BF-Beam Forming)
למידת חומר מתקדם בלמידה עמוקה
שליטה בקוד פייתון עם ספריות יעודיות בתחום
אינטגרציה, אימון ומימוש של מודלים מתקדמים בלמידה עמוקה בתחום האודיו והווידאו

קורסי קדם:

עיבוד ספרתי 2
למידה עמוקה

דרישות נוספות:

ידע/נסיון קודם שאינו קורס, או קורסים שרצוי לקחת אך אינם חובה.

מקורות:

Visually Supervised Speaker Detection and Localization via Microphone Array main_paper
face tracks algo (generate stack of face crops) python-seetaface2
ASD- automatic speech detector Paper: Active_Speakers_in_Context Code: https://github.com/fuankarion/active-speakers-context Dataset: AVA-ActiveSpeaker

תאריך עדכון אחרון : 05/12/2024