Tracking and Localization of Speakers in a Room Using CNN Extensions

מעקב ולוקליזציה של דוברים בחדר באמצעות הרחבות של רשתות קונבולוציה

מספר פרויקט
405
סטטוס - הצעה
הצעה
אחראי אקדמי
שנה
2025

הרקע לפרויקט:

מעקב ולוקליזציה של דוברים בתוך חדר הוא אתגר משמעותי בתחום עיבוד אותות אודיו. ארכיטקטורות שונות כגון רשתות קונבולוציה (CNNs) והרחבות שלהן, הראו הבטחה בהתמודדות עם אתגר זה. באופן ספציפי, האינטגרציה של רשתות זיכרון לטווח קצר (LSTM) עם רשתות CNN יכולה ללכוד תלות זמנית באותות אודיו, בעוד שרשתות קונבולוציה זמניות (TCNs) מציעות גישה חלופית לניתוח דפוסים זמניים ביעילות. במהלך הפרוייקט נבחן את ביצועי הרשתות הנ"ל בהקשר של עקיבת ואיכון דוברים

מטרת הפרויקט:

מטרת פרויקט זה היא לפתח ולהעריך שיטות למעקב ולוקליזציה (איכון) של רמקולים באמצעות ארכיטקטורות רשתות עצביות מתקדמות אלו. אנו שואפים לחקור את השילוב של רשתות LSTM עם CNNs ולחקור את הפוטנציאל של TCNs. בנוסף, התלמידים יצברו ניסיון מעשי על ידי הרצה והפעלת סימולציות ליצירת דאטה, אימון המודלים. בנוסף נבצע הקלטות חיות אמיתיות במעבדה האקוסטית כדי ליצור מערך נתונים מקיף להערכה ובדיקת המודלים.

תכולת הפרויקט:

ישום מודל אחד או מספר מודלים עבור לוקליזציה של דוברים
יצירת דאטה מסומלץ של דוברים בחדר
אימון של מודלים מתאימים
הערכת ביצועים וניתח את החוזקות והחולשות של המודל/ים

קורסי קדם:

עיבוד ספרתי 2, למידה עמוקה

מקורות:

  1. Exploiting Temporal Context in CNN Based Multisource DOA Estimation https://ieeexplore.ieee.org/document/9381644
  2. DataGen simulation (git): https://github.com/MayaVB/SpeakerLocGen

תאריך עדכון אחרון : 30/09/2024