Improving diffusion-based singlechannel model for speech enhancement

שיפור מודל חד ערוצי מבוסס דיפוזיה להשבחת דיבור

מספר פרויקט
432
סטטוס - הצעה
הצעה
אחראי אקדמי
שנה
2025

הרקע לפרויקט:

למידה עמוקה שינתה את פני תחום עיבוד האותות. לאחרונה, מודלים גנרטיביים מסוג רשתות דיפוזיות השתלבו גם הם בפתרון משימות שונות בעולם עיבוד אותות הדיבור כמו- הפרדת דוברים, טיוב דיבור וזיהוי דיבור אוטומטי. בפרויקט זה נתמקד בשיפור שיטות חד ערוציות לטיוב דיבור.

מטרת הפרויקט:

בפרויקט הסטודנטים יממשו רשתות שמסוגלות לשפר איכות של אותות דיבור מהדהדים ומורעשים. מטרת הפרויקט היא לשפר ביצועים של רשתות קיימות ע״י אימון ״ייעודי״ של רשת ה״מתמחה״ בטווח הדהוד/רעש מסוים. נבצע בדיקה מקיפה אם ניתן ועד כמה ניתן לשפר רשת קיימת ע״י fine-tunning באמצעות דטה בעל מאפיינים ספציפיים יותר (פחות הכללה). במסגרת הפרויקט נרצה לבנות GUI המאפשר שיפור של מקטעי דיבור אותם מכניס המשתמש, עם מספר פרמטרים נשלטים כמו- גודל החדר בו הוקלטה ההקלטה, רמת הרעש, רמת ההדהוד וכו

תכולת הפרויקט:

על הסטודנטים יהיה ללמוד חומר מתקדם בתחום למידה עמוקה ולשלוט בכתיבת קוד בפייתון עם ספריות ייעודיות בתחום. נתמקד ברשתות שהינן ״מומחיות״ עבור פרמטרים ספצייפים של הקלטה לדוגמא: עבור הקלטה רועשת יחסית או הקלטה יחסית שקטה, עבור הקלטה שהוקלטה בחדר קטן או הוקלטה בחדר גדול וכו׳.

קורסי קדם:

למידת מכונה, למידה עמוקה
אלגורתמים סטטיסטיים לעיבוד אותות

דרישות נוספות:

מודלים גנרטיביים

מקורות:

BUDDy: Single-channel Blind Unsupervised Dereverberation with Diffusion Models - https://arxiv.org/abs/2405.04272

תאריך עדכון אחרון : 20/11/2024