Improving diffusion-based singlechannel model for speech enhancement
שיפור מודל חד ערוצי מבוסס דיפוזיה להשבחת דיבור
הרקע לפרויקט:
למידה עמוקה שינתה את פני תחום עיבוד האותות. לאחרונה, מודלים גנרטיביים מסוג רשתות דיפוזיות השתלבו גם הם בפתרון משימות שונות בעולם עיבוד אותות הדיבור כמו- הפרדת דוברים, טיוב דיבור וזיהוי דיבור אוטומטי. בפרויקט זה נתמקד בשיפור שיטות חד ערוציות לטיוב דיבור.
מטרת הפרויקט:
בפרויקט הסטודנטים יממשו רשתות שמסוגלות לשפר איכות של אותות דיבור מהדהדים ומורעשים. מטרת הפרויקט היא לשפר ביצועים של רשתות קיימות ע״י אימון ״ייעודי״ של רשת ה״מתמחה״ בטווח הדהוד/רעש מסוים. נבצע בדיקה מקיפה אם ניתן ועד כמה ניתן לשפר רשת קיימת ע״י fine-tunning באמצעות דטה בעל מאפיינים ספציפיים יותר (פחות הכללה). במסגרת הפרויקט נרצה לבנות GUI המאפשר שיפור של מקטעי דיבור אותם מכניס המשתמש, עם מספר פרמטרים נשלטים כמו- גודל החדר בו הוקלטה ההקלטה, רמת הרעש, רמת ההדהוד וכו
תכולת הפרויקט:
על הסטודנטים יהיה ללמוד חומר מתקדם בתחום למידה עמוקה ולשלוט בכתיבת קוד בפייתון עם ספריות ייעודיות בתחום. נתמקד ברשתות שהינן ״מומחיות״ עבור פרמטרים ספצייפים של הקלטה לדוגמא: עבור הקלטה רועשת יחסית או הקלטה יחסית שקטה, עבור הקלטה שהוקלטה בחדר קטן או הוקלטה בחדר גדול וכו׳.
קורסי קדם:
למידת מכונה, למידה עמוקה
אלגורתמים סטטיסטיים לעיבוד אותות
דרישות נוספות:
מודלים גנרטיביים
מקורות:
BUDDy: Single-channel Blind Unsupervised Dereverberation with Diffusion Models - https://arxiv.org/abs/2405.04272
תאריך עדכון אחרון : 20/11/2024