The Sound of Pixels

הסאונד של פיקסלים

מספר פרויקט
403
סטטוס - הצעה
הצעה
אחראי אקדמי
שנה
2025

הרקע לפרויקט:

למידה בלתי מונחית היא שיט ת learning machine בה ה מודל מנסה להתאמן על הדאטה ללא שום
תיוג , שיטות אלה נחשבות קשות יותר לאימון שכן המטרה בהן היא למצוא מבנה חבוי של הדאטה וללמוד מתוכו .
בפרויקט אנו נרצה לעשות שימוש בלמידה בלתי מונחית על מנת לאמן מודל הלומד למפות את האודיו המתאים לכל פיקסל מתוך סרטון וידאו . בעזרת השימוש במודל אפשר לבצע משימות רבות וביניהן : הפרדת דוברים, מציאת מיקום דובר בתמונה ועוד.

מטרת הפרויקט:

מימוש המודל על מנת ללמוד את האודיו המתאים לכל פיקסל בצורה בלתי מונחית ומתוך כך לאפשר הפרדת דוברים ומציאת מיקום של דובר בתמונה.

תכולת הפרויקט:

הבנה של שיטות learning deep.
הבנה של עבודה עם unsupervised data.
הבנה של המאמר.
שימוש ב"פייתון" על מנת לאמן את המודל המוצע במאמר.
קבלת תוצאות ושיפור המודל

קורסי קדם:

קורס עיבוד ספרתי 2
קורס למידה עמוקה

דרישות נוספות:

תכנות בpython ועבודה עם pyTorch.

מקורות:

Hang Zhao, Chuang Gan, Andrew Rouditchenko, et al. "The Sound of Pixels"
1. http://sound-of-pixels.csail.mit.edu/ - Paper website
2. https://arxiv.org/pdf/1804.03160 - Paper

תאריך עדכון אחרון : 30/09/2024