The Sound of Pixels
הסאונד של פיקסלים
הרקע לפרויקט:
למידה בלתי מונחית היא שיט ת learning machine בה ה מודל מנסה להתאמן על הדאטה ללא שום
תיוג , שיטות אלה נחשבות קשות יותר לאימון שכן המטרה בהן היא למצוא מבנה חבוי של הדאטה וללמוד מתוכו .
בפרויקט אנו נרצה לעשות שימוש בלמידה בלתי מונחית על מנת לאמן מודל הלומד למפות את האודיו המתאים לכל פיקסל מתוך סרטון וידאו . בעזרת השימוש במודל אפשר לבצע משימות רבות וביניהן : הפרדת דוברים, מציאת מיקום דובר בתמונה ועוד.
מטרת הפרויקט:
מימוש המודל על מנת ללמוד את האודיו המתאים לכל פיקסל בצורה בלתי מונחית ומתוך כך לאפשר הפרדת דוברים ומציאת מיקום של דובר בתמונה.
תכולת הפרויקט:
הבנה של שיטות learning deep.
הבנה של עבודה עם unsupervised data.
הבנה של המאמר.
שימוש ב"פייתון" על מנת לאמן את המודל המוצע במאמר.
קבלת תוצאות ושיפור המודל
קורסי קדם:
קורס עיבוד ספרתי 2
קורס למידה עמוקה
דרישות נוספות:
תכנות בpython ועבודה עם pyTorch.
מקורות:
Hang Zhao, Chuang Gan, Andrew Rouditchenko, et al. "The Sound of Pixels"
1. http://sound-of-pixels.csail.mit.edu/ - Paper website
2. https://arxiv.org/pdf/1804.03160 - Paper
תאריך עדכון אחרון : 30/09/2024