SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

למידת מקדמי 3D על מנת לחולל "ראש מדבר" ריאליסטי על ידי אודיו ותמונה

מספר פרויקט
402
סטטוס - הצעה
הצעה
אחראי אקדמי
שנה
2025

הרקע לפרויקט:

מודלים גנרטיביים הם מודלים המנסים ללמו ד או להתחקות אח ר התפלגות של דאטה ובצורה זאת מאפשרים לייצר דגימות חדשות מתוך הדאטה. דוגמאות למודלים גנרטיביים מוכרים: ChatGPT,Midjourney, DALL-E וכו'.
משימה מאתגרת בתחום המודלים הגנרטיביים היא יצירת "talking head" ע"י תמונה ומקטע אודיו, כאשר האתגרים במשימה כוללים ביניהם: תזוזה לא טבעי ת של הראש , הבעות פנים מעוותות , חוסר התאמה בתנועת השפתיים ועוד . בפרויקט נרצה לממש מודל גנרטיבי המקבל תמונה וקטע אודיו ונייצר וידאו 3D ריאליסטי ע"י יצירת פרמטרים לתנועת 3D מתוך האודיו ומיפוי של הפרמטרים לתוך רשת המייצרת את התוצר הסופי

מטרת הפרויקט:

מימוש המודל הגנרטיבי על מנת לנצל את המידע החבוי באודיו לטובת ייצור וידאו ריאליסטי עם התחשבות בפרמטרים של תנועת 3D.

תכולת הפרויקט:

הבנה של רשתות deep learning בכלל ו generative models בפרט .
הבנה של המאמר .
שימוש בפייתון על מנת לאמן את המודל במאמר .
קבלת תוצאות ושיפור של המודל.

קורסי קדם:

קורס עיבוד ספרתי 2
קורס למידה עמוקה

דרישות נוספות:

תכנות בpython ועבודה עם pyTorch

מקורות:

Wenxuan Zhang, Xiaodong Cun, et al. "SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation"
1. https://sadtalker.github.io./ - Paper website
2. https://arxiv.org/pdf/2211.12194 - Paper

תאריך עדכון אחרון : 30/09/2024