פרויקטי גמר - תואר ראשון בהנדסת חשמל (B.Sc) - לעמוד בחזית הטכנולוגיה - התמחות בעיבוד אותות תשפ"ה
הרקע לפרויקט:
במערכות התקשורת של מחר, השימוש בתדרים גבוהים, רוחב פס רחב ומערכים גדולים של אנטנות יאפשרו חישה מדויקת וברזולוציה גבוהה, אשר יכולה לסייע בשילוב של חישת הסביבה ותקשורת אלחוטית במערכת אחת להפקת תועלת הדדית. מצד אחד, רשת התקשורת תשמש כחיישן - אותות הרדיו המועברים והמתקבלים על ידי רכיבי הרשת יכולים לשמש לחישה ולהבנה טובה יותר של העולם הפיזי לצרכים שונים, כגון איכון. מצד שני, היכולות החדשות שיתקבלו יאפשרו שיפור של ביצועי התקשורת (למשל, קביעת כיווניות שידור ההודעה באופן מדויק יותר). בפרויקט זה ננסה לפתח שיטה חדשה לקליטה איכותית ומהימנה של אותות החישה והתקשורת המשודרים לצורך השבחת ביצועים.
מטרת הפרויקט:
מטרת הפרוקיט הינה פיתוח פתרון אלגוריתמי, מבוסס רשת עמוקה, עם ביצועים משופרים (ביחס לאלגוריתם מוביל) למקלט במערכת תקשורת משולבת חישה. הסטונדט/ית יממשו שיטה חדשנית קיימת על סמך המאמר [1] שפורסם לאחרונה (ראה "מקורות" מטה), ויאמנו רשת עמוקה להפרדת אותות משופרת, אשר תוביל להשבחת ביצועי המערכת, הן כמערכת תקשורת והן כמערכת חישה.
תכולת הפרויקט:
1. קריאת מאמרים, ובפרט [1] (המאמר המופיע תחת "מקורות")
2. מימוש האלגוריתם המופיע ב-[1] ושחזור מדויק של התוצאות המופיעות בו כביסוס אמת מידה לביצועים
3. אימון רשת עמוקה בגישת למידת מונחית להפרדת אותות התקשורת והחישה
4. השוואת ביצועים בסימולציה ממוחשבת ל-[1] ואמות מידה נוספות אשר יימצאו רלונטיות בזמן הפרויקט
קורסי קדם:
1. עיבוד ספרתי של אותות 1
2. תקשורת ספרתית 1
3. מבוא ללמידת מכונה
(הנ"ל מומלץ, לא חובה)
דרישות נוספות:
1. ידע בסיסי בעיבוד אותות ותקשורת ספרתית
2. תכנות ברמה גבוהה ב-Python, בדגש על אימון רשתות עמוקות
מקורות:
[1] Wang, Jiale, et al. "A Power-Domain Non-Orthogonal Integrated Sensing and Communication Waveform Design Using OFDM." IEEE Wireless Communications Letters (2024). https://ieeexplore.ieee.org/document/10411013
הרקע לפרויקט:
מודלים גנרטיביים הם מודלים המנסים ללמו ד או להתחקות אח ר התפלגות של דאטה ובצורה זאת מאפשרים לייצר דגימות חדשות מתוך הדאטה. דוגמאות למודלים גנרטיביים מוכרים: ChatGPT,Midjourney, DALL-E וכו'.
משימה מאתגרת בתחום המודלים הגנרטיביים היא יצירת "talking head" ע"י תמונה ומקטע אודיו, כאשר האתגרים במשימה כוללים ביניהם: תזוזה לא טבעי ת של הראש , הבעות פנים מעוותות , חוסר התאמה בתנועת השפתיים ועוד . בפרויקט נרצה לממש מודל גנרטיבי המקבל תמונה וקטע אודיו ונייצר וידאו 3D ריאליסטי ע"י יצירת פרמטרים לתנועת 3D מתוך האודיו ומיפוי של הפרמטרים לתוך רשת המייצרת את התוצר הסופי
מטרת הפרויקט:
מימוש המודל הגנרטיבי על מנת לנצל את המידע החבוי באודיו לטובת ייצור וידאו ריאליסטי עם התחשבות בפרמטרים של תנועת 3D.
תכולת הפרויקט:
הבנה של רשתות deep learning בכלל ו generative models בפרט .
הבנה של המאמר .
שימוש בפייתון על מנת לאמן את המודל במאמר .
קבלת תוצאות ושיפור של המודל.
קורסי קדם:
קורס עיבוד ספרתי 2
קורס למידה עמוקה
דרישות נוספות:
תכנות בpython ועבודה עם pyTorch
מקורות:
Wenxuan Zhang, Xiaodong Cun, et al. "SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation"
1. https://sadtalker.github.io./ - Paper website
2. https://arxiv.org/pdf/2211.12194 - Paper
הרקע לפרויקט:
למידה בלתי מונחית היא שיט ת learning machine בה ה מודל מנסה להתאמן על הדאטה ללא שום
תיוג , שיטות אלה נחשבות קשות יותר לאימון שכן המטרה בהן היא למצוא מבנה חבוי של הדאטה וללמוד מתוכו .
בפרויקט אנו נרצה לעשות שימוש בלמידה בלתי מונחית על מנת לאמן מודל הלומד למפות את האודיו המתאים לכל פיקסל מתוך סרטון וידאו . בעזרת השימוש במודל אפשר לבצע משימות רבות וביניהן : הפרדת דוברים, מציאת מיקום דובר בתמונה ועוד.
מטרת הפרויקט:
מימוש המודל על מנת ללמוד את האודיו המתאים לכל פיקסל בצורה בלתי מונחית ומתוך כך לאפשר הפרדת דוברים ומציאת מיקום של דובר בתמונה.
תכולת הפרויקט:
הבנה של שיטות learning deep.
הבנה של עבודה עם unsupervised data.
הבנה של המאמר.
שימוש ב"פייתון" על מנת לאמן את המודל המוצע במאמר.
קבלת תוצאות ושיפור המודל
קורסי קדם:
קורס עיבוד ספרתי 2
קורס למידה עמוקה
דרישות נוספות:
תכנות בpython ועבודה עם pyTorch.
מקורות:
Hang Zhao, Chuang Gan, Andrew Rouditchenko, et al. "The Sound of Pixels"
1. http://sound-of-pixels.csail.mit.edu/ - Paper website
2. https://arxiv.org/pdf/1804.03160 - Paper
הרקע לפרויקט:
בפרויקט נשתמש בעיקר בטכנולוגיות של זיהוי תמונה ושליטה על מכשיר דרך קראות API. בפרויקט נריץ סריקה של מיקרוסקופ על צ'יפ' תוך כדי שמירת צילומים של הצ'יפ, פונקציונליות זו תאפשר על ידי שליטה על המנועים המניעים את המיקרוסקופ מתוך תוכנית העושה שימוש בקראות לAPI של המיקרוסקופ. תוך כדי הסריקה נפעיל אלגוריתם זיהוי תמונה על התמונות השמורות על מנת לזהות אם נתקלנו בflake של גרפן על גבי בצ'יפ'. במקרה שכן נתעד את הגרפן באמצעות לקיחת שתמונות ושמירת מיקום XY.
מטרת הפרויקט:
מטרת הפרויקט היא להגיע למצב שהמיקרוסקופ מסוגל לסרוק ולתעד את חלקי הגרפן שנמצאים על הצ'יפ באופן אוטונומי עם אפשרויות להתקדמות עתידי לזהות חומרים נוספים שחלקים קשים יותר לזהות .
תכולת הפרויקט:
על הסטודנט לבנות מודל זיהוי תמונה בעל דיוק טוב בזיהוי הגרפן ולשלב זאת לתוך השליטה על המיקרוסקופ ולהגיע למצב וסופי של סנכרון בין המערכות המאפשר סריקה אוטונומי של צ'יפ ללא התערבות אנושי.
קורסי קדם:
מבוא ללמידת מכונה (ניתן במקביל)
הרקע לפרויקט:
מעקב ולוקליזציה של דוברים בתוך חדר הוא אתגר משמעותי בתחום עיבוד אותות אודיו. ארכיטקטורות שונות כגון רשתות קונבולוציה (CNNs) והרחבות שלהן, הראו הבטחה בהתמודדות עם אתגר זה. באופן ספציפי, האינטגרציה של רשתות זיכרון לטווח קצר (LSTM) עם רשתות CNN יכולה ללכוד תלות זמנית באותות אודיו, בעוד שרשתות קונבולוציה זמניות (TCNs) מציעות גישה חלופית לניתוח דפוסים זמניים ביעילות. במהלך הפרוייקט נבחן את ביצועי הרשתות הנ"ל בהקשר של עקיבת ואיכון דוברים
מטרת הפרויקט:
מטרת פרויקט זה היא לפתח ולהעריך שיטות למעקב ולוקליזציה (איכון) של רמקולים באמצעות ארכיטקטורות רשתות עצביות מתקדמות אלו. אנו שואפים לחקור את השילוב של רשתות LSTM עם CNNs ולחקור את הפוטנציאל של TCNs. בנוסף, התלמידים יצברו ניסיון מעשי על ידי הרצה והפעלת סימולציות ליצירת דאטה, אימון המודלים. בנוסף נבצע הקלטות חיות אמיתיות במעבדה האקוסטית כדי ליצור מערך נתונים מקיף להערכה ובדיקת המודלים.
תכולת הפרויקט:
ישום מודל אחד או מספר מודלים עבור לוקליזציה של דוברים
יצירת דאטה מסומלץ של דוברים בחדר
אימון של מודלים מתאימים
הערכת ביצועים וניתח את החוזקות והחולשות של המודל/ים
קורסי קדם:
עיבוד ספרתי 2, למידה עמוקה
מקורות:
- Exploiting Temporal Context in CNN Based Multisource DOA Estimation https://ieeexplore.ieee.org/document/9381644
- DataGen simulation (git): https://github.com/MayaVB/SpeakerLocGen
הרקע לפרויקט:
המרת אות אנלוגי לאות דיגיטלי היא אחת הפעולות החשובות והנפוצות ביותר ברוב (אם לא כל) המכשירים הטכנולוגיים הקיימים היום. לצורך ייעול פעולה זו, לאחרונה הוצעה ארכיטקטורה חדשה לרכיב המבצע פעולה זו, המבוססת על פעולת (דחיסה) מודולו אנלוגית ושחזור המידע שאבד (עקב פעולת דחיסה זו) ע"י פעולות דיגיטליות בלבד. בפרויקט זה תפותח הרחבה (/שכלול) של אלגוריתם החיזוי על בסיס טכניקות למידת מכונה, ובכך דיוק המרת האות ואמינות אלגוריתם שחזור האות יעלו עוד יותר על רמות הדיוק והאמינות שמספק האלגוריתם הנוכחי.
מטרת הפרויקט:
הסטודנטים יתכננו ויממשו ארכיטקטורת רשת נוירונים שתחליף בפועל את אלגוריתם החיזוי הקיים. הרשת תאומן עבור קבוצה של אותות עניין (ביניהם, אותות תקשורת נפוצים), ותשולב באלגוריתם הכללי לשחזור אות המידע באופן דיגיטלי. תבוצע השוואה בסימולציות בין ביצועי האלגוריתם הקיים לבין ביצועי האלגוריתם המשופר.
תכולת הפרויקט:
1. קריאת המאמרים הרלוונטיים ולימוד החומר התיאורטי הנדרש לפרויקט, הכוללים, בין היתר, דחיסה ע"י מודולו, סינון סיבתי אופטימלי לחיזוי דגימה עתידית בסדרה זמנית, סינון מסתגל, כימוי (קוונטיזציה), אימון רשתות נוירונים
2. מימוש האלגוריתם הקיים
3. בחירת ארכיטקטורה ואימון רשת נוירונים למימוש פעולת הסינון לצורך חיזוי מדויק יותר
4. שילוב הרשת שאומנה באלגוריתם השחזור
5. סימולציה מלאה של המרת האות האנלוגי לאות דיגיטלי עבור קבוצה של סוגי אותות מידע שונים
6. השוואת ביצועים בין האלגוריתמים ע"י סימולציית מחשב
קורסי קדם:
ניתוח סטטיסטי של מידע (83420), מבוא ללמידת מכונה (83622)
דרישות נוספות:
תורת האינפורמציה (83620)
מקורות:
Weiss, A., Huang, E., Ordentlich, O. and Wornell, G. W., “Blind Modulo Analog-to-Digital Conversion”, IEEE Trans. on Signal Processing, vol. 70, pp. 4586–4601, Aug. 2022. Arxiv link: https://arxiv.org/abs/2108.08937
הרקע לפרויקט:
טכנולוגיות לבישות, המשולבות בגוף ובמערכות ביולוגיות כבר כאן, לרוב הן מתקשרות עם נקודת קצה קרובה (למשל סלולרי או אנטנה) וצריכת אנרגיה נמוכה, הינה קריטית עבור מערכות אלו. כמו כן, אבטחה היא גורם משמעותי היות ואינפורמציה רגישה נעה במערכות אלו (חשבו על מוניטור לחץ דם או משאבת אינסולין אקטיבית). לכן עלות האבטחה מבחינת מימוש ואנרגיה היא קריטית. בפרויקט הסטודנטים יקבלו מידע \ מדידות ממכשור מדידה המגיע ממדידות על גוף נסיינים בשיתוף עם תעשייה. המידע יגיע ממגוון סנסורים, time-series ממודד לחץ דם \ מודד זיעה\ מדידות אופטיות ואפילו אקוסטיות.
הסטודנטים יפעילו כלי אנליזה מעולם הסיווג ולימוד המכונה ומטרתם תהיה אפיון ומציאת פיטשרים ייחודיים וחזרתיים מכל ערוץ ובניית ensemble ליצירת חתימה ביולוגית למשתמש. על גבי מנגנון זה ניתן ליישם אבטחה זולה הרבה יותר למערכות אלו.
זהו פרויקט המשך שבו הראנו יישימות. בפרויקט הזה נשפר את האנליזה והניתוח ובנוסף נוסיף מנגנון ייחודי לייצר מדידות \ חתמיות "דטרמניסטיות" ולא רועשות ממדידות רועשות על מנגנון FUZZY EXTRACTOR, בנוסף ללמידת המכונה והקלסיפיקציה.
מטרת הפרויקט:
מימוש מערכת עובדת מלאה והדגמה עם דאטה בייס גדול ומשמעותי
תכולת הפרויקט:
הסטודנטים יקראו וילמדו שיטות ניתוח של ספרות קודמת. ילמדו את צורת המידע והדאטה שמגיע מהמדידות. ינתחו מאפיינים שלו ויבנו ויאמנו מספר מכונות קלסיפיקציה ולוגיקה של FUZZY EXTRACTOR. ינתחו יכולת לשלב מדדים שונים מדאטה בייסים שונים, ייבנו מודלים "משכללים" ומאחדים. ולבסוף יבצעו בחינת אומדנים לייחודיות וחזרתיות של ה"חתימות הביולוגיות" ויכולות הקלסיפיקציה.
קורסי קדם:
כל קורס קודם המספק ידע בנושאים:
ידע קודם בסיסי בלמידת מכונה \ קלסיפיקציה \ רגרסיה
ייתרון לסטודנטים בעלי שליטה בבניית מודלים בפייטון (או מטלב), למשל עצים, Random-Forest, ensembles, ANN \ CNN RNN\ DNN
דרישות נוספות:
הבנה של קודים לתיקון שגיאות ייתרון (אך לא חובה)
יכולות תכנותיות ואנליטיות גבוהות.
נכונות להיקף עבודה משמעותי.
מקורות:
- Jain, Anil K., Arun Ross, and Salil Prabhakar. "An introduction to biometric recognition." IEEE Transactions on circuits and systems for video technology 14.1 (2004): 4-20.
- McGoldrick, Leif K., and Jan Halámek. "Recent advances in noninvasive biosensors for forensics, biometrics, and cybersecurity." Sensors 20.21 (2020): 5974.
- Hair, Mindy E., et al. "Metabolite biometrics for the differentiation of individuals." Analytical chemistry 90.8 (2018): 5322-5328.
- https://ranger.uta.edu/~mingli/publications/Pairing.pdf
שם המנחה: גל כהן
אחראי/ת אקדמי/ת: איתמר לוי
הרקע לפרויקט:
As digital threats evolve, protecting embedded systems becomes increasingly vital. This project explores how AI can be used to perform advanced cyber attacks on these systems, focusing on vulnerabilities in technologies like Bluetooth, WiFi, Zigbee, and LoRa. By integrating AI algorithms with signal processing and spectrogram analysis, the project aims to reconstruct CPU operations and extract secret keys from RF transmissions. This initiative combines practical coding with innovative research, preparing students to address contemporary cybersecurity challenges.
מטרת הפרויקט:
AI System capable of Reconstructing CPU Operations from RF Transmissions to Steal Secret Keys (e.g., Bluetooth, WiFi, Zigbee, LoRa) and private information.
תכולת הפרויקט:
the project consists of :
- Coding for embedded systems
- Engineering AI algorithms designed to breach secure systems
- Applying data science techniques
- Mastering AI classification algorithms
- Working with spectrograms and signal processing
While the completion of a final project is not mandatory, we do require significant progress in at least one of the fields mentioned above.
קורסי קדם:
פשוט תבואו עיקר המטרה זה שתלמדו :) אין צורך או ציפיה לידע קודם.
דרישות נוספות:
פשוט תבואו עיקר המטרה זה שתלמדו :) אין צורך או ציפיה לידע קודם.
מקורות:
מאמר 4 הוא הכי רלוונטי לפרויקט :) אך גם שונה במהותו
- Danieli E, Goldzweig M, Avital M, Levi I. "Revealing the Secrets of Radio Embedded Systems: Extraction of Raw Information via RF". IEEE Transactions on Information Forensics and Security. 2023 Dec 20. (Final Extended version)
הרקע לפרויקט:
בשנים האחרונות מתרחב השימוש בכלי תוכנה מבוססים קוד פתוח.
מטרת הפרויקט להנגיש ולפתח בצורה גרפית קוד אשר יהפוך באופן אוטומטי לתוכנית שתרוץ על המחשב שלנו. גישת פיתוח זו מקצרת באופן משמעותי את זמני הפיתוח של אב טיפוס של המוצרים.
מטרת הפרויקט:
נגישות לכלי תוכנה לפיתוח אלגוריתמי DSP תורמת לקיצור זמנים בפיתוח של אב טיפוס של המוצר. סביבות עבודה גרפיות נפוצה ל FAST PROTOTYPING הינה Matlab/SIMULINK [ 1] , ראה מודל סימולינק לדוגמה בלינק : https://www.eng.biu.ac.il/~pinit/Proj_2023/SIMULINK_example.JPG ).
רשיון מטלב עם DSP TOOLBOX יכול להגיע למאות או אלפי דולרים לעמדה בודדת בארגון.
שימוש בכלי פיתוח שהם Freeware software יכול להנגיש את הכלים לקהל מטרה רחב יותר.
כמו כן, כלים שהם Freeware software יכולים להוות בסיס להוראה של מעבדת DSP ותקשורת בקמפוסים בעלי יכולות כלכליות מוגבלות.
תכולת הפרויקט:
בפרויקט זה נמשיך לפתח DSP TOOLBOX בנושאים מגוונים דוגמת סינון, משפט הדגימה, אינטרפולציה ודצימציה וסינון אדפטיבי.
במסגרת הפרויקט יבחנו מספר סביבות עבודה גרפיות [2-5] לצורך החלפת Matlab/SIMULINK למימוש FAST PROTOTYPING [1]
קורסי קדם:
עיבוד ספרתי 1
אלגוריתמים סטטיסטיים
מקורות:
- Gannot, S., & Avrin, V. (2006, September). A Simulink© and Texas instruments C6713® based digital signal processing laboratory. In 14th European Signal Processing Conference, 2006. (https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7071073 )
- https://www.scilab.org/software, an open-source matlab + Simulink (scilab + xcos)
- https://github.com/severin-lemaignan/boxology
- https://github.com/node-red/node-red
- https://github.com/leon-thomm/Ryven (Python)
הרקע לפרויקט:
זיהוי זליגה עם וקטור מבחן (TVLA) הינה מתודולוגיה המשמשת באבטחת קריפטוגרפיה לגילוי חולשות לערוצי צד ביישומים קריפטוגרפיים. התקפות ערוצי צד מנצלות דליפות פיזיות, כגון צריכת חשמל או קרינות אלקטרומגנטיות, כדי להוציא מידע סודי כמו מפתחות קריפטוגרפיים. TVLA משתמשת בטכניקות סטטיסטיות לניתוח הקורלציה בין דליפות פיזיות אלו לבין המידע הסודי המעובד על ידי האלגוריתם הקריפטוגרפי. על ידי בדיקה שיטתית עם וקטורי קלט שונים וניתוח הדליפות הנובעות, TVLA מכמתת את כמות המידע הסודי שדלף. שיטה זו מאומצת באופן נרחב בתחום אבטחת החומרה כדי להבטיח שמכשירים קריפטוגרפיים, כגון כרטיסים חכמים ומעבדים מאובטחים, עמידים בפני התקפות מסוג זה. מתודולוגיה זו מספקת גישה קפדנית ומנורמלת בין מכשירים להערכת הקריטריונים המשותפים של יישומים קריפטוגרפיים נגד חולשות פוטנציאליות, מה שהופך אותה לכלי חיוני למפתחים וחוקרי אבטחה.
מטרת הפרויקט:
מימוש מבחן סטטיסטי מרובה-משתנים למומנט סטטיסטי גבוה בסביבת matlab/python, וניתוח דגימות שנמדדו ע"ג MCU/FPGA המריץ סכימות הצפנה מבוססות בלוקים שונות (ASCON, AES).
תכולת הפרויקט:
(1)סקירה ספרותית ולמידה מעמיקה של האלגוריתם למימוש, כפי המוצע ב[1], (2)מימוש האלגוריתם ודיבוג בIDE הנבחר (3)מדידות חומרה של סכימות הצפנה מבוססות בלוקים ע"ג MCU/FPGA (4)ניתוח המדידות באמצעות האלגוריתם הממומש
קורסי קדם:
מבוא לסטטיסטיקה, אלגברה ליניארית למהנדסים, אותות אקראיים ורעש, מבוא לאבטחת חומרה
דרישות נוספות:
הכרות מעמיקה עם python/matlab
מקורות:
- Leakage Assessment Methodologyhttps://www.iacr.org/archive/ches2015/92930478/92930478.pdf
- Recognition of Common Criteria Certificates https://www.commoncriteriaportal.org/cc/index.cfm
הרקע לפרויקט:
מודלים של למידה עמוקה מצריכים משאבים רבים של זיכרון וכח מיחשוב חזק. פרויקט זה עוסק בניתוח ואופטימיזציה של מערכות למידה עמוקה בזמן האימון והשימוש במודלים.
מטרת הפרויקט:
מטרת הפרויקט הנה להקטין את גודל המודלים ולהקטין את העומס החישובי על ה GPU תוך שמירה על ביצועים (BIT EXACT ). במהלך הפרויקט יבחנו ביצועים של מספר מודלים מסחריים (התלמידים יעשו סקר ספרות על שוק ה [1-3] CHATBOTS ), מודלים אשר פותחו במעבדה ומודלים שיפותחו במהלך הפרויקט.
בפרויקט נבחן ביצועים של המערכת כתלות בגודל משתנה המודל (double vs. Int16 וכו') ומספר הפרמטרים ביחס למודל המקורי.
כמו כן תבדק סיפריית JIT לפיתון [ 8-10 ] לצורך שיפור ביצועים ב CPU ויבחנו כלי PROFILING ל CPU [11]
תכולת הפרויקט:
במסגרת הפרויקט יבחנו מגוון כלים אשר נמצאים בשוק, למשל:
1. עבודה עם כלים לביצוע PROFILING לנצילות השימוש ב GPU [6]
2. כלים ל MODEL INFERANCE [4,5]
3. השוואת ביצועים בעזרת מדדים סטטיסטיים.
קורסי קדם:
פיתון ברמה גבוהה
מקורות:
1. https://openai.com/blog/introducing-chatgpt-and-whisper-apis
2. https://bard.google.com/chat
3. https://lmsys.org/blog/2023-03-30-vicuna/
4. https://developer.nvidia.com/tensorrt-getting-started
5. https://onnx.ai/
6. https://developer.nvidia.com/nsight-systems/get-started
7. https://developer.nvidia.com/nsight-compute
8. https://numba.pydata.org/
9. https://numba.readthedocs.io/en/stable/user/5minguide.html
10. https://www.nvidia.com/en-us/glossary/numba/
11. https://docs.python.org/3/library/profile.html#module-cProfile
הרקע לפרויקט:
ה Chatbots [ 1,2,3] פולשים לחיינו ואנו נפתח מערכת מערכת לשילובם במחשבים נידים
כיום קימים מגוון של Chatbots, בפרויקט זה נסקור את הקיים בשוק ונתמקד בעלות מיטבית תוך שמירה על רמת ביצועים סבירה [ 3]
בהמשך תבחן גם אפשרות לשילוב המערכת ברובוט חברתי [7] אשר משמש ככוח עזר בבית חולים.
מטרת הפרויקט:
בפרויקט זה נפתח מערכת שמע ובינה מלאכותית הכוללת:
1) הרכשת הדיבור בעזרת מיקרופון/מערך מיקרופונים [6]
2) עיבוד ראשוני של אות הדיבור (יבחן שילוב אלגוריתם ניקוי רעשים שפותח במעבדה)
3) זיהוי דיבור (העברת שמע לטקסט) [4]
4) צ'אטבוט
5) מערכת text-to-speech שתיצור אות דיבור מהטקט שחיבר הצ'אטבוט [5]
6) שידור הדיבור ברמקול.
הדגש בפרויקט יהיה על שילוב הצ'אטבוט במערכת עם מימוש ב PC וברובוט בסביבת ROS [8]
תכולת הפרויקט:
1. בחירת chatbot לפרויקט ולהגדירו כמומחה לתחום מסויים – למשל : אינטראקציה עם זקנים , מועדון של אוהדי מכבי תל אביב וכו
2. הפעלת ASR & TTS
3. שילוב מערך מיקרופונים
4. בחינת ביצועים של המערכת
קורסי קדם:
פיתון ברמה גבוהה
מקורות:
1. https://openai.com/blog/introducing-chatgpt-and-whisper-apis
2. https://bard.google.com/chat
3. https://lmsys.org/blog/2023-03-30-vicuna/
4. https://cloud.google.com/speech-to-text
5. https://cloud.google.com/text-to-speech?hl=en
6. Microphone array HW site : https://www.seeedstudio.com/ReSpeaker-Mic-Array-Far-field-w-7-PDM-Micro… , https://wiki.seeedstudio.com/ReSpeaker_Mic_Array/
7. https://pal-robotics.com/robots/ari/
8. https://www.ros.org/
הרקע לפרויקט:
בשנים האחרונות שיטות למידה עמוקה משמשות למשימות רבות כולל לשיפור שמע והנחתת רעשים. לצורך אימון הרשת יש להגדיר פונקציית לוס לפיה ישתפר המודל, אך הקשר בין מדד שיפור אחד לשני אינו בהיר דיו. בנושא מחקר זה נעמוד על הקשר בין מדדי האיכות השונים הרלוונטים לצורך אימון הרדת
מטרת הפרויקט:
בפרויקט זה נחקור את הקשר בין מדדי איכות שונים עבור הורדת רעש כתלות בפונקציה לפיה מתאמנת הרשת. נאמן רשת נוירונים עבור שיפור איכות השמע
תכולת הפרויקט:
יצירת דאטא, בניית רשת, אימון הרשת והשוואת התוצאות בין המדדים השונים
קורסי קדם:
עיבוד אותות ספרתי 2
למידה עמוקה
מקורות:
הרקע לפרויקט:
בשנים האחרונות השימוש בשיטות למידה עמוקה עבור אותות דיבור תופס מקום מרכזי בעולם המחקרי. ניתן להשתמש בכלי זה לצורך משימות שונות ובהם זיהוי אלמנטים מסויימים בנוגע לדובר הנתון לנו.
מטרת הפרויקט:
בפרויקט זה נשתמש בשיטות AI לצורך סיווג הקלטה נתונה – האם מדובר בגבר או באישה. הסיווג יתבצע תחת תנאי הדהוד ורעש כך שהמודל ילמד להכליל סיטואציות שונות
תכולת הפרויקט:
יצירת דאטא, בניית רשת, אימון הרשת וניתוח תוצאות
קורסי קדם:
עיבוד אותות ספרתי 2
למידה עמוקה
מקורות:
https://ieeexplore.ieee.org/abstract/document/9054073
הרקע לפרויקט:
חיישנים אקוסטים וקטורים מאפשרים מדידה של השדה האקוסטי באופן מלא, ובכך מאפשרים יכולות (למשל, בתחום האיכון) שלא אפשריות עם מערכי מיקרופונים. לפיכך, ישנו ערך מדעי, ופרקטי עתידי, לפיתוח אלגוריתמים המתאימים למערכות המצוידות ברכיבים אלה. בפרויקט זה יעשה שילוב בין יכולת חישה מתקדמת זו לבין יכולות מתקדמות מתחום למידת מכונה, לצורך פיתוח אלגוריתם לשערוך זווית.
מטרת הפרויקט:
מטרת הפרויקט הינה פיתוח ותכנון פתרון המבוסס על רשת נוירונים לצורך שערוך כיוון הגעה של אות אקוסטי מדגימות שעברו קוונטיזציה גסה - ביט בודד לדגימה. השימוש ברשתות נועד לנצל את הקשר הלא ליניארי בין האותות הדחוסים לבין כיווני ההגעה של המקורות האקוסטיים בסביבת הפעולה.
התוצרים הסופיים של הפרויקט יהיו קוד פתוח לאימון הרשת בתרחיש העניין, הסבר מפורט על ארכיטרקטורת הרשת, והשוואת תוצאות בסימולציית מחשב (במונחי דיוק השערוך) בין ביצועי שיטות קיימות לשיטה המוצעת.
תכולת הפרויקט:
1. קריאת מאמרים רלוונטיים והבנת מודל האותות והגדרת הבעיה
2. מימוש השיטות הקיימות בקוד (סביבת מטלב או פייתון)
3. פיתוח פתרון מבוסס רשת נוירונים, אימון הרשת, וכתיבת סימולציה לבחינת ביצועי הרשת
4. השוואה בין ביצועי כלל השיטות במספר סימולציות
קורסי קדם:
מבוא ללמידת מכונה (83622), ניתוח סטטיסטי של מידע (83420), אלגוריתמים סטטיסטיים לעיבוד אותות (83321)
מקורות:
Weiss, A., “Blind Direction-of-Arrival Estimation in Acoustic Vector-Sensor Arrays via Tensor Decomposition and Kullback-Leibler Divergence Covariance Fitting”, IEEE Trans. on Signal Processing, vol. 69, pp. 531–545, Dec. 2020. Link to arxiv version: https://arxiv.org/pdf/2005.08318.pdf
הרקע לפרויקט:
In this project we will explore methods to train a denoiser from unaligned noisy images. The deep learning approaches that have been proposed in the past years for training a denoiser without g.t. clean data do not exploit connection between mismatched images of the same object.
מטרת הפרויקט:
The goal of the project is to design a deep learning method for training a denoiser from unaligned noisy images that outperforms existing methods (which currently do not fully the information shared between such images).
תכולת הפרויקט:
- Exploring the performance of current methods when trained on unaligned noisy images (starting with noisy shifted versions) and identifying gaps.
- Proposing a mathematically-backed method for the problem at hand.
- Training a model that outperforms existing alternatives.
- Potentially: generalizing the idea from shifts to more general transformations.
קורסי קדם:
קורס מבוא ללמידת מכונה, הרשמה לקורס למידה עמוקה
מקורות:
* https://arxiv.org/abs/1803.01314
* https://arxiv.org/abs/1803.04189
הרקע לפרויקט:
Restoration algorithms are oftentimes evaluated by different criteria. For example, we may want a restored image to be both accurate (low distortion) and perceptually pleasing (as if it is a natural image). A seminal paper have shown that there is a tradeoff between these properties. In this project we will study extensions of this phenomenon. Primarily, we will explore tradeoffs between low-level tasks (e.g., restoring an image with low distortion) and high-level tasks (classifying the restored image).
מטרת הפרויקט:
The goal of this project is to identify and explore (empirically and theoretically) tradeoffs between low-level restoration and high-level tasks.
תכולת הפרויקט:
- Understanding known tradeoffs (e.g., perception-distortion) and techniques to explore them (convex optimization, rate-distortion theory).
- Examining if they can be sharpened.
- Identifying tradeoffs between low-level restoration and high-level tasks (e.g., classification).
- Empirical and theoretical analysis.
קורסי קדם:
קורס מבוא ללמידת מכונה, עדיפות לרישום לקורסים שערוך פרמטרים ולמידה עמוקה
מקורות:
https://arxiv.org/abs/1711.06077
הרקע לפרויקט:
Knowledge distillation refers to training a small model ("student") based on the knowledge gained by a computationally expensive model ("teacher"). In classification, this means that the student will learn to predict the logits vector of the teacher rather than the (less informative) label. In many applications, a classifier needs to quantify the uncertainty in its prediction. In this project, we will explore how uncertainty quantification methods can benefit/improve the knowledge distillation setting.
מטרת הפרויקט:
The goal of the project is to explore uncertainty quantification methods (e.g., confidence calibration and conformal prediction) in the knowledge distillation setting. Specifically, we aim to:
- Devising algorithms for improving the student's performance using the uncertainty quantification of the teacher;
- Devising algorithms for improving the uncertainty quantification of the student using the extended knowledge of the teacher.
תכולת הפרויקט:
- Understanding knowledge distillation in classification, confidence calibration, and conformal prediction.
- Devising algorithms for improving the student's performance using the uncertainty quantification of the teacher.
- Devising algorithms for improving the uncertainty quantification of the student using the extended knowledge of the teacher.
קורסי קדם:
מבוא ללמידת מכונה, רישום לקורס למידה עמוקה
מקורות:
* https://arxiv.org/abs/1503.02531
* https://arxiv.org/abs/2107.07511
הרקע לפרויקט:
The project is about implementing new general-purpose approach to deep learning on 3D surfaces, based on the insight that a simple diffusion layer is highly effective for spatial communication. The resulting networks are automatically robust to changes in resolution and sampling of a surface—a basic property which is crucial for practical applications. Our networks can be discretized on various geometric representations such as triangle meshes or point clouds, and can even be trained on one representation then applied to another. We optimize the spatial support of diffusion as a continuous network parameter ranging from purely local to totally global, removing the burden of manually choosing neighborhood sizes. The only other ingredients in the method are a multilayer perceptron applied independently at each point, and spatial gradient features to support directional filters. The resulting networks are simple, robust, and efficient. Here, we focus primarily on triangle mesh surfaces, and demonstrate state-of-the-art results for a variety of tasks including surface classification, segmentation, and non-rigid correspondence.
מטרת הפרויקט:
היכרות עם תחום הגרפיקה והגאומטריה בהיבט של למידת מכונה עמוקה. התעמקות בנושא מתקדם בתחום והתנסות במימוש אלגוריתם ובניית תוכנה מורכבת כהכנה לעבודה בתעשיית ההייטק ו/או לתואר מתקדם.
תכולת הפרויקט:
הפרויקט ידרוש פיתוח ומימוש של אלגוריתם מורכב בתוכנה.
פרויקטים נוספים מותאמים לסטודנט אפשריים במקרים מסוימים בתאום עם פרופ' וובר.
קורסי קדם:
רקע בעיבוד דיגיטלי של גיאומטריה או גרפיקה ממוחשבת או למידת מכונה עמוקה.
דרישות נוספות:
יכולת תכנות טובה + יכולת עבודה עצמאית והגדלת ראש
מקורות:
הרקע לפרויקט:
Polyhedral surfaces are elementary in computer graphics. They are used to represent real-life objects in virtual environments. Mapping such a polyhedral surface to a different domain, for example, to the plane is a fundamental problem in computer graphics and geometry processing. In this project we will learn about special types of maps which strive to preserve length. We will implement an advanced algorithm for computing such maps that uses logarithmic lengths (AKA Penner coordinates) as variables of numerical optimization problem.
מטרת הפרויקט:
היכרות עם תחום הגרפיקה והגאומטריה, התעמקות בנושא מתקדם בתחום והתנסות במימוש אלגוריתם ובניית תוכנה מורכבת כהכנה לעבודה בתעשיית ההייטק ו/או לתואר מתקדם.
תכולת הפרויקט:
הפרויקט ידרוש פיתוח ומימוש של אלגוריתם מורכב בתוכנה.
פרויקטים נוספים מותאמים לסטודנט אפשריים במקרים מסוימים בתאום עם פרופ' וובר.
קורסי קדם:
רצוי רקע בעיבוד דיגיטלי של גיאומטריה או גרפיקה ממוחשבת או אופטימיזציה
דרישות נוספות:
יכולת תכנות טובה + יכולת עבודה עצמאית והגדלת ראש
מקורות:
http://ryanjcapouellez.com/papers/2024_seamless_parametrization_in_penn…
הרקע לפרויקט:
Any point inside a 2D polygon can be expressed as a convex combination of the polygon’s vertices, and the coefficients of this convex combination are called the barycentric coordinates of the point.
Barycentric coordinates are broadly used in computer graphics applications to interpolate data given at the vertices of the polygon to its interior. A particular application of interest is image warping. In this application, a given image is deformed interactively to create a new image.
The design of barycentric coordinates with desired properties is a challenging task. It is hard to design a set of coordinate functions that are positive, smooth, and interpolate the boundary linearly. In this project, we will design such coordinates based on recent research advancements in the field.
מטרת הפרויקט:
היכרות עם תחום הגרפיקה והגאומטריה, התעמקות בנושא מתקדם בתחום והתנסות במימוש אלגוריתם ובניית תוכנה מורכבת כהכנה לעבודה בתעשיית ההייטק ו/או לתואר מתקדם.
תכולת הפרויקט:
הפרויקט ידרוש פיתוח ומימוש של אלגוריתם מורכב בתוכנה.
פרויקטים נוספים מותאמים לסטודנט אפשריים במקרים מסוימים בתאום עם פרופ' וובר.
קורסי קדם:
רצוי רקע בעיבוד דיגיטלי של גיאומטריה או גרפיקה ממוחשבת
דרישות נוספות:
יכולת תכנות טובה + יכולת עבודה עצמאית והגדלת ראש
מקורות:
- https://diglib.eg.org/handle/10.1111/cgf14908 - Maximum Likelihood Coordinates for Image Deformation
- https://graphics.pixar.com/library/StochasticCoordinates/index.html - Stochastic Computation of Barycentric Coordinates
- https://dl.acm.org/doi/10.1145/3618403 - Variational Barycentric Coordinates
הרקע לפרויקט:
פסקה המתארת את הטכנולוגיה הרלוונטית לפרויקט ואת משמעות הפרויקט בהקשר זה-
טכנולוגיה רלוונטית היא זיהוי "קריאת תווים" אונליין באמצעות עיבוד תמונה\ deep learning, התמרה שלהם לספקטוגרמה רלוונטית או ייצוג אחר,
התמרה של האודיו הנכנס דרך המיקרופון והתאמה בין מה שמנוגן לתווים שמיוצגים בדף
מטרת הפרויקט:
מטרת הפרויקט היא לפתח אפליקציה בה כאשר פותחים קובץ pdf של תווי מוזיקה, ובמקביל יש מיקרופון הקולט נגם המנגן תווים אלו. האפליקציה תדע לעקוב אחר המנגינה המושמעת, לזהות מתי הנגן הגיע לסוף העמוד ולגלול עבורו את הקובץ לעמוד הבא.
השלב הבא יהיה לשים לב למקרי קצה, כמו למשל שהנגן לא מנגן במדוייק את התווים, הקצב משתנה ולא קבוע, יש סימן של חזרה בסוף התיבה האחרונה ואז עוד לא צריך לעבור עמוד וכו'.
תכולת הפרויקט:
מציאת ייצוג לתווים בקובץ (ע"י ספקטוגרמה או קידוד אחר) ובמקביל ייצוג דומה\זהה לאודיו שמנוגן.
מעקב אונליין ונתינת "ציון התאמה" בין מה שנשמע לבין התווים שמיוצגים.
קבלת החלטה אם הגענו לסוף העמוד ואם כן ביצוע הפעולה של גלילה לעמוד הבא.
קורסי קדם:
- חשוב לסטודנטים על מנת להבין את ההקשר של הפרויקט (מה הקורסים הכי רלוונטיים), וחשוב לפקולטה על מנת להראות שכל הפרויקטים מסתמכים על הבסיס האקדמי שנלמד במשך התואר. רצוי לציין קורסים ממסלול הפרויקט. ניתן לדרוש קורסים שילקחו במקביל לפרויקט.
- DSP1
- DSP2
- למידה עמוקה
- SSP1
מקורות:
Moysis, Lazaros, et al. "Music deep learning: deep learning methods for music signal processing—a review of the state-of-the-art." Ieee Access 11 (2023): 17031-17052. (https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10043650&tag=1 )
הרקע לפרויקט:
פסקה המתארת את הטכנולוגיה הרלוונטית לפרויקט ואת משמעות הפרויקט בהקשר זה
שיפור איכות השמע מתאפשר בעזרת שימוש במעצב עלומה.
עיצוב האלומה נעשה בעזרת DNN מסוג U-Net ומסנן פוסט (ExNet-BF+PF) לעיבוד אותות רב-ערוצי.
בפרויקט ניבחן כיצד הרשת מנצלת מידע מרחבי במהלך העיבוד. ניתוח זה יניב תובנות חשובות לגבי הפונקציונליות של הרשת, ובכך ישפר את ההבנה שלנו לגבי הביצועים הכוללים שלה. השיטה פשוטה לאימון ומניבה תוצאות מעולות, המייתרות את הצורך בידע מוקדם על פעילות הדובר.
מטרת הפרויקט:
מטרת פרויקט זה היא לפתח מעצב עלומה רב ערוצי מבוסס DNN
הרשת כוללת :
רשת U-Net עם attention mechanism
מסנן פוסט (ExNet-BF+PF) לעיבוד אותות רב-ערוצי.
התלמידים יצברו ניסיון מעשי על ידי הרצה והפעלת סימולציות ליצירת דאטה, אימון המודלים. בנוסף נבצע הקלטות חיות אמיתיות במעבדה האקוסטית כדי ליצור מערך נתונים מקיף להערכה ובדיקת המודלים.
תכולת הפרויקט:
ישום מודל מבוסס למידה עמוקה ליצירת מעצב עלומה
יצירת דאטה מסומלץ של דוברים בחדר
אימון של מודלים מתאימים
קורסי קדם:
אין
מקורות:
מדובר על המשך העבודה של התלמיד על אלגוריתם המפותח במעבדה (בימים אלו אנו עמלים בהכנת המאמר לפירסום). שותפי הפרויקט בפייסבוק לא מאשרים להעלות גירסה לארכיב
הרקע לפרויקט:
רשתות תקשורת דור 6 מתוכננות לערים חכמות בהן דרוש שערוך מיקום ועקיבה אחר מספר רב של מערכות - כולל משתמשי קצה, רכבים אוטונומיים והולכי רגל. נוסף על כן, ברשתות אלה קיימות מדידות ממגוון חיישנים, כגון GNSS, Wi-Fi, גירוסקופים MEMS, ו- Bluetooth. סדרות זמן עם מצבים מתחלפים הינן כלי מצויין לבעיות מסוג זה. מטרת פרוייקט זה היא מימוש אלגוריתמי שערוך ועקיבה למודלים אלה.
מטרת הפרויקט:
מימוש אלגוריתם עקיבה לסדרה מרובת מצבים, בדיקת קצב ההתכנסות ואפשרות ישום במערכות תקשורת משולבות חישה בסביבה עירונית.
תכולת הפרויקט:
הבנה תאורטית של מודל סדרות זמן עם מצבים משתנים ואפשרות ישומן לבעיות איכון ועקיבה. היכרות עם הספרות. כתיבה וביצוע סימולציה. כתיבת דוחות
קורסי קדם:
עיבוד ספרתי של אותות 1, אותות אקראיים ורעש, תקשורת ספרתית (אפשר במקביל) אלגוריתמים סטטיסטיים לעיבוד אותות (פרופ שרון גנות - אפשר במקביל), ניתוח סטטיסטי של מידע (פרופ אמיר לשם - במקביל לפרויקט)
מקורות:
הרקע לפרויקט:
Routing of vehicles in smart cities is an important subject, with the potential to reduce bottlenecks.
מטרת הפרויקט:
ניתוח של נתוני תעבורה של העיר סיאול. בנית מודל עומס מתוך נתוני מהירות ולימוד ובדיקה של איסטרטגיות ניתוב
תכולת הפרויקט:
- Spectral analysis of existing data
- Development of traffic generator, by converting speed data into congestion model
- Formulation of the traffic problem as a multi-agent potential game
- Development of leader followers strategies for traffic prediction and control
קורסי קדם:
Random signals and noise,
דרישות נוספות:
Mathematical analysis of networks in parallel
מקורות:
- Cesa-Bianchi, N., & Lugosi, G. (2006). Prediction, learning, and games / Nicolo Cesa-Bianchi, Gabor Lugosi. Cambridge University Press.
- Gardner, William A. 1994. Cyclostationarity in Communications and Signal Processing. New York: IEEE Press.
- Monderer, Dov, and Lloyd S. Shapley. n.d. “Potential Games.” Games and Economic Behavior 14 (1): 124–43. https://doi.org/10.1006/game.1996.0044.
הרקע לפרויקט:
בעידן המודרני, שבו אינטראקציות בין בני אדם למכונות הופכות לנפוצות יותר, היכולת לאתר במדויק את מיקום הדוברים בסביבה היא חיונית עבור יישומים רבים, כמו מערכות ועידה, רובוטיקה מתקדמת ואבטחה חכמה. פרויקט זה שואף לפתח מערכת לאיתור מיקום דוברים המשלבת מידע קולי וויזואלי, שתנצל את המידע מהשמע ומהערוץ הוויזואלי, כמו תנועות הגוף והפנים, כדי לספק זיהוי מדויק ואמין יותר של מיקום הדוברים במרחב.
מטרת הפרויקט:
מימוש אלגוריתם אודיו-וידאו לזיהוי מיקום הדובר או מימוש אלגוריתם אודיו בלבד ווידאו בלבד ולשלב בין תוצאותיהם.
תכולת הפרויקט:
מימוש האלגוריתמים מהמאמר
קורסי קדם:
חשוב לסטודנטים על מנת להבין את ההקשר של הפרויקט (מה הקורסים הכי רלוונטיים), וחשוב לפקולטה על מנת להראות שכל הפרויקטים מסתמכים על הבסיס האקדמי שנלמד במשך התואר. רצוי לציין קורסים ממסלול הפרויקט. ניתן לדרוש קורסים שילקחו במקביל לפרויקט.
דרישות נוספות:
python
מקורות:
https://ieeexplore.ieee.org/abstract/document/8646206
https://ieeexplore.ieee.org/abstract/document/9413776
הרקע לפרויקט:
בעידן של היום, שבו טכנולוגיות אודיו ווידאו משתלבות בתחומים רבים כמו תקשורת, אבטחה ומערכות מולטימדיה, זיהוי דוברים מדויק הוא אתגר משמעותי. מערכות קיימות מתמקדות בעיקר בזיהוי דוברים על בסיס שמע בלבד, אך במצבים מורכבים, כמו סביבות רועשות או עם ריבוי דוברים, דיוק הזיהוי עלול להיפגע. המערכת המוצעת, המשלבת מידע קולי וויזואלי, תאפשר זיהוי ורישום דוברים בצורה אמינה ומדויקת יותר, תוך ניצול המידע המתקבל גם מהערוץ הוויזואלי, כגון תנועות שפתיים ופנים.
מטרת הפרויקט:
קריאת המאמרים והבנתם, לאחר מכן מימוש המערכת (או וריאציה שלה) והפעלתה על בסיס נתונים תוך מדידת איכות הפתרון.
תכולת הפרויקט:
מימוש האלגוריתמים מהמאמר
קורסי קדם:
חשוב לסטודנטים על מנת להבין את ההקשר של הפרויקט (מה הקורסים הכי רלוונטיים), וחשוב לפקולטה על מנת להראות שכל הפרויקטים מסתמכים על הבסיס האקדמי שנלמד במשך התואר. רצוי לציין קורסים ממסלול הפרויקט. ניתן לדרוש קורסים שילקחו במקביל לפרויקט.
דרישות נוספות:
python
מקורות:
https://arxiv.org/abs/2401.08052
https://ieeexplore.ieee.org/document/9948860
הרקע לפרויקט:
הפרויקט עוסק בזיהוי מאפיינים של החדר. נבחן מיצוי מאפיינים מסוגים שונים דוגמת זמן ההדהוד (הנמדד כזמן הלוקח לרעש מתקפי לדעוך עד לרמה בה אינו נשמע יותר, T60), הגאומטריה של החדר (מימדים והיחס ביניהם, צורה), ועוד. לזיהוי האקוסטיקה של החדר יש יישומים פורנזיים, אך גם יישומים ל-virtual reality. הגישה שתחקר בפרויקט משתמשת רק בהקלטות דיבור בחדר ומיושמת ע"י טכניקות למידה עמוקה (DNN) ללימוד מאפיינים
מטרת הפרויקט:
מטרת הפרויקט הינה להשתמש בקוד קיים של רשת נוירונים שיודעת להוציא את מאפיינים אקוסטיים מתוך הקלטת שמע שהוקלטה בחדר (ראו Bittermann et al.) ובהתבסס על מאפיינים אלה לבנות קטע מסווג:
1. גיאומטריית החדר – גיאומטרית החדר
2. מקדם דעיכה של מתקף – T60
3. או מאפיין אחר שיגובש בין הסטודנטים למנחה
תכולת הפרויקט:
הבנת הקוד של רשת הנוירונים להוצאת המידע על החדר מתוך הקלטת שמע שבוצעה בחדר.
בניית קוד משלים המתאים למערכת שמאפשר לקחת את מאפייני החדר ולתת להם ייצוג מילולי..
קורסי קדם:
חשוב לסטודנטים על מנת להבין את ההקשר של הפרויקט (מה הקורסים הכי רלוונטיים), וחשוב לפקולטה על מנת להראות שכל הפרויקטים מסתמכים על הבסיס האקדמי שנלמד במשך התואר. רצוי לציין קורסים ממסלול הפרויקט. ניתן לדרוש קורסים שילקחו במקביל לפרויקט.
DSP1
מבוא ללמידת מכונה
למידה עמוקה (במקביל)
SSP1
מקורות:
BITTERMAN, Jacob, et al. RevRIR: Joint Reverberant Speech and Room Impulse Response Embedding using Contrastive Learning with Application to Room Shape Classification. arXiv preprint arXiv:2406.03120, 2024.
הרקע לפרויקט:
במהלך העשור האחרון, ניכר כי התגלמות (“embodiment”) היא תכונה מוחשית של אינטראקציה בין אדם למוזיקה. במקום להתייחס למאזין, "כמוח" שמקבל קלט (מוזיקה) ומייצר פלט (למשל, תיאורים של רגשות נתפסים או תנועות ריקוד), דרך האינטראקציה הגלומה משלבת את המאזין בלולאה סגורה עם הסביבה המוזיקלית. ההנחה היא שפעולה ותפיסה מוזיקלית של בני האדם הם תהליכים הדדיים "המתדלקים" את הלולאה הזו, ושפעולה וחיזוי נקבעים במשותף על ידי אילוצים של הסביבה המוזיקלית, כמו גם על ידי אלו של האורגניזם (הגופני) שמקיים אינטראקציה בתוכה. על כן, הפרויקט משתייך לעולם של מערכות אינטראקטיביות ועיבוד אותות מוזיקליים (מיצב אמנותי אינטראקטיבי) המשתמש ביכולות סנסומוטוריות, קוגניטיביות, רגשיות ואנרגטיות המייעלות את האינטראקציה. מעבר לכך, הפרויקט מעודד פעילות גופנית ומפיץ שמחה באמצעות צלילים (או מוזיקה). Moran, N. (2017)
מטרת הפרויקט:
בפרויקט זה יבנו הסטודנטים מערכת המעבדת נתוני קלט מחיישני מגע שנמצאים על גרם מדרגות ומפעילה בהתאמה מערך צלילים שיושפע מהאופן בה נוצרת האינטראקציה. המשימה המרכזית היא מציאת המהלך האפקטיבי לקשר בין תנועה לעיבוד צליל למטרות מוזיקליות.
תכולת הפרויקט:
1. הצבת חיישני מגע (או חיישנים אחרים נוספים) על המדרגות במחלקה למוזיקה בבר אילן.
2. תכנות חומרה Raspberry Pi או Arduino לקליטת המידע ועיבודו.
3. תכנות מערכת רספונסיבית שתפעיל שתשדר באמצעות Bluetoothצלילים בהתאמה לרמקול נייד שיוצב בקרבת מקום.
4. פיתוח מערכת אינטראקטיבית להפקת מגוון צלילים.
5. תבחן אפשרות לפיתוח יישום אנדרואיד או WEB לצורך איפיון הצלילים המופקים במערכת.
6. כמו כן יבחנו מגוון חלופות למתן חווית משתמש מיטבית כגון :
• יבחנו תכונות מערכת שמזהה את מספר המשתמשים במדרגות ומקצה לכל אחד ID וצליל ייחודי לו.
• שליטה על עוצמת הצליל ביחס לדריכה בעזרת חיישני לחץ.
• הוספת אינדיקציות חזותיות נוסף על האלמנטים השמיעתיים.
בנוסף, הסטודנטים ילמדו, יתכננו ויממשו מערכת בה מערך הצלילים המושמע מושפע מהאופן בו נוצרת האינטראקציה עם הסביבה. בתוך כך ניתן יהיה להוסיף מודולים לעיצוב, הרחבה וטרנספורמציה של הסיגנל האודיטורי המקורי ובהתאם לאופן שבו נוצרת האינטראקציה עם החיישנים.
קורסי קדם:
-
דרישות נוספות:
ידע בתכנות מעבדים
מקורות:
- https://arxiv.org/pdf/1804.03641.pdf
- Moran, N. (2017) “Agency in Embodied Music Interaction,” The Routledge Companion to Embodied Music Interaction, pp. 105–112. Available at: https://doi.org/10.4324/9781315621364-12.
- Routledge companion to embodied music interaction (2019). New York, NY: Routledge.
הרקע לפרויקט:
טכנולוגיה רלוונטית היא זיהוי "קריאת תווים" אונליין באמצעות עיבוד תמונה\ deep learning, התמרה שלהם לספקטוגרמה רלוונטית או ייצוג אחר,
התמרה של האודיו הנכנס דרך המיקרופון והתאמה בין מה שמנוגן לתווים שמיוצגים בדף
מטרת הפרויקט:
מטרת הפרויקט היא לפתח אפליקציה בה כאשר פותחים קובץ pdf של תווי מוזיקה, ובמקביל יש מיקרופון הקולט נגם המנגן תווים אלו. האפליקציה תדע לעקוב אחר המנגינה המושמעת, לזהות מתי הנגן הגיע לסוף העמוד ולגלול עבורו את הקובץ לעמוד הבא.
השלב הבא יהיה לשים לב למקרי קצה, כמו למשל שהנגן לא מנגן במדוייק את התווים, הקצב משתנה ולא קבוע, יש סימן של חזרה בסוף התיבה האחרונה ואז עוד לא צריך לעבור עמוד וכו'.
תכולת הפרויקט:
מציאת ייצוג לתווים בקובץ (ע"י ספקטוגרמה או קידוד אחר) ובמקביל ייצוג דומה\זהה לאודיו שמנוגן.
מעקב אונליין ונתינת "ציון התאמה" בין מה שנשמע לבין התווים שמיוצגים.
קבלת החלטה אם הגענו לסוף העמוד ואם כן ביצוע הפעולה של גלילה לעמוד הבא
קורסי קדם:
DSP1
DSP2
למידה עמוקה
SSP1
דרישות נוספות:
עיבוד תמונה
מקורות:
Moysis, Lazaros, et al. "Music deep learning: deep learning methods for music signal processing—a review of the state-of-the-art." Ieee Access 11 (2023): 17031-17052. (https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10043650&tag=1 )
הרקע לפרויקט:
זיהוי דוברים (ASD-Active Speaker Detection) היא משימה רב-מודאלי אודיו-ויזואליות (AV- Audio Video) שמטרתה לזהות מי (אם מישהו) מדבר מתוך קבוצה של מועמדים.
גישות AV נוכחיות עבור ASD מסתמכות בדרך כלל על מעקב וחילוץ רצפים עוקבים של תמונות פנים מווידאו ומאודיו חד ערוצי בהתאמה.
עם זאת, שיעור ההצלחה נמוך שכן בווידאו רק הפנים הגלויות נכללות במערך המועמדים. והאודיו החד ערוצי שיכול לזהות בהצלחה נוכחות של פעילות דיבור נכשל בלוקליזציה של הדובר עקב היעדר מידע מרחביים. הפתרון המוצע מרחיב את חזית האודיו באמצעות שימוש במערך מיקרופונים ואימון של רשתות קונבולוציה (CNN-Involutional Neural Network) בשילוב טכניקות של יצירת אלומה (BF-Beam Forming) כדי לשערך את המיקום האופקי של הדובר ישירות במסגרות הווידאו.
מטרת הפרויקט:
בפרויקט הסטודנטים יממשו ויאמנו רשתות אודיו-וידאו שמסוגלות לעקוב אחרי תמונות של פנים במסגרות הוידאו ולבצע גילוי וזיהוי של דובר מתוך קבוצה של דוברים. נחקור כיצד לחבר את הוידאו לאודיו ע"י רשתות ייעודיות ולבצע את הגילוי על הפריימים של הווידאו.
תכולת הפרויקט:
- למידת חומר מתקדם בעיבוד המרחבי ושיטות שערוך מבוססות יצירת אלומה (BF-Beam Forming)
- למידת חומר מתקדם בלמידה עמוקה
- שליטה בקוד פייתון עם ספריות יעודיות בתחום
- אינטגרציה, אימון ומימוש של מודלים מתקדמים בלמידה עמוקה בתחום האודיו והווידאו
קורסי קדם:
- עיבוד ספרתי 2
- למידה עמוקה
דרישות נוספות:
ידע/נסיון קודם שאינו קורס, או קורסים שרצוי לקחת אך אינם חובה.
מקורות:
- Visually Supervised Speaker Detection and Localization via Microphone Array main_paper
- face tracks algo (generate stack of face crops) python-seetaface2
- ASD- automatic speech detector Paper: Active_Speakers_in_Context Code: https://github.com/fuankarion/active-speakers-context Dataset: AVA-ActiveSpeaker