פרויקטי גמר - הנדסת מחשבים - תואר ראשון - עיבוד וניתוח נתונים תשפ"ד
הרקע לפרויקט:
Differential privacy has been established in recent years as the "de-facto" gold standard of privacy preserving data analysis. In this project the students are expected to read, understand, implement and test a differentially private algorithm for locating a cluster / multiple clusters in a given dataset of points in the Euclidean space.
מטרת הפרויקט:
This project is centered around the problem of private data clustering. The students are expected to implement randomized algorithms that deal with clustering, including: noisy counting, above-threshold, locally-sensitive hashing, and randomly chosen axes.
Furthermore, the students are expected to test and compare the performance of said algorithms over multiple datasets.
Academically, the goal of the project is to have the students acquainted with differential privacy (DP) and the high-level ideas of differential privacy, as well as the technical difficulties that arise from the promise of DP.
Practically, the goal is to publish the project's code online, available for researchers world-wide.
תכולת הפרויקט:
The project's main focus is on understanding and implementing a scientific paper in differential privacy.
The project is based on 3 stages:
- reading and understanding existing work,
- implementation of algorithms in code and
- testing empirical performance over synthetic / real-life data.
The main focus of the project is the 1-cluster algorithm of Nissim and Stemmer, composed of multiple building blocks.
The students are required to implement each of these subroutines and then wrap it all together in an algorithm of bounded privacy lose (i.e. a (\epsilon,\delta)-DP algorithm).
קורסי קדם:
- 83224- מבני נתונים ואלגוריתמים 2
- 83216- מבוא להסתברות וסטטיסטיקה
דרישות נוספות:
- 83908- פרטיות דפרנציאלית (המומלץ)
מקורות:
- arxiv.org/pdf/1804.08001
- arxiv.org/pdf/1707.04766
- www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf
הרקע לפרויקט:
שיטות לניתוחי דאטה המשמרות פרטיות באות במגוון דרכים ואלגוריתמים, ולכל אחת מהן יש טרייד-אוף משלה בין יעילות הניתוח לבין כמות "הפסד הפרטיות".
בפרויקט זה יתנסו הסטודנטים במימוש, בניתוח ובהשואה בין השיטות השונות.
מטרת הפרויקט:
מבחנים סטטיסטיים הוא תחום רחב של ניתוח דאטה באמצעותו סטטיסטיקאים משיגים תובנות עומק על דאטה. ישנן מטרות רבות אותן מבקש הסטטיסטיקאי לנתח (זהות, אי-תלות, רגרסיה וכו') ולכל אחת מגוון מבחנים שונים (פירסון, Z-test, הילברט-שמידט) שמתאימים כל אחד למצב מעט שונה.
בפרויקט זה יתרכזו הסטונדטים בביצוע מבחנים סטטיטיים ע"י אלגוריתמים משמרי פרטיות. בפרט, הפרויקט יתמקד בשיטות בפרטיות דיפרנציאלית -- שפועלות על ידי הרעשה רנדומית של המבחן הסטטיסטי. ומאחר שמבחנים סטטיסטיים הוא תחום רחב - הרי שפרויקט זה הוא למעשה אוסף פרויקטים דומים-אך-שונים, כשכל פרויקט מתמקד בשיטת מבחן אחרת.
חלק לא מבוטל בפרויקט הוא הכרת התחום של פרטיות דפרנציאלית, קריאת מאמרים והבנת השיטות השונות. משהסטודנטים ירכשו את הידע המוקדם, עיקר הפרויקט יתמקד בתכנון אלגוריתמי של ניתוחים סטטיסטיים שונים, במימוש שיטות, ובהשואת האלגורתימים על גבי מגוון דאטה-סטים שונים.
תכולת הפרויקט:
- קריאה של מאמרי רקע
- בחירת ה setting בו יתמקד הפרויקט
- מימוש אלג' למידה פרטית
- השואה של האלגוריתמים השונים על גבי דאטה-סטים שונים
- ניתוח תאורטי של האלג'
קורסי קדם:
- הסתברות וסטטיסטיקה
- למידה ממוחשבת
- אלג' 2 (ניתוח אלג' רנדומיים)
דרישות נוספות:
- פרטיות דפרנציאלית (מומלץ)
מקורות:
הרקע לפרויקט:
הפרויקט הינו חלק ממחקר שעוסק בשילוב בין בעיות של אילוצי משאבים אשר מקובל לפתור בכלים של חקר ביצועים, לבין בעיות סיווג אשר מקובל לפתור בשיטות של למידת מכונה. הדרך המקובלת לשלב בין שתי הבעיות הללו היא במודל דו-שלבי, שימוש בלמידת מכונה עבור בעיית הסיווג ועם התוצאות שהתקבלו לפתור את בעיית אילוצי המשאבים. במחקר אנו משלבים את בעיית אילוצי המשאבים בתהליך הלמידה של המודל שפותר את בעיית הסיווג בכדי לשפר את הביצועים. הפרויקט ישפר את שיטת היישום כך שיתאים לנתוני מבחן (test data-set) וכן יצמצם את מספר האיטרציות.
האלגוריתמים ייושמו וייבדקו על נתוני שרותי הכבאות – הבעיה ביישום זה היא הקצאה מיטבית של כוחות הצלה למספר ארועים שמתרחשים בו זמנית.
מטרת הפרויקט:
בפרויקט הסטודנטים יבצעו התאמה לנתוני מבחן (test data-set) של מודל אדפטיבי לשילוב למידת מכונה ובעיית אילוצים ביישום בפייתון על ידי שילוב האילוצים שקיימים על הTEST כחלק מתהליך הלמידה לעומת במצב הקיים בו נעשה שימוש רק ב TRAIN. בנוסף, הסטודנטים יפתחו שיטה לעדכון ערך סף כך שמספר האיטרציות עד להתכנסות המודל תצומצם וזמני הריצה יתקצרו.
האלגוריתמים ייושמו וייבדקו על נתוני שרותי הכבאות במטרה להגיע להקצאה מיטבית של כוחות הצלה למספר ארועים שמתרחשים בו זמנית.
תכולת הפרויקט:
פירוט של מטלות הסטודנטים בפרויקט
- פיתוח מתמטי תיאורטי לעדכון ערך הסף בין איטרציות.
- יישום בפייתון של התאמת המודל לשימוש בנתוני TEST בתהליך הלמידה והשוואה בין ביצועי האלגוריתמים כאשר האילוץ על ה TEST נלקח בחשבון לעומת המצב שבו האילוץ מוקרן על הTRAIN בהיבט של זמני ריצה וביצועים.
- יישום על נתוני שרות הכבאות.
קורסי קדם:
מבוא להסתברות וסטטיסטיקה, כריית מידע וויזואליזציה
דרישות נוספות:
נדרש ידע בפייתון
מקורות:
- An adaptive machine learning algorithm for the resource-constrained classification problem https://www.sciencedirect.com/science/article/pii/S095219762200731X
- The foundations of cost-sensitive learning https://cseweb.ucsd.edu//~elkan/rescale.pdf
הרקע לפרויקט:
טכנולוגיות לבישות, המשולבות בגוף ובמערכות ביולוגיות כבר כאן, לרוב הן מתקשרות עם נקודת קצה קרובה (למשל סלולרי או אנטנה) וצריכת אנרגיה נמוכה, הינה קריטית עבור מערכות אלו. כמו כן, אבטחה היא גורם משמעותי היות ואינפורמציה רגישה נעה במערכות אלו (חשבו על מוניטור לחץ דם או משאבת אינסולין אקטיבית). לכן עלות האבטחה מבחינת מימוש ואנרגיה היא קריטית. בפרויקט הסטודנטים יקבלו מידע \ מדידות ממכשור מדידה המגיע ממדידות על גוף נסיינים בשיתוף עם תעשייה. המידע יגיע ממגוון סנסורים, time-series ממודד לחץ דם \ מודד זיעה\ מדידות אופטיות ואפילו אקוסטיות.
הסטודנטים יפעילו כלי אנליזה מעולם הסיווג ולימוד המכונה ומטרתם תהיה אפיון ומציאת פיטשרים ייחודיים וחזרתיים מכל ערוץ ובניית ensemble ליצירת חתימה ביולוגית למשתמש. על גבי מנגנון זה ניתן ליישם אבטחה זולה הרבה יותר למערכות אלו.
מטרת הפרויקט:
הסטודנטים יקראו וילמדו שיטות ניתוח של ספרות קודמת. ילמדו את צורת המידע והדאטה שמגיע מהמדידות. ינתחו מאפיינים שלו ויבנו ויאמנו מספר מכונות קלסיפיקציה. ינתחו יכולת לשלב מדדים שונים מדאטה בייסים שונים, ייבנו מודלים "משכללים" ומאחדים. ולבסוף יבצעו בחינת אומדנים לייחודיות וחזרתיות של ה"חתימות הביולוגיות" ויכולות הקלסיפיקציה.
תכולת הפרויקט:
קריאת ספרות קודמת, הבנת הדאטה המגיע מהסנסורים וגודל המדגם וכו', בחינת בחירת מודלי קלסיפיקציה שונים ומציאת מאפיינים ייחודיים וחזרתיים, ניתוח תוצאות וכו'
קורסי קדם:
ידע קודם בסיסי בלמידת מכונה \ קלסיפיקציה \ רגרסיה (ישנם הרבה קורסים בפקולטה - להתייעץ עם המנחה).
דרישות נוספות:
- ייתרון לסטודנטים בעלי שליטה בבניית מודלים בפייטון (או מטלב), למשל עצים, Random-Forest, ensembles, ANN \ CNN RNN\ DNN ונסיון טכני עם הכלים.
- יכולות תכנותיות ואנליטיות גבוהות.
- נכונות להיקף עבודה משמעותי.
מקורות:
- Jain, Anil K., Arun Ross, and Salil Prabhakar. "An introduction to biometric recognition." IEEE Transactions on circuits and systems for video technology 14.1 (2004): 4-20.
- McGoldrick, Leif K., and Jan Halámek. "Recent advances in noninvasive biosensors for forensics, biometrics, and cybersecurity." Sensors 20.21 (2020): 5974.
- Hair, Mindy E., et al. "Metabolite biometrics for the differentiation of individuals." Analytical chemistry 90.8 (2018): 5322-5328.
הרקע לפרויקט:
The project is about implementing new general-purpose approach to deep learning on 3D surfaces, based on the insight that a simple diffusion layer is highly effective for spatial communication. The resulting networks are automatically robust to changes in resolution and sampling of a surface—a basic property which is crucial for practical applications. Our networks can be discretized on various geometric representations such as triangle meshes or point clouds, and can even be trained on one representation then applied to another. We optimize the spatial support of diffusion as a continuous network parameter ranging from purely local to totally global, removing the burden of manually choosing neighborhood sizes. The only other ingredients in the method are a multilayer perceptron applied independently at each point, and spatial gradient features to support directional filters. The resulting networks are simple, robust, and efficient. Here, we focus primarily on triangle mesh surfaces, and demonstrate state-of-the-art results for a variety of tasks including surface classification, segmentation, and non-rigid correspondence.
מטרת הפרויקט:
היכרות עם תחום הגרפיקה והגאומטריה בהיבט של למידת מכונה עמוקה. התעמקות בנושא מתקדם בתחום והתנסות במימוש אלגוריתם ובניית תוכנה מורכבת כהכנה לעבודה בתעשיית ההייטק ו/או לתואר מתקדם.
תכולת הפרויקט:
הפרויקט ידרוש פיתוח ומימוש של אלגוריתם מורכב בתוכנה.
פרוייקטים נוספים מותאמים לסטודנט אפשריים במקרים מסויימים בתאום עם פרופ' וובר
קורסי קדם:
83656 עיבוד דיגיטלי של גיאומטריה 1
דרישות נוספות:
- ידע בסיסי ברשתות נוירונים.
- יכולת תכנות טובה.
- יכולת עבודה עצמאית והגדלת ראש.
מקורות:
הרקע לפרויקט:
Polyhedral surfaces are elementary in computer graphics. They are used to represents real-life objects in virtual environments. Mapping such a polyhedral surface to a different domain, for example, to the plane is a fundamental problem in computer graphics and geometry processing. In this project we will learn about special types of maps which preserves angles (conformal maps). We will investigate a discrete notion of angle preservation and will implement an advanced algorithm for computing such maps.
מטרת הפרויקט:
היכרות עם תחום הגרפיקה והגאומטריה, התעמקות בנושא מתקדם בתחום והתנסות במימוש אלגוריתם ובניית תוכנה מורכבת כהכנה לעבודה בתעשיית ההייטק ו/או לתואר מתקדם.
תכולת הפרויקט:
הפרויקט ידרוש פיתוח ומימוש של אלגוריתם מורכב בתוכנה.
פרוייקטים נוספים מותאמים לסטודנט אפשריים במקרים מסויימים בתאום עם פרופ' וובר
קורסי קדם:
83656 עיבוד דיגיטלי של גיאומטריה 1
דרישות נוספות:
• יכולת תכנות טובה.
• יכולת עבודה עצמאית והגדלת ראש.
מקורות:
https://www.cs.cmu.edu/~kmcrane/Projects/CEPS/index.html
הרקע לפרויקט:
הפריצה של מודלים גנרטיביים כמו chat-GPT וMidjourney מביאה הרבה אפשרויות חדשות, אבל גם בעיות בשימוש במודלים האלו. אנו נחקור את המודלים האלו מכיוון של הוגנות - עד כמה המודלים האלו ממדלים ומגבירים הטיות שונות בדאטא לגבי גזע, מין, גיל וכ'ו. אנחנו נבדוק גם השפעה של סוג השפה (אנגלית מול עברית) במודלי שפה גדולים.
מטרת הפרויקט:
ניתוח אמפירי של ההטיות במודלים האלו לפי פילוחים שונים. אם יהיה זמן אפשר גם לעבוד על דרכים לצמצם את הפערים הללו.
תכולת הפרויקט:
לבנות מערכת אוטומטית שתריץ ניסויים על המודלים האלו, לנתח את התוצאות המתקבלות
קורסי קדם:
83622 מבוא ללמידת מכונה (יכול להלקח במקביל)
מקורות:
Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation https://arxiv.org/pdf/2305.07609.pdf
הרקע לפרויקט:
Any point inside a 2D polygon can be expressed as a convex combination of the polygon’s vertices, and the coefficients of this convex combination are called the barycentric coordinates of the point.
Barycentric coordinates are broadly used in computer graphics applications to interpolate data given at the vertices of the polygon to its interior. A particular application of interest is image warping. In this application, a given image is deformed interactively to create a new image.
The design of barycentric coordinates with desired properties is a challenging task. It is hard to design a set of coordinate functions that are positive, smooth, and interpolate the boundary linearly. Maximum Likelihood Coordinates are such coordinates.
מטרת הפרויקט:
היכרות עם תחום הגרפיקה והגאומטריה, התעמקות בנושא מתקדם בתחום והתנסות במימוש אלגוריתם ובניית תוכנה מורכבת כהכנה לעבודה בתעשיית ההייטק ו/או לתואר מתקדם.
תכולת הפרויקט:
הפרויקט ידרוש פיתוח ומימוש של אלגוריתם מורכב בתוכנה.
פרויקטים נוספים מותאמים לסטודנט אפשריים במקרים מסוימים בתאום עם פרופ' וובר.
קורסי קדם:
- 83656 עיבוד דיגיטלי של גיאומטריה 1 או ידע קודם בסיסי בגרפיקה ממוחשבת.
דרישות נוספות:
- יכולת תכנות טובה.
- יכולת עבודה עצמאית והגדלת ראש.
הרקע לפרויקט:
הפרוייקט יעסוק בבחירת מאפיינים בצורה מפוקחת וכן בלתי מפוקחת. הטכנולוגיה הרלוונטית היא רשתות נוירונים ושיטה המבוססת על קירוב רציף של משתנה אקראי המאפשר גזירה באצעות אלגוריתמי אופטימיזציה סטנדרטים.
מטרת הפרויקט:
מטרת הפרוייקט היא יצירת מערכת מרוכזת הכוללת כלים רלוונטים שפותחו בשנים האחרונות לחילות מאפיינים. המטרה היא לאחד את הקוד וכן לייצר דוגמאות פשוטות להבנה על מנת לאפשר למשתמשים מתחילים ללמוד כיצד לבצע חילוץ מאפיינים בצורה מיטבית.
תכולת הפרויקט:
הסטודנט ילמד את המאמרים הרלוונטים. יתנסה בקוד של כל אחד מהעבודות. יאחד את כל הקודים למערכת אחת ויבנה דוגמאות פשוטות שיעזרו ללמוד כיצד להתשמש בצורה מיטבית.
קורסי קדם:
- מבוא ללמידת מכונה
מקורות:
-
Yamada, Yutaro, Ofir Lindenbaum, Sahand Negahban, and Yuval Kluger. 13--18 Jul 2020. “Feature Selection using Stochastic Gates.” In Proceedings of the 37th International Conference on Machine Learning, edited by Hal Daumé Iii and Aarti Singh, 119:10648–59. PMLR.