ד"ר אור שפט מפתח אלגוריתמים ששומרים על הפרטיות שלנו
שפט, המתמחה בפרטיות דיפרנציאלית, בודק כיצד ניתן לעבוד עם מאגרי מידע גדולים תוך שמירה על הבטחה מתמטית של פרטיות
בעידן הטכנולוגי הנוכחי מידע על כולנו, כולל פרטים אישיים ורגישים, נאסף במאגרי נתונים גדולים. אם זה מידע רפואי שנאסף בבתי חולים, מידע על מצבנו הפיננסי שנאסף בבנקים ובחברות האשראי, ואפילו תעודת הזהות שלנו וכתובת המגורים הפרטית, שנמצאות בידי משרדי הממשלה, למשל, או הלמ"ס. ומכיוון שמדובר במידע רגיש - נולד הצורך לשמור על פרטיות המידע. הדרך הקלה ביותר לעשות זאת היא כמובן למחוק את המידע, אלא שמחיקת הדאטה פירושה איבוד היכולת להשתמש במידע, ללמוד ממנו ולהסיק ממנו מסקנות לגבי כלל האוכלוסייה (למשל, על מגמות בהתנהלות פיננסית, או על יעילות טיפול בסרטן). לכן, נוצר צורך כפול: לנתח את הדאטה – תוך כדי שמירה על פרטיות. שתי המטרות הללו מטבען מנוגדות, שכן אחת רוצה לחשוף ולגלות – בעוד השנייה רוצה להסתיר ולהחביא.
אז איך משלבים את שני המטרות הללו יחד? זו הסוגיה המרכזית המעסיקה את ד"ר אור שפט (39), שהצטרף למחלקה להנדסת מחשבים של הפקולטה, ולמרכז הסייבר של האוניברסיטה, בתחילת השנה האקדמית הנוכחית. שפט, תיאורטיקן המתמחה בפרטיות דיפרנציאלית – קורס אותו הוא גם מלמד בסמסטר הנוכחי – מגיע אל הפקולטה לאחר תואר ראשון באוניברסיטה העברית, תואר שני במכון ויצמן, תואר שלישי באוניברסיטת קרנגי מלון בפנסילבניה, פוסט דוקטורט בברקלי ובהארוורד וחברות בסגל האקדמי של אוניברסיטת אלברטה שבקנדה. "לכל אורך הדרך עסקתי בתכנון אלגוריתמים," הוא מספר, "בשנים האחרונות אלה בעיקר אלגוריתמים שלומדים לבצע ניתוח דאטה תוך כדי שמירה על פרטיות".
לאורך השנים, מספר שפט, עלו הרבה רעיונות ושיטות היוריסטיות בנסיון לפתור את הסוגיה. הנפוצה ביותר הייתה אנונימיזציה (Anonymization): מחיקתם של "מזהים" (שמות, כתובות, מספרי ת.ז. וכו') מהדאטה. "ההיוריסטיקות האלו נשמעות בסדר בהתחלה," אומר שפט, "אבל אלה שיטות ללא שום הבטחה רשמית, ואכן עבודות רבות ושונות הראו פעם אחר פעם איך ההיוריסטיקות האלה לא באמת מבטיחות פרטיות." ואז, בשנת 2006, הציעו דוורק, מק'שרי, ניסים וסמית' (Dwork, McSherry, Nissim & Smith) לתקוף את הנושא באופן ריגורוזי: כלומר, לשאול מה צריכה להיות ההגדרה של אלגוריתם שיקרא 'משמר פרטיות'; איזה תכונות הגיוני שהוא יקיים. "לדוגמא, אחת מן התכונות הרצויות לאלגוריתם שמשמר פרטיות היא שהפרטיות תישמר גם אם אני מבצע הרכבה (Composition): היום אני מנתח את הדאטה עם אלגוריתם- משמר-פרטיות א', ומחר עם אלגוריתם-משמר-פרטיות ב'; ולא יכול להיות שאצרף את תוצאות שני האלגוריתמים ופתאום אמצא מידע רגיש על אנשים ואפר פרטיות," מסביר שפט, "וזו רק דוגמא אחת לכמה וכמה תכונות שאלגוריתם כזה, המשמר פרטיות, צריך לקיים. אותם ארבעה חוקרים נתנו הגדרה סמנטית למונח 'אלגוריתם המשמר פרטיות', הגדרה שמכמתת את אובדן הפרטיות: האלגוריתם צריך להוסיף לחישוב רעש רנדומלי, כדי להסוות את תוצאות הביניים – כלומר את הנוכחות או ההיעדרות של אנשים. מטרת הרעש היא לוודא שאם אני מסתכל על הדאטה, ושואל את עצמי: האם האדם הספציפי הזה שייך לדאטה או לא? - אני לא אוכל לדעת. שמה של ההגדרה הזו היא 'פרטיות דיפרנציאלית' – האלגוריתם, תוך כדי תנועה, משתמש ברעש מקרי כדי לשמר פרטיות."
החל משנת 2006, עובדים תיאורטיקנים המתמחים בפרטיות דיפרנציאלית על שיטות רבות של ניתוח דאטה, ומוסיפים להן רעש מקרי וניתוחים שונים כדי להפוך אותן לכאלה שמשמרות פרטיות. "המתח בין יעילות ורצון לפרסם ולנתח דאטה בצורה מדויקת, לבין הרצון לשמור על הפרטיות קיים תמיד," אומר שפט, "אבל היופי של השיטה הזאת היא שאפשר ממש לכמת אותו, לבוא ולומר: עם כזו רמה של רעש תשמרי כזו רמה של פרטיות ותאבדי כזו רמה של דיוק." כעת, הביא שפט את הנושא המרתק הזה אל הפקולטה, והוא מחפש סטודנטים שיצטרפו אליו. "אני מחפש סטודנטיות וסטודנטים חזקות וחזקים, עם הבנה מתמטית ברמה גבוהה ויכולת לנתח מאורעות הסתברותיים. אני לא יכול לפתות אנשים לתחום עם רובוטים או עם דמו של אפקטים גרפיים – אצלי עושים מתמטיקה, ומי שאוהב את התחום – יותר ממוזמנת ומוזמן להצטרף."
תאריך עדכון אחרון : 08/09/2020