המטרה: בינה מלאכותית יעילה יותר

The Goal: A More Efficient Artificial Intelligence
תאריך

ד"ר אופיר לינדנבאום עובד על שיטות שונות לשיפור, לייעול ולהאצה של תהליכי אימון והסקה במודלי בסיס לבינה מלאכותית. עבודתו זיכתה אותו בפרס הרקטור למצוינות מדעית פורצת דרך לשנת 2025, בתחום למידת המכונה.

היום כבר ברור שאנחנו נמצאים בעיצומה של מהפכה טכנולוגית גדולה, שבמרכזה עומדת הבינה המלאכותית. בבסיסה של הבינה המלאכותית, ומה שמניע אותה ומאפשר לה להפוך באופן כה משמעותי את חיינו, עומדת למידת המכונה. "מבחינתי, בינה מלאכותית ולמידת מכונה זה אותו הדבר. כל המודלים של הבינה המלאכותית שכולם מדברים עליהם – ממודלי שפה כמו ChatGPT ועד מודלי תמונה כמו מידג'רני, שיודעים לעשות דברים מדהימים, כולם מבוססים על למידת מכונה", אומר ד"ר אופיר לינדנבאום, זוכה פרס הרקטור למצוינות מדעית פורצת דרך לשנת 2025. הפרס הוענק לד״ר לינדבנאום, על תרומה מדעית פורצת דרך בתחום למידת המכונה, המקדמת אימון יעיל של מודלי בסיס – כלומר מודלים לאימון בינה מלאכותית.

בשנה החולפת עבד ד"ר לינדנבאום על שלושה פרויקטים שונים שעסקו בשיפור ויעול של מודלי בסיס. "מודל בסיס הוא למעשה מודל של למידת מכונה שיודע לעשות המון המון משימות, בתחומים שונים, למשל שפה, תוכנה, עיבוד אודיו, מודל גרפי ועוד. מה שמשותף לכל המודלים האלה הוא שהאימון שלהם והשימוש בהם יקר מאוד חישובית, מבחינת זמני ריצה וזיכרון, כך שנדרשים משאבים אדירים, של מחשבי ענק, כדי לאמן אותם", מסביר ד"ר לינדנבאום. "המטרה שלנו, בכל הפרויקטים, הייתה להקטין את המודלים, את הזיכרון והחישוב הנדרש כדי לאמן אותם, כדי שהם ידרשו פחות משאבים, וזאת מבלי לפגוע בביצועים. משמעות הדבר הוא שגם מעבדות קטנות, למשל באוניברסיטאות, יוכלו לאמן מודלים מהסוג הזה".

הקטנת הזיכרון והאצת זמן האימון

ד"ר לינדנבאום וצוות הסטודנטים שלו, ארבעה דוקטורנטים ושבעה מאסטרנטים, עסקו בעבודתם בלמידת מכונה לא ספציפית, והתמקדו במודלי שפה ובמודלי תמונה. "אלה המודלים הכי גדולים ונפוצים היום, שיכולים להרוויח הכי הרבה אם משתמשים בהם בשיטות שרצינו לפתח", אומר ד"ר לינדנבאום.  הם תקפו את המטרה מכיוונים שונים. "בפרויקט אחד ניצלנו את העובדה שיש יתירות משמעותית בפרמרטים של המודל, כלומר הרבה יותר פרמטרים ממה שצריך. לכן, הטלנו את אלגוריתם החיפוש למרחב נמוך יותר, וניצלנו את המרחב הנמוך יותר כדי להקטין את הזיכרון".

בפרויקט השני, עסקו ד"ר לינדנבאום וצוותו בהאצת זמן האימון של מודלים גדולים. לרשת יש מרחב עצום של פרמטרים, כלומר המון מספרים שצריך לעדכן בכל צעד למידה. במקום לחשב ולעדכן את כולם במלואם, הם חישבו את כיווני העדכון, הגרדיאנטים, בתוך תת מרחב קטן יותר שמכיל פחות ממדים ולכן דורש פחות זכרון. בשלב השני, במקום ללמוד את כל המספרים הללו כפי שהם, הם מתחו את החשיבות שלהם כך שלכל כיוון במרחב תהיה חשיבות דומה. "בשיטות רגילות רואים שחלק מהמאפיינים משפיעים מאוד ואחרים הרבה פחות, אך ההבדלים האלה לא תמיד משקפים באמת מה חשוב ללמידה. כאשר מאזנים את החשיבות בין הכיוונים ומונעים מצב שבו רק חלק קטן מהם שולט בתהליך, מאפשרים לאופטימיזציה להתקדם בצורה מהירה ויעילה יותר וכך מקצרים את זמן האימון בלי לפגוע בביצועים.

האלגוריתם שייעל את הרשת כולה

בפרויקט השלישי התמקדו ד"ר לינדנבאום וצוותו בהקטנת הרשת עצמה. "בפרויקט הזה הגענו לתוצאה מפתיעה: ראינו שאם אנחנו לוקחים רשת שאומנה על משימה כללית, למשל מודל שפה שאומן על המון טקסט, אפשר למצוא בתוך הרשת תתי-רשתות,  קטנות יותר, שיכולות להיות טובות למשימות ספציפיות. אם למשל יש לי מודל שפה שאומן על המון טקסט, ואני רוצה שהוא יענה רק על שאלות רפואיות - אז אנחנו יכולים למצוא ברשת הגדולה רשת קטנה יותר, ממוקדת למשימה הזאת, לזרוק את שאר החלקים של הרשת - ולקבל רשת מהירה יותר, יעילה יותר, שצורכת הרבה פחות זיכרון".

האופטימיזציה הזו, לדברי ד"ר לינדנבאום, יעילה במיוחד, מכיוון שהיא לא דורשת שום שינוי ברשת המקורית – מלבד זריקה של חלקים מיותרים. "החידוש המשמעותי בפרויקט זה הוא אלגוריתם החיפוש שמוצא את תת-הרשת הספציפית בתוך הרשת הגדולה. מרגע שהגדרנו את הפרמטרים וגזרנו את תת הרשת, קיבלנו רשת שהיא למעשה טובה יותר מהרשת המקורית – כי היא ממוקדת יותר, ספציפית למשימה שאנחנו צריכים, תופסת פחות משאבים מבחינת זיכרון וזמן חישוב, ושומרת על ביצועים". 

אפיקים חדשים ללמידה

את עבודותיו בתחום האופטימיזציה לאימון של מודלי בסיס הציג ד"ר לינדנבאום בשנה האחרונה במספר במות מכובדות בתחום למידת המכונה והבינה המלאכותית, ובהן – NeurIPS, ICML, ICLR, TMLR.

במקביל לשיטות האופטימיזציה, פיתח ד"ר לינדנבאום שיטות חדשניות ללמידה בלתי מונחית, חילוץ מאפיינים ולמידת ייצוגים עבור נתונים טבלאיים מדעיים, המספקות כלים להתמודדות עם ממדים גבוהים, רעש והטרוגניות, ומאפשרות גילוי מבנים חבויים במידע מורכב. "תרומות אלה מרחיבות את היסודות התאורטיים והאלגוריתמיים של למידת מכונה מודרנית, ופותחות אפיקים חדשים ללמידה ממידע מדעי", הוא מסכם. 

רוצים לשמוע עוד על המחקר של ד"ר לינדנבאום? צפו בהרצאה שנתן בכנס GenML2025

קטגוריה מה חדש

תאריך עדכון אחרון : 04/03/2026