Pruning LLM Networks to Increase Robustness and Improve Runtime for the Purpose of Harmful Prompt Classification

קיצוץ רשתות LLM להגדלת רובסטיות ושיפור זמני ריצה למטרת סיווג פרומפטים מזיקים

מספר פרויקט
603
סטטוס - הצעה
הצעה
אחראי אקדמי
שנה
2025

הרקע לפרויקט:

שיחות מזיקות באמצעות פלטפורמות מבוססות מודלי LLM הוא אחד הסכנות הגדולות הקיימות היום. כחלק מהאתגר, מפתחי Chatboot מנסים לפתח מנגנונים מסוג Responsible AI כדי למנוע תשובות "מזיקות". מאידך, משתמשים מנסים לפתח מנגנוני "הטעיה" שנקראים Jailbreaking כנגד מנגנוני ה-Responsible AI. לאחרונה נאסף בסיס נתונים גדול שפורסם לאחרונה במסגרת כנס ICLR שכולל אינטראקציות "נקיות" ורעילות - המאמר מפורסם בלינק הבא: https://arxiv.org/pdf/2405.01470. קיים צורך לפתח מודל ביניים שיוכל לזהות בצורה מהירה (מודלים יעילים) עם יכולת יציבה (רובסטיות גם מול הטעיות), לזהות Prompts רעילים מסוג זה. מטרת הפרויקט להציע מנגנון קיצוץ רשת מסוג LLM שתוכל להתמודד עם אתגרים אלו.

מטרת הפרויקט:

פיתוח מתודולוגיית קיצוץ רשת LLM עבור בעיית קלאסיפיקציה עם מספר מועט של קלאסים - כולל יישום לבעיית זיהוי Prompts רעילים מסוגים שונים.

תכולת הפרויקט:

1. להבין לעומק ארכיטקטורת רשתות LLM.
2. לפתח מנגנון קיצוץ רכיבים של רשת LLM לשפר ביצועי ריצה ולבחון שיפור רובסטיות.
3. לבצע יישום של המתודולוגיה על רשת LLM תוך יישום לבעיית זיהוי Prompts רעילים.

קורסי קדם:

נדרש להיות רשומים וללמוד את הקורסים עיבוד שפות טבעיות בטכניקות למידת מכונה ולמידה עמוקה עד סוף סמסטר א'.

דרישות נוספות:

ידע נרחב במבנה ועבודה עם רשתות עמוקות (רשתות קונבולוציה) הינו הכרחי. נדרש ממוצע תואר למעלה מ-85 עד סוף שנה שלישית עם ציונים גבוהים בקורסי הסתברות וקורסי למידה מכונה.

מקורות:

https://arxiv.org/pdf/2405.01470

תאריך עדכון אחרון : 30/09/2024