בפרק זה אירחנו את איתי יונה, חוקר לשעבר ב-Google DeepMind ומומחה לאבטחת מידע ולמידת מכונה. בשיחה שכל כולה צוללת אל תוך עולם ה-Adversarial Machine Learning ובודקת עד כמה קל "לשבור" את מודלי השפה המתוחכמים ביותר שאנו מכירים כיום.
מה זה בכלל Jailbreak? איתי מסביר כי בניגוד לאבטחת תוכנה קלאסית, כאן התקיפה מתמקדת במודל עצמו ובניסיון לגרום לו להתנהג בניגוד למטרה המקורית שלו דרך שינויים יצירתיים באינפוט.
מתקפת "דאבל-ספיק" (DoubleSpeak): חשיפה של מחקר המראה כיצד ניתן "לחטוף" את המשמעות של מילים בתוך שיחה. על ידי החלפת מילים רגישות במילים תמימות (כמו החלפת "פצצה" ב"גזר"), ניתן לעקוף את שכבות ההגנה ולגרום למודל לייצר פלט מסוכן במסווה של טקסט לגיטימי.
הסכנה שבמודלים הפתוחים: מתברר כי מתקפות שמתגלות על מודלים בקוד פתוח (כמו Llama) הן Transferable. מאחר שכל המודלים אומנו על דאטה דומה, ניתן לפתח מתקפה "בבית" ולהשתמש בה כ-Zero Day נגד מודלים סגורים כמו GPT-4.
איך מתגוננים באמת? איתי טוען ששיטות ההגנה הנוכחיות (פילטרים של מילים) הן רק פלסטר. הפתרון דורש התערבות עמוקה בחישובים הפנימיים של המודל ואימוץ גישה שמרנית שמתייחסת לכל פלט AI כאל מידע ממקור לא אמין (Untrusted)
לינקים:
- המאמר של איתי - IN-CONTEXT REPRESENTATION HIJACKING