Listen

Description

כל מודל שפה חדש יוצא לעולם עם אותה הבטחה: "שברנו את ה-MMLU, אנחנו הכי חכמים בכיתה". אבל מי כתב את המבחן, מי בודק את המחברות, והאם הציונים האלה אומרים משהו על איך שהמודל יעבוד על הדאטה שלי? על תעשיית הבנצ'מרקים ואיך מודלים מרמים במבחני שפה.