כל מודל שפה חדש יוצא לעולם עם אותה הבטחה: "שברנו את ה-MMLU, אנחנו הכי חכמים בכיתה". אבל מי כתב את המבחן, מי בודק את המחברות, והאם הציונים האלה אומרים משהו על איך שהמודל יעבוד על הדאטה שלי? על תעשיית הבנצ'מרקים ואיך מודלים מרמים במבחני שפה.
Want to check another podcast?
Enter the RSS feed of a podcast, and see all of their public statistics.