podcast
details
.com
Print
Share
Look for any podcast host, guest or anyone
Search
Showing episodes and shows of
Mike Erlihson
Shows
ExplAInable
[134] האם מודלי שפה מפגינים פסיכולוגיה אנושית - עם בוריס גורליק
בפרק זה, ד״ר בוריס גורליק — חוקר נתונים, מרצה ורוקח בעברו — מציג היפותזה מרתקת שלפיה מודלי שפה גדולים מפגינים התנהגות אנושית יותר מכפי שמצופה מהם. מכאן השיחה גלשה לפסים פילוסופיים על טיב התבונה, משמעות החיים, והאם אלגוריתמים ישנים כמו SVM עשויים לשוב ולתפוס מקום מרכזי בעולם ה-AI.המאמר של בוריס בו הוא מציג את ההיפותזה : https://www.mdpi.com/2076-3417/15/15/8469ויש לו גם פודקאסט על המזרח התיכון https://anchor.fm/hashavua
2025-10-23
38 min
ExplAInable
[133] על אימוץ בפועל של AI בארגונים עם שוקי כהן AI21
בפרק הזה שמחנו לארח את שוקי כהן מ AI21 - החברה הישראלית המובילה בעולם בפיתוח בינה מלאכותית. בשיחה עם שוקי למדנו מניסיונו העשיר וצללנו לנבכי פיתוח בינה מלאכותית: מפיתוח מודל היברידי Jamba, דרך וורדטיון ועד למוצר הדגל שלהם, מאסטרו. ניסינו להבין איך נוצר האקלים היחודי שגרם ל AI לחדור לכל סלון בעולם המערבי תוך חודשים ספורים, ומאידך דנו בשאלה מדוע פרויקטי AI נכשלים ולא מגיעים לפרודקשן. חקרנו את הסוגיות שמעסיקות את כולנו, אבל הפעם ממקור ראשון - מחברה שמפתחת בעצמה את טכנולוגיית הקצה הזו שמשנה את החיים של כולנו.
2025-10-16
50 min
ExplAInable
[132] Are evals a scam? עם אלמוג באקו
סערת טוויטר אחרונה דיברה על evals לאייג׳נטים וLLM באופן כללי - האם מדובר בכלי נדרש או בקידום עצמי של בעלי עניין?אלמוג, מוביל קהילת GenAi, איתנו לדבר על החשיבות והמגבלות של evals - ולמה הם ממש לא פתרון קסם.נדבר על פרקטיקות נפוצות לאיסוף פידבק, וביצוע error analysis ליצירה של agent שיודע להשתפר לאורך זמן.
2025-10-05
43 min
ExplAInable
[131] תגליות מדעיות אוטומטיות עם פרופ' טדי לזבניק
״אם לניוטון היה רשת נוירונים לעולם לא היינו לומדים את נוסחאות הכבידה״האם החדשנות בAI מאיצה או מאטה את קצב הגילויים המדעיים. נכון כנראה שחוקרים יכולים לכתוב קוד מהר יותר, אבל האם נגלה עוד נוסחאות קצרות ומרשימות כמו תורת היחסות הפרטית או חוקי ניוטון?איתנו פרופסור טדי לזנביק לדבר על האופן שבו בינה מלאכותית משנה את תהליך הגילוי המדעי, תוך מעבר מעבר ללמידת מכונה מסורתית לשיטות המשלבות ידע קודם והיגיון סימבולי. הוא בוחן את תחום ה־רגרסיה הסימבולית (Symbolic Regression) כאמצעי לחשיפת חוקים מתמטיים ניתנים לפרשנות ישירות מנתונים, ומדגיש את תרומתה לחשיפת המשוואות היסודיות של הטבע. הדיון מתמקד גם בשילוב ידע תחומי בתוך מודלי הבינה המלאכותית – במיוחד בגישות המונחות על־ידי עקרונות פיזיקליים – וכן באופן שבו מודלים שפתיים גדולים (LLMs) יכולים לשפר את תכנון הניסויים, להאיץ את ניתוח הנתונים ולהפיק השערות חדשות באופן אוטומטי. לבסוף, הפרק מתעמק בתפקידם של LLMs ועיבוד שפה טבעית (NLP) באוטומציה של סקירות ספרות מדעיות ובפיתוח היגיון פורמלי לבדיקת אמיתות מדעיות, ומדגים כיצד בינה מלאכותית מאיצה את תהליך הסינתזה וההתקדמות המדעית.קישורים לעיון:Mindless statistics Why Most Published Research Findings Are False
2025-09-29
46 min
ExplAInable
[130] מערכות המלצה עם נועם קניגשטיין
ראיון עם עם פרופ’ נעם קניגשטיין מאוניבריסטת תל אביב, מומחה למערכות המלצה וחוקר לשעבר המוביל של XBox recommendation במיקרוסופט.מהחלוקה הקלאסית בין מערכות collaborative filtering ו-content based ועד ל-hybrid והמעבר ל-embeddings ו-matrix factorization. נעם יסביר את התפתחות האלגוריתמים, את ההבדלים בין explicit ל-implicit feedback, ואת האתגרים בבחירת ממד המודל. בנוסף נעם מדגיש את הפער בין ביצועים ב-offline test set לבין ביצועים אמיתיים בשטח, ואת הצורך להבין סיבתיות ולא רק קורלציות.דיברנו על ההבדלים בין אלגוריתמים כמו bandits, שימוש ב-organic feedback, והקושי ב-off policy evaluation תוך איזון בין bias ל-variance.פרופ׳ קניגשטיין מספר על יישומים אמיתיים במוזיקה ובסרטים, על ההבדלים ביניהם, ועל החשיבות של הסברים (XAI) כדי להתמודד עם בעיות כמו filter bubbles. לבסוף, הוא מצביע על חזון לקדם את קהילת מערכות ההמלצה בישראל ולחבר בין האקדמיה לתעשייה.
2025-09-22
56 min
ExplAInable
[129] איך מלמדים היום הנדסת תוכנה - עם אסף שפנייר מהמכללה להנדסה עזריאלי בירושלים
בעידן שבו כל יום מאיימים עלינו שעוד מעט לא יצטרכו מתכנתים כי AI יחליף את כולנו, האם צריך ללמוד הנדסת תוכנה?ד״ר אסף שפנייר ראש התוכנית לתואר שני בבינה מלאכותית מהמכללה להנדסה - עזריאלי בירושלים, יספר מדוע מדובר ב Fake news.נדבר על החוסרים שAI מתקשה למלא בעולמות הנדסת התוכנה, ועל התפקיד החדש של מהנדס תוכנה בעידן שאחרי ChatGPT.לאסף יש מספר עצות לבוגרים טריים, איך נכון להתבלט בשוק שבו ״פרויקט גמר״ כבר לא מרשים אף אחד - כי תמיד יש את הספק אם הוא נכתב על ידי AI או אדם.ואיך בכלל בודקים הבנה של יסודות תוכנה בסיסיים כאשר כלים כמו Cursor יכולים להשלים את החסר בצורה טובה יחסית.קישור לפודקסט של אסף: מתכנתים מחדש את ההוראה
2025-08-31
34 min
ExplAInable
[128] AI Coding - עם גילי נחום - AWS
כולם מדברים היום על קידוד עם AI, בין אם זה עם כלי עזר כמו co-pilot או cursor, השלמה אוטמטית. או כתיבה של תוכניות שלמות עם vibe coding עם כלים כמו lovable או base44.בפרק זה נארח את גילי נחום, לענות על שאלות על עתיד עולם התוכנה והכלים האחרונים.נדבר על שימוש נכון בMCP, על חלוקה של הכלים לדורות וההיררכיה שלהם.ונתן עצות מה המקומות הנכונים לשלב כלים כמו claude code לעומת כלים אחריםץ
2025-08-20
37 min
ExplAInable
[127] על למידה בהמשכים - Continual Learning - עם עידן משיח
אימון מודלים זה דבר מורכב, הכולל בחירה חכמה של גודל הבאצ׳ים, ובחירה נכונה של דאטא איכותי ונקי.בפרק זה נדבר עם עידן משיח, סטודנט לתואר שני בתחום על אלטרנטיבה או השלמה ללמידה בבאצ׳ - למידה בהמשכים.נדבר על האתגרים של ״שכחה״ catastrophic forgetting כשחושפים מודל לדאטא חדש.עידן ישטח בפנינו את שלושת האלטרנטיבות ללמידה הדרגתית, הכוללים שינוי של מבנה הדגימה, עדכון המודל ושינויים בפונקציית האופטימיזציה.נשווה בין למידה ישירה ללמידה בהמשכים ונמליץ על טיפים פרקטיים לכל מי שמאמן מודלים על דאטא גדול.
2025-08-06
41 min
ExplAInable
[126] איך עושים מחקר ופיתוח בעולם ה-GenAI עם עוז ליבנה
AI מעולם לא היה זמין יותר, ולמרות זאת חברות רבות מתקשות במחקר ופיתוח מוצרים/פיצ'רים מבוססי GenAI. מה הן מפספסות? מדוע זה שונה כל כך מפיתוח תוכנה "קלאסי"? בפרק זה אירחנו את עוז ליבנה, יועץ וארכיטקט GenAI, לשתף מנסיונו ולהסביר על שינוי הפרדיגמה העמוק הדרוש להצלחה במחקר ופיתוח GenAI, ועל ההבדלים המהותיים מפיתוח תוכנה קלאסי - ברמת החשיבה, התכנון, התמודדות עם אתגרים, צורת ההתקדמות, POCs, ומטריקות
2025-07-28
58 min
ExplAInable
[125] על חוקי הסקייל של מודלי שפה עם ד״ר ג׳וני רוזנפלד מMIT
בפרק זה היה את הכבוד לארח את ג׳וני, מהכותבים המקוריים של מאמר הscaling laws ב2019 שסלל את הדרך למודלי השפה העצומים של ימינו.חשבתם פעם איך לסם אלטמן היה את האומץ לשפוך מליונים על אימון GPT3 בתקווה שיהיה מודל טוב יותר מאשר מודל באלפי דולרים?תגלית חוקי הסקיילינג (שלהם ג׳וני היה שותף) היתה המנוע העיקרי להבנה איך עובדת הכלכלה של אימון מודלי שפה.נגענו במוטיבציה לכללים, ומדוע אנחנו יכולים לנבא ביצועים של מודל אף על פי שאיננו יודעים איך הוא עובד בדיוק.דיברנו על ההבדל בין ההשפעה של החוקים על שלב האימון לעומת שלב הinference כפי שאנחנו רואים במודלי chain of thought.והאם סקיילינג תלוי בארכיטרטורה של הטרנספורמרים אותה אנחנו מיישמים כיום? או שמדובר בתופעה כללית.סיימנו בדיון על העתיד של התחום, וכיצד אפשר למדוד אוטונומיה של מודלי שפה בצורה דומה בעתיד כדי להבטיח שתהיה שליטה במודלים הבאים.
2025-07-20
1h 08
ExplAInable
[124] איך מאמנים מודלים לשכוח - עם פרופ עודד שמואלי
זה נראה שרוב הפוקוס הנוכחי הוא על הכנסת דאטא עדכני לדאטאסט של אימון של מודל, ושמירת המודל עדכני.אבל הצד השני של המטבע הזו, הוא לגרום למודל לשכוח נתונים שאינם עדכניים.בין אם מדובר בחוקי מס שהשתנו או בביאסים של הדאטא (כמו דעות קדומות) שהיינו רוצים לשנות, שיכחה היא דבר חשוב.פרופסור עודד שמואלי מהטכניון ידבר איתנו על המורכבות של ״עריכת״ מידע של מודלים, החל ממודלי קלאסיפיקציה פשוטים ועד מודלים מורכבים שפועלים על מספר מודאליות
2025-07-12
36 min
ExplAInable
[123] על דיפ לרנינג, דאטא טאבולרי וTabStar עם אלן ארזי
בפרק זה אירחנו את אלן ארזי, מהכותבים של TabStar (יחד עם עילם שפירא ופרופ. רועי רייכארט) - מודל דיפ לרנינג המיועד למידע טבלאי.בניגוד לתמונה, קול וטקסט - במידע טבלאי מודלי דיפ לרנינג הם לא הגישה הרווחת.האתגר הגדול בעולמות הטבלה היא חוסר האחידות, טבלאות יכולות לתאר מגוון רחב של נתונים בלי מכנה משותף ביניהם - ולכן קשה למצוא ״מודל בסיס״ כמו בעולמות התמונה.בטאב סטאר, הכותבים לקחו גישה שמערכת מודלי שפה (ובפרט טרנספורמרים) והשתמשו בשמות העמודות ובתיאור הטקסטואלי של הקטגוריות בשביל לתת למודל קונטקסט.השיטה מראה ביצועים עדיפים על XGBoost כאשר יש מגוון של עמודות טקסטואליות במשימות קלאסיפיקציה.אלן סיפר לנו על האתגרים באיסוף מידע לאימון ועל הצפוי לנו בעתיד בעולמות המידע הטבלאי.
2025-06-27
33 min
ExplAInable
[122] על הקשר בין דחיסה ללמידה עם פרופ. רביד זיו
רביד זיו, לשעבר מהמעבדה של יאן לקון, היום פרופסור בNYU וחוקר פורה בדיפ לרנינג ידבר איתנו על דחיסה ולמידה.בעוד דחיסה מזכיר לחלקנו זיפ, או jpeg - רביד ירחיב על איך רשתות דוחסות מידע בצורה יעילה.נדבר על שיטות כגון next token prediction שמסתבר שמאלצות מודלים ללמוד דחיסה יעילה יותר מאשר masking כמו בBERT.נדבר על חשיבות האוגמנטציה בתהליך האימון - או יותר נכון, חוסר החשיבות כפי שנראה.ונעמיק על הקשר שבין דחיסת מודלים, דחיסת אינפורמציה והמשימות אליהן רוצים לעשות אופטימיזציה
2025-06-16
56 min
ExplAInable
[121] על אומנות ובינה מלאכותית גנרטיבית - עם מתי מריאנסקי
מתי מריאנסקי, מוביל קהילת עליית המכונות הפופולארית, אמן ומשתמש נלהב בAI ידבר איתנו על נסיונו.נדבר על המגבלות והדפוסים שנראה שAI נופל אליהם, האם מודל בינה יוכל לייצר את סגנון הקוביזם החדש?ונדבר על ההשלכות של פילטרי הבטיחות על איכות המודלים.לסיום, נדון האם יש טעם ללמוד היום עיצוב גרפי, והאם התחום בדרך לאוטומציה מלאה.
2025-06-07
51 min
ExplAInable
[120] איך מודלי שפה עובדים טוב גם לא באנגלית - עם גיא רוטמן, גונג
היום בעידן מודלי השפה הגדולים כשתרגום סימולטני מתאפשר בלייב, זה נראה כאילו מאז ומתמיד ChatGPT ידע לדבר עברית.עד לא מזמן היתה צניחה משמעותית בביצועים של מודלי שפה על שפות שאינן אנגלית.בפרק זה גיא רוטמן, חוקר אקדמי בתחום ובתעשייה ב gong.io ידבר איתנו על אתגרי העבר והווה באימון מודלי שפה רב שפתיים.נדבר על טיפים עכשוויים להתמודדות עם שפות כגון עברית, ועל אתגרי הדאטא.
2025-05-28
49 min
ExplAInable
[119] איך הגעתי למליוני חשיפות בלינקדין עם AI - עם מיכאל קיסילנקו
יוצא לנו הרבה לדבר על אייג׳נטים, על מודלי שפה, ועל איך הם עובדים.בפרק זה אנחנו נדבר עם מיכאל קיסילנקו - היזם מאחורי GenDesk, שמגיע שיטתית למליוני חשיפות בלינקדין בעזרת שימוש בAI.מיכאל פיתח מומחיות רבה, ולמד את האלגוריתם של לינקדין מכל הצדדים.פרק מלא תובנות שאסור לפספס
2025-05-19
41 min
ExplAInable
[118] מענה על שאלות חזותיות VQA - עם פרופ עידן שוורץ
היום כשמודלי שפה נהיו כ״כ חזקים, אנחנו לוקחים כמובן מאליו את יכולות הבנת התמונה.בפרק זה פרופ. עידן שוורץ מאוניברסיטת בר אילן יספר לנו על ההיסטוריה של התפתחות התחום, על ביאסים בתשובות ואיך מתמודדים איתם ומה הם האתגרים העכשוויים בתחום.ריבוי מודאליות גורם גם לבעיות מסדר שני, כגון ישור הקלטים, מציאת מרחב משותף מייצג, וכמובן מה עושים כאשר יש קונפליקט בין המימד החזותי לטקסטואלי למשל.ב28 למאי ייערץ יום עיון בבר אילן, שם עידן ומיטב המוחות בתחום יציגו את העבודות שלהם.קישורים לעיון:https://biu365-my.sharepoint.com/:f:/g/personal/schwari9_biu_ac_il/Eus14HAcXQBBuS_GhknGbh4Bevs1VixlLgPO0yCgLReY2w?e=GZJDnO
2025-05-12
1h 02
ExplAInable
[117] חיפוש והמלצה 2025 - חוזרים אחורה - סיכום כנס הייסטאק
אחרי שנתיים ביקרנו שוב בכנס Haystack העוסק בחיפוש והמלצה.נדבר על ההבדלים בין 2025 לשנת 2023 ועל מגמת החזרה לעולם החיפוש הלקסיקוגרפי על חשבון החיפוש הוקטורי.ועל גישותLLM as a judgeהרווחת לאיבליואציה של חיפוש והמלצה
2025-05-04
34 min
ExplAInable
[116] מתקפות סייבר על מודלי שפה - עם נתן כץ
מודלי שפה גדולים אמנם עוזרים לפרודקטיביות, אבל גם של ההאקרים.עולם הסייבר השתנה רבות מאז יציאת ChatGPT - מומחים מעריכים שמספר הפריצות גדל פי ארבעה.בפרק זה נתן כץ יסקור לנו ארבע שיטות לניצול חולשות במודל השפה עצמו.נדבר על גניבת מודלים, ״הרעלה״ של סט האימון והרעשה של המודל לביאס עבור מילת אקטיבציה ספציפיתץנתן יחלוק לנו מתובנותיו בlumin AI על תהליך המכירה לCSO בארגון, ונדבר על ההבדלים בין סיכוני open source ל״משקולות פתוחים״לקריאה נוספת:https://owasp.org/www-project-machine-learning-security-top-10/https://owasp.org/www-project-top-10-for-large-language-model-applications/assets/PDF/OWASP-Top-10-for-LLMs-2023-v05.pdf
2025-04-29
30 min
ExplAInable
[115] על RLHF ומודלי שפה גדולים
בפרק זה החליפו מייק ותמיר את התובנות החידודים והשאלות הפתוחות שלהם בניסיון להבין איך מתחברים עולם ה RL ועולם ה LLM (קרי RLHF). ב 2024 השתנתה הפרדיגמה - בתחילה יצירת מודל reward כדי לעשות אימון נוסף ל LLM אחרי ה pretraining שלו באמצעות PPO. ולאחר מכן הוחלף ה PPO בRLHF.בעוד רוב מודלי ה reasoning של החברות הגדולות (chatgpt, claude, gemini) עדיין באפילה - נדבר על איך לדעתנו RLHF יכול לשמש בתהליך.
2025-04-20
55 min
ExplAInable
[114] קבלת החלטות ארוכות טווח עם פרופ. גיא שני
יאן לקון, מאבות הAI המודרני מאמין שהעתיד נמצא בתיכנון טווח ארוך (planning) ולא בחיזוי המילה הבאה.פרופסור גיא שני מהפקולטה להנדסת מערכות מידע באוניברסיטת בן גוריון ומוביל קבוצת מחקר בeBay יספר לנו על האתגרים.נדבר על סוגים של אי וודאות במודלים, ושיטות תכנון לאופק מוגדר לעומת אופק לא ידוע.נצלול לעומק הגישות המרקוביות הקלאסיות, כמו POMDP ונשווה מול גישות Reinforcement learning.למי שמעוניין לצלול לפרטים, פרופסור גיא שני והמעבדה שלו הקליטו קורס אונליין חינמי בקישור הבא: https://campus.gov.il/course/bgu-acd-bgu-ai101/
2025-04-11
32 min
ExplAInable
[113] NVIDIA GTC 2025 - סיכום הכנס
כנס הGTC של אנבידיה הוא אחד האירועים המרכזיים של עולם הAI.הכנס נערך חמישה ימים והסתיים ב22 למרץ 2025, בפרק זה ננסה לתמצת לכם את עיקרי הדברים בעשרים דקות.וכהרגלנו, נבחון בעין ביקורתית את ההצהרות וההכרזות שהיו בכנס.מה נאמר על רובוטים, דיפסיק, עתיד המניה ומה לא נאמר ובלט בהיעדרו.
2025-03-30
28 min
ExplAInable
[112] בעקבות המאמר של מטא עם לירון יצחקי אלרהנד
מעטים המאמרים המתארים בפירוט רב כל כך את האתגרים של יצירת וידאו מטקסט.במאמר הMovieGen של מטא, נכתבו 92 עמודים של המודלים השונים שנדרשים כדי לייצר סרטונים קצרים.בפרק זה לירון יספר לנו על האתגרים הטכניים כמו מגבלת הזכרון, וסוגי הטעויות שניתן להבחין בסרטונים מג׳ונרטים.אנחנו נסקור בקצרה את הגישות שמטא לקחו במאמר שלהם, ונפרק את השיטה לתתי המודלים שמרכיבים את הpipeline הארוך של יצירת סרטונים עם AI.
2025-03-19
44 min
ExplAInable
[111] מדידת GenAI עם אסף בורד
להכניס מודלי שפה כמו ChatGPT למערכת, זה יחסית קל ונגיש, עם אלפי דוגמאות ותמחור תחרותי אצל הספקים השונים.אבל למדוד את הביצועים של מודל כזה או אחר נשארת בעיה פתוחה, במיוחד אם משלבים גם מדדים עסקיים.בפרק זה נארח את אסף בורד, שמוביל את מאמצי ה GenAI בחברת Northwestern Mutual והשיק לאחרונה את Multinear.com כקוד פתוח לאבלאוציה.נדבר על חמשת הרכיבים שיש לבדוק כשמנסים להעריך מערכת AI בשלמותה: דאטא, פונקציית המטרה, הפרומפט, הסטאק הטכנולוגי ובדיקות.ונעמיק בהשוואה מול ספריות אחרות וטכניקות מדידה כגון GPT as a judge
2025-03-13
50 min
ExplAInable
[110] האתגרים בבינה מלאכותית בעולם הפיזי, עם אופיר זמיר מ NVIDIA
נראה שהבינה המלאכותית כבר כאן, חיה ובועטת - אבל עדיין אין רובוטים מתהלכים ביננו.בעוד מודלי שפה גדולים מגיעים לתוצאות מבחני לשכה מעל העורך דין הממוצע, הם עדיין מתקשים בקיפול גרביים.בפרק זה נארח את אופיר זמיר מNVIDIA שייספר לנו על האתגרים, ועל טכניקות כגוןImitation learning, Simulationועל הכלים שאנבידיה מביאה לשולחן מבחינת חומרה ותוכנה כדי להפוך את החלום על רובוטים למציאות. זו הזדמנות מעולה להזכיר שכנס הGTC השנתי של אנבידיה קורה החודש, ב17 למרץ ואפשר להשתתף אונליין ללא עלות.להרשמהhttps://www.nvidia.com/gtc/?ncid=ref-inpa-481629
2025-03-01
30 min
ExplAInable
[109] הלוסינציות עם ישי רוזנברג
כולנו מכירים את התופעה שמודלי שפה גדולים נוטים להמציא דברים שלא היו ולא נבראו. אבל האם אפשר לכמת את איכות המודל לפי רמת ה״הזיות״ שלו?ומה לגבי סוכנים? שם טעות בשלב אחד יכולה להשפיע דרמטית על הכלים שייבחרו בשלבים הבאים?אירחנו את ישי רוזנברג, חוקר בתחום שמוביל את Verax AI לדבר על איך אפשר להתמודד עם בעיות האמינות של מודלים.ומדוע לדעתו צריך להיות דקדקנים במינוח של סוגי הטעויות לפי הקונטקסט הנכון.
2025-02-23
45 min
ExplAInable
[108] בינה מלאכותית בגובה העיניים עם בר שאלתיאל
בר שאלתיאל מוביל את קהילת בינה מלאכותית בגובה העיניים המונה מעל 30000 אנשים. בר שיצא בשאלה מהעולם החרדי לפני כשלוש שנים גילה כמעט בטעות את כוחם של מודלי השפה הגדולים כשהתחיל לסייע לסטודנטים לכתוב עבודות אקדמיות.מאז נכנס בר למסע של מחקר והבנה איך המנגנון עובד, ואילו פרומפטים יעילים ביותר.יוצא לנו הרבה לדבר על מודלי שפה גדולים מנקודת המבט של החוקר, ובפרק זה נצלול לראשונה לחוויית המשתמש והbest practices שבר מלמד מהעבודה בשטח.
2025-02-16
36 min
ExplAInable
[107] בואו לפגוש אותנו בפרק לייב ראשון - Ask us anything
כבר חמש שנים שאנחנו מקליטים על למידת מכונה, אלגוריתמים ולא מעט על GenAI.עוד אף פעם לא מאוחר להזמין לפרק לייב, בשיתוף פעולה עם qodo לפרק מיוחד של Ask me anything/כדי שנוכל להתכונן, נשמח לענות על השאלות שלכם בקישור הבא:https://docs.google.com/forms/d/e/1FAIpQLSeqQX4VtEoGxa4IlEi4-cpn46mtkhOdogR4FTxNwuq8cXy2HA/
2025-02-12
00 min
ExplAInable
[106] DeepSeek - הצצה פנימה - איך הוא עובד
כולם מדברים על דיפסיק, המודל הסיני, החדש, הזול והאופן סורס שמביס את צ׳אט ג׳י פי טי ומביך את OpenAIבפרק זה נדבר על ארבעת החידושים הטכנולוגיים מהמאמר: GRPO, KL-divergence approximation, multi token prediction והקוואנטיזציה.ואיך לא, גם קצת השערות של מייק ארליכסון ושל אורי גורן על מה באמת קורה מתחת למכסה המנוע.
2025-02-01
43 min
ExplAInable
[105] דאטה טאבולרי במחקר עם פרופ׳ אופיר לינדנבאום
בפרק זה מצטרף אלינו פרופ' אופיר לינדנבאום מאוניברסיטת בר-אילן לשיחה על השימוש בלמידת עומק לגילוי מדעי. נדון באתגרים הייחודיים של נתונים טבלאיים, היתרונות של רשתות נוירונים מול שיטות מסורתיות, ויישומים מעשיים בתחומים כמו ביולוגיה ורפואה.המאמר שהזכרנו בפרקהאתר של אופירלינקדאין של אופיר
2025-01-27
25 min
ExplAInable
[104] בין תחרות למציאות: הצצה לתחרויות Kaggle עם דן עופר
בפרק זה, אירחנו את דן עופר, מדען נתונים בכיר ב-Medtronicודוקטורנט באוניברסיטה העברית, נדבר על ניסיונו בתחרויות Kaggle ובתחום מדעי הנתונים. נדון גם בתרומתה של Kaggle לפיתוח יכולות מעשיות, באתגרים שבין התחרויות לבין המציאות המקצועית, ובתובנות שנרכשו מתחרות ProteinBERT לאנליזת חלבונים באמצעות מודלים מבוססי שפה.גיטהאב של דןלינקדאין של דן
2025-01-20
39 min
ExplAInable
[103] מושג בקצרה עם מייק: Peft
פרק שני בסדרת ״מושג בקצרה עם מייק״ בה נצלול לעומקם של מושגים מעולמות הML וAI. בכל פרק נתמקד במושג אחד מרכזי – נסביר אותו בפשטות, נדון במשמעויותיו המעשיות, ונבחן את השפעתו על התחום והתעשייה.
2025-01-16
07 min
ExplAInable
[102] חיזוי קונפורמי: מבט מעמיק עם חילף חסון
בעקבות הפרק שיפור וודאות במודלים: הצצה לעולם של ניבוי קונפורמי החלטנו הפעם לצלול עמוק פנימה. בפרק הזה, אנחנו צוללים לעומק עולם הניבוי הקונפורמי. יחד עם חילף חסון, נדון כיצד ניתן ליישם ניבוי קונפורמי בבעיות קלאסיפיקציה, מה היתרונות, ואיך זה לסייע בקבלת החלטות מדויקות יותר בעולם הנתונים. פרק עשיר בתובנות לכל חובבי ה-AI והדאטה סיינס האתר של חילףConformalized Quantile RegressionRobots That Ask For Help: Uncertainty Alignment for Large Language Model Planners
2025-01-13
25 min
ExplAInable
[101] פרומפטים חכמים: מהפכת DSPy עם סרג' סמורדינסקי
היום בפרק נדבר עם סרג' סמורדינסקי, ראש תחום NLP ומחקר ב-Loris AI, לשיחה על חלופות להנדסת פרומפטים וכלי DSPy.סרג' ישתף על האתגרים בעבודה עם מודלים לשוניים גדולים (LLMs)וכיצד DSPy מאפשר יצירת פרומפטים דינמיים ואופטימליים.נציע מבט חדשני על עתיד ה-NLP ושיטות עבודה מתקדמות בתעשייה. לינקדאין של סרג׳DSPy: Machine Learning Attitude Towards LLM Promptingמאמרים של סרג׳ במדיום
2025-01-06
25 min
ExplAInable
[100] סיכום שנה - שנת 2025, השנה בה אייג׳נטים הולכים למות
ברוכים הבאים לפרק סיכום שנת 2024! הפעם שוחחנו עם איתן צימרמן, מוביל צוות הדאטא סייאנס ב-ARGMAXסיכמנו את שנת 2024 ועל המגמות, האתגרים וטרנדים שנתקלנו בהם לאורך השנהבנוסף, שיתפנו את התחזיות שלנו לשנת 2025 – אילו טרנדים חדשים צפויים לצבור תאוצה? אילו בעיות טכנולוגיות נצטרך לפתור?מה אתם צופים ששנת 2025 תביא איתה בעולמות הML? לינקדאין של איתן
2025-01-01
25 min
ExplAInable
[99] בין אקדמיה לתעשייה: עם אבי קצ׳ולרו ואמיר דוד ניסן כהן NLP
היום בפרק נצלול לעומק עולמות האקדמיה בתחום הNLP אבי ואמיר, חוקרים ומומחים בעולמות ה-NLP, משתפים במסלולי הקריירה שלהם, ההבדלים בין מחקר באקדמיה לעבודה בתעשייה, וכיצד ניתן למנף דוקטורט לקריירה מצליחה. נדון גם בשאלה מה הופך מחקר אקדמי למעניין, אילו כישורים ניתן לפתח בתהליך הדוקטורט, ומהם ההבדלים בין מחקר לתעשייה בעידן של LLMsהאתר של אבילינקדאין של אמיר
2024-12-30
47 min
ExplAInable
[98] פיזיקה, סדרות זמן, ולמידת מכונה: עם הדר שרביט
בפרק הבא נחקור יחד עם הדר שרביט את השילוב בין פיזיקה ללמידת מכונה בחיזוי סדרות זמן. נדון בהבדלים בין חיזוי לניבוי בזמן אמת, באתגרים תעשייתיים, ובדרכים שבהן מודלים פיזיקליים ונתוני חיישנים משתלבים כדי ליצור פתרונות מתקדמים. לינקדאין של הדרNixtlaהבלוג של הדר
2024-12-23
33 min
ExplAInable
[97] יצירת וידיאו מטקסט: האתגרים והמורכבויות עם לירון יצחקי אלרהנד
בפרק זה נדבר עם לירון יצחקי אלרהנד באתגרים הטכניים ביצירת וידאו באמצעות בינה מלאכותית. נדון בניהול זיכרון, שמירה על קוהרנטיות בין פריימים, והקשרים בין מודלי שפה ליצירת וידאו, ונציג גם פתרונות חדשניים להתמודדות עם תנועות מורכבות ושיפור עקביות ויזואלית
2024-12-16
37 min
ExplAInable
[96] מושג בקצרה עם מייק: Training LLMs
פרק שני בסדרת ״מושג בקצרה עם מייק״ בה נצלול לעומקם של מושגים מעולמות הML וAI. בכל פרק נתמקד במושג אחד מרכזי – נסביר אותו בפשטות, נדון במשמעויותיו המעשיות, ונבחן את השפעתו על התחום והתעשייה.
2024-12-12
13 min
ExplAInable
[95] אימון מודלים בבינה מלאכותית עם בן בורן
בפרק זה נשוחח עם בן בורן, CTO של SwarmOne, על האתגרים בהכשרת מודלים בבינה מלאכותית.בן יסביר על עבודה עם GPU, שמירה על אבטחת מידע, וסקלת מודלים גדולים. הם ונדון גם בהשפעת LLM ובדרכים לייעל את תהליכי ההכשרה.SwarmOneהלינקדאין של בן
2024-12-09
30 min
ExplAInable
[94] ראג, לאן מכאן? פרק משותף עם ״המחוללים״
פרק משותף עם הפודקאסט ״״המחוללים של דורון שדה ושקד זיכלינסקיוהפעם, נדון בכל מה שקשור ל-RAG,והאם אכן מכאן תגיע הישועה לפתרון בעיית ההזיות של מודלי שפה? ״המחוללים״האתר של דורוןלינקדאין של שקד
2024-12-02
35 min
ExplAInable
[93] סוכנים אוטונומיים עם עמית מנדלבאום
בפרק הבא נדבר עם עמית מנדלבאום על התפתחות סוכנים אוטונומיים תוך שימוש במודלים מתקדמים של ראיית מחשב ו-LLMs. נתייחס לאתגרים בשילוב יכולות היסק ושיקול דעת, ולבעיות שהיו בפרויקטים כמו AutoGPT. נציג את הצלחתה של חברת Anthropic בהבנה של פעולות ממסכי מחשב ונסביר כיצד טכנולוגיות אלו משפרות את ההתמודדות עם פעולות ממוחשבות בצורה קרובה להתנהגות אנושית. https://medium.com/@luke.birdeau/reverse-engineering-chatgpt-o1-5cf3b61c6eeeAI Agents That Matterhttps://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities
2024-11-25
49 min
ExplAInable
[92] מושג בקצרה עם מייק: Encoder/Decoder
פרק ראשון בסדרת ״מושג בקצרה עם מייק״ בה נצלול לעומקם של מושגים מעולמות הML וAI. בכל פרק נתמקד במושג אחד מרכזי – נסביר אותו בפשטות, נדון במשמעויותיו המעשיות, ונבחן את השפעתו על התחום והתעשייה.
2024-11-24
17 min
ExplAInable
[91] כתיבה גנרטיבית מול אנושית: ניווט באזור האפור עם אביב קרן
בפרק הבא נדבר על העולם המורכב של זיהוי טקסט שנוצר על ידי בינה מלאכותית. נסקור את השימושים הנפוצים ב-ChatGPT, מהכתיבה ועד ליישומים אפורים כמו העתקות ובוטים. יחד עם אביב קרן, נדון בשיטות לזיהוי טקסט מג׳ונרט, השפעות על האקדמיה, שימושים בבינה מלאכותית לאימון מודלים, ונדבר גם על האתגרים האתיים והטכנולוגיים שמלווים את התחום.Semantic ScholarA Survey on LLM-generated Text Detection: Necessity, Methods, and Future Directions
2024-11-18
46 min
ExplAInable
[90] למידה ניגודית עם אורי ומייק
היום בפרק נעסוק בהבנת למידה ניגודית ובחקר ההתפתחות שלה בשנים האחרונות. נדבר על עקרונות הבסיסיים של למידת קונטרסט, כמו חיפוש דימויים דומים (חיוביים) ודימויים שונים (שליליים), על כך שלפעמים קשה להגדיר את הדימויים השונים בצורה חד משמעית, והצורך בהגדלת כמויות הדאטה כדי להשיג תוצאות טובות יותר. נזכיר את השיטות השונות שהתפתחו, כגון SimCLR ו-Moco, ונסביר את החשיבות של טרנספורמציות והתאמות בתמונות כדי ללמוד את הקשרים האמיתיים בין הדימויים. נתאר גם שיטות מתקדמות יותר כמו "למידת קונטרסט אקוויבריאנטית" ו-"Diff-CSE" שמתמודדות עם אתגרים של אוגמנטציה (הגברת מידע) בתמונות ובטקסטים. הפרק הקודם עם מייק שהזכרנופרק קודם על למידה ניגודית
2024-11-11
34 min
ExplAInable
[89] בינה מלאכותית ללא קוד עם גל פרץ
היום בפרק נדבר עם גל פרץ, מהפודקאסט "LangTalks" ומומחה בתחום הבינה המלאכותית. נשוחח על נושאים כמו התפתחות השימוש במודלים של בינה מלאכותית, תפקידם של כלי No-Code בעולם הטכנולוגי, ואיך בינה מלאכותית משפיעה על הגישה ההנדסית והמחקרית של פיתוח מערכות היום. נבחנן גם את האתגרים וההזדמנויות שהתחום מציב עבור אנשי מוצר, מהנדסים וחוקרים, ועל חשיבותם של כלי Prompt Engineering ככלי שימושי בעבודה עם מודלים מתקדמים. GPT CanvasGitHub CopilotCursorLangflowVoiceflowלינקדאין של גלLangTalks Podcastֿֿ
2024-11-04
29 min
ExplAInable
[88] Policy Diffusion: המהפיכה הבאה? עם מייק ותמיר
בפרק זה דיברנו על מאמר פורץ דרך בתחום הרובוטיקה: Diffusion Policy: Visuomotor Policy Learning via Action Diffusionהמאמר טוען לשיפור של 46.9% במשימות מוטוריות של רובוטים.הם מראים תוצאות על סימולציות ועל רובוטים פיסיים. פעולות כמו מזיגה, עירבוב, הנחת ספל והסביבה המפורסמת push-T.בגדול הם לקחו את מה שכבר סקרנו בעבר stable diffusion לעולם הרובוטיקה, כאשר כאן נכנסת סדרת תמונות (המתקבלות ממצלמת הרובוט) ויש להחזיר סדרת פעולות מוטוריות לרובוט.וגם כאן יש איטרציות של denoising אבל לא מתמונות אלא מסדרת פעולות מוטוריות.האם זו המהפיכה הבאה ?מוזמנים להגיב בדעתכם… קישורים:https://arxiv.org/pdf/2303.04137v5https://diffusion-policy.cs.columbia.edu/https://mobile-aloha.github.io/https://wuphilipp.github.io/gello_site/https://umi-gripper.github.io/https://dobb-e.com/הפרק שמייק התארח בוהבלוג של יאנג סונג
2024-10-28
48 min
ExplAInable
[87] שיפור וודאות במודלים: הצצה לעולם של ניבוי קונפורמי
אחרת הטכניקות הקלאסיות (משנות ה80) שזוכה לאחרונה לפופולאריות מחודשת היא Conformal Prediction.ברוב משימות הניבוי, לא מספיק לחזות רק מה התוצאה הכי סבירה - אלא מה הן מגוון האפשרויות, ומה הסבירות.ניקח למשל רופא שצריך לאבחן מטופל על סמך הסימפטומים, תוצאת הדיאגנוזה שלו תגרור את הטיפול המתאים. לכל אבחנה מתוך סט האבחנות יש סיכוי, וייתכן שיידרשו בדיקות נוספות כדי לאסוף עוד נתונים.ניבוי קונפורמי מנסה לקשור בין רמת הביטחון החזויה, לגודל הקבוצה החזויה.אורי יסביר כיצד שיטה זו מספקת מסגרת מתמטית שמאפשרת לבצע ניבויים מדויקים יותר עבור מודלים של למידת מכונה, תוך התאמת רמת הוודאות של הניבוי בהתאם לקושי המשימה.נספר על שלושת שלבי הניבוי, שמתאימים לכל מודל קלאסיפיקציה, ונדבר על ספרית MAPIE שהנגישה את המודל לקהילת הפייתון.
2024-10-20
30 min
ExplAInable
[86] GPT-o1: האם אנחנו קרובים להבנה אמיתית?
בפרק הבא נדבר על הגרסה החדשהGPT-4o1,שמבטיחה יכולות מתקדמות של הסקת מסקנות. מייק יסביר כיצד המודל מנסה להתמודד עם בעיות מורכבות שדורשות יכולת לוגית מרובה, ומעלה את השאלה האם המודל באמת מצליח להתמודד עם משימות הסקה מורכבות או שמא הוא "מגזים" בהערכותיו. נבדוק גם את ההבדלים בין גרסאות קודמות, כמו GPT-3 ו-GPT-4, ונבחן את האתגרים וההזדמנויות שהגרסה החדשה מביאה. נדבר על איך אנחנו כבני חושבים ולמה הגרסה החדשה אמנם בכיוון הנכון אבל עוד רחוקה מלחשוב כמונו.
2024-10-14
40 min
ExplAInable
[85] Mechanistic Interpretability עם מייק ארליכסון
בפרק הבא, נצלול לנושא המורכב של מכניסטית אינטרפרטביליות (Mechanistic Interpretability) במודלים של שפה, וננסה לפשט את הדרך בה ניתן להבין מה מתרחש בתוך מודלים אלה. נסביר כיצד מודלים בשימוש רחב כמו טרנספורמרים ומבנים מתמטיים אחרים מנסים לפענח את מנגנוני השפה, אבל נדבר גם על הקושי להבין מה באמת קורה "מאחורי הקלעים" של רשתות נוירונים עמוקות. נבין את השיטות השונות לפרש את פעולת המודל תוך התמקדות בניתוח המכניסטי של שכבות ותהליכים פנימיים. הבלוג ששווה שתכירו
2024-10-08
41 min
ExplAInable
[84] להגדיר מחדש את החיפוש: חידושים ב - RAG עם ניר דיאמנט
בפרק הבא, נארח את ניר דיאמנט, יועץ בתחום הבינה המלאכותית הגנרטיבית (GenAI)שיספר לנו על המסע המקצועי שלו והתפתחויות חדשניות בתחום. ניר מצטרף אלינו בעקבות תרומתו המשמעותית לשיטותRAG (Retrieval-Augmented Generation)כולל פיתוחים כמו GenAI Agents ו-Controlable RAG, שזכו להכרה רחבהואף פורסמו על ידי מנכ״ל LangChain, האריסון צ׳ייס, כתכנים הפופולריים ביותר שלהם. בפרק נדון בפתרונות לשיפור החיפושים והשליפות, סידור מתקדם של דאטא, התאמות מולטימודל, ו-RAG עם לולאות פידבק להתאמת המידע לסוגי שאילתות שונים.
2024-10-01
33 min
ExplAInable
[83] מדע הנתונים – איך הוא השתנה לאורך השנים עם דניאל אהרונוביץ'
בפרק הזה דניאל ארונוביץ', מדען נתונים ותיק, מספר על המסע האישי שלו בתעשיית הטכנולוגיה לאורך 15 שנים. ניגע בהבדלים הבולטים בין העבר להווה, בכלים שהשתמשו בעבר לעומת הכלים שמשתמשים בהם היום שמחברים את המדע ישר לפרודקשן.דניאל מתאר את השינויים במיומנויות הנדרשות ממדעני נתונים, מיכולת ניתוח בלבד להכרח להבין תהליכי פיתוח וניהול גרסאות. נשוחח על האתגרים הטכניים, השינויים בפרקטיקות העבודה, וכיצד התפתח התחום מימי האלגוריתמים הקלאסיים ועד לתפקידי הדאטה המודרניים בעולם התוכנה. Dataflint/Sparkלינקדאין של דניאל
2024-09-23
39 min
ExplAInable
[82] NotebookLM - הפרק שלא אנחנו הקלטנו
החודש גוגל פרסמו את NotebookLM, שירות AI שמייצר שיחת עומק מוקלטת בין שני דוברים לא אמיתיים.כדי לבדוק את העניין, העלנו תמלול של "רק לא RAG" פרק הטיפים של אורי גורן מארגמקס על נסיונו עם ארכיטקטורת הRAG.והתוצאה, הפילה אותנו מהרגליים.נשמח לשמוע מה דעתכם? האם אפשר למכור את המיקרופון והציוד הקלטה ביד2?
2024-09-16
09 min
ExplAInable
[81] Data Science בעולם הביטוח עם דוד שוקרון
בפרק הזה, דוד שוקרון,Head of DS & AIבביטוח ישיר, מספק הצצה לעולם מדעי הנתונים בתעשיית הביטוח. נשמע ממנו על ההבדלים בין אקטואריה ל-Data Science,ועל איך משלבים DS במערכות ותיקות של חברות ביטוחדוד יסביר על יישומי DS בתעשייה עתירת נתונים כמו ביטוח, בשימוש בכלים ומודלים שונים, כולל השאלה אם יש צורך בכלים ייחודיים או שניתן להסתפק במוצרי מדף קיימים. בנוסף, נבין איך מודלי שפה משפיעים על תעשיית הביטוח, ומה הכיוונים העתידיים שמעצבים את התחום בעקבות החידושים האחרונים. .
2024-09-15
28 min
ExplAInable
[80] LLM לייעוץ השקעות עם אלעד נחמיאס
בפרק זה, אנחנו נשוחח עם אלעד נחמיאסCTO של Bridgewise,על השימוש במודלי שפה גדולים (LLMs) בתחום ההשקעות. אלעד יסביר לנו איך משלבים טכנולוגיות מתקדמות כדי לשפר תהליכי הייעוץ והאנליזה, תוך התמודדות עם אתגרים כמו דיוק הנתונים, הטיות פוטנציאליות ושמירה על פרטיות המידע.נשמע על האתגרים הטכניים והאתיים של יישום LLMs, איך Bridgewise מוודאת שהפתרונות שלה נשארים שקופים ואחראיים, ומה החזון העתידי שלה לשימוש בטכנולוגיה זו בתעשיית ההשקעות.
2024-09-01
28 min
ExplAInable
[79] Adaptive-RAG עם לירון יצחקי אלרהנד
בפרק הזה, נצלול יחד עם לירון יצחקי אלרהנד לInterleaving Retrieval with Chain of Thought (IRCoT) שיטה לשיפור מערכות שאלה ותשובה על ידי הרחבה איטרטיבית של תהליך חשיבה ואחזור מידע רלוונטי. נדבר על טכניקות שונות של אחזור אדפטיבי, נשווה את יעילותן על סמך מורכבות השאלה, ונדגיש את החשיבות של בחירת הגישה הנכונה לתרחישים שונים המלצות של לירון למי שמועניין ללמוד עוד:https://arxiv.org/abs/2212.10509https://github.com/StonyBrookNLP/ircot/tree/main https://colab.research.google.com/github/pathwaycom/pathway/blob/main/examples/notebooks/showcases/mistral_adaptive_rag_question_answering.ipynbhttps://arxiv.org/abs/2403.14403
2024-08-25
30 min
ExplAInable
[78] Task Aware Embedding עם ענבל חורב
לא רק היופי הוא בעיניי המתבונן, מסתבר שגם הדימיון הסמנטיבפרק הזה ענבל תספר לנו איך התגלגלה מטוקיו ל בגונג senior staff researcher כשחושבים על אמבדינגז, הרבה פעמים חושבים על חיפוש וקטורי וRAGנדבר על החשיבות של אמבדינג טוב דווקא בשלב הכרת הדאטא ובחירת דוגמאות מעניינות לאימון.נסקור את ההיסטוריה של אמבדינג, ללא הקשר, עם הקשר, ועדTask aware embeddingשהוא צעד ביניים למודל שפה מלא לינקדאין של ענבלE5MTEB
2024-08-18
18 min
ExplAInable
[77] מלימודים הומניסטים למדעי הנתונים - פרק בשיתוף עם YData
בפרק זה ריאיינו את אורי גוטליב ונטע בר על המעבר שלהם לעולם ה data science במסגרת ההכשרה שלהם ב YData.על הפער העצום בין התאוריה לעבודה מעשית ועל הפרויקט שעשו שהביא אותם לעבודה הנוכחית שלהם.קישורים:אורי גוטליבנטע ברwids il facebookWids-linkdinקהילת באות
2024-08-10
28 min
ExplAInable
[76] בינה מלאכותית וצ'יפים - עם ד"ר אמיתי ערמון
אינטל העולמית נמצאת השבוע בכותרות בעקבות ההצהרה על הצמצומים, וזו הזדמנות מעולה להזכיר על הפעילות המדהימה של קבוצת הדאטא סיינס של אינטל ישראל.החודש פורסם כי הקבוצה AI Solutions Group זכתה בפרס הארגון המצטיין העולמי של אינטל.בפרק זה ד"ר אמיתי ערמון יספר לנו על התפקיד שלו בתור הChief Data Scientist של הקבוצה, מה היא עושה? מה האתגרים היחודיים שלהם? ואיך מתנהלת העבודה של 250 עובדים שבונים ביחד מוצרים מבוססי בינה מלאכותית? נדבר על פרוייקטים לדוגמא, על ללמים ועל המאמר שכתב Tabular Data: Deep Learning is Not All You Needשהגיע השבוע לאלף ציטוטים. Tabular Data: Deep Learning is Not All You Needעמוד הלינקדאין של אמיתי
2024-08-05
37 min
ExplAInable
[75] על מודלים פתוחים, רשיונות ורגולציה עם עופר חרמוני
קוד פתוח זה נושא מורכב, יש כמה סוגים של רשיונות כמו GPL, Apache, MIT וכו׳.העניינים מסתבכים עוד יותר כשמדברים על מודלים פתוחים, האם קוד המודל פתוח? אולי רק המאמר? אולי רק המשקולות פתוחות? ומה לגבי הדאטא?בפרק זה עופר חרמוני, יועץ בתחום הAI וחבר בLinux foundationיספר על הקריטריונים של הארגון למודלים פתוחים, ונמנה מספר מודלים כאלו.עולם הAI מתקדם בקצב מסחרר, והמחוקק לא תמיד מצליח לעקוב - בשיחה עם עופר דיברנו על המירוץ וההשלכות החוקיות על שימוש במודלים פתוחים, והתוצרים שלהם.LF AI & Data website: https://lfaidata.foundation/AI Open Source landscape: https://landscape.lfai.foundation/Generative AI Commons website: https://genaicommons.org/Generative AI Commons - Get Involved guide: https://docs.google.com/presentation/d/1Ie0NKJ4N5u3UINUdiwoA7pBYtaRrUdH0gEcMUo9M9Y0/edit?pli=1#slide=id.g2c0160abebd_0_72OSI - open source AI initiative - latest definition: https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v-0-0-8OSI - Open Source AI initiative discussion forum: https://discuss.opensource.org/Connect with me on LinkedIn: https://www.linkedin.com/in/ofer-hermoni/
2024-07-28
30 min
ExplAInable
[74] על סימולציה בתעשייה עם גיא אדלר
גיא אדלר מחברת אקסיליון יחלוק איתנו מנסיונו בפיתוח ושימוש במערכות סימולציה לעולם התחבורה.אקסיליון מפתחת מוצר לעיריות לצורך אופטימיזציה של רמזורים ותנועה, כדי שכולנו נבלה כמה שפחות זמן בפקקים.נדבר על האתגרים בתחזית של אירועים נדירים כגון מזג אוויר, הופעות, ושיבושי תנועה.ועל החשיבות של עבודה משותפת עם מומחי תוכן ואינטגרציה עם מערכות אמיתיות של עיריות כבר בתהליך הסימולציה.סימולציה היא דבר יקר, וגיא חולק איתנו מאתגריו בפיתוח מערכות יעילות בc++ כדי שהמערכת תוכל לרוץ בזמנים סבירים.
2024-07-20
23 min
ExplAInable
[73] ניסויים מדעיים באמצעות סימולציות - עם רותם רוזנבלום
פרק פיצוץ על איך סימולציות יכולות לעזור לנו לחזות תגובה של חומרי נפץ במתחים שונים.בפרק זה רותם תספר לנו על המחקר האקדמי שלה בשיתוף עם רפאל, ועל איך סימולציות עזרו לחסוך המון כסף וזמן על ניסוי שטח.נדבר על ההבדלים בין סימולציות סדרתיות, ובין סימולציות אגרגטיביות.ומדוע סימולציות הם הכלי הנכון לבדוק את המודל שלנו בכל מיני מקרי קצה נדירים, או שטרם קרו. קישור ללינקדין של רותם
2024-07-13
33 min
ExplAInable
[72] על ההיסטוריה של סימולציות עם יניב טננבאום קטן
סימולציות היו פעם כלי הניבוי המרכזי, והיום הוחלפו על ידי מודלי למידת מכונה.האם מדובר בכלי מיושן ולא רלוונטי, או באומנות עתיקה שנשכחה.בפרק זה נדבר על המוטיבציות לסימולציות אל מול הרצת ניסויים על דאטא אמיתי, ונדבר על החוזקות והחולשות מול מודלי למידת מכונה. קורס חינמי של אוניברסיטת חיפה על סימולציות
2024-07-06
30 min
ExplAInable
[71] המלצות, סימולציות, שינוי העדפות ודילמות טווח ארוך - טווח קצר - עם פרופ׳ עומר בן פורת
מערכות המלצה נתפסות לרוב כבעיית רגרסיה או קלאסיפיקציה, בפרק זה פרופסור עומר בן פורת מהטכניון ואורי ינהלו דיון טכני על האתגרים במידול סטטי כזה.נדבר על יצירת העדפות, ועל האחריות המשפטית של מערכת ההמלצה.מערכת המלצה אמורה למדל אנשים, ואנשים הם לא יצור רציונאלי או עקבי - כיצד מערכת ההמלצה אמורה להתמודד עם זה?ונדבר על החשיבות של סימולציה למדידה ואימון מערכות המלצה, גם כאשר יש הרבה דאטא. קישורים:Duelling banditsRecsimטווח ארוך לעומת טווח קצר במערכות המלצה
2024-06-29
40 min
ExplAInable
[70] Consistency Large Language Models עם מייק ארליכסון
למודלי שפה (גדולים) יש שלושה תת-מודלים: הטוקנייזר, הטרנספורמר, ואלגוריתם הפענוח.אלגוריתם הפיענוח בדרך כלל אינו נלמד, אלא הוא איזה שהיא יוריסטיקה סדרתית של חיפוש בעץ על סמך ההסתברויות של הטרנספורמר.אבל מי מבטיח שהיוריסטיקה הזו היא הדבר האידיאלי לעשות בהנתן הפלט של הטרנספורמר.Consistency LLMs מנסים לקשור את שתי הקצוות, ולהתאים את ההטרנספורמר לאלגוריתם הפענוח.מרוויחים מזה מודלים יעילות יותר, ואפשרות למיקבול.מייק יספר לנו איך הקסם הזה קורה
2024-06-23
29 min
ExplAInable
[69] Predictive mean matching and imputation - השלמת ערכים חסרים איטרטיבית
ערכים חסרים הם נחלתו של כל מי שעוסק בעיבוד מידע טבלאי, הפעם נתמקד בהשלמת ערכים רציפים עם Predictive mean matching.אחת השיטות הנפוצות MICE, לא היתה זמינה עד לאחרונה למשתמש פייתון - וכעת נמצאת במודול הexperimental של scikit learn.נעשה סקירה קצרה על מתי כדאי להשלים ערכים חסרים ומתי לא, ונדבר על השיטות הנפוצות להשלמה.
2024-06-14
08 min
ExplAInable
[68] כאן - Kolmogorov Arnold network
הרבה מאיתנו שמעו בכותרות על KAN פה, KAN שם - ולא היה ברור מה המהומה.Kolmogorov Arnold networkזו ארכיטקטורה שמאיימת לשנות את איך שאנחנו חושבים על רשתות נוירונים, החל במבנה של נוירון ועד יכולת ההסבר.בנוסף, לרשתות כאן יש פי עשר פחות פרמטרים והן דלילות יותר - נשמע מדהים.אבל, הפוטנציאל הוא גדול אבל המציאות היא בפרטים הקטנים - אותם נכסה בפרק הזה
2024-06-09
20 min
ExplAInable
[67] רק לא ראג RAG
מי לא שמע על RAG, נראה שכולם מדברים, מממשים ומאפטמים ראגים לכל שימוש.בפרק זה אורי שוטח את משנתו על ראגים, וטוען שהם בשימוש יתר בתעשייה (יש יגידו הייפ), ואלו הן הסיבות1. אתם אחראיים (משפטית) על הפלט שלהם - אם אין בן אדם בלופ - יש בעיה2. שאילתות סמנטיות לא מתאימות להמון מקרים, חיפוש וקטורי הוא לא התשובה לretrieval3. זה נראה כאילו חיפוש וקטורי נועד לחסוך עלויות, אבל האם באמת LLM עדיין כ״כ יקרים שצריך אותו?4. האם זו בעיית איחזור או בעית שאלה-תשובה? בהרבה מהמקרים פשוט לא צריך LLM בקצה5. הסיבה ההנדסית - בראג יש שני מודלים שונים, שלא בטוח מדברים זה עם זה, צריך לוודא שיש תרומה הדדית
2024-06-03
10 min
ExplAInable
[66] חיפוש וקטורי עם מירב גרימברג
מירב גרימברג עוסקת למחייתה בפיתוח מנוע החיפוש הוקטורי של רדיס, הגיעה לספר לנו תובנות מבפנים.לאחרונה רואים שיותר ויותר דאטאבייסים ״מסורתיים״ מוסיפים פונקציונאליות של חיפוש וקטורי, רדיס הוא אחד מהם.רדיס, הוא היום שירות ברירת המחדל לחיפוש key-value מהיר בזמן אמת. וגם מנוע חיפוש וקטורי המממש את אלגוריתם הhnsw לחיפוש וקטורי מקורב.מירב תספר לנו על האילוצים מעולם התוכנה כדי לגרום למנוע חיפוש וקטורי לעבוד ממש מהר, יחד עם יכולות פילטור ועדכון.על הטריידוף בין זכרון, מחיר ומהירות - וכמובן על שימושים בretrieval augmented generation יחד עם מודלי שפה.
2024-05-27
22 min
ExplAInable
[65] טרנספורמרים וסדרות עיתיות - ש.ח
עכשיו כשהעולם רועש סביב מודלי שפה גדולים וחזקים שאינם טרנספורמרים (מאמבה, rwkv) - הגיע הזמן להיזכר מה הוא הטרנספורמר ומה היו המוטיבציות ליצירתו.פרק זה הינו שידור חוזר של פרק מ2020, האזנה מרתקת לאזניים של 2024.
2024-05-21
18 min
ExplAInable
[64] כישורים רכים למדעני נתונים - עם בוריס גורליק
בוריס גורליק, יועץ דאטא מנוסה עם רקע ניכר בדאטא טבלאי, ויזואליזציה וסדרות זמן - ידבר איתנו על דווקא על נושא אחר: Soft skills.מדעני נתונים, הם לא רק אנשים טכניים שיודעים להריץ פייתון ולאפטם מודלים - הכוונה ב״כישורים רכים״ זה לכל יכולת התקשורת בארגון ובצוות, ובעבודה במשותף כחלק מאתגר גדול יותר.נדבר על אתגרים נפוצים בחיי הDS ועל איך נכון לבנות מצגת בצורה לא תשעמם את המאזינים.בוריס הוא גם המנחה של הפודקאסט הפופולארי ״השבוע במזרח התיכון״, שם תוכלו להיווכח איך בוריס מיישם את התאוריה בפועל.קישור לספר שבוריס הזכיר
2024-05-13
24 min
ExplAInable
[63] על למידה מונחית עצמית עם מייק ארליכסון Self Supervised
בפרק זה אירחנו את מיכאל ארליכסון לדבר על self supervised learning.דיברנו על בעיית דלילות הסיגנל, ועלות התיוג.למידה self supervised מתמקדת בלמידת היצוג הוקטורי על ידי משימות שלא דורשות תיוג.לדוגמא, אם לקחנו תמונה ו הרעשנו אותה (או סיבוב, שיקוף, זום) נצפה שוקטור היצוג יהיה דומה.דיברנו על טכניקות שונות ללמידת יצוגים, כגון רשתות סיאמיות, למידה ניגודית ואוגמנטציות.וכמובן, האתגר הגדול ביותר של התחום - מציאת דוגמאות שליליות חזקות.
2024-05-06
50 min
ExplAInable
[62] על פרטיות דיפרנציאלית עם משה שנפלד
יש הרבה עיסוק בסכנות הכרוכות בהדלפה של פרטים מזהים בדאטאסטים או בתוך משקולות של מודלים מאומנים.בפרק זה משה שנפלד, חוקר בתחום, יספר לנו כמה זה מורכב להפוך דאטאסט אנונימי ונדבר על כמה פדיחות שקרו בתחום.נדבר על האתגרים של אימון מודלים בצורה פרטית, והאם מדובר בסוג חדש של רגולרזיציה.נכסה אלגוריתמים כמו k-annonimity ונדבר על Differential privacy שהיא הסטנדרט היום בתחום.הרעיון המרכזי בפרטיות דיפרנציאלית הוא הכנסת רעש מבוקר, כזה שיפריע לזהות אינדיבידואלית אבל לא יפריע למודל להתאמן.נדבר על שיטות כמו DP-SGD שמכניסים את הרעיון הזה לתוך צעדי הגרדיאנט באימון רשתות.קישורים:The netflix prizeVery recent example from the pentagonHow one man’s pay-to-use toilet gag revealed Google Maps can be used to track peopleSweeney’s attack
2024-04-27
33 min
ExplAInable
[61] איך ללמד מודל שפה לדבר כמו ערס עם חן מרגלית מ LSports
בפרק זה חן מרגלית סיפר על פיתוחSEC by LSportsהבוט שמתמצת ועונה על שאלות על משחקי ספורט. הבעיה העיקרית היא שרוב מודלי השפה אומנו על ויקיפדיה, כתבות ואתרי שאלות ותשובות - ולא שפה השגורה במגרשי הכדורגל.חן יספר על התהליך של יצירת הדאטא, פיינטון וכמובן שרשרת המודלים ליצירת התחזיות שקדמה למענה של הצ׳טבוט.
2024-04-21
27 min
ExplAInable
[60] AlgoGen - שילוב של אלגוריתמים ומודלי שפה גנרטיביים, עם אמיר שחר
בפרק זה אמיר שחר יספר על שיטה חדשנית שפרסם לשילוב מודלי שפה יחד עם אלגוריתמים.לפני 20 שנים, כנראה שאם הייתם אומרים AI הייתם מתכוונים לאלגוריתמי חיפוש בעצים.אלגוריתמי חיפוש כמוA Starמנצחים מסטרים בשח מט, ואפילו עוזרים לנו להתמצא בעיר עם Waze.למעשה, אם מסתכלים עמוק בתוך LLM מגלים גם בו שימושים באלגוריתמי חיפוש.אמיר יספר מנסיונו איך אפשר לשפר אלגוריתמים, ובפרט אלגוריתמי חיפוש, על ידי שילובם עם מודלי שפה גדולים.
2024-04-13
28 min
ExplAInable
[59] מערכות המלצה כמשק כלכלי - עם ד״ר עומר בן פורת
נהוג להסתכל על מערכת המלצה כאל בעיית אופטימיזציה, איזה סרטון לנגן כך שיהיו הכי הרבה צפיות בהתחשב בהיסטוריית הלקוח.אבל אם לוקחים צעד אחורה, מגלים שאנחנו בשוק מסחר תלת צדדי. לסרטונים יש יוצרים, ולפלטפורמה יש בעלי מניות, וכמובן - אנחנו הצופים.כמובן שאם הפלטפורמה לא תהיה רווחית, תהיה בעיה בטווח המיידי - אבל גם אם יוצרי התוכן לא יזכו לחשיפה הם ינטשו את הפלטפורמה ותהיה בעיה בטווח הרחוק. דרך אחרת להסתכל על מערכת המלצה, היא בעיניים של תורת המשחקים.בפרק עומר סיפר על סוגים של שיווי משקל, ועל תמריצי השחקנים.ודיברנו על הסוגיה של יצירת העדפות, ויציבות המערכת כשיש הרבה נישות
2024-04-07
24 min
ExplAInable
[58] עושים כבוד לעצים
רשתות נוירונים על שלל סוגיהן זוכות להרבה אטנשן - אבל בפועל, הרבה פרויקטים לא זקוקים לרשתות נוירונים.מודליים עציים הם בדרך כלל הפתרון הפשוט והיעיל לדאטא טבלאי.בפרק קצרצר זה, נסקור את עצי החלטה, תהליך אימונם ובעיית הOverfit.נדבר על שתי ההרחבות הנפוצות:Random Forest & Gradient Boosted Treesוהיתרונות שיש בשימוש במודלים ותיקים בסביבת פרודקשן
2024-03-18
12 min
ExplAInable
[57] אימות פורמלי של רשתות נוירונים עם איתי בוחניק וד״ר גיא אמיר
נדירים המקרים בהם שני תחומים כ״כ רחוקים במדעי המחשב נפגשים, ועוד זוכים להגיע לפרודקשן.אימות פורמלי הוא תחום העוסק בוידוא מתמטי שתוכנית אמורה לרוץ בלי תקלות, והוכחה שהתוכנית מקיימת תכונות מסוימות.בדרך כלל רואים אימות פורמלי בתחומים כמו קומפילציה או לוגיקה, ולכן היה מרתק לשמוע איך שיטות תאורטיות כאלו מצאו את עצמן בישום אצל חברת אלביט המפתחת רשתות נוירונים.בפרק זה איתי (מאלישרא) וגיא (אוניברסיטה העברית) יספרו על שיתוף הפעולה, והישום בשטח.
2024-03-12
31 min
ExplAInable
[56] Mamba סיכום מנהלים ותחזיות לעתיד,עם מייק ארליכסון
עולם מודלי השפה מושתת על ארכיטקטורת הטרנספורמר שמכילה בעיה מובנית בתוכה - סיבוכיות ריבועית בקלט, ולאחרונה אלטרנטיבות מעניינות לטרנספורמר הגיחו לחיינו.פרק זה הינו פרק שני בסדרה, והוא סיכום מנהלים על עקרון הדואליות, מוטיבציה ותחזיות להמשך.מייק ואני נדבר על איך דואליות משפיעה על אימון יעיל והוזלה של עלויות, על ארכיטקטורות חומרה והתאמתן לטרנספורמרים.
2024-02-29
45 min
ExplAInable
[55] Mamba סקירה טכנית עם מייק ארליכסון
יש הרבה התרחשויות סביב ארכיטקטורות חדשות (שאינן טרנספורמר) שיכולות להיות המנוע מאחורי הLLM הבא.פרק זה הינו פרק ראשון מתוך שניים, על Mamba ו State Space Models שנראים אלטרנטיבה מבטיחה.נצלול טכנית למוטיבציה ולאלגוריתמים המתמטיים, ואיך פולינומי לג׳נדר קשורים לעניין.הפרק טיפה טכני מהרגיל, בפרק הבא נעלה רמה ונסקור את ההשלכות ותחזיות לדעתנו.
2024-02-29
49 min
ExplAInable
[54] עולם ללא עוגיות - פרק הפוך עם דין פלבן
פרק משותף עם דין פלבן מThe MLOps Podcastעל הנושא שמעסיק את עולם הפרסום היום.ברוח חקיקה אירופאית ואמריקאית, נהיה קשה יותר ויותר מבחינה חוקית לעקוב אחרי התנהגות משתמשים עם קוקיז (עוגיות).לשמירה על הפרטיות יש גם צד שנוגע לנו, אנשי הדאטא בכל הקשור למדידת איכות אלגוריתמים ולמידה.בפרק זה דין ייארח את אורי ונדון על מה אפשר לעשות.
2024-02-10
33 min
ExplAInable
[53] למידה מולטי מודאלית עם ד״ר חן חג׳ג׳
מודלים מולטי-מודאלים הגיעו לקידמת הבמה לאחרונה עם מודלים כמו chatGPT, Whisper, Midjourney.נדבר על האתגרים בשילוש מודלים חזותיים, טקסטואלים וגרפיים - כאשר המימדים שונים, המימדים שונים, ואיך מרוויחים מהשילוב הזה.נדבר על cross modal learning - איך אפשר ללמד מודל אחד על סמך מודאליות של מודל אחר.
2024-01-14
27 min
ExplAInable
[52] ניהול פרויקטי דאטא סיינס עם חן קרני
ניהול אנשים זה אתגר, ניהול מחקר עם תוצר לא-וודאי - זה אתגר, וניהול ממשקים עם פרודקט,תוכנה והנהלה בכירה זה בכלל מורכב.בפרק זה אירחנו את חן קרני, מנהלת מנוסה בתחום הדאטא לדבר על איך עושים את זה נכון, וללמד מה עבד עבורה.איך לפרק פרויקטים גדולים למשימות קטנות (בשיטת הסלאמי) שאפשר לתקשר, איך למדוד ולהגדיר יעדים (שגם אפשר לעמוד בהם), ומה הם השלבים בפרויקט חדש.
2023-12-29
22 min
ExplAInable
[51] טרנספורמרים בעיבוד תמונה Visual Transformers
טרנספורמרים הם ללא ספק המודל המועדף בעיבוד שפה - אבל האם גם בתמונות?אז... מסתבר שהתמונה לא כל כך ברורה בעיבוד תמונה.בפרק זה נדבר על היתרונות הגדולים של טרנספורמרים בתמונות - ועל הסיטואציות שבהן CNN מנצחות אותם. קישוריםAttention is All You NeedAn Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleEnd-to-End Object Detection with TransformersVision-Transformer-papershttps://medium.com/@monocosmo77/best-research-papers-on-vision-transformers-784e48a3593ahttps://paperswithcode.com/methods/category/vision-transformer
2023-12-19
29 min
ExplAInable
[50] על אינטלגנציה מלאכותית בעולם המשפט - עם עומר חיון
לפני כשש שנים עומר חיון ואורי גורן התחילו הרפתקאה בעולם הLegal tech והקימו את BestPractixבסט פרקטיקס התמקדה בשלב הטיוטות של החוזים, והיוותה כלי עזר לעורכי דין לזהות ״אנומליות״ בחוזים (שבדרך כלל די סטנדרטים), והצעה של אלטרנטיבות מקובלות יותר.בשנת 2020 בסט פרקטיקס נמכרה לLitera Systems האמריקאית, ועומר הועבר להמשך הפיתוח. הרבה השתנה בעולם הAI מאז, ולרשותנו היום כלים חזקים כמו ChatGPT שמקצרים את תהליך העבודה המשפטית.פרק זה הינו שיחה פתוחה בין אורי לעומר על האתגרים בעולם המשפט, והעתיד לאור היכולות החדשות בעולם הNLP.
2023-12-03
36 min
ExplAInable
[49] AI Junk - איך עושים למידת מכונה עם קרטון ביצים
דיברנו הפעם על פרויקט ai-junk המאפשר לכל אחד ליצור רובוטים מגרוטאות וליצור ולאמן מודלי reinforcement learning שישלטו ברובוטים. ובכך ליצור עולם משחק מרובה רובוטים על הריצפה בסלון.דיברנו על מה זה RL, על הקשיים להפוך RL שעובד טוב בוירטואלי לעולם הפיסי, על כמה נחמד ללמוד על התחום דרך רובוטים :)הפרק הוקלט לפני המלחמה ששיבשה לנו הכל וארועים שתוכננו בוטלו. אם מעניין אתכם להצטרף לסדנה או האקטון הרשמו כאן ונעדכן אתכם.קישוריםAi-junkכתבה למטיבי לכת בעברית על RLDeepMind is Using AI to Teach Robots to Play Soccer
2023-11-23
25 min
ExplAInable
[48] מה עושים כשיש מעט נתונים - עם נתנאל דוידוביץ
נתנאל, דאטא סיינטינסט ותיק שמוביל היום את המחקר בדאבל וריפיי ידבר איתנו על בעיה כואבת אך נפוצה.גייסנו תקציבים, כוח אדם, ועם הרבה רצון ומוטיבציה ניגשנו לפרויקט חדש - פתחנו את מכסה המנוע, וגילינו לצערינו שאין מספיק נתונים- מה הלאה ?נדבר על שלוש טקטיקות שאפשר לנקוט, בין אם זה תיוג עצמאי ורכישת דאטא, שימוש במודלים כגוןLabel spreading, transfer learning, kdeאו שימוש במודלים אנליטיים יותר, כגון שיטות בייסיאניות או מודלים פיסיקלים.
2023-11-05
27 min
ExplAInable
[47] מודלי שפה ופלט רצוי
יצא לנו הרבה לדבר על מודלי שפה גדולים לאחרונה, ועל השימושים שלהם.למעט שימוש בצ׳אטבוט או כעזר לכתיבה, לרוב אנחנו רוצים לקבל את הפלט של המודל בפורמט כלשהו כמוJson / Data Classנדבר על שלושת השלבים ביצירת הפלט, הטוקנייזר, הטרנספורמר, והמפענח.ונסביר איך אפשר להתערב במפענח כדי לאלץ את המודל כדי לקבל תשובות במבנה מסוים, להכריח את מודל לענות ״כן״ או ״לא״, לאלץ את התשובה להיות מספרית, מתוך רשימה סגורה וכדומה.ספריות שימושיות:JSONFormer - https://github.com/1rgs/jsonformerOpenAI Function calls - https://openai.com/blog/function-calling-and-other-api-updates O
2023-10-24
19 min
ExplAInable
[46] על מודלי שפה גדולים בפרודקשן עם איתי ציטבר
בפרק זה אירחנו את איתי ציטבר רש"צ מהיירו - לדבר על מודלי שפה בפרודקשן.המודלי צ'אט כ"כ חזקים - האם בכלל נשאר מה לעשות חוץ מאשר לחבר את הAPI לאתר ?מצד שני, זה נראה כאילו כולם משתמשים בLLM, גם כאשר קיימים מודלים פשוטים יותר.נדבר על מה קורה כשהמלצת המודל מתנגשת עם נהלים רפואיים, מה קורה שהמודל נותן הנחיות שגויות למטופל, ואין אפשר לצמצם את התופעה עם Retrieval augmented generation.
2023-10-02
36 min
ExplAInable
[45] איך נולדים נתונים מתויגים עם דניאל מנוחין
בפרק זה אירחנו את דניאל מנוחין, מנהלת קהילת data-ops המובילה את התיוג וטקסונומיה ב ebayבסופו של דבר, מודלים טובים ככל שיהיו - חסומים על ידי איכות הדאטא עליהם הם אומנו.דניאל תספר על החוויות שלה בebay, על נקודות כשל קלאסיות בתהליך התיוג ועל איך בונים פרוטוקול אנוטציה אחיד.נדון בהבדל בין מתייגים in-house שהם ממש חלק מהארגון, לעומת מתייגים חיצוניים (כדוגמת mechnical turk) ועל ההשפעה על איכות התיוגים ותהליכי הפיקוח. Data Operations ILhttps://www.linkedin.com/groups/9236026/
2023-09-17
23 min
ExplAInable
[44] על GLM ו AGLM עם לובה אורלובסקי
זה מרגיש כאילו עולם הלמידה מחולק ל2 מחנות, הסטטיסטיקאים ואנשי מדעי המחשב.ולאחרונה יצא מודל AGLM שהוא רעידת אדמה בעולם האקטואריה (ביטוח, פיננסים), וכנראה שרובנו לא שמענו עליו.בפרק זה נסקור מה אלו מודלי GLM, ספוילר - אחד מהם - הרגרסיה הלוגיסטית, אתם מכירים היטב.נדבר על השימושים שלהם, היתרונות שלהם בתחום הפיננסים בעקבות יכולת ההסבר שלהם, ונדבר גם על המגבלות שלהם.נסקור בקצרה את החידושים בAGLM שמשתמש במודלים מבוססי עצים על מנת להביא חזרה לLogistic Regression את הנקודות שהוא חלש בהם ומביא אותו לרמה של XGBoost.Links:https://www.institutdesactuaires.com/global/gene/link.php?doc_id=16273#:~:text=AGLM1%20is%20defined%20as,coding%20methodologies%20of%20dummy%20variables.https://github.com/kkondo1981/aglmGAM - Generalized additive modelshttps://medium.com/just-another-data-scientist/building-interpretable-models-with-generalized-additive-models-in-python-c4404eaf5515
2023-08-29
33 min
ExplAInable
[43] עם שוקי ויואל על מאחורי הקלעים של One Shot Learning
מי לא מכיר את שוקי ויואל - הגאונים מאחורי ערוץ היוטיוב האדיר שמביא את תרבות הלייב קודינג בעולמות למידת המכונה לארץ הקודש.וואן שוט לרנינג התחיל לפני כשנתיים כרעיון, ומאז הפך לקאלט של ממש.אבל מאחורי כל סרטון של חצי שעה, מסתתרת עבודה רבה, מחקר, באגים, והמון נסיונות שהלכו לפח.בפרק זה אורי ראיין את שוקי ויואל על מאחורי הקלעים של ההפקה, ושואל שאלות קשות. איך הכל התחיל ולמה? איזה פרק הכי אהבתם? איזה פדיחה קרתה בצילומים? ומה התוכניות להמשך ? קישורים:1. One Shot Learning
2023-08-14
34 min
ExplAInable
[42] תורת המשחקים עם מורן קורן
בפרק זה אירחנו את מורן קורן, חוקר ומרצה לתורת המשחקים מאוניברסיטת בן גוריון.דיברנו בעבר שימוש בערכי שייפלי לפרשנות מודלים, ערכי שייפלי הם נושא מחקר פעיל בתורת המשחקים והחלטנו להעמיק ולשפוך אור על תורת המשחקים ואיך הרעיונות משלימים את הנחקר בלמידת מכונה.דיברנו על המונחים, מהו שיווי משקל ? איך מגדירים משחקים לפי ידיעה שלמה או גורל, על אסטרטגיה אופטימלית, ואיפה תורת המשחקים פוגשת אותנו כאנשי דאטא.איך אפשר להשתמש בתורת המשחקים לצורך איסוף דאטא של מודלים כדי למנוע הטייה באיסוף הנתונים.ונדבר על רעיונות מתורת המשחקים שהשפיעו על תחום המכרזים שמעסיק דאטא סיינטיסטים רבים.קישורים:שייפלי: https://christophm.github.io/interpretable-ml-book/shapley.htmlhttps://research.ibm.com/publications/strategic-classificationOn learning optimal contracts: https://www.cs.cornell.edu/home/kleinber/aer18-fairness.pdf
2023-08-02
30 min
ExplAInable
[41] על מערכות חיפוש - סיכום ביקור בכנס הייסטאק 2023 עם אמיר לבנטל
אמיר ואורי נסעו במסגרת עבודתם בארגמקס לכנס הייסטאקHayStack2023המתמקד בחיפוש, ואימלקו לכם את הפרק לעשרים דקות צפופות על החידושים בתחום החיפוש בעידן הLanguage modelsדיברנו על ארכיטקטורות חיפוש ובנוסף כוסו האלגוריתמים הבאיםSpladeHydeSearch augmentation with LLM
2023-07-07
20 min
ExplAInable
[40] מעבר לדאטא אנליסט לדאטא סיינס - בחסות YDATA
בפרק זה אירחנו את רותם דמבו ועומר דודי, שסיפרו לנו על המעבר שעשו בשנה האחרונה, מתפקיד של אנליסט לתפקיד של מדען נתונים.דיברנו על הפערים "התרבותיים" בין המקצועות, אילו יתרונות יש לאנליסט שמחפש להכנס לתחום מדעי הנתונים, אילו השלמות כדאי לעשות ואיזה טיפים יש להם לתת למי שנכנס לתחום.הם יספרו על ההחלטה לעשות את המעבר, על הלימודים בתוכנית Y-DATA, על איך התוכנית סייעה להם במעבר ועל מה הם עושים כיום.
2023-06-25
46 min
ExplAInable
[39] על למידה חיזוקית באימון מודלי שפה RLHF עם מייק
קשה לעבור ברחוב היום בלי לשמוע מישהו מספר לחברו על צ'אט ג'י פי טי אוLLMאחד החידושים באימון שלו, למעשה בInstructGPTהיו השימוש בלמידה חיזוקית על בסיס דאטא מתויג אנושי בתהליך הדגימהנספר על אלגוריתם הRLHFושילובו בתוך מודלי השפהLLM
2023-06-13
55 min
ExplAInable
[38] סיבתיות עם אוהד לוינקרון פיש
בפרק זה נדבר עם אוהד מדילטייל, העוסק בניתוח סיבתיות.אנחנו כולנו למדנו בטירונות דאטא סיינס שCorrelation does not imply causationאבל מה כן ? האם חייבים לבצע ניסויים מדוקדקים? והאם זה רלוונטי רק לעולם הרפואה או לכולנו ? קישורים:DoWhy tutorialsאלגוריתמים - EconML docsGuide - Athey, Stuart, Vogelstein 2021מאמר של אוהד https://arxiv.org/abs/2207.01722 מאמר Ascarza
2023-05-28
36 min
ExplAInable
[37] חיפוש וקטורי מקורב
וקטורים, וקטורים בכל מקום ! דיברנו על מילים שהופכות לוקטורים, מסמכים שהופכים לוקטורים, תמונות שהופכות לוקטורים.אבל ברוב המקרים, נדרש חיפוש של וקטורים דומים למשימות של קלאסיפיקציה, דירוג ואפילו זיהוי אנומליות.חיפוש וקטורי בקנה מידה גדול זו בעיה הנדסית לא פשוטה, עם אילוצי זמן ריצה וזכרון.בפרק קצרצר זה, נסקור שלושה אלגוריתמים לחיפוש מקורב ונדבר על סוגי הוקטורים המתאימים.
2023-05-14
14 min
ExplAInable
[36] על התאוריה של Replay Buffer עם שירלי די קסטרו שעשוע
פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי Replay Bufferסוכן, יכול ללמוד רק מהפעולות שלו - מה שנקראOn Policyאו למידה גם מפעולות של סוכנים אחרים, מה שנקראOff Policyבגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודליRL
2023-04-16
20 min
ExplAInable
[35] העבודה הראשונה בדאטא שלי
פרק זה הוא חסות מיוחד בשיתוף אנבידיה, שמוקדש לג'וניורים.אנבידיה הפיקה את כנס הGTCעם דגש מיוחד השנה של גנרטיב - להרשמה לחצו פהבפרק ראיינו חמישה דאטא סיינטיסטים טריים: צחי מורד, טלחיים דמארי, נתי מגור, דין עזרא ואבי חביב.
2023-03-15
20 min