Look for any podcast host, guest or anyone
Showing episodes and shows of

And Sebastian Raschka

Shows

跨国串门儿计划
跨国串门儿计划#447.2026 AI 趋势展望:推理革命、智能体进化与“氛围编程”的崛起📝 本期播客简介本期我们克隆了:硅谷知名 AI 技术播客《The TWIML AI Podcast》AI Trends 2026: OpenClaw Agents, Reasoning LLMs, and More with Sebastian Raschka - #762当预训练技术趋于成熟,大模型的下一个增长点在哪里?本期嘉宾 Sebastian Raschka 是一位顶尖的独立 LLM 研究员,也是畅销书《从头开始构建大语言模型》的作者。他认为我们正处于一场“推理革命”之中。在这期节目中,Sebastian 将深度拆解 DeepSeek R1 和 OpenAI o1 背后的技术逻辑,解释为什么“后期训练”和“可验证奖励”成为了压榨模型性能的关键。他还会分享自己如何利用 AI 进行“氛围编程”,在不精通 Swift 的情况下开发出原生的 macOS 应用。无论你是关注底层架构的开发者,还是希望利用 AI 提升效率的普通用户,这期关于 2026 年 AI 趋势的深度对谈都不容错过。👨‍⚕️ 本期嘉宾Sebastian Raschka,独立 LLM 研究员、知名 AI 教育家。他曾任 Lightning AI 研究主管,并著有《Python Machine Learning》和《Build a Large Language Model from Scratch》等多部经典著作。他致力于将复杂的 AI 理论转化为可落地的代码实践。⏱️ 时间戳00:00 开场 & 嘉宾介绍LLM 的范式转移01:50 推理革命:从“记忆提取”到“逻辑思考”的跨越03:54 工具包装器(Tool Wrapper)的兴起:大模型不再是孤岛07:37 渐进式改进:模型健壮性与“生活质量”的提升“氛围编程”与个人工作流11:05 开发者的新姿势:利用 LLM 构建自定义 macOS 效率工具13:54 确定性工具 vs 随机性模型:如何找到最佳平衡点15:33 氛围编程(Vibe Coding):技术门槛的瓦解与底层原理的价值17:45 社交媒体上的“一次性搞定”:是奇迹还是幸存者偏差?深度拆解推理技术19:24 2026 三大核心主题:推理、推理侧扩展与智能体化22:03 可验证奖励(Verifiable Rewards):为什么数学和代码走在最前面24:13 过程奖励模型(PRM):如何教 AI 检查自己的思考步骤27:27 推理侧扩展:用推理阶段的算力换取更高的准确率30:59 自我改进(Self-Refinement):让模型在循环中进化智能体与未来架构33:35 智能体(Agents):从单次对话到闭环任务处理的演进35:54 多智能体系统:是噱头还是未来的生产力基石?38:45 架构演进:MoE、MLA 与稀疏注意力的实战落地43:00 持续学习的迷思:长上下文是否取代了模型更新的需求?46:23 文本扩散模型:Transformer 之外的另一种可能教育与新书预告47:31 从头构建推理模型:Sebastian 的新书计划与实验心得50:15 学习路径建议:如何系统掌握 LLM 的完整生命周期🌟 精彩内容💡 推理革命:后期训练成为新战场Sebastian 指出,预训练已经非常成熟,现在的“低垂果实”在于后期训练。通过推理侧扩展(Inference Scaling),我们可以在模型生成答案时投入更多算力,让模型拥有更多“思考时间”,从而解决复杂的逻辑问题。🛠️ 氛围编程(Vibe Coding)的实践嘉宾分享了自己如何通过 LLM 在短时间内开发出处理播客章节、arXiv 论文链接的 macOS 应用。他强调,LLM 的最大收益不在于直接完成任务,而在于帮助用户开发出“运行逻辑确定”的工具。🚀 可验证奖励与 DeepSeek 的突破讨论了 DeepSeek R1 如何利用数学和代码的确定性规则提供奖励信号。这种范式消除了人工标注的模糊性,使得模型可以通过强化学习进行大规模的自我进化。💻 架构的微调与创新虽然 Transformer 依然稳坐江山,但 DeepSeek 引入的 MLA(多头潜变量注意力)和稀疏注意力机制,证明了通过计算换内存、降低 KV 缓存成本在超大规模模型中的可行性。❤️ 持续学习与个人化Sebastian 认为,真正的自动化持续学习仍是梦想。目前,长上下文窗口和 RAG(检索增强生成)在很大程度上缓解了对实时更新模型的需求,但在处理具有广泛影响的新信息时,模型更新依然不可或缺。🌐 播客信息补充翻译克隆自:The TWIML AI Podcast:AI Trends 2026: OpenClaw Agents, Reasoning LLMs, and More
2026-03-0352 minDuarte O.Carmo\'s articles2026-03-0100 minThe TWIML AI Podcast (formerly This Week in Machine Learning & Artificial Intelligence)2026-02-271h 18Latent Space: The AI Engineer Podcast2026-02-2652 minDjango Chat2026-02-251h 00Digital Disruption with Geoff Nielson2026-02-231h 14Miner Vino2026-02-0600 minMiner Vino2026-02-0600 min播客翻译计划
播客翻译计划2026 AI 现状大盘点:中美竞赛、Scaling Laws 与 AGI 终局📝 本期播客简介本期节目我们翻译了著名访谈播客《Lex Fridman Podcast》。主持人 Lex Fridman 邀请了两位 AI 领域的顶尖研究者与教育家——艾伦人工智能研究所(Ai2)后训练负责人 Nathan Lambert,以及《从零开始构建大语言模型》的作者 Sebastian Raschka。这场长达四小时的深度对话,全面剖析了 2026 年人工智能的最新版图。从 DeepSeek R1 引发的全球震荡,到中美 AI 巨头的算力博弈;从 Scaling Laws 是否失效的争议,到推理模型(Reasoning Models)如何改变编程与科研的范式。您将听到专家们对 GPT-5、Claude 4.5、Gemini 3 以及国产开源模型实战表现的硬核点评,并深入理解预训练、后训练与推理时计算(Inference-time Compute)背后的技术逻辑。这不仅是一场技术趋势的预判,更是一份理解 AI 时代底层演进的权威指南。⚙️ 本期嘉宾Nathan Lambert:艾伦人工智能研究所(Ai2)后训练负责人,RLHF(基于人类反馈的强化学习)领域的权威专家,著有《The RLHF Book》。Sebastian Raschka:著名机器学习研究员、工程师,著有《从零开始构建大语言模型》及《从零开始构建推理模型》,致力于 AI 技术的普及与教育。🌟 精彩内容🇨🇳 “DeepSeek 时刻”:国产开源模型的全球突围DeepSeek R1 的发布被视为 AI 领域的里程碑。嘉宾们探讨了中国公司如何通过更高效的架构(如 MLA 潜在注意力机制)和更低的算力成本,实现了比肩甚至超越美国顶尖闭源模型的性能。这标志着 AI 竞赛从单纯的“堆算力”转向了更精巧的架构创新。📈 Scaling Laws 还在起作用吗?尽管有传言称预训练的收益正在递减,但嘉宾们依然看好扩展定律。除了传统的预训练规模,现在的重心已转向“推理时缩放”(Inference-time Scaling)——即让模型在回答前进行更长时间的“思考”。这种范式转移正在解锁 AI 在复杂数学、编程和逻辑推理上的新高度。💻 AI 编程的进化:从辅助到代理对话深入探讨了 Cursor、Claude Code 等工具如何改变开发者工作流。Sebastian 分享了他在紧急时刻利用 AI 瞬间生成 Bash 脚本的经历。专家们认为,未来的编程将更多是“用英语编程”,开发者将从微观的代码编写者转变为宏观的系统架构师。🤖 AGI 的时间线与终局面对动辄数千亿美金的算力投入,AGI(通用人工智能)是否只是一个昂贵的幻梦?嘉宾们讨论了 AI 商业化的路径、硅谷的泡沫现状,以及 AI 代理(Agents)如何在 2026 年真正进入生产力环节,解决现实世界中的复杂任务。🌐 播客信息补充翻译克隆自:#490 – State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI本播客由 AI 进行音频制作,你可以在 Bayt 播客上收听任何播客的中文翻译,并查看双语字幕。人工智能, DeepSeek, Scaling Laws, LLM, AGI, Transformer, RLHF, 推理模型, 中美AI竞赛, 开源模型, 编程AI, GPU, 算力, AI代理, Lex Fridman
2026-02-034h 30Build Wiz AI Show2026-02-0217 minInsight Distillery (Deutsch)2026-02-0210 minInsight Distillery2026-02-0209 minLex Fridman Podcast2026-02-0100 min今日深度AI2026-02-0115 minThe MAD Podcast with Matt Turck2026-01-291h 08Build Wiz AI Show2025-10-0815 minGenerative AI Group Podcast2025-09-1400 minThe UpstreamLife2025-09-1358 minAhmad Hardyoni2025-09-0300 min北雍ECC|中国视野趣谈世界2025-08-2819 min北雍ECC|中国视野趣谈世界2025-08-2721 minSmart Enterprises: AI Frontiers2025-07-3033 minL\'IA aujourd\'hui !2025-07-0803 minFwdays Tech Talks
Fwdays Tech TalksАнатомія ШІ: дизайн концепти та процес розробки з нуляЗустрічайте восьмий випуск Fwdays Architecture Talks! Наші постійні спікери — Олександр Савченко, Йожеф Гісем та гість випуску Дмитро Овчаренко, AI CTO of Ministry of Digital Transformation, обговорять теми: — Reference Architecture(s), Patterns, Styles для AI — Процес створення кастомної LLM - Тренування моделей - Основні quality attributes (performance, caching, availability, security, ethical aspects) — Як з'являються AI/GenAI інженери та де їх шукати? Запрошуємо вас на конференцію Highload fwdays'25: https://bit.ly/3DitOVr Корисні посилання: — AI Enterprise Architecture: - https://opea-project.github.io/latest/framework/framework.html - https://www.nvidia.com/en-us/data-center/products/ai-enterprise/ - FTI - https://learning.oreilly.com/library/view/llm-engineers-handbook/9781836200079/ — What are Large Language Models (LLMs)? by Databricks - https://www.databricks.com/glossary/large-language-models-llm — Continius pre-training vs finetuning - https://www.linkedin.com/pulse/teaching-old-dog-new-tricks-difference-between-lewis-ms-ccrp-ches-3abqc/ — Inference high-load and LLM in production - https://www.youtube.com/watch?v=NJ1jAfWR84k&list=WL&index=11&t=134s, — Recommended Book by O.Savchenko: Build a Large Language Model (From Scratch) by Sebastian Raschka - https://www.amazon.com/Build-Large-Language-Model-Scratch/dp/1633437167 - Code f...
2025-05-021h 34AI Ketchup 🍅 | Your Business\'s Secret Sauce2025-03-2756 minAccidental Tech Podcast2025-02-131h 572B Bolder Podcast : Career Growth and Insights from Women in Business, Tech & Sports2025-01-0939 minAI Stories2024-11-211h 06AIContext | AI每日播报2024-09-2902 minInterconnects2024-08-011h 03Interconnects2024-08-011h 03Vanishing Gradients2024-05-151h 51Super Data Science: ML & AI Podcast with Jon Krohn2024-03-191h 48The Python Show2024-03-1342 minLeading With Data2024-02-0755 minLatent Space: The AI Engineer Podcast2023-12-243h 20tasitigerbook2023-09-0600 mintuneadmaulbook2023-09-0400 minsymanrmysbook2023-08-2900 minlymseiofaren2023-08-1300 minSoul Searching2023-04-131h 02Learning from Machine Learning2023-03-261h 07Education NewsCast2023-02-2747 minInfinite Curiosity Pod with Prateek Joshi2023-01-3041 minJay Shah Podcast2022-12-291h 22The Lindahl Letter2022-07-3004 minThe Gradient: Perspectives on AI2022-07-291h 03The Data Exchange with Ben Lorica2022-05-1248 minThe TWIML AI Podcast (formerly This Week in Machine Learning & Artificial Intelligence)2022-03-2840 minPython en español2021-07-122h 00Deep Tech Musings2020-08-0739 minThe Python Podcast.__init__2020-04-2849 minSoftware Developers Journey2020-02-2550 minChai Time Data Science2020-02-231h 08Partially Derivative2017-01-0300 minData Science at Home2016-02-1534 minData Science at Home2016-02-1534 min