Look for any podcast host, guest or anyone
Showing episodes and shows of

VideoGen

Shows

Marketing B2B Technology2026-02-0925 minHuggingFace 每日AI论文速递
HuggingFace 每日AI论文速递2026.02.05 | ERNIE 5.0统一模态;FASA稀疏注意力省内存【赞助商】通勤路上就听AI每周谈。AI每周谈,每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd【目录】本期的 15 篇论文如下:[00:29] 🧠 ERNIE 5.0 Technical Report(ERNIE 5.0 技术报告)[01:11] ⚡ FASA: Frequency-aware Sparse Attention(FASA:基于频率感知的稀疏注意力机制)[02:01] 📊 Training Data Efficiency in Multimodal Process Reward Models(多模态过程奖励模型中的训练数据效率研究)[02:44] 🤖 WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning(WideSeek-R1:通过多智能体强化学习探索宽度扩展以实现广泛信息检索)[03:28] ⚡ OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models(OmniSIFT:面向高效全模态大语言模型的模态非对称令牌压缩)[04:21] ⚡ HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing(HySparse:一种具有预言机令牌选择和KV缓存共享的混合稀疏注意力架构)[05:02] 🤖 EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models(EgoActor:通过视觉语言模型将任务规划落地为空间感知的具身动作)[06:05] 🎬 Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization(Quant VideoGen:通过2位KV缓存量化实现自回归长视频生成)[06:59] 🤖 SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation(SoMA:面向机器人软体操作的真实到仿真神经模拟器)...
2026-02-0612 minJust Chat with Drew2026-01-3036 min张小珺Jùn|商业访谈录
张小珺Jùn|商业访谈录124. 年终对话【站在2025年之外】和戴雨森聊2026年预期、The Year of R、回调、我们如何下注不知不觉,我们来到了2025年的最后一个月,在北京的初雪之中,我们希望和大家一起做一个回顾与展望系列:【站在2025年之外】。今天的嘉宾是真格基金管理合伙人戴雨森。在122集节目中,朱啸虎声称,三年之内不会有泡沫,泡沫论调纯属无稽之谈,创业者2026年当全速前进。雨森今天带来全新的看法。在他看来,2026年的关键词是“The Year of R”——回报与研究会再次变得重要。某种意义上,2026年将是一个现实与回调之年。02:00 复盘2025年02:00 从模型侧看进展:o1为代表的Thinking Time Scaling带来模型能力大幅提升OpenAI、Anthropic、Google三家的旗舰模型追赶很紧,又各有特点,预期和叙事轮动中国模型公司一年下来dominate开源生态28:13 从应用侧看进展:模型能力带来应用大爆发应用是有护城河的,开始看到复杂应用在context、environment等层面产生壁垒模型公司不能没有产品,大家都下场做最重要的第一方应用中国AI应用出海表现不错52:31 2025年真格出手了多少项目?20个左右对比中美AI公司估值,中国公司对于全球来说有很高期权价值:Thinking Machines天使轮估值在没有产品的情况下已是中国AI公司估值总和模型公司:Mistral 14b,Kimi 4b,Mistral自己都不怎么做Pre-train了,benchmark也就是和Kimi对标应用公司:在美国Manus这样一家几个月做到100m ARR,几十个点gross margin,MoM20%增长的公司应该是3-5bn01:03:15 预测2026年:The Year of RThe Year of R:Return、Research、Remember、多模态Reasoning01:03:15 Return:为什么Return很重要?ROI,过去3年交易的是investment,因为大家被潜在的大return吸引,但现在随着I越来越大,大家对R的落地越来越关注,因为有R才能推动未来的I为什么我们认为2026年大家会加大对return的关注?模型:模型能力进步是这一波AI革命最本质的驱动力,但模型的能力进步正在放缓;美国头部labs的投入(Capex,人工等)大了很多,但无法阻止中国模型低成本跟进,Scaling Law不能简单理解成为投入大力出奇迹应用:AI应用的叙事从无所不能威胁人类的AGI收敛到现在的三种主要商业模式,是从梦想回归现实的过程订阅制是OpenAI现在的核心商业模式:超过5亿DAU后,全球知识工作者低垂的果实已摘得差不多了,面临Gemini等的激烈竞争,针对普通用户再提价会比较难被寄予厚望的广告 + 电商:首先其中大部分是分Meta、Google、字节的存量蛋糕,对于Chatbot这样新形态的应用,探索广告和电商变现的速度不会很快广告 + 电商:首先大量是存量分蛋糕,然后对于新形态的应用,速度没那么快AI Coding/图片视频生成等“基于用量付费”的生产力产品:Token用量会持续增长,但Token价格也在持续下降,用户只会为SOTA的智能按用量付费;原来值钱的任务会很快变得不值钱,所以AI替代了很多程序员,并不意味着AI能长期赚到这些程序员的工资AI+行业的企业服务:这部分首先还在早期市场,规模有限,尝鲜的企业多,长期留存未必好,一个例子是微软Copilot的发展持续低于预期,大公司有数据安全、权限、隐私、工作流再造等一系列阻碍,使用新技术的速度比小公司和个人要慢不少结论: 需要实现Satya说的GDP加速增长,把蛋糕做大才是真正的AGI,比如说AI创造新的药物,发现新的知识,真正解放人类注意力等投入:现在美国基础设施建设慢,算力贬值快,人员工资高,巨额投入需要尽快看到回报2025年底二级市场的预期也和2024年底完全不一样:去年底是市场预期不高,但我们看到ChatGPT增速很快,Coding、Agentic模型提升的确定性带来应用机会;现在是投入很大预期很高,但短期模型端看不到革命性的新能力,新的范式变化还在萌芽期对创业者的启示?负毛利烧钱一味追求增长的逻辑正在过去,需要有增长和毛利率并重的高
2025-12-143h 23AI: post transformers2025-10-0815 minDaily Paper Cast2025-10-0225 minHuggingFace 每日AI论文速递
HuggingFace 每日AI论文速递2025.10.01 | 自对弈零标注训练;MCP代理深度评测本期的 15 篇论文如下:[00:20] 🎮 Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play(Vision-Zero:基于策略化博弈自对弈的可扩展视觉语言模型自我提升)[00:59] 🔥 MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use(MCPMark:面向真实且全面的MCP应用场景的压力测试基准)[01:36] 🐣 The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain(幼龙破壳: Transformer 与大脑模型之间缺失的环节)[02:10] 🤥 TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning(TruthRL:通过强化学习激励大模型说真话)[02:55] 🌊 OceanGym: A Benchmark Environment for Underwater Embodied Agents(OceanGym:面向水下具身智能体的综合基准环境)[03:41] ⚡ DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder(DC-VideoGen:基于深度压缩视频自编码器的高效视频生成)[04:14] 🔍 Who's Your Judge? On the Detectability of LLM-Generated Judgments(谁是你的评审?大模型生成评审意见的检测性研究)[04:59] ✂ Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning(赢得剪枝豪赌:统一样本-令牌剪枝的高效监督微调新方法)[05:45] 👁 Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training(未见先识:从语言预训练解密大模型视觉先验)[06:24] 🧠 Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training(思维火花!后训练阶段推理模型中涌现的专用注意力头)[0...
2025-10-0211 minDaily Paper Cast2025-09-1220 minCOEY Cast2025-09-1000 minmbanerjeepalmer+listennotes \'s Listen Later2025-08-0649 minJust Chat with Drew2025-07-1819 min🧠   _2025-07-1149 minLatent Space: The AI Engineer Podcast2025-07-0949 minLatent Space: The AI Engineer Podcast2025-07-0949 minEveryday AI Podcast – An AI and ChatGPT Podcast2025-04-291h 12AI for Business2025-02-0705 minHuggingFace 每日AI论文速递2024-12-0810 minHuggingFace 每日AI论文速递
HuggingFace 每日AI论文速递2024.12.04 每日AI论文 | 多镜头视频生成框架提升叙事连贯性,关键令牌识别增强LLM推理能力。本期的 15 篇论文如下:[00:24] 🎥 VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation(视频思维生成:多镜头视频生成的协作框架)[01:04] 🧠 Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability(关键令牌重要性:令牌级对比估计提升LLM的推理能力)[01:45] 🔄 Free Process Rewards without Process Labels(无过程标签的自由过程奖励)[02:30] 🎧 AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?(AV-Odyssey 基准:多模态大语言模型真的能理解视听信息吗?)[03:04] 🤖 MALT: Improving Reasoning with Multi-Agent LLM Training(MALT:通过多智能体LLM训练提升推理能力)[03:45] 🎥 OmniCreator: Self-Supervised Unified Generation with Universal Editing(全能创作者:自监督统一生成与通用编辑)[04:23] 🌴 Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis(真相还是幻象?面向端到端事实性评估的LLM-Oasis)[05:08] 📚 OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation(OCR 阻碍 RAG:评估 OCR 对检索增强生成系统的级联影响)[05:51] 📊 Scaling Image Tokenizers with Grouped Spherical Quantization(基于分组球面量化的图像标记器扩展)[06:27] 🌐 LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences(LSceneLLM:利用自适应视觉偏好增强大型3D场景理解)[07:09] ⚙ A dynamic parallel method for performance optimization on hybrid CPUs(混合CPU性能优化的动态并行方法)[08:00] 🌐 MaskRIS: Semantic Distortion-aware Data Augmentation for Referring...
2024-12-0511 minDigest.fm - Product Hunt Digest2024-09-0700 mindannyshine 3Speak Podcast2024-08-2000 minEmbracing Digital Transformation2023-10-2434 minIMMOFILMER - Videomarketing für Immobilien2021-01-2415 minBusiness küsst Bewusstsein - Pioniere der Bewusstseinsentwicklung2018-06-2617 min