Listen

Description

【关于播客】

欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或技术背景的初创公司创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。

即日起,我们的长视频版本将逐步上线于Youtube和Bilibili,观众老爷们可以更便捷地在长视频中观看带字幕的视频,也便于大家理解对谈中涉及的任何专业语汇。与此同时,我们也将在小红书和视频号发布一些视频切片,呈现采访过程中的灵感时刻。

当然,欢迎关注我们的微信公众号加听友群,跟进更多动态。

【关于本期】

在Nvidia的Q1财报发布后,Nvidia的股价首次飙升至1000美元以上。在AI的算法不断推陈出新的当下,大模型对于算力的需求暴涨令人瞩目,这其中隐藏了哪些机会?本期播客我们邀请三位行业内部人士,从不同的角度切入,共同探讨如何在AI的热潮背景下,从计算效率的角度寻找突破。我们将与教授学者、大厂资深软件研究科学家以及计算机硬件研究博士对话,探究在高昂的算力成本和日益严峻的能源问题面前,如何通过创新思路,例如专用小模型和定制化芯片技术,来实现更高效环保的发展路线。

【嘉宾介绍】

【开降落伞】

背景科普

05:28 在大模型(LLM)的计算范式中计算效率的重要性

09:07 小公司预训练(Pretrain)大模型的可行性

10:23 训练和推理大模型对硬件的真实需求

软件角度的LLM等人工智能算法加速

11:50 大语言模型的软件层面计算效率优化的新技术

15:13 Scaling law & Scale up and Scale down

18:23 LLM的高效微调(finetune)

20:45 LLM的高效推理(inference)

21:54 小模型和大模型的区别

23:29 小模型的独特架构设计

25:03 LLM架构设计的软硬件结合方法: FlashAttention

27:54 TensorRT和CUDA

30:20 英伟达(Nvidia)的技术壁垒

硬件角度的LLM等人工智能算法加速

31:30 大模型中的长序列输入处理的挑战和解决方法

34:14 传统计算架构中的CPU/GPU/TPU

41:05 近内存计算(Near-Storage Computing)与LLM的适配

43:54 定制化硬件公司Groq和Cerebras的发展和愿景

50:00 摩尔定律缩放减缓对算力提升的影响

51:50 数据中心的发展趋势和优化技术

57:12 为什么芯片的设计周期这么长?

1:02:43 芯粒(Chiplet)技术及其前景

展望未来

1:08:34 对新架构、新软硬件结合方式和加速方式的看法

1:14:34 对AGI到来的看法

【关于主播】

【音乐版权】