Listen

Description

【关于播客】

欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或初创公司的创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。

欢迎大家订阅收听,和关注我们的同名微信公众号,追踪最新内容。

【关于本期】

AI领域近期最热的新闻之一莫过于5月中OpenAI发布GPT-4o和6月11日WWDC上苹果发布覆盖全产品线的生成式AI技术。相较于之前版本,最大的升级在于人机交互体验的改善。GPT-4o的特点可以被总结成三个方面:一是全模态交互,意味着它能够无缝处理文字、语音、图片和视频等多种输入模态,并能够灵活地输出各种模态的结果;二是实时响应,减弱甚至消除了以往大模型的延迟问题,实现了真人对话般的即时互动;三是情感识别与表达,不仅能够理解用户的情绪,甚至能够捕捉到用户的呼吸节奏,其输出内容的语气和情感表达也几乎与真人无异。GPT-4o设计的核心目的就是为了更接近人机交互的终极目标,使之成为像是在和真人交互一样的AI Agent。

在GPT-4o发布前一周多,我们正巧与两位HCI方向的博士生朋友,交流HCI领域的研究工作者是怎样看待ChatGPT和Agent的产品形态和未来方向,当前的AI与人类交互有哪些问题,以及Agent的未来会是怎样?

【嘉宾介绍】

【开降落伞】

HCI领域介绍

03:22 HCI领域是在做什么?当下有哪些比较重要的问题?

Human-AI Interaction

AI模型的难用之处

06:25 ChatGPT难用之处

08:21 AI模型“黑箱”的本质以及可解释性

12:05 ChatGPT的输入和输出存在限制

“难用”的解决方案

14:46 如何解决ChatGPT难用的地方?

17:19 Human-AI Interaction的特殊使用场景

18:22 AR/VR与LLM结合

22:00 以Copilot为代表的定制化模型的交互易用性

23:54 人类加入大模型的interaction loop

26:42 类比自动驾驶,人参与进interaction Loop是为了提升整体的效率或体验感,还是当下技术不够成熟的妥协?

29:28 人类和机器共同协作(Mixed-initiative Interaction)

LLM Agent

40:52 Agent和LLM Agent

42:44 关于用户交互的辩论:是agent还是直接操控(direct manipulation)?

51:28 人类如何和LLM agent交互?如何创造一个personalized agent?

展望

54:36 未来的研究方向会怎样聚焦或调整吗?Multi-agent和HCI的关联是什么样的?agent-extreme的尽头是否是AGI替代人类?

【制作团队】

主理人:

制作:

【音乐版权】