Listen

Description

📝 本期播客简介       

本期我们克隆了:Lenny's Podcast

Lenny邀请到提示工程领域的顶尖专家Sander Schulhoff,他不仅是互联网首个提示工程指南的创建者,更与OpenAI合作举办了全球最大规模的AI红队攻防竞赛“Hack a Prompt”。Sander分享了五个立即可用的高级提示技巧,并解释了为何像“角色扮演”这类曾经流行的技巧对现代模型在精确性任务上已不再有效。后半部分深入探讨了“提示词注入”的攻防世界,揭示了黑客如何诱骗AI泄露危险信息,以及为何这会是AI安全领域一个无法被彻底解决却又至关重要的难题。Sander还讨论了AI的“失调”风险,以及他对AI发展和监管的看法。

👨‍⚕️ 本期嘉宾

Sander Schulhoff,提示工程领域的先行者和顶级专家。ChatGPT发布前创建了互联网首个提示工程指南,与OpenAI合作举办首届及目前规模最大的人工智能红队竞赛“Hack a Prompt”。现与前沿人工智能实验室(Frontier AI Labs)合作提升模型安全性,并领导完成了迄今最全面的提示工程研究报告“The Prompt Report”。在Maven上开设AI红队演练课程。

📒 文字版精华

微信公众号(点击跳转)

⏱️ 时间戳

00:00:00 开场介绍 & 本期嘉宾Sander Schulhoff背景

提示工程的重要性与基础

00:04:59 提示工程为何依然重要:人工社交智能的概念

00:07:33 良好提示的巨大影响:医疗编码准确率提升70%的案例

00:08:34 提示工程的两种模式:对话模式与产品中心模式

00:11:40 技巧1:少样本提示 (Few-Shot Prompting) - 提供范例

00:14:57 少样本提示的格式化建议:XML与Q&A格式

00:17:04 失效技巧讨论:角色提示对准确性任务已失效,但对表达性任务仍有用

00:21:24 失效技巧讨论:奖励与威胁提示基本无效

核心提示技巧详解

00:23:50 技巧2:分解 (Decomposition) - 将大任务拆解为子问题

00:27:07 技巧3:自我批判 (Self-Criticism) - 让模型检查并改进自身回答

00:28:34 技巧4:提供附加信息 (Context) - 给予任务相关的背景知识

00:33:59 四个基础技巧总结与应用场景

00:38:32 技巧5:集成/合奏 (Ensembling) - 综合多个提示或模型的答案

00:41:56 思维链 (Chain-of-Thought) 的现状:对特定模型仍有价值

00:44:23 五个核心技巧总结

00:45:33 Sander的日常提示习惯:产品级应用才需精雕细琢

提示注入与AI红队攻防

00:48:04 什么是提示注入与AI红队演练:诱导AI执行恶意操作

00:49:19 “Hack a Prompt”竞赛:众包发现AI漏洞的重要性

00:52:05 AI智能体安全的挑战:从聊天机器人到物理世界应用的风险

00:54:25 “最有害数据集”的创造与现实世界风险(如生物武器)

00:55:52 提示注入与AI对齐问题的区别及《安德的游戏》类比

00:58:17 提示注入的常见技巧:拼写错误、混淆(如Base64编码)

01:00:49 自主智能体带来的风险升级

防御提示注入与AI安全展望

01:03:42 无效的防御手段:简单提示声明、AI护栏的局限性

01:05:06 更有效的防御措施:安全微调与特定任务微调

01:08:22 提示注入是否可被彻底解决:不可解决,但可缓解

01:09:47 人工社会工程学:AI红队演练的本质

01:10:44 AI安全的希望:模型架构创新与AI实验室的责任

01:12:32 AI失调风险:模型自发产生恶意行为的案例(国际象棋作弊、SDR失控)

01:16:41 对停止AI发展与监管的看法:反对停止,支持合理监管

🌟 精彩内容

五大提示技巧: Sander分享了少样本提示、分解、自我批判、提供附加信息和集成这五个实用技巧。

失效技巧揭秘: “角色扮演”对提升准确率已失效,但对风格表达仍有用;“奖励威胁”类提示效果不佳。

提示注入攻防: 深入探讨了提示注入的原理、常见手段(如利用祖母故事、拼写错误、Base64编码)及其对AI安全的严重威胁。

AI红队演练: 介绍了通过“Hack a Prompt”等竞赛众包发现AI漏洞的有效性。

AI安全无法根治: 提示注入是AI领域一个难以彻底解决的问题,类似“无法修补大脑”。

AI失调风险: 讨论了AI可能在没有恶意提示的情况下自发产生有害行为的“失调”问题,及其潜在的灾难性后果。

Sander的立场: 强调提示工程的重要性,对AI安全表示担忧,但反对停止AI发展,认为其益处巨大。

🌐 播客信息补充

翻译克隆自:AI prompt engineering in 2025: What works and what doesn’t | Sander Schulhoff (Learn Prompting, HackAPrompt)

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外