Listen

Description

开年这期聊点不一样的!串台 @StellaxAmy·自定义 | 小宇宙 - 听播客,上小宇宙【原名“数据女孩的中年危机”】

四个人,清一色统计学背景出身,
但现在分布在完全不同的世界里:
药厂、互联网/创业公司、以及一个极其少见的高校 AI Evaluation 团队

这期我们没有聊「具体某个岗位在干嘛」,
而是从一个很现实的问题聊起:

👉 AI 已经能做很多事了,但哪些 AI,真的敢放到真实用户面前?

从 AI Evaluation 为什么突然变重要,
聊到强监管场景下的安全、责任与信任,

聊着聊着,话题也落到了长期主义本身
👉 当 mentor 这件事不赚钱,甚至很花时间,为什么还是有人愿意坚持很多年?
👉 当做内容没有立刻的回报,为什么有人依然选择持续投入?
👉 以及,在稳定、安全感和探索之间,我们各自做出的选择,背后到底看重什么?

如果你正在:

那这期,可能会刚好聊到你心里去。

📚 小百科 | 术语速查

👥 圆桌嘉宾

🕑 时间轴 Timeline

00:01–01:12|HIghlights:AI 能回答问题不稀奇,稀奇的是谁来负责

从校园场景里的self-harm / suicide聊起:当 AI 真正进入现实世界,没有 evaluation 和 safety,你根本不敢上线。

01:35–03:57|同样是统计背景,为什么走上了完全不同的路

四位嘉宾都学统计,却分别走向药厂、互联网、创业公司、高校 AI 产品团队——分岔点到底在哪里?

04:10–14:43|做了十几年 Data Science,身份焦虑从何而来?

职业回顾:交通工程 → 统计 → 互联网 → 高校,也聊 Data Science 这几年从“什么都干”到被重新定义的变化

14:43–22:38|AI Evaluation 到底在评估什么:不是模型,而是系统

澄清一个常见误解:现在的 AI Eval,评估的是一整个 AI 产品系统,而不是单一模型分数。

22:56–27:23|当学生对 AI 说“我不想活了”,系统该怎么做

用真实校园场景解释 AI safety:共情回应、资源引导、risk flag、以及在 FERPA 约束下如何处理隐私与上报。

27:23–35:47|为什么 AI Eval 在最近半年突然“被重视”

从 demo 到 deploy 的转折点:AI 产品一旦要上线,产品经理才发现——没有 eval,这事没人敢扛。

35:47–38:22|AI Evaluation 会成为新的职业方向吗?

从数据科学到 AI Eval:技能高度重叠,但关注点从“能不能做”转向“值不值得、敢不敢用”。

38:22–48:46|播客怎么做两年不崩:不追热点,只做减法

高产出背后的方法论:80 分原则、流程复盘、找对搭档,以及为什么 consistency 比爆款更重要。

48:46–1:02:00|免费 mentorship 真的可持续吗?ADPList 的现实与困境

ADPList 上的 mentor 经历:做 mentor 更像 therapist?被放鸽子是常态?

1:02:00–1:22:48|做内容是为了什么:表达、信息差与长期主义

The Cocoons (thecocoons.substack.com) 的初心:把中文语境里的故事,用英文再“推”出去。播客和 Newsletter 更像长期 networking。

🔍 延伸资源|关于 AI Evaluation 的进一步学习

AI Evals & Analytics 是由本期嘉宾 Stella & Amy 设计的一套
面向真实 AI 产品的 长期系列线上实战课程。课程关注的是:
👉 如何系统性评估 AI 产品的质量、风险与业务影响
👉 如何把 “AI 靠不靠谱” 转化为可执行的 evaluation framework
📅 最新一期课程将于 1 月 17 日开课,后续也会持续开设 (具体班期以 Maven 平台信息为准)
🎧 《药厂门口》听众可使用 6 折优惠码:PHARMA
🔗  AI Evals and Analytics Playbook by Stella Liu and Amy Chen on Maven链接直达

联系我们