Listen

Description

近日B站发布2025年度音乐报告中AI生成的音乐《美猴亡》赫然在列,与其同时AI爵士版《大东北我的家乡》的歌手音色与袁娅维高度相像,袁娅维本人随后直接翻唱了这首歌曲。不知不觉AI音乐已经进入了我们的生活。但它背后的技术是什么,对音乐人和非音乐人产生了什么影响。这期我们和音乐生成领域的专家与音乐人一同聊聊AI音乐到底是怎么回事。

一、节目开场与嘉宾介绍

 • 回顾往期技术类节目(推荐算法、大语言模型、AI绘画)

 • 本期主题:AI 音乐生成

 • 嘉宾背景

 • 逸霄(@沉睡的松果 ):英国伦敦玛丽女王大学C4DM组AI 音乐方向博士,长期从事音乐生成研究(发言代表个人立场)

 • @味素_ :复旦大学临床医学出身,职业配乐经历,东京大学情报理工修士在读,研究语音与 TTS

二、什么是 AI 音乐生成

 • 当前主流定义:以 Suno 为代表的「基于音频的文本到音乐生成」

 • 与早期工作的区别(曾以符号音乐e.g. 乐谱、MIDI为主,近年转向端到端直接生成音频)

 • 为什么跳过乐谱(音频建模技术成熟、可直接对人类听觉结果负责)

三、技术发展脉络

 • 2020:OpenAI Jukebox,首次展示大规模音频音乐生成

 • 2023:Google MusicLM,Meta MusicGen,奠定主流范式

 • 核心思想:Scaling 理论

 • 数据量与模型规模决定上限(“涌现”:模型规模跨越阈值后出现非预期能力)

四、音乐生成的技术范式

 • 音乐作为音频信号

 • 频谱图 Spectrogram

 • Mel Scale 对齐人类听觉

 • 与语音、图像模型的关系(方法可迁移)

 • 音乐被当作一种特殊音频处理

 • 乐理的地位变化(不再是核心先验、少量用于输入输出空间对齐)

五、文本控制与音乐标签

 • Prompt 并非自然语言本身(量结构化 Tag 组成:BPM、调性、风格、情绪、乐器等)

 • 标签来源:Metadata、歌词、自动分析模型

 • 数据标注的问题(风格过粗、小众流派数据不足)

六、数据、版权与伦理争议

 • 音乐训练数据的灰色地带

 • 三大唱片公司与 AI 公司的博弈(起诉、授权)

 • 独立音乐人的困境(难以选择退出、追溯使用)

 • 模型记忆化问题(可诱导生成高度相似原曲、商用授权与侵权风险并存)

七、AI 音乐对行业的影响

 • Spotify 新歌中 AI 音乐占比显著

 • 大多数人无法区分 AI 与人类音乐

 • 工作室批量生产(低成本、高效率)

 • AI 歌上Billboard榜与AI Remix 反向带火原曲

八、音乐人视角

 • AI 擅长领域(商业流行、强记忆点旋律)

 • AI 局限(不擅长小众风格、复杂音色设计、精细控制)

 • 最大鸿沟(端到端模型缺乏可编辑性)

九、AI 音乐的现实使用方式

 • 抽卡式生成、多次生成筛选

 • 工业流程中的位置(参考曲生成对齐需求)

 • 功能性音乐 vs 表达型音乐(BGM、广告、短视频和自己的歌)

 • 艺术创作仍依赖人类

十、结尾

 • AI 音乐不会彻底取代音乐人

 • 更可能重塑流程与分工

 • 数据与版权问题尚无完美解法

 • AI 更适合工业效率

 • 音乐人仍掌握表达与审美主导权

————————————————

片头曲:《温故知新でいこっ!》

感谢大家支持《老二次元Re》!

我们会继续加油哒♪(^∇^*)

直播间装修:煤油狸猫