近日B站发布2025年度音乐报告中AI生成的音乐《美猴亡》赫然在列,与其同时AI爵士版《大东北我的家乡》的歌手音色与袁娅维高度相像,袁娅维本人随后直接翻唱了这首歌曲。不知不觉AI音乐已经进入了我们的生活。但它背后的技术是什么,对音乐人和非音乐人产生了什么影响。这期我们和音乐生成领域的专家与音乐人一同聊聊AI音乐到底是怎么回事。
一、节目开场与嘉宾介绍
• 回顾往期技术类节目(推荐算法、大语言模型、AI绘画)
• 本期主题:AI 音乐生成
• 嘉宾背景
• 逸霄(@沉睡的松果 ):英国伦敦玛丽女王大学C4DM组AI 音乐方向博士,长期从事音乐生成研究(发言代表个人立场)
• @味素_ :复旦大学临床医学出身,职业配乐经历,东京大学情报理工修士在读,研究语音与 TTS
二、什么是 AI 音乐生成
• 当前主流定义:以 Suno 为代表的「基于音频的文本到音乐生成」
• 与早期工作的区别(曾以符号音乐e.g. 乐谱、MIDI为主,近年转向端到端直接生成音频)
• 为什么跳过乐谱(音频建模技术成熟、可直接对人类听觉结果负责)
三、技术发展脉络
• 2020:OpenAI Jukebox,首次展示大规模音频音乐生成
• 2023:Google MusicLM,Meta MusicGen,奠定主流范式
• 核心思想:Scaling 理论
• 数据量与模型规模决定上限(“涌现”:模型规模跨越阈值后出现非预期能力)
四、音乐生成的技术范式
• 音乐作为音频信号
• 频谱图 Spectrogram
• Mel Scale 对齐人类听觉
• 与语音、图像模型的关系(方法可迁移)
• 音乐被当作一种特殊音频处理
• 乐理的地位变化(不再是核心先验、少量用于输入输出空间对齐)
五、文本控制与音乐标签
• Prompt 并非自然语言本身(量结构化 Tag 组成:BPM、调性、风格、情绪、乐器等)
• 标签来源:Metadata、歌词、自动分析模型
• 数据标注的问题(风格过粗、小众流派数据不足)
六、数据、版权与伦理争议
• 音乐训练数据的灰色地带
• 三大唱片公司与 AI 公司的博弈(起诉、授权)
• 独立音乐人的困境(难以选择退出、追溯使用)
• 模型记忆化问题(可诱导生成高度相似原曲、商用授权与侵权风险并存)
七、AI 音乐对行业的影响
• Spotify 新歌中 AI 音乐占比显著
• 大多数人无法区分 AI 与人类音乐
• 工作室批量生产(低成本、高效率)
• AI 歌上Billboard榜与AI Remix 反向带火原曲
八、音乐人视角
• AI 擅长领域(商业流行、强记忆点旋律)
• AI 局限(不擅长小众风格、复杂音色设计、精细控制)
• 最大鸿沟(端到端模型缺乏可编辑性)
九、AI 音乐的现实使用方式
• 抽卡式生成、多次生成筛选
• 工业流程中的位置(参考曲生成对齐需求)
• 功能性音乐 vs 表达型音乐(BGM、广告、短视频和自己的歌)
• 艺术创作仍依赖人类
十、结尾
• AI 音乐不会彻底取代音乐人
• 更可能重塑流程与分工
• 数据与版权问题尚无完美解法
• AI 更适合工业效率
• 音乐人仍掌握表达与审美主导权
————————————————
片头曲:《温故知新でいこっ!》
感谢大家支持《老二次元Re》!
我们会继续加油哒♪(^∇^*)
直播间装修:煤油狸猫