就在2024年3月23日,一个再平常不过的周末,国内首张AI音乐专辑《齐天大笑》悄然上线,目前已可在网易云音乐、QQ音乐、酷狗音乐、酷我音乐等平台收听该专辑歌曲。据该专辑发起人音顽童介绍,专辑内所有歌曲的音乐部分均由Suno生成,甚至连专辑同名主打歌《齐天大笑》的歌词都能看到文心一言的“身影”。
音顽童表示自己虽然平时喜欢听音乐,学过一点爵士鼓,也做过几年音乐教育培训,但离音乐制作人所需的条件和能力还差的很远。要不是现在借助生成式人工智能(AIGC)工具,万万不敢想有生之年还有机会发行自己的专辑。
“将歌词按规则输入在Suno歌词栏,设置好风格,再点击创造按钮,AI就可以生成两段含有所输入歌词的音乐片段,要是不满意就继续点击按钮,直到有自己满意的为止,之后继续生成后续片段直至歌曲结束。拼接成完整版后,再通过一些工具进行修剪、比特率调整、音量调整、格式转换等微调后,就可以上传到各大音乐平台了。”音顽童笑着如是说。
随着这张专辑在各大平台的上线,标志着AI音乐时代真的来了。这一来不要紧,现有音乐行业会被前所未有的颠覆。(以上为他视角)
AI音乐时代的特点和变化
我个人觉得AI音乐时代,至少会发生以下几点变化,这里初步总结为“两个所有”、“两个增量”和“两个新象”。
首先,是“两个所有”
第一个是,“所有包含AI可识别信息的载体”都是音乐生成的指令,包括但不限于文本、图片、音频、视频、实物等。指令:广义上指能够触发AI系统工作的指示、命令。
指令可以由人和AI等主体下达,限于音乐情感表达的本质,用在这里单指人基于包含创作动机、情感表达、音乐理念、审美和需求等内容的思想以各种AI可识别的信息为载体的指示、命令。可以说,指令是驱动AI的钥匙,是AIGC时代人自身价值的核心表达,也是连接人与AI的桥梁。
第二个所有是说,未来,我们“每个人”都是潜在AI音乐人。AI音乐人:指主要以AI(包括但不限于AIGC)为工具进行音乐创作和情感表达的创作者。
在AI工具越来越丰富,能力越来越强的情况下,其操作难度、对操作者指令的规则和要求水平、生成质量和所需后期处理程度等都将越来越低,用AI进行音乐创作的门槛会渐渐消失,每个人都可以借助AI通过音乐表达自己。
其次,是“两个增量”
第一个是“AI音乐人”数量会越来越多。
不管是游刃于传统音乐制作方式的前辈们,还是熟稔于数字音乐制作的中坚们,都将会尝试通过AI辅助自己更高效、更低成本的创作。加上大批时代的弄潮儿持续涌入,AI音乐人总量增加成为必然。
第二个是“AI音乐作品”数量会呈井喷式增长。
一方面,作品的增长随音乐人的增长而增长,两者间成正比,做音乐的人多,作品也随之多了;另一方面,传统音乐制作模式下,由于版权、词曲、资金、人力等资源限制和认知、战略、市场需求等条件约束下,大部分歌曲只能发行一个版本,抉择背后抹杀了作品的大部分可能性。
举个例子,原本一首歌发行的版本是男歌手所唱,实际上这首歌由女生来唱也合适,合唱也不错,改成Rock风格,做成R&B都不错,要是有个Disco版更好等等。但在现实中,可能在很多年后的某次现场,我们才能听到这首歌的其他版本。
而AI理论上可以一次性满足一首作品的所有可能。一首歌的素材以不同旋律编曲配器、风格、声线性别和年龄、独唱对唱合唱、唱法、语言、适用场景等做一张专辑不算新奇,满足音乐人各种现场的表演和拥有不同品味听众的需求。
然后,是“两个新象”
第一个,是会形成“新风格”或发展出“新类型”。
越来越多的AI音乐人开始用AIGC创作,那些已形成的长尾风格势必会被翻升;甚至根据作品中的AI特性还会融合出一些新的风格或类型;曲式结构和节奏节拍可能也会更五花八门,会出来所谓不太正规的结构。
比如,常理该到副歌的地方却没有副歌,或是副歌重复了四遍以上,又或者不是以八小节分段的,不成正方,或许混合拍子还会大行其道等等。这般情况下,诞生新风格、新类型的作品也不足为奇了。
第二个是会发展出“新业态”。
各音乐平台为了更好适应AI音乐人和AI音乐作品爆发的这个时代,可能会专门增设AI音乐人入驻、AI作品审核、宣发等机制的一系列变革。比如,目前用户与音乐人注册还是单独的两道手续,还需审核,总体比较繁琐。可能需要像短视频平台一样一经注册,既可以是内容的消费者,也是内容的生产者。
再比如,现在,在上传作品时需填的信息中,音乐人类型、歌曲类型、版本类别等都没有适合AI音乐的相关选择。表演者,作词者和作曲者,由AI生成的也不好填;原创版权证明,AI音乐人也难以提供,影响后续通过率、全球发行、平台推荐等,尤其是纯音乐作品,强制性要求证明,无法上线。
以后可能会改变一些审核流程和名目,如作品类型可以选择AI,词曲作者非必填项,增加指令项、生成项、后期项等以更适合AI音乐人的需求,保障其基本权利。当然,不排除市场上会出现在兼容原有系统基础上,专门以AI音乐人为主体开发的音乐应用,方便用户发行分享。
另外,AI生成的音乐作品不受指令人能力的限制,使其具有很大的外延性。会出现你的指令生成出来的歌你自己唱不了,男指令人生成出了女声线的歌,不会法语的指令人生成出来了法语歌,还包括风格、唱法、品味等众多维度。也许某天你会看到,由你指令生成的中文歌,在现场被黄妈、楚哥、顶顶、洪基、珮瑜等唱着。
AI生成的作品应该有版权
1.先有指令人,再有生成结果
从AIGC本身来说,它没有意识。在你发出指令之前,它不会为你做出任何行动,在你优化指令内容之前,它的产出也很难令你满意。抛开模型的算法、算力等对所有使用者原则上基本一致的成分,可以说你的指令大致决定了生成范围、方向、结果需具备的要素等。
加上后续你对具体作品的判断、选择、修改、再创作等,整个过程都是人在驱动,它自始至终都是工具。说白了,没有你和你的指令,它就不会为你产出内容。虽然指令也可以生成,但生成指令的指令,那个最初的意念、想法、情绪都是你先有的。
2.AIGC产出作品具备注册版权的条件
从AIGC的生成结果来说,抛开其训练数据的版权问题不谈,那是开发团队的事情,可以说他的产出是独一无二的。虽然不排除指令内容和下达指令时间完全相同的可能,但它是动态的,它的更新速度非常之快,它会随着每一次的响应而飞速成长,它真的是吃什么补什么,而且吃一点补n倍。
用个不恰当的例子,你问同一个小孩同一个问题,在他3岁、5岁和8岁时的不同年龄,他的回答都很难完全一致,何况是AIGC。之所以说这个例子不恰当,是因为人的成长速度与AIGC相比不可同日而语。所以,AI生成的作品基本上是独一无二的,这就具备了它的每一次产出都能注册版权的条件。
3.获取AIGC生成结果需要付出成本
另外,从AIGC的使用成本来说,除了指令人的思想、时间、精力、设备等投入,在经济上也是有成本的,需投入资金这一生产要素。
目前大部分工具的免费版都是试用版,都在版本、使用时间或次数、回复内容量等方面有所限制,这些影响着生成的作品数和质量等,常用或专业用可能难以满足。需要买会员,大多都是分几档不同等级的会员积分制,文本类的大多按字数算费用,视频类的按秒数算费用等等。Suno每点击一次创造需花费10个积分,不管是生成新片段,还是延续老片段。
版权单独归属于哪一方都不太合适
1.版权视为公共资源是社会的损失
如果,将版权视为公共资源,会从根本上抑制基于AIGC的生产力,结果于用户、开发者、投资人和整个社会都未必是好事。
毕竟除了少数致力于公益者和大部分人一生中的少部分公益心,没有人会乐意持续将自己基于某思想、想法、情感、审美、理念、专业积累等在花费一定时间、精力、金钱等成本上的产出全部奉献出来并为之奋斗,仅仅是因为过程中使用了AI。
2.版权归属开发者或公司不合理
如果,版权归属于AIGC系统的开发者、团队,那他们将会是AI时代及之后很长一段历史时期的最大受益者。所有试图使用其工具的人都是他们麾下的员工,并且无需支付薪水和提供任何保障。此外,你还需要投入自己的创意来喂养系统,并为此付出金钱来获取喂养资格等。
如果真是这样的话,估计他们自己都不清楚每天增加了多少版权,是什么内容的版权,都来自哪些地区,是基于什么群体的等等。当因更多人使用AIGC一次次产出时,不曾想多年后,不管在何时、何地、干什么、怎么干可能都会侵犯他们的版权,毕竟AI最终生成内容的范围、深度和频率具备覆盖这个世界的理论条件。
3.版权归属于AI或与人共享没有实际意义
确实AI生成的内容不是指令人自己完全生产的,那把版权给到AIGC本身也说得通,只是这么做没有意义。它无法管理自己的版权以及决定自己是否授权给谁,永远无法流通的资源等于没有。即使真的给了它,指令人也起码应该是版权共有者,有署名权、使用权、传播权等相应权利。
而当人和AI共有版权时,实际上真正利用版权的还是人,说白了AI就是挂了个名,没有实际意义。但完全属于指令人也不合适,毕竟生成过程基本不受人控制,这个过程也基本没有人的意志投入,只是用了点网络和电。
目前,AI版权问题确实无最优解
如果可能修改或新建版权法案,让AIGC生成的作品可以有法律意义上的版权,版权可以由指令人和社会共有。商用时,指令人无需也无法经过社会授权同意,但根据其公共属性,可以降低第三方使用该版权的成本,比如手续简便,费用5折之类的;当该版权产生收益时或收益达到一定程度时,加收一定比例的专项税费。也就是尝试从版权应用上做文章。
我想过段时间可能不会再有这样基于AIGC版权问题的探讨。因为已经不重要了,更重要的是在这个作品横行的大环境,如何通过AIGC创作出与时代共振,同他人共鸣,既有价值又有市场的作品。等到那时,你会发现,不是所有作品都能被看到,而被看到的作品除了运气,和其指令人有根本关系,而不是某个AI工具。
关于Suno使用过程中出现的问题:
1.免费版V2对于中文部分歌词易识别为粤语,输出为粤语发音,可能跟词本身和粤语歌曲训练量占比大有关;V3(Alpha)版本时有所改善,V3版本偶尔有上述现象,比如《再见,伪理想》(女声版)中第一句的“曾嘲笑目光短浅做抉择”的“抉”字就是接近粤语发音。
2.各版本还有不认识的中文字,比如《齐天大笑》主歌部分“春光舞蹁跹”里的“蹁跹”不知道发的什么音,“揽乾坤精气入指尖”里的“揽”直接跳过没发音。
3.对歌词和曲式结构理解不准确,经常是把Bridge理解成副歌,提前进入高潮,而到了真正的高潮第二段却别扭了开来等现象,也和输入歌词长度和元结构标识不准确有关。
4.歌曲旋律、情绪不一致性问题,Suno生成歌曲第一段大多为两分钟,之后再生成出来的第二段很多时候会出现旋律与第一段不一致、变调、变人声、变情绪等问题。估计你听《齐天大笑》专辑的歌曲时会有此感觉。
5.更要命的是,因为它对歌词和曲式结构理解不足,常常会出现生成音乐比较满意,但调整词的结构成为不可能,因为它不能在现有基础上替换词,它只能接着那段错误的歌曲进行下去,而调整了词之后,再一次生成出来的又是另外一回事儿。
除此以外,还有很多地方需要改进,播放清单也不好用,会出现一首歌添加两次就在一定时间内出现两个同样作品的情况;生成作品分类没有完整曲的栏目,需要找时如大海捞针等等。
关于对Suno相关功能的期望:
希望提高生成作品的音质,将采样率48Khz升级为96Khz及以上,比特数16bit升级到24bit;希望可以支持生成伴奏,提供后期处理功能或智能处理。
希望可以自动生成版权证明文件,如能对接生出ISRC更好,那纯音乐全球发行就不再是梦,当然各国平台也需要相应更新适应AI音乐人的作品发行机制。能直接一键全球发行更好,省得来回搬运。
如果可以,将生成视频好好优化为MV,毕竟它本身对这段音乐已经很熟悉了。
最后,我想说AI音乐时代:
理念和审美是音乐人的生命,立意和表达是作品的生命,现场版是演奏者、演唱者的生命。
现场版的价值空前放大,是作品的第一次演奏、演唱。
在各类信源生作品前期,文字工作者或许会占些皮毛优势,词人可一转过去常态大肆比曲稿。
……
想到即得到
你准备好了吗?
什么,你让我唱几句《齐天大笑》,不好意思,我未必会唱歌,就是能唱两句,在它生成出来之前,我也没听过,也得学习一下,况且它生成的风格、调、声线性别未必适合我,哈哈。
文中图片由百度千帆文生图、AI画匠生成,部分图片来源于QQ音乐、网易云音乐、Suno网站。