Quantcast
Channel: 知乎日报
Viewing all articles
Browse latest Browse all 20608

AlphaGo 在围棋上获得成功后,人工智能的下一个目标会是同为「有限元素组合创作」的音乐吗?

$
0
0

日报标题:接下来,让我们欢迎今天的 DJ——统治棋坛的 AlphaGo

顾旻玮,写音乐 听代码

终于有人来说音乐了。

我想从两个方面来谈谈这个问题,一个是计算机对于音乐的理解,一个是计算机通过学习来进行音乐创作。

首先是对于音乐的理解,

把神经网络应用在音乐上其实并不是一个非常新的话题,很早以前开始,在音频检索领域,人们就尝试用神经网络给各种各样的音乐元素(和弦,基频等等)建模,但是和语音识别一样,受限于计算机的运算能力,一直没有办法取得突破性的进展,在相当长的一段时间里人们一直还是在调参数和傅里叶变换中来回折腾。直到最近开始,随着计算机运算能力的不断提高,人们开始重新意识到深度学习在音乐上的应用。

大约两年前的时候,一位研究 Deep Learning 的博士生来我们组实习,利用深度学习的方法,在完全基于音乐音频信号的基础上训练了我们曲库里的 6000 万首歌,在没有任何人为标签和协通滤波的辅助下,取得了相当惊人的效果。

我们知道,一般做歌曲推荐的时候,我们通常依赖于协同滤波(Collaborative Filtering),也就是我们假设听的歌曲和听的人之间有很高的重合度。或者更直接而 naive 的方法就是打标签,给歌曲打上一些诸如曲风,场景,情绪一类的语义化标签。但是这两者都有不可避免的问题,前者会有严重的长尾效应,没人听过的歌曲永远没人听,越是流行的歌曲被推荐的几率越高;而后者,如果标签质量够高自然没什么问题,但是这免不了要耗费巨大的人力物力来手动标注(比如 Pandora),也并不是每个公司都有兴趣这么做的,你也无法始终保持标签的质量。

但是经过深度学习后的计算机不是这么想问题的,在高维空间里,每一首歌对于计算机来说就是一个个向量,接下来,你用最简单的聚类也好,建立二叉树模型也好。在听觉上相似的歌曲,一定会在高维空间里找到彼此。

在他的报告里面有一些很有意思的现象,比如:音乐性上特别有特点的两首歌(比如都有小提琴和 Dubstep 的组合)会被归类到一起,而所有的华语歌曲则归到了一个大类里。我曾经也做过一些尝试,比如把一位歌手同一时期的不同歌曲扔到模型里找相似,得到的结果完全不一样,所以你就可以很容易看到歌手在不同时期的变化和成长。

随手贴两张截图:图一是卷积网络的框架,图二是第一层网络的滤波器。有兴趣的同学可以去看一下他针对当时的研究写的 blog:Recommending music on Spotify with deep learning。可能对于在其他研究领域也有启发作用。

写到这里顺便提一下,各位可以猜测一下这位实习生最后去了哪里?没错,他也加入了 AlphaGo 的发明者所在的公司 ——Google Deepmind

接下来我们来谈谈人工智能在音乐创作上的研究

题主说音乐是一个有限元素的组合创作。 @阿鲁卡多 说音乐是无限元素的组合创作。我的理解是,如果单纯的认为音乐是音符的组合而认为他是有限的,那显然是非常肤浅的。对于音符组合的模仿作曲其实早在上个世纪 60 年代就开始了 (Daivd Cope 著名的 EMI 实验,通过统计音符概率来模仿古典作曲家进行创作),再进一点的更多所谓的先锋实验创作,算法作曲等等也是不胜枚举。

但是,因为音乐在配器,编曲,强弱等等其中的变化是无穷多种的。相同的旋律线,在不同的演绎下是两首完全不同的音乐。然而……

自从我们全面进入数字音乐时代之后,我们就应该清楚地意识到,所有的音乐本质上都是二进制里的 0 和 1,而对于计算机来说,所有的 0 和 1 的组合,本质上都是有限的。因为,人的听力范围是有限的。

上图是在语音和音乐领域常用到的语谱图(Spectorgram).我们把一首歌的 X 轴当成时间,Y 轴当成短时频率,颜色的深浅表示频率分布上的能量大小。以传统 44100Hz 为例的采样率来看,每一秒钟在时间上是 44100 个点。那么一首 5 分钟的歌曲就有接近 1300 万个采样点,每个点又根据采样精度有多种可能。但是人耳真正能感知的频率上限和声音长度都是有限的(24KHz, 0.1s),所以在经过短时傅里叶变换和加窗之后,剩下的数据点其实远远小于原采样点。无论音色再怎么丰富多变,情感再怎么即兴,当采样点的精度大于人耳可分辨度的时候,那么音频信号的组合,确实是有限的。只不过这个上限非常之大。

写到这里似乎有一点令人沮丧,其实这也是我最近在看了阿尔法狗和小李对决之后一直在思考的问题,人类的音乐创作能力是不是真的在某一天会被机器所取代?我认为至少在短时间内暂时不会。毕竟从组合的角度来讲音频信号能有的组合还是远远大于围棋的决策树的,而创作又不是一件有规则的事情,所以很难再没有范式的情况下自主学习。我在另一个问题 数字音频行业目前还有哪些发展前景?也提到了:当前数字音频最大的两个问题本质上可能还是要靠深度学习来解决,信号分离和物理建模。前者是将来自不同音轨的混合信号完全分离出来,后者是完全用数字手段来模拟声学信号,一旦这两个问题解决了,可能 AI 可以和人类一样创作的日子也就不那么远了。

从这个意义上来讲,在短时间内比较靠谱的一个 AI 之于音乐的应用,我认为还是在编曲上。在我看来,很多工业化成熟的编曲,无论欧美,日韩,港台还是内地,是有规则在里面的。无论你是多么复杂的配器,如果将音色的信号级变化转换成 midi 和音轨作为神经网络的输入信号,那将大大降低机器学习的复杂度。当然,这并不算是创新,只是让流水线上的编曲工作者们干活轻松一点罢了(打个比方,没有不尊敬的意思)。总结一下,如果我们跳出思维定式,而真正从计算机的角度来看待这个问题。其实总有一天,计算机会拥有和人类一样理解音乐和创作音乐的能力。然而,正如有一位朋友的回答里提到的那样,音乐是一种纯精神层面的东西,你的目标不是战胜对手,而是创作出有艺术价值的东西,让大家产生情感共鸣。所以我希望看到的,不是人工智能一味的模仿时下流行歌手进行创作,一天自动生成 200 万首神曲。而是在拥有理解和创作能力之后,能够真正的做出一些有创造性的东西。这个界限很难定义,也许在它到来之前永远不会有一个正确答案。也许这个道理也同样适用于其他创作领域比如绘画,小说,电影等。

只是希望它到来的那一天,我们还是能够用坦然的心态面对它。“给岁月以文明,而不是给文明以岁月”。


Viewing all articles
Browse latest Browse all 20608

Trending Articles