人工智能时代前沿技术社区

首页 > 人工智能 > 热点

浅谈跨知识的艺术创作

今天的主题是人工智能在跨知识的艺术创作。艺术创作通常被认为是AI最难征服的领域之一,当下主要还是以自动作曲为主。

作者: | 2019-08-12 17:00:34

大家好,我是来自北京邮电大学的李荣锋,    

一、自动作曲

艺术创作没有标准答案,很难用现成的模型来训练,结果还是比较主观的。

定义:又称算法作曲,可以看做计算机音乐最早的研究,现在比较广泛,如音乐推荐和音乐分析以及音频处理等。

基于一定的算法进行音乐创作的先例最早在计算机诞生之前就已经有了,如音乐骰子游戏。

(小程序试音乐)

到二十世纪音乐骰子游戏被JOHN CAGE发明光大,成为一个“偶然音乐”流派。

什么是音乐?

可以从音乐风格要素来看,一共有6种,节奏(构成时间)、旋律(构成空间)、和声、音色、曲式、织体。

1565600646985746.jpg

节奏,先了解节拍,固定的时间值,是最基本的东西。

旋律:音高的不同样本。

什么是作曲?

广义:节奏+旋律+和声+音色+曲式+织体

狭义:节奏+旋律

关注狭义的。自动作曲和演奏是两个不交叉的部分。

构造序号,N1、N2……Nl ,把音高时值表现出来即可。

计算机作曲的基本任务:

1、用数字表示音乐的风格要素

2、作曲方法:随机生成+基于规则+基于概率(隐马克尔夫模型)

以基于概率为例:每个音符是以一定概率的形式接在另一个音符后面,这样就可以使用序列模型中的一些经典模型,比如隐马克尔夫模型。

(四重奏音频例子),比较有音乐性,但是很难有印象深刻的音乐。

现在自动作曲已经不拘泥与一两种模式,规则和随机组合比较常见。且开始基于深度学习的算法进行自欧东作曲,如卷积神经网络CNN;长期记忆网络LSTM以及对抗神经网络GAN等。

其中,使用深度学习作曲最著名的例子就是“DEEP BACH”,已经通过了图灵实验。比较新的结果来自微软,他自己做了一个巴赫的,因为巴赫保留的数据比较多。

例子:灵伴科技(演奏形式和音频)

巴赫的两个例子有很强的巴赫风格,在巴赫的曲库里找不到一样的例子,灵伴科技比较熟悉因为整段的素材用的比较多。

因此,自动作曲要解决两个矛盾:随机、控制。

人类的作曲模式:

主要分为两步,第一步是灵感的获取(采风、知识、生活经历),成为原型,然后在进行加工变成完整的作品。

二、基于非音乐因素的计算机自动作曲研究

从2013年开始,着手研究跨知识的作曲模式,关于人的灵感是怎么来的,但其实还有很多来自于其他非音乐因素。

在十九世纪已经开始尝试,最早来自于二十世纪的印象主义。

各种媒体的通感转换系统是跟英特尔合作的创新媒体项目,即通过各种输入设备,如麦克风、ipad等去获取声音、绘画、舞蹈等的轨迹,语音识别获得文本信号,麦克风获得音频信号,通过特征提取、算法来进行音乐创作。

三、基于歌词声调、朗诵语音的自动作曲

2012年开始做的项目。

好声音的标准:旋律本身美感、歌词情绪一致、歌词依字行腔。在三十年代有一批非常出色的音乐家来自于上海音乐学院,他们在上课的时候有研究词曲和古典文学的,当时涌现出一批优秀的作品,歌词情绪读音在当时就很明显。

例子:《玫瑰三愿》《傻瓜三愿》(对比)

此外,方言歌曲的歌词和情绪就很协调,中国古代的很多诗词都是有旋律的可以歌唱的,如“枯藤老树昏鸦”,非常注重依字行腔。

例子:泰戈尔的诗歌

获得音高的曲线,然后去数据库进行匹配,找到对应的旋律,发现来自邓丽君的明月几时有,只使用节奏信息,而不是复制,最后可以得到一个融合的结果。

四、总结和展望

总结:

1、随机与控制的矛盾之外寻找作曲动机

2、提出了非音乐因素的计算机自动作曲模型

3、实现了基于朗诵音频的自动作曲算法

4、算法要求朗诵语音本身具有与音乐一致的美感。

展望:

1、更大的民歌数据库(人声与伴奏分离),可以做一些机器学习的工作

2、更高级别的音乐描述(像素级—区域级——特征级—语义级—情感级)

3、更多艺术形式的转换