查看原文
其他

音频表征大模型在音乐冷启的应用

江益靓 DataFunSummit
2024-09-11

导读 本文将分享腾讯音乐天琴实验室基于音频表征大模型的实践与应用。

主要内容包括以下几大部分:

1. 音频表征背景

2. 通用音频表征发展

3. 表征模型应用

分享嘉宾|江益靓 腾讯音乐 高级研究员 

编辑整理|玉辉

内容校对|李瑶

出品社区|DataFun


01

音频表征背景

1. 一个例子

图 1

用户在选择喜欢的歌曲时,通常会考虑从歌手、旋律、音色、流派以及个人的品味和偏好等多方面因素。当我们将这些特征对应音乐信息检索任务时,会涉及到对流派、乐器、翻唱、相似歌手以及歌曲情绪舒缓度等多方面的识别。为了深入了解用户的音乐偏好,我们进行了一项统计分析,研究 QQ 音乐中用户偏好的歌曲类型。分析结果显示,用户对同一歌手的歌曲偏好占比约为 5%,而对同一流派的歌曲偏好占比高达 44%。此外,用户对同一语种的歌曲偏好也占据了相当大的比例,达到了 68%。

然而,仅仅依靠单一维度来描述用户为何喜欢某首歌曲是远远不够的。为了更准确地捕捉用户的音乐偏好,我们需要一个更为通用和强大的音频表征模型。这个模型应当能够提供更加丰富和稳定的音乐特征,而不仅仅是简单的特征排列或特征融合。通过构建这样的模型,我们能够更深入地理解用户的音乐喜好,并为他们提供更个性化的音乐推荐。

2. 音频表征发展的转变

图 2

在音频表征的发展历程中,逐渐从低层级的基础特征向更高阶、更专业的特征转变。最初,表征是一些低层特征,如频谱滚降点和频谱质心这样的基础信号特征,来表示音频的基本属性。之后发展为 MFCC(Mel 频率倒谱系数)等更为复杂的中阶特征,以更精确地描述音频的音质和音色等特性。随着音乐信息检索技术的发展,音频表征逐渐提升到了音乐专业领域的层次,有了和弦、节奏等高阶特征,这些特征是基于音乐专家的定义和专业知识提取的。然而,尽管这些高阶特征在音乐分析和处理中起到了重要作用,但它们与普通人对于音乐的理解和喜好之间仍存在差异。

我们的目标是构建一个能够刻画普通人对于音乐理解的音频表征模型。这意味着,不仅要关注音乐专家所描述的那些特性,更要深入理解普通人在欣赏音乐时的感受和情感。因此,我们将继续探索和研究,以构建一个更加符合普通人音乐感知的音频表征模型。

总结来说,通用音频表征的优势主要体现在以下几个方面:

  • 丰富:表征内容丰富多样,不再局限于单一维度,而是涵盖了歌手、乐器、旋律等多种特征,能够全面反映音频的多元属性。这种多维度的表征方式使得音频信息得以更完整地保留和呈现。

  • 高效:通用音频表征有助于下游任务的快速迭代。在天琴实验室,我们拥有强大刻画音频属性的能力,涵盖了音乐节奏类、基础类、结构类等多个方面。以往,迭代这些模型需要人工标注大量数据,并经过繁琐的建模、预测、纠错和训练过程。而现在,借助通用音频表征,我们可以利用少量的标注数据快速适配下游任务,大大提高了工作效率。

  • 精确:通用音频表征通常是通过自监督方式训练的,这种方式能够充分利用大量的音乐音频数据,通过无监督学习的方式自动提取音频中的关键特征。由于积累了大量的音乐音频知识,通用音频表征在一些任务上能够达到更加精准的效果。

相应地,在测评音频表征时,我们需要验证通用音频表征是否真正体现上述优势,包括检查其表征内容的丰富性、下游任务的快速迭代能力以及自监督训练带来的精准效果。通过对比实验和数据分析,可以评估通用音频表征在实际应用中的性能表现。

综上所述,通用音频表征以其丰富的表征内容、快速的下游任务迭代能力和精准的效果,为音频分析和处理领域带来了新的突破和机遇。

3. 天琴实验室的能力

图 3

在评估通用音频表征的性能时,有多种测评任务,例如学术界有开源的综合测评基线人物,涵盖了各种类别的标签,如打标类、旋律类和情感类等。这些测评任务为我们提供了全面的评估视角,以确保通用音频表征在各种场景下的泛化能力。

具体而言,我们可以将测评任务细化为不同级别。在 Sequence level 的任务中,我们关注于歌曲的粗粒度特征,如歌曲的情绪和调式。这些特征在整首歌曲中通常保持稳定,为我们提供了对歌曲整体风格的理解。而在 Token level 的任务中,我们则关注于时序上的精度要求,如 Beat(节拍)的轻重、和弦的变化以及音乐结构(如主歌和副歌)的判别。这些任务要求我们对音频的局部细节有深入的理解,并能够准确捕捉时序上的变化。

除了学术界的测评任务外,我们还在业务场景下自建了测评任务。在推荐场景中,我们关注于通用音频表征在推荐算法中的表现,以评估其是否能够准确捕捉用户的音乐偏好。在搜索场景中,我们则关注于通用音频表征在音频检索中的是否能表征出歌曲的品质,以确保用户能够快速找到他们感兴趣的优质内容。

综上所述,我们需要在不同级别和不同场景下的测评任务中全面评估通用音频表征的性能。这些测评任务将为我们提供音频表征效果的衡量,帮助我们了解通用音频表征的优缺点,并为其后续的改进和优化提供指导。

02

通用音频表征发展

1. 音频表征的发展趋势

图 4

随着计算机视觉(CV)和自然语言处理(NLP)领域表征的迅猛发展,音频表征也逐渐成为研究热点。目前,已经有一些开源的音频训练模型如 AudioMAE 和 JukeBox 等,它们展示了不俗的性能表现。此外,跨模态理解模型也逐渐开始将音频训练的模型作为音频编码器模块进行使用,这进一步凸显了音频表征在实际应用中的重要性。

在拥有大量的音乐与音频数据的前提下,如何充分利用好这些宝贵的数据,选择何种框架进行训练,是我们需要深入思考的问题。我们期望能够建立一种通用性强、深层次且精准的音频表征模型,以满足业务上的各种需求。这不仅需要在算法上的进行迭代创新,还需要不断深究音乐与音频数据的本质和特性,以期在音频表征学习领域取得更大的突破。

让我们来回顾一下近年来音频表征的发展。在 2020 年和 2021 年左右,Transformer 架构在音频处理领域得到了迅速的应用,并在多个下游任务中刷新了性能指标。在这一阶段,音频表征的学习主要依赖于有监督学习的方法。然而,随着时间的推移,无监督学习方法逐渐展现出其独特的优势。

针对无监督学习的音频表征方法,我们进行了一些归类。这些方法包括基于对比学习的 simCLR 框架,不需要负样本的 BYOL(Bootstrap Your Own Latent)方法,以及类似于自动编码器(AE)的 MLM(Masked Language Modeling)方法、MAE(Masked Autoencoder)方法和 Token 方法。这些方法在音频表征领域展现出了相当大的潜力。

2. 业务研究调研

图 5

图 5 列举了一些业界具有代表性的音频表征方法。前三列是纯音频模态方法,包含了有监督、半监督学习,以及无监督/自监督的各种方法。第四列是跨模态方法。下面将对其中部分方法展开介绍。

3. 无监督学习-simCLR

图 6

在深度学习中,对比学习方法正逐渐展现出其强大的潜力。该方法的核心思想在于构造正负样本对,并使得同一音频的正样本对在特征空间中的距离尽可能接近,而负样本对之间的距离则尽可能远。这种方法旨在通过无监督学习的方式,从音频数据中学习到有效的特征表示。

例如 MULE (Musicset Unsupervised Large Embedding)模型[1],它在大量的音乐数据和少量的音频数据进行无监督预训练,并在下游任务上进行简单的监督训练,验证模型的有效性。在音乐数量足够大的情况下,部分任务超出了有监督学习模型的表现,证明了无监督学习在没有标签的数据上,学到了音乐音频的共性特征。在下游任务测评中,特别是在情感识别任务上,展现出了一定的优势。

4. 无监督学习-Token

图 7

基于 Token 的方法,我们以 JukeBox[2]为例展开介绍。JukeBox 是一个专注于音乐生成的任务模型,它采用了多尺度的 VQ-VAE(Vector Quantized-Variational AutoEncoder)来对音频进行编码。这种方法能够实现对音频数据的高保真编码,确保在编码过程中最大程度地保留原始音频的信息。在 JukeBox 模型生成的音频中包含了丰富的高阶信息,如旋律、节奏、音色、风格以及人声的唱法。这些信息的准确还原和生成,使得 JukeBox 模型能够生成高质量的音乐作品。

JukeBox 的模型规模相对较大,这主要是因为它包含了一个将音乐编码再解码回音乐的模块。在下游任务测评中,JukeBox 模型的表现也相当出色,它在多个音乐相关的任务中都取得了不错的成绩,这进一步证明了其音乐生成能力的高效性和准确性。

5. 无监督学习-BYOL

图 8

BYOL(Bootstrap Your Own Latent)使用两个神经网络,一个是“在线”网络,另一个是“目标”网络。在线网络学习从数据中提取特征,而目标网络则生成这些特征的稳定版本以指导在线网络的学习。由于不依赖于负样本,不用再精心设计负样本,也减少了训练所需的数据量。具体来说,Map-music2vector[3]仅使用了 JukeBox 模型所需数据的 1%,同时模型大小也仅为 JukeBox 模型的 2%,却仍然达到了相当不错的表征效果。这一成果证明了 BYOL 模型在高效利用有限数据资源方面的能力,以及其在音频表征学习领域的有效性。通过减少数据需求和模型复杂度,BYOL 模型为音频表征学习提供了一种更加经济高效的方法。在歌手识别任务中,基于 BYOL 的模型在域外歌手识别上展现出强大的泛化能力。

6. 无监督学习-MAE

图 9

MAE(Masked Autoencoders)模型是一种参考自图像领域的方法,成功应用于音频表征学习中,例如 facebook 的 MAE[4]。具体来说,首先将音频或视频数据切成一系列的“patch”(片段),然后随机选择其中的一部分进行“mask”(遮盖),即将这些片段的音频特征置零。接着,这些被 mask 的数据被输入到 Encoder(编码器)中,再通过 Decoder(解码器)进行恢复。

MAE 模型的训练目标是使模型能够准确地恢复出原始数据的频谱,即未被 mask 的部分。这种训练方式的好处在于其训练速度相对较快。由于被 mask 的音频特征被直接置零,模型在训练过程中不需要对这些区域进行复杂的特征学习,从而降低了模型参数学习的压力。

在内部训练中,MAE 模型表现出了不错的性能。特别是在环境音识别等任务中,MAE 模型在仅使用 mask 策略的情况下也取得了良好的表现。这一成果证明了 MAE 模型在音频和视频表征学习领域的有效性和实用性。

7. 自监督学习-MLM

图 10

Mask Language Model(MLM)通过掩蔽音频信号中的一部分数据,然后训练模型预测这些被掩蔽的部分,从而学习音频数据的深层次特征。例如在语音识别中使用的 Wav2Vec2.0,在多个下游任务测试中,Wav2Vec2.0 达到了领先的性能,特别是在少量语言或条件下的表现尤为突出。HuBERR 在 Wav2Vec2.0 上进行了改进,除了预测掩蔽的音频片段特征外,还使用自身聚类类别作为预测的又一监督,实验证明该模型加强了对语音的理解和表示能力,在说话人识别等任务上表现出色,近两年已经得到了广泛的应用。接下来,以 MERT[5]为例展开介绍 MLM 的音频表征训练方式。
MLM-MERT

图 11

MERT 是专为音乐任务设计的音频无监督网络,它利用原始模型训练出音频表征。首先是通过卷积层来提取音频的特征。然后,对提取出的特征中的一部分进行 mask(遮盖)处理,即将这些特征值置零或替换为特定的标记。随后,这些被 mask的特征和剩余的特征被送入到 Transformer 的 Encoder 结构中。在 Encoder 内部,模型会利用未被 mask 的音频特征(即上下文信息)来预测那些被 mask 的特征部分。通过这种方式,模型能够学习到音频数据的内在结构和模式,从而生成高质量的音频表征。

图 12

为了更有效地监督训练过程,我们引入了两位“老师”。第一个监督者是代表声学信息的声学老师,即 Encodec,它能够产生离散化的声学特征。第二个监督者则是关注音乐特性的音乐老师,文章使用 CQT(Constant-Q Transform)特征,涵盖了音高、旋律变化这些关键特性。这个模型在其建立的基准测试中展现出了出色的通用性表现。它使用了十六万小时的音乐数据进行训练。该模型能够充分学习音乐数据的内在结构和特性,从而在各种音乐相关任务中取得良好的性能。

8. 数据集与模型大小

图 13

上表中对几个代表性的音频表征模型进行了简要的总结,并列出了论文中记录的各自的模型参数量以及训练资源。可以看到,除了专门用于生成任务的模型之外,目前通用音频表征模型,在整体大小上相较于图像和文本模型还是略小一些。同时,我们也注意到相关工作还是会受限于训练数据和资源。近期我们的实验也发现,当音频模型的参数量翻倍或更大时,对有效的音乐数据的需求会显著增加,在这种情况下,不仅需要有更多的数据支持,还需要采用一定的训练技巧来确保模型的有效训练。

M-A-P(Multimodal Art Projection Research Community)社区已经建立了一个通用的音乐任务评测基线 MARBLE(Music Audio Representation Benchmark for universal Evaluation),测评涵盖了多种音乐相关的评测任务,例如音乐打标、流派识别、情绪分析、音高估计、歌手识别、歌唱技巧分类等。最近,音频表征的相关论文[6]还引入了一些关于旋律和结构等序列化特性的测试,以更全面地评估音频表征的性能。

我们的目标是训练出能在这些任务上表现出色,或者在特定任务上表现卓越的音频表征。在内部训练过程中,我们会根据下游任务的特殊场景,选择适合的模型结构和训练策略,以确保音频表征能够满足实际应用的需求。

9. 音频文本模态表征-CLAP

图 14

除了音频这一单一模态外,目前已有一些结合其他模态共同使用的场景。音频通常被用作一个编码器与其他模态(如文本、图像等)进行结合。这些方法通过空间对齐或联合训练的方式,实现了音频与其他模态之间的交互和融合,为音频表征学习带来了新的可能性。例如,CLAP[7]模型便是一个典型的例子,它分别对音频和文本进行特征抽取,生成音频向量和文本向量,并在空间中进行对齐操作。在腾讯音乐的应用场景下,这种多模态结合的方式有着广泛的应用,如歌曲与标签的相互查找、文本标签与音频标签的融合使用等。

10. 音频 更多模态表征

图 15

此外,音频特征还可以与图片表征、视频表征联合应用,实现更为丰富的多媒体内容理解和处理。2023 年腾讯与高校合作发表的 MU-LLaMA[8]模型便是这一领域的一个成功案例。该模型将音频表征与 MU-LLaMA 模型结合使用,通过中间的 adapter 模块,以文本的方式描述和理解音频内容,为多媒体内容的处理和分析提供了新的思路和方法。
这种多模态融合的使用方式不仅拓展了音频数据的应用场景,还增强了信息的表达能力和理解的准确性,对于多媒体内容的处理和分析具有重要意义。

03

表征模型应用

1. 歌声鉴伪

图 16

接下来将分享音频表征在多个应用场景中的实际运用。

例如歌声鉴伪这一任务,我们已经将音频表征技术应用于细粒度任务中。鉴于当前歌声 AIGC(人工智能生成内容)合成能力的显著提升,市场上涌现出大量真假难辨的音频作品。有时合成歌声与真实歌声的差异往往只体现在细微之处,如演唱的头部或长音部分,有时合成歌声在整体音质上有体现,这些特征对于区分真伪至关重要。通过应用音频表征技术,取得了不错的效果。尽管这项任务的精确度在初期可以通过少量数据迅速提升,但由于歌声合成模型的不断迭代和更新,所以必须持续进行动态训练,以保持鉴伪能力的持续性和准确性,避免召回率的衰退。

2. 辅助搜索排序与歌声内容理解

图 17

此外,音频表征技术也在搜索场景中发挥了重要作用。通过音频特征,我们能够发现那些缺乏行为数据的冷门歌曲或新发布的高质量歌曲,并将它们在搜索列表中的排序位置进行相应调整。这一做法为更多高质量的冷门或新歌曲提供了更多的曝光机会。

从近期的学术研究和我们的内部实验来看,合适的音频表征在一些歌声内容理解任务上确实能够取得当前最优的性能,这进一步证明了音频表征技术在音乐领域的广泛应用和显著效果。随着技术的不断进步和模型的持续优化,我们相信,未来的通用音频表征将在更多音乐信息检索任务上展现出其潜力和泛化能力。

3. 音乐的理解讨论

图 18

最后,讨论一下关于音乐的理解。如上图左侧展示的是使用 MU-LLaMA 模型对一首歌曲进行音频输入后,结合语言模型对这首歌进行描述的结果。可以看到,当前 AI 对音乐的理解已经涵盖了歌曲的节奏、乐器使用和流派等方面。然而,当我们将这一结果与右侧微博上一位知名乐评人对同一首歌曲的描述进行对比时,可以发现除了文字细腻度的差异外,两者在音乐理解深度上还存在显著的差距。
这引发了我们对音频表征技术发展的思考。音频表征的一个努力方向是将当前对于音乐的理解更深度、更高层,进一步推向更接近人类感知的描述。这意味着我们需要不断提升音频表征技术的能力,使其能够更深入地捕捉音乐的内在特质,从而生成与人类感知更为贴近的音乐描述。这将有助于我们更好地理解和欣赏音乐,同时也为音乐创作和推荐等领域带来新的可能性。

[1] McCallum M C, Korzeniowski F, Oramas S, et al. Supervised and unsupervised learning of audio representations for music understanding[J]. arXiv preprint arXiv:2210.03799, 2022.

[2] Dhariwal P, Jun H, Payne C, et al. Jukebox: A generative model for music[J]. arXiv preprint arXiv:2005.00341, 2020.

[3]Li Y, Yuan R, Zhang G, et al. Map-music2vec: A simple and effective baseline for self-supervised music audio representation learning[J]. arXiv preprint arXiv:2212.02508, 2022.

[4]Huang P Y, Xu H, Li J, et al. Masked autoencoders that listen[J]. Advances in Neural Information Processing Systems, 2022, 35: 28708-28720.

[5] Li Y, Yuan R, Zhang G, et al. Mert: Acoustic music understanding model with large-scale self-supervised training[J]. arXiv preprint arXiv:2306.00107, 2023.

[6]Won M, Hung Y N, Le D. A foundation model for music informatics[C]//ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024: 1226-1230.

[7] Elizalde B, Deshmukh S, Al Ismail M, et al. Clap learning audio concepts from natural language supervision[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.

[8] Liu S, Hussain A S, Sun C, et al. Music understanding LLaMA: Advancing text-to-music generation with question answering and captioning[C]//ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024: 286-290.

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


江益靓

腾讯音乐

高级研究员

江益靓,腾讯音乐天琴实验室高级研究员,硕士毕业于复旦大学,主要负责智能歌唱评价与音乐信息检索技术的研发与应用。参与多项 MIR 技术的落地,推动音频内容理解技术应用在全民K歌、酷狗唱唱、QQ 音乐多个场景发挥业务价值。致力于用音乐科技帮助用户更好地享受音乐。

活动推荐

往期推荐


直播预告|我们在策划一件大事

大模型时代知识图谱赋能高血压智能诊疗实践

字节跳动系统智能运维实践 | DataFun大会分享回顾

实时智能全托管-云器Lakehouse重新定义多维数据分析

Blaze:SparkSQL Native算子优化在快手的深度优化及大规模应用实践

数据赋能实战:企业产品与业务的升级之道!

Spark 内核的设计原理

LLM+Data:大模型在大数据领域应用新范式

沐瞳指标管理与智能分析

信贷场景广告投放优化实践


点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存