谷歌发布AI前沿成果MusicLM，生成式AI迎来爆发

栏目：滚动时间：2023-02-02 10:50 来源: IT之家编辑：叶子琪阅读量：6954

ChatGPT之后，音乐将成为AI内容生成的前沿领域。

当地时间1月27日，谷歌发布了新的AI模型——MusicLM通过AI模型MusicLM，词可以直接生成高保真的音乐

这是继文本生成AI模型Wordcraft和视频生成工具Imagen Video之后，谷歌第二次推出生成式AI模型工具这一次，谷歌瞄准了音乐领域

通过MusicLM不难看出，近两年来，生成式AI赛道正在迎来爆发。

01.MusicLM挑战更复杂的场景

谷歌最新的AI模型MusicLM可以直接从文字和图像中生成音乐，它有多种风格所有你想听的音乐基本都可以自动生成

MusicLM并不是第一个可以自动生成音乐的AI模型此前，可视化AI工具Riffusion也可以自动创作音乐，以及舞蹈扩散此外，最受欢迎的聊天机器人ChatGPT的开发者OpenAI也推出了Jukebox

但值得注意的是，这些能够自动生成音乐的AI系统受到技术，数据等因素的限制，创作的音乐相对简单，也相对不复杂。

与前辈不同的是，MusicLM可以创作出特别复杂和高保真的音乐，也可以通过图像生成音乐这是一个新的突破通过AI技术，我们不仅可以识别乐器，整合音乐流派，还可以通过更抽象的概念生成音乐

不过值得一提的是，目前谷歌只发布了MusicLM的研究成果因为版权等问题，谷歌还没有向公众开放MusicLM

02.AI生成音乐的难点在哪里。

去年10月，谷歌在生成式AI模型上推出了AudioLM，可以通过输入短时音频生成类似风格的音频当时AudioLM还只是一个纯音频的型号这项技术类似于语言模型，可以根据提示的语音内容自主判断生成相似内容

从这个角度来说，AudioLM可以算是MusicLM的前身AudioLM可以模仿音频的音色，响度和清晰度，无需转录或标记但AudioLM生成的音频与原版差别不大，也没有公开应用

通过AI模型创作音乐并不容易，因为生成的音乐包括音频信号，环境声，人声等多个维度，是由多个信号相互作用形成的，而人体每次发出的声音，无论响度，音色，都是由句法，音律等组成的，是一个非常复杂的综合系统。

正是因为这些原因，在早期的探索过程中，自动生成的音频合成痕迹明显，声音听起来不自然，发音也不标准因此，依靠海量数据训练和仿真，自动生成真正意义上的音频，是AI模型必不可少的基础步骤

为了应对这些挑战，作为AudioLM的升级版，MusicLM拥有了更多的训练数据根据消息显示，Google只在28万小时的音乐数据集中训练了MusicLM，为理解深度复杂的音乐场景提供了基础

此外，值得一提的是，鉴于任务缺乏评测数据，Google专门推出了MusicCaps，用于文本转音乐生成任务的评测。

03，生成式AI迎来爆发。

谷歌这次推出MusicLM，可以看做是拓展AI应用的一个注脚，背后是生成式AI赛道的爆发事实上，近两年来，生成式人工智能一直是最热门的话题

2021年，OpenAI相继发布了划时代的DALL—E和DALL—E 2机型，实现了从文字到图像的跨越去年Meta发布了AI短视频生成模型Make—A—Video，也可以从文本内容生成视频，谷歌还发布了短视频AI生成模型Imagen Video和Phenaki

可以看到，生成式AI的应用场景越来越广泛，写字，绘画，视频剪辑等都可以通过AI技术实现基于生成式AI的广泛应用前景，Google，微软，Meta等巨头纷纷推广R&D，将生成式AI技术融入产品，加速了生成式AI赛道的爆发

其实，生成式AI的快速发展并不是这两年的事情，只是因为技术门槛高，其前沿动态一直在科技界小范围流传直到AI画画，AI写作等频频出圈，生成性AI得到越来越多的关注

生成式AI赛道的爆发有其必然的原因大数据和算法的应用越来越成熟，模型工具越来越完善，加速了生成式AI应用的迭代目前，生成式AI已经迎来爆发期，未来还有很大的发展潜力根据Gartner的统计，预计到2025年，生成式AI将占所有生成数据的10%，而目前的比例不到1%

当然，任何技术都是一把双刃剑生成式AI也面临版权问题等挑战此外，它还面临着AI世代失误带来的各种损失目前来看，离不开人为干预但从长远来看，生成式AI的巨大发展潜力已经成为共识

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。