新闻检索:
当前位置:第一财经网 -> 滚动

谷歌发布AI前沿成果MusicLM,生成式AI迎来爆发

栏目:滚动    时间:2023-02-02 10:50    来源: IT之家 编辑:叶子琪      阅读量:6954   

ChatGPT之后,音乐将成为AI内容生成的前沿领域。

当地时间1月27日,谷歌发布了新的AI模型——MusicLM通过AI模型MusicLM,词可以直接生成高保真的音乐

这是继文本生成AI模型Wordcraft和视频生成工具Imagen Video之后,谷歌第二次推出生成式AI模型工具这一次,谷歌瞄准了音乐领域

通过MusicLM不难看出,近两年来,生成式AI赛道正在迎来爆发。

01.MusicLM挑战更复杂的场景

谷歌最新的AI模型MusicLM可以直接从文字和图像中生成音乐,它有多种风格所有你想听的音乐基本都可以自动生成

MusicLM并不是第一个可以自动生成音乐的AI模型此前,可视化AI工具Riffusion也可以自动创作音乐,以及舞蹈扩散此外,最受欢迎的聊天机器人ChatGPT的开发者OpenAI也推出了Jukebox

但值得注意的是,这些能够自动生成音乐的AI系统受到技术,数据等因素的限制,创作的音乐相对简单,也相对不复杂。

与前辈不同的是,MusicLM可以创作出特别复杂和高保真的音乐,也可以通过图像生成音乐这是一个新的突破通过AI技术,我们不仅可以识别乐器,整合音乐流派,还可以通过更抽象的概念生成音乐

不过值得一提的是,目前谷歌只发布了MusicLM的研究成果因为版权等问题,谷歌还没有向公众开放MusicLM

02.AI生成音乐的难点在哪里。

去年10月,谷歌在生成式AI模型上推出了AudioLM,可以通过输入短时音频生成类似风格的音频当时AudioLM还只是一个纯音频的型号这项技术类似于语言模型,可以根据提示的语音内容自主判断生成相似内容

从这个角度来说,AudioLM可以算是MusicLM的前身AudioLM可以模仿音频的音色,响度和清晰度,无需转录或标记但AudioLM生成的音频与原版差别不大,也没有公开应用

通过AI模型创作音乐并不容易,因为生成的音乐包括音频信号,环境声,人声等多个维度,是由多个信号相互作用形成的,而人体每次发出的声音,无论响度,音色,都是由句法,音律等组成的,是一个非常复杂的综合系统。

正是因为这些原因,在早期的探索过程中,自动生成的音频合成痕迹明显,声音听起来不自然,发音也不标准因此,依靠海量数据训练和仿真,自动生成真正意义上的音频,是AI模型必不可少的基础步骤

为了应对这些挑战,作为AudioLM的升级版,MusicLM拥有了更多的训练数据根据消息显示,Google只在28万小时的音乐数据集中训练了MusicLM,为理解深度复杂的音乐场景提供了基础

此外,值得一提的是,鉴于任务缺乏评测数据,Google专门推出了MusicCaps,用于文本转音乐生成任务的评测。

03,生成式AI迎来爆发。

谷歌这次推出MusicLM,可以看做是拓展AI应用的一个注脚,背后是生成式AI赛道的爆发事实上,近两年来,生成式人工智能一直是最热门的话题

2021年,OpenAI相继发布了划时代的DALL—E和DALL—E 2机型,实现了从文字到图像的跨越去年Meta发布了AI短视频生成模型Make—A—Video,也可以从文本内容生成视频,谷歌还发布了短视频AI生成模型Imagen Video和Phenaki

可以看到,生成式AI的应用场景越来越广泛,写字,绘画,视频剪辑等都可以通过AI技术实现基于生成式AI的广泛应用前景,Google,微软,Meta等巨头纷纷推广R&D,将生成式AI技术融入产品,加速了生成式AI赛道的爆发

其实,生成式AI的快速发展并不是这两年的事情,只是因为技术门槛高,其前沿动态一直在科技界小范围流传直到AI画画,AI写作等频频出圈,生成性AI得到越来越多的关注

生成式AI赛道的爆发有其必然的原因大数据和算法的应用越来越成熟,模型工具越来越完善,加速了生成式AI应用的迭代目前,生成式AI已经迎来爆发期,未来还有很大的发展潜力根据Gartner的统计,预计到2025年,生成式AI将占所有生成数据的10%,而目前的比例不到1%

当然,任何技术都是一把双刃剑生成式AI也面临版权问题等挑战此外,它还面临着AI世代失误带来的各种损失目前来看,离不开人为干预但从长远来看,生成式AI的巨大发展潜力已经成为共识

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。