每日速递:Google研发的AI模型可以从文本甚至图像中生成高保真音乐
来自Google的研究人员发表了一篇论文,称他们创建了一个从文本描述中生成高保真音乐的模型。它被称为MusicLM,根据人工智能科学家Keunwoo Choi的说法,这个模型的整体结构是基于其他模型的,它结合了MuLan + AudioLM和MuLan + w2b-Bert + Soundstream。
Choi解释了一下这些模型各自的工作原理:
(资料图)
MuLan是一个文本-音乐联合嵌入模型,支持对比性训练和来自YouTube的44M音乐音频-文本描述对。
AudioLM使用一个来自语音预训练模型的中间层来获取语义信息。
w2v-BERT是一个来自Transformers的双向编码器表表达法,这是一个最初用于语音的深度学习工具,这次用于音频。
SoundStream是一个神经音频编解码器。
Google将所有这些结合起来,产生了从文本中生成音乐的AI模型,以下是研究人员对MusicLM的解释。
MusicLM是一个从文本描述中生成高保真音乐的模型,如"平静的小提琴旋律伴着扭曲的吉他旋律"。MusicLM将有条件的音乐生成过程作为一个层次化的序列到序列的建模任务,它生成的音乐频率为24KHz,时长可以达到几分钟。实验表明,MusicLM在音频质量和对文本描述的遵守方面都优于以前的系统。此外,还可以证明MusicLM可以以文本和旋律为条件,因为它可以根据文本说明中描述的风格来转换口哨和哼唱的旋律。为了支持未来的研究,我们公开发布了MusicCaps,这是一个由5500首音乐-文本对组成的数据集,其中有人类专家提供的丰富文本描述。
相对而言,想想ChatGPT能够完成的事情就很有意思。艰难的考试,分析复杂的代码,为国会写决议,甚至创造诗歌、音乐歌词等。在这种情况下,MusicLM更是超越了前者,把文字意图、一个故事甚至一幅绘画转化为歌曲。看到萨尔瓦多-达利的《记忆的持久性》被转化为旋律,这很吸引人。
不幸的是,该公司并不打算向公众发布这种模型,但您仍然可以在这里看看-和听听-这个人工智能模型如何从文本中生成音乐:
https://google-research.github.io/seanet/musiclm/examples/
推荐
-
FF宣布完成顶层治理架构 合伙人公司拥有1:10超级投票权
FF合伙人公司FF Global(由FF创始股东和FF前任和现任核心高管组成)今日宣布,全资子公司FF Top LLC(FF...
来源:TechWeb -
影像大升级!三星GalaxyS23Ultra将首发2亿像素HP2传感器
据此前多方透露,三星将于2月1日(北京时间2023年2月2日凌晨2点)举行Galaxy Unpacked活动,届时旗下新一...
来源:TechWeb -
-
-
阿维塔公布2023年目标:冲击10万辆销量 将推出一款全新中大型轿车
阿维塔科技日前在一次活动上表示,将在2023年推出阿维塔11后驱版本,并发布一块全新中大型轿车(内部代号...
来源:TechWeb -
2022年梅赛德斯奔驰全球销量同比下滑1% 但电动汽车销量增长124%
据国外媒体报道,当地时间周二,戴姆勒旗下的梅赛德斯-奔驰表示,2022年,该公司在全球共售出204万辆汽...
来源:TechWeb -
-
Fortinet连续三年位列Gartner企业级有线和无线局域网基础设施魔力象限远见者
Fortinet近日宣布连续第三年入围《Gartner企业级有线和无线局域网基础设施魔力象限报告》远见者象限。据...
来源:迪族网 -
-
直播更多》
-
特斯拉降价后上周日均销量同比猛增76% 达到12654辆
据路透社报道,招银国际(CMBI)汇编的数...
-
特斯拉降价后上周日均销量同比猛增76% 达到12654辆
据路透社报道,招银国际(CMBI)汇编的数...
-
英特尔承诺会在德国建芯片厂 正讨论补贴事宜
据报道,英特尔再次强调将会在德国马格...
-
赛力斯发布海外新车型 SERES5新车订单超过2万台
据报道,近日,赛力斯集团携旗下新能源...
-
特斯拉首席汽车设计师:Cybertruck已定型并接近投产
据 Teslarati 报道,特斯拉首席汽车设...
-
知情人士:比亚迪计划在越南建设汽车零部件工厂
据路透社报道,三位知情人士表示,中国...