当前快报:Meta的AI翻译器可以解释无文字的语言 扎克伯格以闽南话举例
【资料图】
世界上大约7000种已知的语言中,有将近一半的语言,也就是其中的十分之四是口耳相传,没有包含书面内容。这些无文字的语言给现代机器学习翻译系统带来了一个独特的问题,因为它们通常需要在翻译到新语言之前将口头语言转换为书面文字,并将文字还原为语音,但Meta公司已经通过其最新的开源语言AI进展解决了这个问题。
作为Meta公司通用语音翻译器(UST)项目的一部分,该项目正致力于开发实时语音到语音的翻译,以便元宇宙居民能够更容易地进行互动(读作:互相进行性骚扰)。作为这个项目的一部分,Meta的研究人员研究了福建闽南话,这是一种散居在亚洲各地的无文字语言,也是台湾地区的主流语言之一。
机器学习翻译系统通常需要大量可标记的语言例子,包括书面和口语来进行训练--这正是像闽南话这样的无文字语言所不具备的。为了解决这个问题,"Meta使用语音到单元的翻译(S2UT),将输入的语音直接转换为Meta以前开创的声学单元序列,"首席执行官马克-扎克伯格在周三的一篇博文中解释说。"然后,我们从这些单元生成波形。此外,UnitY被采用为双通解码机制,第一通解码器生成相关语言(普通话)的文本,第二通解码器创建单元。"
"我们利用普通话作为中间语言来建立伪标签,我们首先将英语(或上面说的闽南话)语音翻译成普通话文本,然后我们再翻译成闽南话(或英语)并将其加入训练数据。"目前,该系统允许讲福建话的人与讲英语的人交谈,尽管很生硬,且该模型一次只能翻译一个完整的句子。但扎克伯格相信,这项技术最终可以应用于更多语言,并将改进到提供实时翻译的程度。
扎克伯格宣布,除了Meta已经从这个项目中开源的模型和训练数据外,该公司还将发布一个基于闽南话话语料库的首个语音翻译基准系统,以及"语音矩阵,一个用Meta的创新数据挖掘技术LASER挖掘的语音翻译大料库"。这个系统将使研究人员能够创建他们自己的语音到语音翻译(S2ST)系统。
关键词: 社交网络 Meta的AI翻译器可以解释无文字的
推荐
-
-
-
-
-
-
-
富满油田累计生产油气突破1000万吨大关 我国超深层油气迈入规模开发新阶段
10月9日,中国石油塔里木油田公司富满油田累计生产油气突破1000万吨大关,其中原油867万吨、天然气16亿...
来源:科技日报 -
-
-
直播更多》
-
浙江大学国际联合商学院研究员盘和林:坚持“脱虚向实”增强数字经济发展原动力
浙江大学国际联合商学院数字经济与金融...
-
浙江大学国际联合商学院研究员盘和林:坚持“脱虚向实”增强数字经济发展原动力
浙江大学国际联合商学院数字经济与金融...
-
整合信息技术优势 南通打造“智慧农业”助力乡村振兴
近日,在江苏省南通市都市农业公园,众...
-
重庆首个搭载5G基站的无人飞艇成功试飞 最大设计升空高度达300米
近日,重庆首个搭载5G基站的无人飞艇试...
-
世界上最大天文数码相机 在斯坦福直线加速器国家加速器实验室亮相
世界上最大的天文数码相机在美国能源部...
-
受捕蝇草对飞虫触碰刺激响应启发 科研人员让水凝胶做到“条件反射”
从中国科学院宁波材料技术与工程研究所...