开源软件:高智能翻译机器翻译“mt”领域的最终目标是构建通用的

网络新闻 3年前 (2022) admin
0

机器翻译“MT”领域的最终目标是构建通用的翻译系统,以帮助用户获取信息并更好地相互联系。

双语模型组的高度复杂性使其无法扩展到大型实际应用软件,因为每天有数十亿人使用数百种语言发布信息。

为了构建通用翻译器,Meta的研究人员认为MT领域应从双语模型转向多语言翻译”M60000转化”-多语言模式是一种可以同时翻译许多语言的模型,包括低资源语言对等。

由于多语言翻译更简单,易于扩展和低资源语言的特性,因此它们更容易受到研究者的青睐。

但是,当添加具有各种资源的语言时,随着更多语言的增加,模型将变得不堪重负,因为每种语言都拥有独特的语言属性,脚本和词汇。

WMT2020模型,研究人员构建了两个多语言系统:从任何语言到英语的“no-to-English”和从英语到任何语言的“ no-no”,方法采用并行数据挖掘技术。

由于任何语言的单词数据量远超过并行的数据,因此Meta使用可用的单语数据最大化MT系统的性能至关重要。

这种“单个模型适用于多种语言”的方法可以简化现实世界应用软件中翻译系统的开发,并且还可以实现用一个模型替换成千上万的模式,从而为世界上每个人带来新的应用和服务。

这些改进很大程度上得益于机器学习的进展以及可用的大规模Web挖掘数据集。同时,深度学习“D”和E2E模型的出现以及从Web挖掘到大规模并行单语言数据集,翻译和自训练等增强的数据方法以及大型多语言建模带来了高质量机器翻译系统。

构建这些长尾语言的机器翻译系统在很大程度上受到可用数字数据集和语言识别“LanglD”模型等缺乏可理解的引擎。

研究这些语言评估指标的局限性因素以及对机器翻译模型输出进行定性分析,并着重于此类模型的几种常见错误模式。

使用文档—致性过滤句子;利用文本文件的—致性来过滤句子。

因此,研究人员使用了这种实用方法,即利用所有可用于更高资源语言的并行数据来提高仅凭单词数据可用于长尾语言的质量。