MIT开发新型无监督语言翻译模型有望翻译世界上的7000种语言

2018-11-02 17:41:50来源：腾讯

在这个处处连接的互联网世界里，人与人之间的沟通和交流变得无比的方便快捷。但现在的问题是，语言的差异仍然像是一道深不可测的鸿沟摆在拥有不同文化背景的人们面前。

近年来，人工智能学者们一直持续改进机器翻译算法——从多年前的规则翻译模型，到统计翻译模型，再到目前最为火热的神经翻译模型，力求早日打破这种语言鸿沟。目前，人类使用近 7000 种不同的语言，而根据一支麻省理工团队近日发布的最新成果，他们开发的新机器翻译模型，甚至可以翻译世界上绝大多数语言，甚至包括那些使用人数很少的语言。

目前，来自谷歌、Facebook、微软和亚马逊等公司的机器翻译系统，是监督式的机器翻译，需要大量的对齐语料(指训练数据中两种语言的段落、句子甚至单词能够一一对应的语料)来训练模型，从成百上千万的文档中寻找匹配模式，例如已经被人类翻译成各种语言的法律和政治文档或新闻文章。当给定一种语言的单词时，机器就可以从这些文档里找到另一种语言中对应匹配的单词或短语。

对一些常用语言来说，互联网的语料较为丰富，因此谷歌、微软等公司的机器翻译模型在某些常用语言之间的翻译表现已经超越了人类。而对相对小众的小语种来说，对齐语料很少，数据的积累十分耗时且难以收集。

为了克服对齐语料稀缺的困难，最近几年出现了一些无监督机器翻译相关的研究，比如仅利用单语语料(即拥有分别拥有两种语言的大量语料，但没有互相之间的对齐和翻译数据)，在训练中引入对偶学习(Dual Learning)、联合训练(Joint Training)、对齐嵌入空间等训练技巧，取得了不错的效果，有些论文的结果甚至可以与对齐语料训练出来的模型结果相近。但这些无监督机器翻译的一大缺点就是训练速度过于缓慢。比如对偶学习，如图 1，特殊的对偶结构，使得两个任务可以互相提供反馈信息，而这些反馈信息可以帮助更好地训练深度学习模型。本模型某一步可能翻译出错，反馈给另一模型之后，另一模型可以用自身的语言模型纠正(修改成符合自身语法的语句)，然后经再次翻译之后反馈给本模型。这种学习模式需要大量反复的调整和学习，由此带来训练时间的大幅增加。

图丨对偶学习的示意图

麻省理工学院的研究人员开发的这种新颖的“无监督”语言翻译模型，既不像监督式机器翻译任务一样需要对齐语料，同时又克服了无监督机器翻译任务耗时低效的缺点，实现更快捷、更有效的语言翻译，从而使更多的语言翻译可以通过计算机来完成。

本文发表在自然语言处理四大顶级会议之一的 EMNLP 会议上，两位作者 Tommi Jaakkola 和 David Alvarez-Melis 都是来自麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员。

论文链接：

论文摘要：从机器翻译领域到迁移学习领域，跨语言和跨域一致都非常重要。最近，单语词嵌入已经成为有效的翻译对齐工具。然而，目前的最优方法包含多个步骤，包括启发式训练后微调的方法。本文中，以度量恢复算法计算词嵌入为思想，将所谓的一致性问题转化为最优传输(optimal transport)问题。文中使用了 Wasserstein 距离来度量词语之间的相似度是如何在不同语言中产生联系的。进而，阐述本文所说的最优运输问题可以被高效率地估算，几乎不需要微调，就可以达到目前无监督翻译任务里最优的水平

灵感源于统计学中的 Wasserstein 距离

近年，研究人员一直在尝试研究无监督式的“单语”模型，不需要使用两种语言之间的翻译数据就可以实现语言的直接翻译。

该模型利用了一个测度论里的概念——Gromov-Wasserstein 距离(以下简称 Wasserstein 距离)。这一概念首次提出时用来进行图形匹配。Wasserstein 距离一般用于描述两个分布之间的距离，通俗来说，如图二所示的例子中，每个长方形表示土块，想把 P 图中的土移成 Q 图中土的形状，有很多种方案。每一种方案可以对应于两个分布的一种联合概率分布，推土代价被定义为移动土的量乘以土移动的距离，在所有的方案中，存在一种推土代价最小的方案，这个代价就称为两个分布的 Wasserstein 距离，也被成为推土机距离(Earth-Mover Distance)，这个推土机问题也成为最优运输(Optimal Transport)问题。

图丨推土案例

词嵌入(word embedding) 是一种词的类型表示，将每种语言的所有词汇映射到实数向量空间中去，经过训练之后，词义相近的词在向量空间中的位置也比较接近。可以把单词向量在向量空间中的分布看做一种联合概率分布，不同的语言表示不同的分布空间，而从一种语言到另一种语言的翻译可以看做是求分布之间的距离。这一概念与前文提到的求 Wasserstein 距离概念类似。研究人员将这种技术应用在两种语言表示单词对应向量(一列数字)的词嵌入里，如此一来，模型就会在两个语言的词嵌入中通过寻找相对距离最接近的单词，快速对齐单词或向量，也就意味着直接的翻译。

在实验中，这个模型与目前最优的单语模型准确率接近，甚至更好、速度更快，更重要的是新模型仅使用一小部分计算能力。下图是论文中给出的几个模型与本文模型的比较数据。可以看出，本文在多个语言翻译任务上取得了与之前最佳模型相近甚至超过之前最佳模型的结果。而在耗时上，论文提到，由于本文使用的是 CPU 训练的，模型在 CPU 架构运行速度与 GPU 架构的运行速度往往有数倍甚至数十倍的差距，考虑到这一点，本文的训练速度要远远快于其他无监督学习模型。

图丨本文的模型与之前几个最佳模型在 5 个不同翻译任务上的训练结果的对比。注：之前的工作是基于 GPU 训练的耗时统计，而本文的工作是基于 CPU 训练的耗时统计。

该论文的共同作者、CSAIL 研究员 Tommi Jaakkola，及电气工程和计算机科学系和数据、系统和社会研究所的教授 Thomas Siebel 表示，“该模型将两种语言中的单词视为一组向量，并在保留相对关系的基础上将一种语言的向量映射到另一语言里。这种方法可以帮助翻译语料缺乏的语言或方言，只要它们有足够的单语内容。”

论文第一作者、CSAIL 博士生 David Alvarez-Melis 也表示，该模型代表了机器翻译的主要目标之一，即完全无监督的单词对齐。“如果你没有任何两种语言的对齐语料(一一对应的翻译数据)，你可以通过映射两种语言的向量，并利用这些向量之间的距离，对齐它们。”

更重要的是相对关系

对于无监督的机器翻译来说，对齐词嵌入并不是一个新概念。

有一些研究在训练神经网络模型中，直接在两种语言的词嵌入或矩阵中匹配向量，但是这些方法在训练期间需要进行大量微调以使对齐完全正确，非常低效和耗时。

而基于关系距离测量和匹配向量是一种更加有效的方法，不需要太多的微调。无论单词向量落在给定矩阵中的哪个位置，单词之间的关系(即它们的距离)都将保持不变。例如，“父亲”的词向量可能落在两个语言矩阵的完全不同的区域中。但“父亲”和“母亲”的向量的距离很可能一直比较接近。

“这些距离是不变的，”Alvarez-Melis 说，“通过查看相对距离，而不是向量的绝对位置，那么你可以跳过对齐并直接匹配向量之间的对应关系。”

这就是 Wasserstein 距离派上用场的地方。该技术已被用于计算机科学领域，比如帮助在图形设计中对齐图像像素。Wasserstein 距离可以利用不同度量测度空间的相对不变量，通过比较不变量来进行匹配。这个指标看起来似乎是“量身定做”给单词对齐任务的。Alvarez-Melis 说：“如果在一个空间中有一些点或词聚集，那么 Wasserstein 会自动尝试找到另一个空间中相应的点集群。”

对于模型训练和模型测试，研究人员使用了一个公开的单词嵌入数据集，称为 FASTTEXT，具有 110 种语言对。在这些词嵌入中，上下文中频繁共现的单词的向量在空间中会很接近。“母亲”和“父亲”这两个词通常会在一起，但两者距离“房子”这个词都会更远。

提供一种“软翻译”概念

该模型可以注意到彼此关系很接近，但又与其他词明显区别的词向量，并可以指定在另一个词嵌入中类似距离的向量对应的概率。这有点像“软翻译”。

Alvarez-Melis 说：“因为它不是仅仅返回一个单词的翻译，而是告诉你这个向量或单词与其他语言中某个区域里对应位置的一些单词之间，有很强的联系。”

比如一年中的月份词汇，在很多语言中这些表示月份的词会聚集在一起。该模型将看到一组 12 个向量，这些向量在一个词嵌入中聚集，在另一个嵌入中也会有非常相似的聚集关系。

Alvarez-Melis 说：“该模型不知道词表示哪个月份，它只知道有一组 12 个点与另一种语言中的 12 个点对齐，而且它们与其他单词明显不同，所以它们可以很好地结合在一起。通过找到每个单词之间的这些对应关系，就可以同时对齐整个空间。”

Jaakkola 表示，研究人员希望这项工作可以作为一种“可行性检查”来将 Wasserstein 方法应用于机器翻译系统，以便更快、更高效地翻译，并能推广到更多语言的翻译中去。

另外，该模型一个可能的好处是它自动产生一个值，可以解释为在数学尺度上量化语言之间的相似性。研究人员表示，这可能对语言学研究有用。

该模型计算两个语言词嵌入中所有向量彼此之间的距离，这种距离取决于句子结构和其他因素。如果向量距离接近，它们的分数将接近 0，而距离越远，分数越高。例如，法语和意大利语等类似的浪漫语言得分接近 1，而古汉语与其他主要语言得分在 6 到 9 之间。

Alvarez-Melis 说：“这给大家提供了一个简单的数字，很好地表达语言之间的相似度，并且可以用来描述语言之间的相对关系。”

本文 Wasserstein 距离的引入可以为无监督机器翻译领域提供一种新的思路，作者利用 Wasserstein 测度理论，从数学角度论证了词嵌入对齐问题和最优运输问题的一致性和区别。而且利用 Wasserstein 距离对齐词嵌入可以大大加快无监督机器翻译的训练速度，对机器翻译领域也是一个很好的启发。

近年来各大公司均在机器翻译有所发力。谷歌利用其海量的语料数据和巨大的 AI 算力，在 16 年彻底抛弃统计机器翻译转为神经机器翻译之后，翻译质量显著提高。

(来源：麻省理工科技评论)

谷歌在近几年提出应用在机器翻译的 Attention 机制以及 Transformer 模型也都逐渐应用在自身的机器翻译系统里。在无监督机器翻译领域，谷歌提出利用中间语言做翻译桥梁，可以达到多语言翻译同时训练的目的。

微软除利用对齐语料训练的监督式机器翻译模型之外，其研究院也提出了一些无监督机器翻译方法，如前文提到的对偶学习、联合训练，以及推敲网络(Deliberation Networks)和一致性规范(AgreementRegularization)。微软将这几种技术运用在其机器翻译系统中后，在中英翻译测试集上，甚至达到了与人类翻译匹配的水准。

Facebook 也在今年提出了一种全新的无监督机器翻译方法，使用了旋转对齐词嵌入、迭代回译和去噪等方法，在英法等翻译任务上取得了最佳的结果。

虽然各大公司都生成自己的翻译模型超过了人工翻译，但在实际运作过程中效果很难让人信服。

大多数所谓的超越人类，只是在特定数据集的特定指标上超过人类得分而已，目前的机器翻译距离人类水平还有不少差距，只靠海量语料数据和计算力的堆叠也很难说是机器翻译发展的正确方向。

近年来也有一些关于词嵌入的研究，比如 CoNLL(自然语言处理顶会之一)2018 的最佳论文说，“词嵌入能获得的信息远比我们想象中的要多得多”，本文在词嵌入中引入 Wasserstein 距离，这种对词嵌入的探索也会带来一些启发式思考。

关键词：

MIT开发新型无监督语言翻译模型 有望翻译世界上的7000种语言

推荐内容

MIT开发新型无监督语言翻译模型有望翻译世界上的7000种语言