觉察不到这项科技的发展（二）——即时翻译不再

商务合作联系微信：telegram: @tianmeiapp
站长邮箱：[email protected]

点击上方“CSDN”，选择“公众号”

关键时刻，第一时间发货！

CSDN小编友情提示：完成这篇文章至少需要一周的精力，请提前收藏~~~

图片来自网络

一般来说，我打开翻译的频率是两倍，对我来说即时翻译不再是“赛博朋克”情节，它已经成为我们现实生活的一部分。很难想象经过一个世纪的努力，机器翻译的算法可以实现，甚至有一半的时间我们都没有意识到这项技术的发展。

机器翻译是所有现代语言处理系统的基础，从搜索引擎到今天的语音控制微波炉。本文将详细介绍机器翻译的历史，以及在线翻译的演变和结构。

图片：P.P.机器翻译，根据描述文字绘制插图，可惜没有照片流传

简介

1933 年的故事。

前苏联科学家彼得向苏联科学院提交了一篇关于“双语翻译中选择和打印单词的机器”的论文。这项发明非常简单，包括四种语言的卡片、一台打字机和一台老式胶片相机。

操作员从文本中取出第一个单词，找到对应的卡片，拍照，在打字机上打出名词、复数、所有格等形态形式。这台打字机的按键构成了一个特征码。然后使用胶带和胶卷，逐帧创建单词和形态特征的组合。

尽管如此，按照前苏联的惯例，这项发明被认为是“无用的”。他为这项发明工作了 20 年，直到死于心绞痛。直到 1956 年两名前苏联科学家发现他的专利之前，世界上没有人知道这台机器。

然后冷战爆发了。

1954 年 1 月 7 日，在 IBM 纽约总部，-IBM 实验开始了。 IBM 的 701 计算机将 60 个俄语句子自动翻译成英语，这是历史上第一个机器翻译。

“一个不懂俄语的女孩在 IBM 卡上输入了一条俄语信息。‘计算机’以每秒 2.5 行的惊人速度在自动打印机上快速翻译英语。” - IBM 报告。

IBM 701

但是，这个自鸣得意的标题隐藏了一个小细节。它没有提到翻译中使用的示例已经过仔细选择和测试，以排除任何歧义。该系统实际上只不过是一本常用短语手册。然而，包括加拿大、德国、法国，尤其是日本在内的各国都在这方面展开竞争，都加入了机器翻译的竞争。

机器翻译比赛

改进机器翻译的徒劳努力持续了 40 年。

1966 年，美国自动处理咨询委员会（：ALPAC）在一份著名报告中宣称，机器翻译成本高昂、不准确且无望。他们建议应该更加重视词典的开发，这导致美国开发者退出机器翻译竞争近十年。

即便如此，科学家们还是通过不断的实验、研究和开发奠定了现代自然语言处理的基础。今天所有的搜索引擎、垃圾邮件过滤器和个人助理都归功于那些年国家之间的竞争。

一、基于规则的机器翻译

（规则-：RBMT）

基于规则的机器翻译的思想最早出现在 1970 年代。根据对翻译工作的观察，科学家们试图驱动巨大而笨重的计算机来重复翻译行为。这些系统的组件包括：

就是这样。如有必要，系统还可以补充各种技术规则，如姓名、拼写纠正、单词的音译等。

并且是 RBMT 系统最著名的例子。看一眼就能感受到那个黄金时代的气息。

但它们也有一些细微差别和变化。

直译法

这种机器翻译是最直接的。它将文本分成单词，翻译它，进行细微的形态调整，并打磨语法，使整个句子听起来像真实的东西。多少日日夜夜，训练有素的语言学家为每个单词写下规则。

输出是翻译后的句子。通常，翻译后的句子听起来有点蹩脚。看来语言学家在白白浪费时间。

现代语言系统不再使用这种方法，语言学家可以松一口气了。

翻译方法

这种翻译方法与直接翻译有很大不同，首先我们决定句子的语法结构，就像我们在学校学的一样。然后我们调整句子的整体结构，而不是单词。这一步可以帮助我们得到一个非常合理的词序。至少在理论上。

然而，在实践中，此类系统仍然依赖于逐字翻译和刻板的语言学家。一方面，它引入了简化的通用语法规则。但另一方面，与单个单词相比，词汇结构的数量大幅增加，导致翻译更加复杂。

中间语言法

此方法将源文本转换为全世界统一的中间语言 ( ) 表示。这正是笛卡尔梦寐以求的中间语言：一种遵循普遍规则的元语言，可以将翻译翻译成简单的“来回”任务。接下来，中间语言可以转换成任何目标语言是不是很神奇？

由于两者都涉及转换，因此中间语言方法经常与转换翻译方法的系统混淆。中间语言方法的不同之处在于语言规则特定于每种语言和中间语言，而与相互翻译和相互翻译的语言对无关。这意味着我们可以在中间语言系统中添加第三种语言并在所有三种语言之间进行翻译。但是转换翻译方法不能做到这一点。

这个理论听起来很完美，但事实并非如此。创造这样一种中间语言极其困难，许多科学家终其一生都在为此苦苦挣扎。尽管没有成功，但他们的辛勤工作为我们带来了今天的形态、语法和语义层面的表征。光是意义的文本理论就会花费一大笔钱！

中级语言法迟早会卷土重来，让我们拭目以待。

正如你所见，所有的 RBMT 都是愚蠢而可怕的，所以我们只在特殊场合使用它们，比如天气预报翻译等。RBMT 经常被引用的优点包括其精确的形态（单词没有歧义）、可重复的结果（所有翻译人员都可以获得相同的结果）英语语音识别在线翻译，以及可以针对特定主题调整的功能（例如教授经济学家编程术语）。

即使有人成功地创造了理想的 RBMT，并且语言学家使用所有拼写规则强制执行它，我们也总会有一些例外：英语中的不规则动词、德语中的可分离前缀和俄语后缀，并且在使用时略有不同人们表达它。解决所有这些细微差别需要付出巨大的人力。

也有同音字。同一个词在不同的语境中有不同的含义，这也影响了翻译的变化。看看下面这句话，可以理解为几个意思：我看到一个人在山上，有？见一个人；也可以翻译为：我通过望远镜看到一个人站在山上；另外saw还可以翻译为“锯”（动词）等。

语言不是按照一套固定的规则发展的，尽管语言学家喜欢规则。在过去的 300 年里，语言在很大程度上受到了入侵历史的影响。你如何向机器解释它？

40 年的冷战未能帮助我们找到最终的解决方案。

RBMT 已死。

二、基于实例的机器翻译

(-:EBMT)

日本对机器翻译特别感兴趣。日本虽然没有冷战，但当时懂英语的日本人寥寥无几。这对即将到来的全球化来说是一个大问题，所以日本人非常有动力去寻找机器翻译的方法。

从英语到日语的基于规则的翻译非常复杂。日语的语法结构完全不同，所有单词都必须重新排列并附加新单词。 1984年，京都大学的长尾诚提出了“使用准备好的短语代替重复翻译”的想法。

想象一下，如果你想翻译一个简单的句子：“我要去。”如果你已经翻译过另一个类似的句子：“I'm going to the”，你可以在字典中找到“”这个词。

那么你所要做的就是找到两个句子之间的差异，然后在不破坏句子结构的情况下翻译差异词。例子越多，翻译的越好。

我可以用同样的方法用我完全不懂的另一种语言写句子。

EBMT 的方法为全世界的科学家带来了一丝曙光：事实证明，机器翻译可以通过为机器提供现有翻译来实现，而无需花费数年时间建立规则和例外。这种方法虽然不是根本性的改变，但显然是向前迈出的一大步。仅仅5年后，革命性的发明——统计机器翻译出现了。

三、统计机器翻译系统

(:SMT)

在 1990 年代初期，IBM 研究院首次引入了机器翻译系统。它不是了解整体规则和语言学，而是分析两种语言的相似文本并尝试理解模式。

这个想法简单而精彩。同一个句子被分成两种语言的单词，然后相互匹配。重复这个操作大约5亿次，统计每个单词的匹配结果，比如统计单词“Das Haus”翻译成“house”、“”、“”的次数。

如果它大部分时间被翻译成“房子”，机器会采用那个翻译。请注意，我们没有制定任何规则，也没有使用任何字典，所有结论都是基于统计和“如果每个人都这样翻译，那么我也这样翻译”的逻辑。于是统计机器翻译诞生了。

这种方法比以前的方法更有效、更准确，并且不需要语言学家。使用的文本越多，翻译效果就越好。

图：统计翻译的内幕，会计算概率和逆向统计

但这种方法存在一个问题：机器如何或何时将“Das Haus”一词与“”相关联？我们怎么知道这是正确的翻译？

答案是我们不知道。最初，机器假设“Das Haus”这个词与翻译句子中的每个其他词具有相同的相关性。接下来，当“”出现在另一个句子中时，与“房子”这个词的关联将是+1。这是大学机器学习中的经典任务：“词对齐算法”。

机器需要数百万个两种语言的句子，才能收集每个词的相关性的统计数据。那么我们怎样才能得到这些数据呢？我们参加了欧洲议会和联合国安理会会议（他们提供所有成员国的语言翻译，您可以在这里下载：,）。

基于单词的 SMT

最初，第一个统计翻译系统将句子分割成单词，因为这种方法最直观和合乎逻辑。 IBM 的第一个统计翻译模型称为 Model 1。听起来很优雅，不是吗？猜猜他们会给第二个系统起什么名字？

: "词袋"

模型 1 使用了最经典的方法：将句子拆分为单词并进行计数。不考虑单词的顺序。最棘手的部分是有时可以将多个单词（或单词）翻译成一个单词（或单词）。例如，“吃”可以翻译成“吃”，但不代表反过来（“吃”只能翻译成“吃”）。

点击这里查看几个简单的实现示例：

：考虑句子中单词的顺序

模型 1 的问题是缺乏对词序的理解，在某些情况下这是一个非常重要的问题。

模型 2 解决了这个问题：它记住单词通常在输出句子中的位置，并在中间步骤中重新排列它们以使句子听起来更自然。情况有所好转，但最后的翻译还是有点蹩脚。

：附加处理

有些词在翻译中出现的频率很高，例如德语中的冠词或英语中否定句中的“do”。 “我愿意”→“我愿意。”为了处理这种情况，需要在 Model 3 中添加两个额外的步骤。

：单词对齐

模型 2 也考虑词对齐，但不理解重新排序。例如，形容词经常需要与名词交换位置，无论它记住顺序多么好，它都不会提高输出。因此，模型 4 引入了所谓的“相对顺序”，模型可以了解两个词是否经常交换位置。

：错误修正

Model 5 在功能上没有创新，只是增加了更多的学习参数，修复了词位冲突的问题。

虽然基于单词的系统已经彻底改变了机器翻译，但它们仍然无法处理大小写、性别和同音字。机器以一种看似正确的方式翻译每个单词。我们不再看到这样的系统，它们已被更高级的基于短语的方法所取代。

基于短语的 SMT

此方法继承了基于词的翻译的所有原则：统计、重新排序和词法修改。但是，此方法将文本分解为短语，而不是单词。此方法源自 n-gram，即在文本中连续出现的 n 个单词。

因此，机器学习可以翻译多个单词出现的稳定组合，从而大大提高翻译准确性。

这种方法的难点在于，并不是所有的短语都有这么简单的语法结构，如果有人懂语言学和句子结构的人干扰了它，翻译的质量就会急剧下降。计算机语言学大师开玩笑说：“每次我解雇一个语言学家，语音翻译的性能就会提高。”

除了提高准确性之外，这种基于短语的翻译还提供了更多从双语文本中学习的方法和方法。对于基于单词的翻译，元文本的精确匹配至关重要，因此任何文学或自由翻译都被排除在外。基于短语的翻译没有这样的问题。为了改进翻译，研究人员甚至尝试解析不同语言的新闻网站。

这个方法从2006年开始就被大家使用了。截至2016年，翻译，（俄罗斯互联网公司，其搜索引擎在俄罗斯市场占有率超过60%），必应（微软推出的网络搜索引擎） , 和其他已经出现在市场上。基于短语的高端在线翻译。有些人可能还记得，有一段时间，译文的译文有时会显示完美的句子翻译，有时译文没有意义。完全没有意义的翻译来自基于短语的翻译。

旧的基于规则的方法可以始终如一地提供可预测但可怕的结果。统计方法令人惊讶和神秘。译者毫不犹豫地将“三”翻译成“300”。这称为统计偏差。

基于短语的翻译已经非常流行，所以现在人们说“统计机器翻译”实际上是指基于短语的翻译。直到 2016 年，所有研究都称赞基于短语的翻译是最先进的。但没有人认为导火索已经点燃，准备改变我们对机器翻译的整体理解。

基于语法的 SMT

这个方法需要简单介绍一下。在神经网络出现之前的许多年里，基于语法的翻译被视为“机器翻译的未来”，但这个想法从未实现。

基于语法的翻译的支持者认为，可以尝试将其与基于规则的方法合并。有必要对句子进行非常精确的语法分析——确定主语、谓语等部分，然后创建句子树结构。通过这种树形结构，机器可以学习翻译语言之间的语法单元，并通过 but 和 or 短语翻译其余的。这样就彻底解决了单词对齐的问题。

图：取自 Mr. 的论文和幻灯片的示例

但问题是解析非常糟糕，尽管我们认为它在很久以前就已修复（因为我们有很多现成的语言库）。每次我尝试使用语法树来解决比解析主语和谓词更复杂的问题时，我都失败了。

四、神经网络机器翻译

(:NMT)

2014 年看到一篇关于使用神经网络进行机器翻译的非常有趣的 () 论文。网络圈根本没有注意到论文的发表，除了。于是，他们一个接一个地开始挖掘。两年后的 2016 年 11 月，发布了颠覆性公告。

这种翻译方法近似于图像的风格转移。还记得等待应用程序吗？他们可以将图片转换成著名艺术家的风格。这不是魔术。训练有素的神经网络可以识别艺术家的作品。然后，神经网络中的最后一个决策层被移除。由此输出的处理后的图片只是神经网络得到的中间图片。这就是这个网络的力量，这样处理的图片很漂亮。

现在我们可以对图像进行风格化处理，如果我们尝试用另一种语言处理原始文本会怎样？原文相当于“艺术家的风格”，我们需要对其进行改造，同时保持图片的本质，也就是文字的本质。

例如，我是这样描述我的狗的——中等个头，尖鼻子，短尾巴，经常吠叫。如果我给你一些狗的特征并足够准确地描述它们，即使你从未见过我的狗，你也可以画出来。

现在，假设原始文本是一组特定的特征。基本上，您可以对其进行编码，并让其他神经网络将其解码回文本，但使用不同的语言。解码器只知道自己的语言，不知道原始特征，但是可以用其他语言表达，比如西班牙语。还是用画狗的比喻，不管你怎么画狗，用蜡笔、水彩，还是用手指，你可以随心所欲地画。

再次重申：一个神经网络只负责将句子编码为一组特定的特征，而另一个神经网络将这些特征解码回文本。两个神经网络之间没有交流，它们只知道各自的语言。熟悉的？中级语言又回来了。鼓掌！

问题是，我们如何才能找到这些特征？狗的特征很明显，但是文字怎么办？ 30 年前，科学家们试图创造国际语，但都失败了。

但是，现在我们有了深度学习。而这正是它所擅长的。深度学习和传统神经网络的主要区别在于，深度学习可以在不知道它们属性的情况下搜索那些特定的特征。如果神经网络足够大，并且配备了几千张显卡，它可以在文本中找到这些特征。

理论上，我们可以将神经网络中的特征发送给语言学家，让他们为自己开辟勇敢的新视野。

问题是，什么类型的神经网络可以用于编码和解码？卷积神经网络 (CNN) 非常适合图像处理，因为它们使用单独的像素块。

但是文本中没有单独的块，每个单词都依赖于上下文。文本、语音和音乐也是如此。因此，循环神经网络 (RNN) 是最佳选择，因为该网络可以记住以前的结果英语语音识别在线翻译，在文本的情况下是以前的单词。

RNNs 目前在各个地方都被广泛使用，例如 Siri 的语音识别（它可以解析声音的序列，下一个取决于上一个）、键盘提示（记住上一个输入，猜测下一个）、音乐生成，甚至聊天机器人。

像我这样的人，请看这个：实际上，神经网络翻译的架构千差万别。

一开始大家用的是正则RNN，后来升级为双向RNN，不仅考虑前一个词，还考虑下一个词。这样可以大大提高效率。接下来是带有 LSTM 单元的核心多层 RNN，用于长期存储翻译后的上下文。

在过去的两年里，神经网络翻译已经超越了过去 20 年的所有翻译方法。神经网络将词序错误减少了 50%，词汇错误减少了 17%，语法错误减少了 19%。神经网络甚至学会了调整不同语言的性别和大小写。没有人教他们这样做。

神经网络翻译在直接翻译方法从未触及的领域带来了巨大的进步。统计机器翻译通常使用英语作为主要语言。因此，在将俄文翻译成德文时，机器需要先将文本翻译成英文，再将英文翻译成德文，在此期间会造成双重损失。

神经网络翻译不需要经过英文，只需要一个解码器。因此，第一次可以在没有字典的情况下进行语言之间的翻译。

翻译（2016 年开始）

2016年，我们通过神经网络翻译提供了9种语言之间的互译。他们开发的系统称为神经网络翻译系统（：GNMT）。 RNN层包含8个编码器和解码器，连接到解码器网络。

它们不仅划分句子，还划分单词。通过这种方式，他们解决了 NMT 的主要问题之一：生词。当在字典中找不到诸如“Vas3k”之类的单词时，NMT 无法处理。我非常怀疑有人教神经网络翻译我的昵称。在这种情况下，GMNT 会将要翻译的文本拆分为单词，然后进行翻译。很聪明，不是吗？

提示：在浏览器中进行网站翻译时，翻译仍然使用旧的基于短语的算法。不知怎么的，没有升级，和在线翻译相比差别还是蛮明显的。

的在线翻译采用众包机制。用户可以选择他们认为最正确的版本，如果有很多用户喜欢翻译，则跟随该短语的翻译并给予特殊标志。这种方法非常适合日常用语，例如“Let's go to the”或“I'm.”，而且英语说得比我好。

的 Bing 的工作方式与翻译相同。但不一样。

翻译（2017 年开始）

2017年发布了自己的神经网络翻译系统。据其介绍，主要功能是混合。在句子翻译中结合神经网络和统计，然后它最喜欢的算法选择最好的翻译。

原因是神经网络在翻译短语时经常失败，因为它们需要根据上下文选择正确的单词。再举一个例子，如果一个词在训练数据中出现的次数很少，那么翻译起来就会很困难。在这些情况下，简单的统计翻译方法可以快速轻松地找到正确的单词。

没有分享任何技术细节。但它通过营销新闻稿吸引了我们：

翻译单词和短语时似乎使用了 SMT。他们在任何文章中都没有提到这一点，但仔细观察短语和长句的翻译就会发现。此外，在显示词频统计时使用 SMT。

总结和未来

大家对“巴别鱼”（雅虎公司提供的免费在线翻译软件，包括即时语音翻译）这个想法非常感兴趣。 Pixel Buds 向前迈出了一大步，但事实是，对于我们梦寐以求的翻译来说，它仍然不够好。即时语音翻译不同于普通翻译。您需要知道何时开始翻译以及安静地听什么。我还没有看到这个问题的适当解决方案。除非，也许 Skype 可以...

机器翻译也有一个空白区域：所有的机器学习都被限制在一组并排的文本块中，即源语言和目标语言之间，每个句子都需要对应。最深的神经网络仍然在并排文本中学习。没有资源，我们就无法训练神经网络。相反，人们可以通过阅读数据或文章来补充他们的词汇量，即使不需要将这些词翻译成他们的母语。

理论上，如果人们能做到，那么神经网络也能做到。我发现了一个()，它试图鼓励已经掌握一种语言的神经网络阅读另一种语言的文本，从而获得相关经验。我会自己尝试，但我不够聪明。好的，我们开始吧。

这个故事最初是用俄语写的，然后在 .他是我的笔友，他的文章应该广为流传。

参考链接：

原文：

商务合作联系微信：telegram: @tianmeiapp
站长邮箱：[email protected]

原文链接：觉察不到这项科技的发展（二）——即时翻译不再，转载请注明来源！

发表回复 取消回复

发表回复取消回复