神经机器翻译详解

用简单的语言了解神经机器翻译的工作原理。现代翻译应用背后的AI技术。

Linguin Team
A large group of colorful balls floating in the air
Photo by BoliviaInteligente on Unsplash

如果你在过去五年里使用过翻译应用,那么你一直在使用神经机器翻译。它为 Google Translate、DeepL、Apple Translate 和 Linguin 提供动力。大多数用户并不知道这项技术是什么,也不明白为什么它产生的输出比之前笨拙的翻译软件要好得多。

本文将从基础开始解释神经机器翻译——它是什么、如何工作、为何重要,以及它对你日常使用的翻译工具意味着什么。无需机器学习背景。

翻译系统必须解决的问题

人类语言不是一种代码,并非一种语言中的每个词都能对应到另一种语言中的相应词汇。词语的含义取决于上下文。不同语言的句子结构差异巨大。有些概念存在于一种语言中,在另一种语言中却没有对应表达。习语的含义与其组成词汇的字面意思完全不同。

早期的计算机翻译系统试图用明确的规则来处理这个问题。语言学家会编写成千上万的语法规则和词汇映射:如果这个法语名词出现在这个语法位置,就使用这个英语对应词,然后应用这个转换规则。这些系统非常脆弱。语言有太多的例外、太多的上下文依赖以及太多的习惯用法变化,任何有限的规则集都无法完全捕捉。

统计翻译系统通过从大量平行文本(即同时存在源语言和目标语言版本的文档,例如以24种语言发布的欧洲议会会议记录)中学习模式,改进了基于规则的方法。统计方法比规则更好,但它孤立地翻译短短语,而不理解较长句子中含义的变化。其输出通常在逐字层面技术上是正确的,但整体上却语无伦次。

神经机器翻译用一种根本不同的方法取代了上述两种方法:一个通过处理海量文本并形成关于意义如何在语言间映射的内部表征来学习翻译的神经网络。

神经机器翻译工作原理:输入、编码器、注意力机制、输出

核心理念:编码意义,然后解码

最初的神经机器翻译架构有两个按顺序工作的组件:

编码器 读取整个源语句——例如一个西班牙语句子——并将其转换为一个密集的数值表示。可以将其视为句子含义的压缩数学摘要。编码器不产生任何翻译输出;它只是构建关于输入含义的丰富内部表征。

解码器 接收该内部表征,并以目标语言逐个单词生成输出句子。它生成的每个单词都取决于编码后的源语含义以及它已经生成的单词。

相对于统计翻译的关键进步在于,编码器在翻译开始前将整个源语句作为一个单元进行处理。系统不是按单词或短语顺序进行翻译;它首先理解整个句子,然后用另一种语言表达这种理解。

注意力机制:回顾正确的词汇

编码器-解码器架构解决了整体理解的问题,但引入了一个新问题:将整个句子压缩成一个固定大小的数值向量会丢失信息。对于短句,这尚可管理。但对于长句——出现在法律文件、技术写作和文学散文中的那种——重要的细节就会丢失。

2015年研究中引入的注意力机制解决了这个问题。解码器在生成输出句子的每个单词时,可以回顾编码后源语句的不同部分,而不是依赖单一的压缩向量。当生成英语单词 “bank” 时,模型可以关注周围的西班牙语词汇是表示金融机构还是河岸。当生成代词时,它可以关注句子前面所指的名词。

注意力机制彻底改变了神经机器翻译在处理复杂长句方面的性能。输出在段落之间变得连贯,而不仅仅是在单个句子内部。

Transformer:现代翻译背后的架构

2017年,研究人员发表了 Transformer 架构——一种完全依赖注意力机制的模型设计,它并行处理整个序列,而不是逐个标记处理。这种设计使得能够以前所未有的效率在更庞大的数据上进行训练。

如今,每一个主要的翻译系统——包括为 Linguin 提供动力的模型——都基于 Transformer 架构,并通过更多的参数、更多的训练数据以及自原始论文发表以来多年发展的架构改进进行了扩展。

区分最佳现代翻译模型的不仅仅是规模,还有训练方法。在特定领域数据上微调的模型比通用模型能更好地翻译技术内容。通过人类反馈训练的模型在自然性和语体风格上校准得更好。能处理更长上下文窗口的模型在多段落文档中能更好地保持连贯性。

旧式基于规则与现代神经AI翻译对比

为什么神经翻译听起来更自然

从统计翻译到神经翻译的改进,在输出的自然度上最为显著。统计翻译产生的句子通常在单词层面技术上是正确的,但作为文章读起来不自然——那种读起来就像机器翻译的输出。

神经翻译产生的输出读起来像是人写的。原因如下:

上下文感知。 模型理解 “cold weather” 中的 “cold” 和 “cold treatment” 中的 “cold” 需要根据周围上下文进行不同的翻译。统计系统根据频率统计翻译 “cold”;神经系统则根据含义翻译它。

语法连贯性。 神经模型在整个句子中保持一致性。当一个主语在几个词之后需要特定的动词形式时,模型能正确处理,因为它将整个句子作为一个单元处理。

地道的输出。 模型是在自然的人类写作上训练的,因此产生自然的人类写作。它不是根据规则渲染每个短语然后将结果拼接起来,而是直接生成输出,并且该输出听起来像是写出来的,而不是组装出来的。

语体风格敏感性。 现代神经模型能区分正式、非正式、技术和随意的语体风格,并在翻译中匹配源文本的风格。正式的法律条款翻译成正式的目标语言文章;随意的社交媒体帖子翻译成随意的目标语言文章。

这如何应用于 Linguin

Linguin 使用针对用户实际翻译的内容类型(网页、新闻、文档、信函和研究)优化的大规模 Transformer 模型。模型流水线在翻译文档时包含来自周围句子的上下文,这就是为什么 Linguin 中的长篇翻译比逐句翻译的工具读起来更连贯。

技术持续更新。自神经方法成为主流以来,翻译模型的质量每年都在提高,并且改进的速度并未放缓。Linguin 今天使用的技术比两年前可用的技术有实质性的提升,而两年后运行的模型将再次实现实质性的提升。

对用户的实际意义在于,你今天从 AI 驱动的工具获得的翻译,在质量上与历史上“机器翻译”的含义有根本性的不同。那种机械、不可靠输出的污名来自上一代技术。神经机器翻译已经将标准提高到了这样的程度:对于广泛的日常内容,其输出是真正优秀的。

要详细了解现代 AI 翻译在不同语言和内容类型上的准确性,请参阅我们的 2026年AI翻译准确性指南。关于实际应用——包括如何使用这些工具进行语言学习——请参阅我们的 使用AI翻译器学习语言指南