实时翻译:2026年的工作原理

探索实时翻译技术如何运作。从应用到耳机,详解即时翻译工具。

Linguin Team
A blue and orange globe with a pink background
Photo by Gabriel Vasiliu on Unsplash

实时翻译——将外语内容在其出现的那一刻就转换为你自己的语言——已从科幻小说变为日常基础设施。网页加载时的自动翻译、多语言视频通话的实时字幕,或在异国他乡能低语翻译对话的耳机,所有这些都依赖于一项认真发展不到十年的技术。

了解实时翻译的工作原理,能帮助你更好地使用它,为不同场景选择合适的工具,并对该技术目前能做和还不能做的事情设定合理的期望。

翻译中的“实时”意味着什么

在翻译领域,“实时”并非单一概念——它描述了几个具有不同技术要求的不同场景:

低延迟文本翻译 是大多数用户最常见的场景。网页加载,点击发生,在一到两秒内,页面就以你的语言呈现。选中的段落被高亮显示,半秒内就会出现翻译弹窗。延迟足够短,感觉像是瞬间完成,但完整的源文本在翻译开始前就已就绪。

流式文本翻译 处理文本持续到达的情况——实时活动中的聊天消息、流媒体平台上出现的评论、直播的字幕。翻译从部分输入开始,并随着更多文本到达而进行修正。

同步语音翻译 是最困难的类别:实时翻译口语对话,要么以覆盖在视频上的文本形式,要么以合成语音形式。这包括视频会议平台中的同声传译功能,以及像谷歌口译模式这类应用中的语音到语音翻译。

每种场景都有不同的延迟要求,并在速度和准确性之间做出不同的权衡。

速度与准确性的权衡:实现实时翻译的4种技术

延迟与准确性的权衡

实时翻译中根本的工程矛盾在于质量与速度。高质量的神经翻译模型计算成本高昂。在服务器上对长文档运行最先进的翻译模型需要几秒钟——对于实时使用来说太慢了。要将翻译延迟降至几百毫秒,同时保持质量,需要一套在五年前看来不切实际的技术。

模型蒸馏 通过训练较小的模型来模仿更大、更准确的教师模型的行为,从而产生更小、更快的模型。一个蒸馏后的模型可能比原模型小十倍、快十倍,同时保留原模型90%的质量——对于实时应用来说,这是一个极佳的权衡。

量化 将模型参数的数值精度从32位或16位浮点数降低到8位整数。质量损失微乎其微,速度提升显著,模型大小也大幅缩小——使得设备端推理更加实用。

并行批处理 将页面或文档分割成多个块,这些块可以在多个处理线程上同时翻译。系统不是顺序翻译段落,而是并行发送多个翻译请求,并在结果返回时进行组装。

渐进式渲染 在完整翻译完成之前就开始显示翻译后的内容。用户看到翻译内容从页面顶部开始出现,而下方部分仍在处理中,这使得主观体验感觉比实际翻译延迟更快。

实时翻译流程:提取、批处理、翻译、注入——在2秒内完成

实时网页翻译如何工作

当你在 Linguin Chrome 扩展程序 中点击页面上的“翻译”时,几个进程会快速连续发生:

该扩展程序识别并提取页面上的所有文本节点,保留它们在文档结构中的位置。它剥离HTML标记、脚本和非文本元素,然后将提取的文本以并行批次的形式发送到翻译服务,批次大小旨在最大化吞吐量。

随着翻译后的批次返回,扩展程序将每个翻译后的片段映射回其原始位置,并更新页面DOM——在原地用目标文本替换源文本,位置与原始文本出现的坐标完全相同。图像、布局、空白和所有非文本元素保持不变。

对于动态渲染的内容——即初始加载后由JavaScript添加到页面的元素——一个突变观察器会监视新的DOM节点,并在它们出现时将其加入翻译队列。这可以处理评论区、无限滚动内容和JavaScript密集的Web应用程序,否则这些内容可能只会部分翻译。

结果是,大多数页面在一到两秒内完成翻译,内容逐步出现,而不是一次性全部出现。

实时语音翻译如何工作

语音翻译涉及三个顺序系统,每个系统都会引入延迟:

自动语音识别 将音频转换为文本。现代ASR系统能很好地处理背景噪音、口音和自然语音模式,但它们需要零点几秒的音频缓冲区才能产生可靠的输出。转录越快,包含的错误就越多。

机器翻译 翻译转录后的文本。这一步受益于与文本翻译相同的延迟优化,但语音翻译增加了转录可能不完整的复杂性——句子可能尚未说完。

文本转语音 将翻译后的文本转换回音频以进行语音输出,增加了最终的延迟增量。

在当前实现中,实时语音翻译的整个流程通常会造成一到三秒的延迟。这在随意对话中是可以察觉的——你总是在回应几秒钟前说的话——但对于实际目的而言,它是可用的。随着硬件加速和设备端模型的应用,延迟下限正在下降。至少在部分语言中实现亚秒级语音翻译,是一个近期的工程里程碑,而非遥远的目标。

耳机和可穿戴设备中的实时翻译

实时翻译技术最引人注目的应用之一是AI驱动的翻译耳机——这种设备能聆听一种语言的语音,并以近乎实时的方式在你的耳中播放翻译后的音频。

目前有几家公司提供翻译耳机。质量差异很大。最佳的实现能很好地处理常见语言对中缓慢、清晰的语音。快速、重叠的语音、浓重的口音以及不太常见的语言仍然会造成问题。根本的限制与软件语音翻译相同:ASR的准确性在不利的音频条件下会下降,而翻译质量则取决于转录质量。

对于在安静环境中与愿意且耐心的说话者进行的一对一对话,翻译耳机的效果非常好。对于拥挤、嘈杂的环境、快速讲话或技术讨论,它们仍然不够完美。

推动实时翻译需求的应用场景

国际商务沟通。 成员说不同语言的分布式团队越来越依赖实时翻译进行异步沟通。翻译后的聊天、电子邮件和文档审阅消除了多语言协作的摩擦,而无需每个人都使用第二语言操作。

全球内容消费。 拥有国际受众的流媒体平台、新闻网站和社交媒体平台都受益于与内容消费速度同步的翻译。用户期望无需单独的翻译步骤就能以母语阅读任何内容。

旅行与导航。 实时相机翻译——将手机对准标志、菜单或标签,并在图像上看到叠加的翻译——已成为标准的旅行工具。该技术在光照条件良好的情况下对印刷文本效果很好。

现场活动与广播。 会议、体育赛事和广播越来越多地使用AI驱动的实时字幕和语音翻译来触达多语言受众。针对实时语速的准确性正在持续提高。

要了解实时翻译准确性与其他形式AI翻译的对比,请参阅我们关于 2026年AI翻译准确性的详细分析。要了解使这一切成为可能的底层技术,请参阅我们的 神经机器翻译详解