机器翻译技术的现状

基于规则

基于规则的机器翻译早在几十年前即已开发出来,是最早的实用自动翻译方法。这类翻译引擎的工作原理是解析源语言句子,分析其结构(例如,确定哪些词汇用作动词或名词),接着将句子转换为中间的、机器可读的代码,然后再将它们转换为目标语言。

基于规则的机器翻译的优点是十分精细的翻译引擎可翻译广泛的文本,而不需要像统计机器翻译一样使用大量的范例文本训练翻译引擎。基于规则的翻译引擎的缺点是,必须为每个语言对建立自定义的解析软件和词典,并且是相当“脆弱”的。例如,它不能很好地处理俚语或隐喻文本。出于这个原因,基于规则的机器翻译已在很大程度上被统计机器翻译或混合系统所取代,虽然它在不太常见的语言对中比较有用(因为对应这些语言对,往往没有足够多的平行文本训练统计机器翻译引擎)。

产品与提供商

此类机器翻译的主要供应商包括Systran、PROMT、Lucy Software(商业软件)和Apertium(开源)。针对特定语言的供应商包括CCID(中文)和Toshiba(日文)。Systran从业已经有几十年历史,是网页翻译的先驱(早在20世纪90年代他们的翻译引擎就为Babelfish提供网页翻译服务了)。Systran覆盖大多数主要语言对,最近发布了混合规则/统计的翻译引擎,以提升他们的产品线。

Apertium是由西班牙Universitat d’Alacant主导的开源项目。他们已开发出一种基于开源规则的翻译引擎,使用户能够创建面向任何语言对的自定义翻译引擎。这为基于规则的翻译引擎解决了一个重要的问题,即商业供应商不用再投资开发不太常见的语言对的规则机器翻译引擎,例如,西班牙语←→加泰罗尼亚。开发自定义的引擎是一项庞大的任务,因为其中涉及到开发词典、解析规则等,这需要有精通源语言和目标语言的语言学家参与。

 

基于实例

基于实例的机器翻译类似于统计机器翻译,因为前者也需要使用大量的平行文本(源句段及其翻译)来训练系统。基于实例的翻译的逻辑是将句子视为经常重复的短语的组合,这些短语可以单独翻译并组合起来形成一个译文。

这种方法的问题是,你需要有一个非常庞大的短语及其译文的语料库。这需要大量的数据,还需要短语及其译文精确配对,而这将需要人工参与,而统计机器翻译系统的训练是一个完全自动化的过程。

基于实例的机器翻译还没有作为商业服务被广泛部署。但是,有一个开源平台Cunei使开发人员能够建立自己的基于实例的机器翻译引擎(类似于基于规则的机器翻译平台Apertium)。大部分开发中的和商业用途的翻译引擎是统计或混合系统。

 

产品与提供商

基于实例的机器翻译还没有独立的商业化产品或服务,但是你可以找到两个开源项目Cunei和Marclator。这些开源项目只适用于专业软件开发人员和系统管理员,并不是面向最终用户的交钥匙解决方案。他们都是非常优秀的试验项目,但是如果你要找一个供用户使用的平台,还是得找统计机器翻译平台。

 

统计

统计机器翻译是当今使用的最流行的机器翻译。它的工作方式是使用非常庞大的平行文本(源文本及其翻译)以及单语语料库训练翻译引擎。系统会寻找源文本和译文(针对整个句子、句段内的较小的短语或N-grams)之间的统计相关性。然后对源语言句子,去查找概率最大的译文。翻译引擎本身没有规则或语法概念。

统计机器翻译的主要优点是,不需要像基于规则的机器翻译一样,针对每个语言对打造专门的翻译引擎,只要你有收集有足够多的文本,你就可以训练针对任何语言对的通用翻译引擎。

统计机器翻译的主要缺点是,如果在翻译训练语料库中没有相似的资料的文本时,得出的译文不行。例如,一个使用技术文本训练的翻译引擎,在翻译口语化的文本时效果会很差。因此,需要持续使用与待翻译材料相似的文本来训练引擎。但即使有庞大合适的训练语料,统计机器翻译通常也不能生成出版质量的文本。统计机器翻译经常是在不管上下文的情况下翻译原文,而且译文语序往往不对。但是,通常情况下,它翻译的还可以,适合理解。如果你需要出版质量的译文,则需要对机器翻译译文进行人工编辑,很多商业机器翻译引擎提供了这样的机器翻译编辑方案。

 

产品与提供商

很多公司提供统计机器翻译,他们大部分使用的是开源翻译引擎Moses。Moses是机器翻译行业的一个重要发展里程碑,因为他们不需要重新开发翻译引擎,只用建立自定义的机器翻译引擎,并提供平行文本训练引擎。这使很多公司可以最小的代价推出定制的机器翻译产品。

 

– BeGlobal (SDL):BeGlobal是SDL的机器翻译产品,源自SDL几年前收购的Language Weaver。BeGlobal使用户可以将机器翻译、专业翻译及机译编辑结合在一起。一个常见的工作流程是先用机器翻译引擎翻译文本,然后再让翻译员和编辑审核和修改机器译文。最后更正的译文可以回馈到翻译记忆库中,以便进一步训练翻译机器引擎。

– Google Translate(免费):Google Translate是谷歌基于自有的翻译引擎和研究技术,提供的免费在线翻译服务。Google Translate可以翻译50多种语言,并且被视为非专业化翻译引擎翻译质量的标杆。

– Microsoft Bing Translator(免费):微软也提供类似Google Translate的免费在线翻译服务,但它还包括供使用者使用互动(WYSIWG)编辑工具给译文评分和进行译后编辑的很多选项。对于大量读者群体的公司来说,这些是特别有趣的选项。这些公司可以利用读者群来编辑和改进译文,以使其他用户受益。除免费在线服务外,Google Translate和Bing Translator还提供付费的机器翻译API。微软最近还推出了可免费定制的Microsoft Translator Hub。

– Moses(开源):是一个开源的统计机器翻译引擎。它已被业界广泛应用于构建定制的机器翻译引擎。因为Moses是开源的,所以希望开发定制引擎的业者可以集中精力获取训练语料,而不需要编写自己的统计机器翻译引擎(这是超越大多数开发人员的能力的一项艰巨任务)

– 越来越多的厂商出售使用Moses为核心引擎的机器翻译解决方案。这些方案通常为SaaS产品,可为特定的行业提供定制的机器翻译,例如,Capita Translation and Interpreting、DoMY CE、Firma8、Let’s MT、PangeaMT、Safaba Translation Solutions、Simple Shift和Tauyou。其中最早的供应商之一,是拥有客户端服务器产品的Asia Online。产品的复杂度取决于所针对的客户群。厂商们都在致力解决Moses中的设计缺陷,确保其易用性。另一方面他们将其他自然语言处理技术与Moses进行了整合,来提高翻译的质量。

 

混合

混合翻译引擎结合了基于规则的机器翻译和统计机器翻译的元素,以利用每种方法的长处。

这是一个正在发展中的领域,我们预计很多系统将演变成混合平台。混合系统主要有两类:

使用统计翻译进行译后处理和清理的基于规则的引擎、以及以基于规则的引擎引导的统计系统。

在第一种情况下,首先使用基于规则的翻译引擎翻译文本,然后使用统计机器翻译引擎对译文进行处理,纠正基于规则的翻译引擎产生的错误,或直接替换整个文本(如需要)。在第二种情况下,基于规则的翻译引擎不翻译文本,而是为统计机器翻译引擎提供协助,插入插入元数据(如名词/动词/形容词,现在/过去式,等)。

 

产品与提供商

有几家公司提供混合机器翻译平台,主要面向企业市场,其中包括:

– LinguaSys:Developed Carabao,混合翻译引擎,针对企业市场。

– PROMT:最初开发的是基于规则的翻译引擎,之后升级为混合翻译引擎。

– Systran:开发机器翻译软件已有40年历史,其系统已升级为整合统计和基于规则的混合平台。