机器翻译趋势

自定义引擎

统计机器翻译软件是通用型的,意即同一翻译引擎可以用于任何语言对或专门的应用,也不需要像基于规则的翻译技术一样针对每种语言设计机器翻译软件。市场需要使用针对特定的语言对、特定的行业或专业领域的、使用语料训练的、定制的翻译引擎。这样可以获得满足该应用需求的、更高质量的、更一致的翻译。定制的引擎的翻译结果的质量通常是免费在线系统的两倍或更高。

一些公司主要专注针对特定语言或领域的翻译引擎,

包括Asia Online、Capita Translation and Interpreting、Let’s MT、Lucy Software、PangeaMT、PROMT、SDL/BeGlobal、Safaba Translation Solutions、Simple Shift、Systran 和 Tauyou.

我们预计这一领域将会和机器/人工混合翻译平台仍将继续发展。

 

实时自定义

最近,花费时间创建自定义的机器翻译引擎很大程度上成为现实。如果有足够适当的翻译数据,是可以在一天之内针对特定的行业、组织甚至产品创建机器翻译引擎。唯一的障碍是是否有足够的翻译数据。很多公司已在提供基于SaaS的解决方案,其中用户能够整合他们自己的和供应商的数据,来创建自定义的引擎。

 

开源技术

开源技术已经对机器翻译行业带来重大影响。如今已经有各类成熟的开源机器平台,并被广泛应用。Apertium允许用户构建自己的基于规则的翻译引擎。Moses被用户广泛用于构建自定义的统计机器翻译系统。

开源技术对最终用户而言并不是那么重要,但是对想开发定制翻译引擎的语言服务供应商来说却很重要。因为他们不需要构建或支持底层翻译引擎,他们只用专注编译所需的训练数据来构建客户端的系统。因此开源技术的主要作用是降低这些企业的研发成本。

 

数据共享

公共翻译记忆将在机器翻译改进方面发挥重要作用,因为它们可以被用来创建高品质的训练语料库。这也将降低了企业的开发成本,因为他们可以重用由各方提供的、不断增长的基线语料库,并可以专注于收集对特定客户的项目有很高价值的信息。一些次要的语言的译文往往以小批量形式存储在很多不同的地方,例如通常在服务语言服务提供商那里,因此能够共享翻译记忆对次要的语言也很重要。如果可以汇集和共享这些数据,这将使企业更容易创造针对次要语言对的高品质的翻译引擎。TAUS数据资源库是最大的翻译记忆共享开放平台。

 

 

人工/机器翻译

另一个重要的趋势是越来越多地先用机器翻译引擎进行翻译,然后由翻译人员(用户、专业翻译人员或两者)提供反馈,建议的翻译,或直接进行译后编辑。这种方法正变得越来越流行,因为很多时候不清楚文档的阅读人数是否多到有必要花成本去请专业人员进行翻译。例如,一个文档可能是由机器翻译的,但是当阅览量达到一定临界值时,才会发给翻译员和编辑进行进一步审核和译后编辑。我们预计这种成本优化化流程将会流行起来,尤其是必须以低成本方式快速生成翻译的网络和移动内容制作者。另外,如果客户知道内容由机器翻译的,并之后由人工进行整理,那么,他们对质量的期望会明显不同。

SDL BeGlobal就是一个很好的例子。SDL BeGlobal与SDL的翻译管理系统全面集成,可以使用自定义语料进行训练。利用SDL BeGlobal,可生成机器翻译文本,然后再根据需要,由翻译人员或外包译者进行处理和译后编辑。

 

从许可到专业服务

厂商都在向软件即服务业务模式转变。企业不再愿意一次性购买站点许可证(允许在组织内所有的计算机上使用某一软件),而更愿意按使用情况付费。机器翻译非常适合这种业务模式,可以按字数或字符数对译员计费。

例如,谷歌Translate API 2.0的计费方式是每百万字符收20美元。机器翻译厂商的定价模式有所不同。一些按字数收费,一些按语言收费,但通常大部分是两种的组合。