翻译项目去掉重复方法比较

去掉项目中重复的内容,业内有不同的方法和产品,我们现在说说各种方法的优劣。

第一种方案是利用工具去掉项目重复后,处理成不包含任何标记的对照文本,因为这种文本不包含任何标记,减少了标记处理时间,客观上也加快了译者的翻译速度。一个文件要转成不包含任何标记(格式信息)的文件,实现的方式包括:①去掉所有格式信息,例如,将原始文件中的全部内容拷贝到记事本;②删除标记,例如,使用CAT转换出双语对照文件时,自动将标记去掉。

第 ① 种方法,虽然方便了译者,但也给企业自身带来了麻烦,因为文档需要全部重新排版,实践中文档格式复杂多变,重新排版将耗费大量的时间和精力。

第 ② 种方法,删除标记后,必须将标记补回去,否则无法将译文更新回主项目,或者无法生成译文稿。补标记也是很费时间和精力的工作。

第二种方案,可以实现去重后,自动应用译文,也就是后期不再需要人工干预的一种方式。那么这种方式虽然说不需要人工干预,但是是有前提条件的,那就是文本必须一模一样。如果说2个句子只有数字或非译元素不同,智能一些的工具,可以识别并自动处理,但是实践中,2个或多个句子文本相同、非译元素不同的情况是非常复杂的,没有产品能够智能到自动处理类似以下范例的“重复”句子,包括在全球市场占有率最高的Trados Studio也不行,必须有人工介入才行。

句子一:1.2.3. 这是一个测试。18
句子二:0.9.8. 这是一个测试。19

所以这类方案的去重效果不能实现最大化。

除了上述所说的仅去掉完全相同句子的第二种方案外,我们locren.com提供了一款最大限度的去重方案。

句子一:1.2.3. 这是一个测试。18
句子二:0.9.8. 这是一个测试。19

这样的句子将视为重复的句子,句子二会被去掉。那么后期人工处方式如下:

翻译记忆匹配:
1.2.3. 这是一个测试。18
1.2.3. This is a test.18

句子二的译文只需要将前后的数字给补上,即 0.9.8. This is a test.19。

最大限度的去重,后期需要少许人工介入,而且记忆库中都是有匹配的,只是需要人工将非译元素(例如,数字)补上去就可以了。

以上所说的最大限度去重,其实还不是一种终极方案,我们的排重工具Toolobx,还提供了将项目中的内部模糊匹配去掉的方案。

什么是内部模糊匹配呢,在前面内容中,我们说的都是重复,即2个完全一样的句子(不含非译元素),所谓内部模糊匹配,就是句子和句子只有部分内容相同,例如,

句子一:This is an apple tree provided by locren.com.

句子二:This is an apple provided by locren.com.

2个句子的相似度为98%,那么相似度低于100%的句子,就是我们说的模糊匹配。我们的项目中可能存在大量这样的内部模糊匹配,我们的排重工具Toolbox可以轻松地一键锁定这些内部模糊匹配。这样真正可以最大限度榨取项目中的重复内容,实现去重效果的最大化。

总之,全自动化去重和最大限度的去重,是不可调和的矛盾。要省事些,可以利用前者,要最大限度地去重,那么后期必须有人工干预。

另外,要减少标记,并能最大限度地去重,那么您可以采用以下方式。首先使用免费的TransTools和/或我们的CAT PET,清理Word文件,这样可以显著减少标记。接着,使用Toolbox去重。这样不仅文件很干净,没有什么标记,并且最大限度地去掉了重复,是一种鱼和熊掌兼得的方案。

除排重工具外,我们还为翻译企业提供全方位的CAT引入服务。CAT的引入,后续支持非常关键,一个本地化工程师一个月的薪水上万,但是我们的本地化工程师免费为您提供长期支持服务。