为什么同样的项目排重效果有很大差异?

为什么同样的项目,排重效果有很大差异呢?这个要从CAT的原理说起,CAT默认情况下解析文本都是以句为单位,即通过判断句号、问号、感叹号等标点来拆解文本。那么在实践中,可能句子结尾处并无标点符号,例如:

例子1
1.    This is a test
2.    This is a test
3.    This is a test

例子2
1.    This is a test
2.    This is a test

在CAT解析时,例子1和例子2可能会分别被视为一个句子(TU),这样例子1和例子2不会被视为重复,而且例子1和例子2中实际上文本也是重复的。

如果这样类似结构的段落重复几万次,那排重效果会极差。

因此要使CAT将上例中的句子一个一个解析出来,必须定义分段规则。我们以SDL Trados为例。

在SDL Trados中,我们通过新建一个语言资源模板来定义分段规则。

硬回车分段规则

开始

[\w\p{P}][\r\n]+

结束
.

如果句子以软回车结束,可添加以下规则

开始
[\w\p{P}][\n]+

结束
\s?

总之,您可以通过自定义分段规则,有效分拆句子,提高排重效果。

排重小提示
除了通过排重工具去重之外,要最大限度地实现排重目的,可以使用TMXMALL或SDL Groupshare之类的服务器产品。因为通过它们不仅重复的句子只需翻译一次,而且项目中存在的内部模糊匹配、片段匹配、以及术语都可以重用。

TMXMALL提供了针对SDL Trados的记忆库共享插件,其操作方式极其简单,响应速度很快。SDL Groupshare不仅能实现记忆库共享,并且还可以实现项目实时共享。关于SDL Groupshare行业很多人士有些误区。这里提示下,如果说SDL官方给提供了20个连接数,并不是说,固定只有20个人可以用,您可以添加200个用户,在项目需要时,每次可以任意选择其中20个人一起共享翻译记忆。

点击下载locren提供的SDL分段资源工具