肉眼明明看到有很多重复,为什么分析不出来?

(基于真实案例,实际项目情况皆已隐去)

有几个Word文件10万字,肉眼看上去挺像,文件之间重复应比较多,但是使用CAT工具分析之后,发现重复内容只有7千字。

我们使用不同的CAT进行了分析和比较,发现情况一样。使用Word比较功能,比较文件之后,发现有大量重复内容,不可能有这么少的重复字数?!

为了查找问题所在,我们在CAT中打开了文件,发现文件很多句子都有标记。难道是标记影响了重复率的计算?Locren使用标记消除器清理原始文件之后,再次分析,发现重复立即提升到3万字。显然是标记影响了重复率的计算。也就是说,如果使用CAT内置的重复锁定功能(排重功能),只能去掉7千字重复,只有清理标记之后,真实的重复内容3万字才能被排除。

为了验证项目中的重复情况,Locren使用我们的字数计算工具,分析了文件之间的重复,重复字数和CAT工具分析的接近。

又想到,如果原始文件在没有清理标记(格式信息)的情况下,直接使用我们的排重工具排重,效果会怎么样呢?接着,Locren做了测试,实际排重的字数要略高于清理标记后的排重效果。

基于这个案例,我们至少可以得出几个结论。首先,如果要排重,建议先使用标记消除器或其他工具清理原始文件,以便消除不需要的格式信息。否则,未经处理的文件,如果存在较多标记,将会使CAT的排重效果大打折扣。其次,如果源文件没有做任何预处理,可以使用我们的排重工具排重,因为排重工具是基于纯文本排重,所以排重的效果必定会大于等于CAT的重复计算结果。

关联阅读

为什么同样的项目排重效果有很大差异?

Excel项目去掉网页标记和85万字重复