Excel项目去掉重复翻译内容

近期有位翻译公司朋友有100万字的项目,项目为Excel表格形式,他们直接在Excel中筛选去掉了重复内容,去掉之后,剩余字数还有60万字。60万字已翻译完成,还有删除的40万字重复内容需要填上译文。(项目相关信息做了模糊化处理)

那么该怎么将Excel中删除的重复内容,填上译文呢?

我们可以使用CAT,例如,SDL Trados,来填充译文,但是前提条件是首先需要有记忆库,为此,我们使用我们的TMX制作工具CAT Pet制作了翻译记忆库,并填充了译文。

填充译文之后,发现还有大量句子无译文,原因在于Excel的删除重复功能,是以单元格的形式来筛选重复的,也就是说,我们在CAT中必须设置以段为单位来创建项目。为此,我们重新以段为单位创建了项目并填充了译文,结果,绝大部分译文都填上了。

通过这个项目,您是否发现了一些问题?

这个项目都是以段落为单位来翻译的,这意味着,段落当中即使有重复的内容,也不能去掉。

我们重新分析了这个项目的字数情况,发现总字数100万,重复的字数就有60万,剩下需要翻译的字数是40万字,而这位朋友使用Excel删除重复后,需要翻译的字数则是60万。也就是说,还有20万字的重复内容没有去掉。我们来算下成本 ,即使以千字150的偏低价格计算,损失的成本也是3万人民币。

除了以上显而易见的成本损失外,记忆库的重复利用也存在很大问题,换句话说,如果后续项目中有很多和当前项目相同的句子,译文也可能无法匹配上。另外,还有tag(标记)问题,很幸运这个项目当中基本无tag,无需手工补tag。

那么其他文件,例如,Word,是否也可以这样操作呢?是可以的,我们可以将全部文件中的内容一个一个拷贝到一个Excel当中,然后筛选删除重复。不过这种方式负面效果可能更加严重,1. 去掉重复内容的效果,可能很不理想,因为从Word拷贝到Excel中的内容也是以段落为单位。在实践中,整段整段相同的内容会有多少呢?;2,格式全部丢失,您需要从头开始重新排版全部文件。

这2个结果对成本和交期的影响都很大。我们建议大家抛弃这种原始的方法,而采用成熟的解决方案,例如,我们开发的排重工具