Excel项目去掉网页标记和85万字重复

这是我们最近的一个实践案例。客户要我们分析和去掉一个Excel文件的重复。我们发现Excel文件包含大量HTML元素,也就是HTML元素和待翻译文本混杂在一起,要准确分析Excel文件的字数,需要将Excel文件中的HTML元素去掉。

1 excel with html

包含HTML元素的Excel文件比较复杂,非Déjà Vu X、Trados等主流CAT软件不可,它们都支持将Excel文件中的HTML元素“去掉”,更准确说,是将HTML元素转成标记。这样,便能准确地分析出待翻译文本的字数。

由于Déjà Vu X3在处理Excel文件时,默认会将HTML元素转为标记。因此Déjà Vu X3是首选方案,但是我们尝试使用Déjà Vu X3转换该Excel文件时,Déjà Vu X3直接崩溃,无法处理。

于是我们转而使用SDL Trados Studio,但是SDL Trados Studio中必须手工定义Excel转换器。如果不定义,HTML元素会当作普通文本处理,那么不翻译的Html元素仍然会和文本混杂在一起。我们在国外网络上找到了相关方案。

SDL Trados Studio的Excel转换器嵌入内容定义方式见下:

2 Rule definiton

Supertext的正则

3 excel_settings

Multifarious的正则

4 regular expressions

我们分别在SDL Trados Studio不同版本中尝试了以上规则,在有的版本中,规则未发挥效用,有的虽然发挥了效用,但是在解析过程中出错,提示有异常内容。

我们先后尝试转换Excel的文件格式,将Excel文件切分成几十个小文件,分别使用Google DOC、LibreOffice、OpenOffice处理,但是要么提示文件没有开始/结束标记(Trados中),要么根本无法打开(第三方Office程序中)。

上面的试错过程,只是简短一句话,但是我们却花费了大量的时间和精力,应用了各类不同的工具。

最终工程师提到,有的正则在SDL Trados Studio中起到效用,说明正则是有效的。于是,我们变换思路,使用不同的规则,在SDL Trados Studio中,成功提取了Excel文本。

5.extrace text

成功提取文本后,我们分析得出,客户项目总字数超过160万字,使用我们的排重工具Toolbox去掉重复后,剩余字数为60多万字。

故事本应快乐的结束了。我们查看项目后,又发现仍有部分HTML元素未转成标记。于是我们又进行了新一轮试错过程。

我们重新增加了新的规则,使用SDL Trados Studio处理,虽然可正常处理,但是文件无法保存,提示内存不足。我们先后将SDL Trados Studio内嵌文件调整为零,将文件切分为多个小文件,但仍存在问题。

6

接着,我们将Excel文件格式从.xlsx格式转为.xls,再进行切分,最终文件可以正常转换了。分析得出的总字数是130万,排除掉的重复字数是80万,也就是说需要翻译的字数是50万。

最后,当您处理包含HTML网页的复杂Excel文件、以及超大型文件时,我们的以上试错过程,希望对您有借鉴意义。查看高清大图,欢迎关注locren.com官方微信。

qrcode_for_gh_77fa7902ba72_344 (1)