处理包含XML/HTML元素的Excel文件

在Excel文件中包含大量HTML元素时,会带来以下问题:
1.字数分析不准确;
2.HTML元素和内容混杂在一起,翻译员需要处理这些元素,在处理过程中,可能会更改、丢失HTML元素,这可能会给客户造成影响;
3.HTML元素和内容混杂在一起,不方便查看上下文。

taggy Excel

因此在处理包含HTML元素的Excel时,应尽可能让翻译工具“隐藏”这些元素。

SDL Trados 2011 处理这样的文件,需要定义文件转换器。相关内容可以查阅—multifarious。这个国外博客提供了以下正则表达式,用来在转换过程中处理HTML元素。

TRANSLATABLE TAG PAIR – CATCH ALL
<[a-z][a-z0-9]*[^<>]*>                     ]*>
PLACEABLES
{[0-9]}
Alt attribute
<.*alt=”                                   “>

上述正则表达式并不能适用所有情形。因此您可能还需要根据情况,编写合适的正则。

Deja Vu X可以非常好地处理这类文件,您只需要在转换文件过程中,勾选Process Embedded HTML。另外,如果原始文件格式为.xls,您需要将文件格式另存为.xlsx,因为Deja Vu XXLS转换器没有提供对应的选项。

DVX Taggy

提示:在翻译包含HTML元素的Excel文件时,若一个单元格中包含大量HTML元素,可将该单元格拷贝到记事本中,然后另存为HTML文件,再使用浏览器打开,这样您就可以清晰地看到不含任何标记的上下文了。