包含可编辑CAD图纸的PDF文件翻译方法

实践中,如果PDF包含不可编辑的CAD图纸,最佳实践是使用ABBYY转出可编辑文字。如果PDF包含可编辑的CAD图片,该怎么处理呢?我们的惯例是将PDF转为Word文件进行翻译。但是此类文件,转成Word文件之后,布局变得非常乱,原先的CAD图往往会面目全非,我们可能需要很多时间和精力重新排版。

那么有比较好的方式处理此类文件呢?您不妨使用以下方法。

简单来说,我们可以使用Infix PDF Editor将PDF文件内容导出,然后使用CAT翻译,完成之后,再将内容写回PDF文件。经过Locren的验证,这确实是一个不错的方法,能够极好地保留原始文件的排版信息,可显著减少排版时间和成本。

导出文本
Infix导出PDF内容的原理是,将文本导出为Story,Story可视为一个文本框,导出Story后,然后再将翻译内容写回去。
首先使用Infix PDF Editor打开PDF文件,然后选择将PDF文件导出为XML文件(文件较为复杂,可能导出速度稍慢)

export

cat export

导出完成之后,程序提示您另存PDF文件。这时注意将PDF文件另存到一个新文件夹。该另存的文件将用来导入已翻译的XML文件。注意,不能使用原始的PDF文件导入已翻译的XML文件。

使用CAT翻译
Infix官方提供了主流CAT的定义文件,这些CAT必须加载对应定义文件才可正常处理Infix导出的XML文件。如果需要排重,可直接使用我们的排重工具/去重工具,去掉重复内容。请转到语言•技术•业务群 484067309 下载全部定义文件。

导入文本
翻译完成之后,选择导回即可。

import

如果是原始文件是中文PDF,目标语言是西文,那么翻译完成之后,则可顺畅的导回。

如果原始是西文,目标语言是中日韩,那么需要将所导出的XML文件中的所有字体系列替换为 ArialUnicodeMS,否则已翻译的XML文件可能无法正常导入。

导入时,可能仍然会提示 “There are some characters in the imported text that cannot be represented using the document’s current fonts”,您可选择替换为ArialUnicodeMS。

提示
Infix加载原始PDF,导出XML文件之后所生成的PDF文件,不能用来重新导出XML文件,否则可能无法导入。

PDF中无法编辑的内容无法导出,需要OCR单独处理。

Infix可直接将PDF文件导出为XLIFF文件,但是需要有帐户才行,另外使用云端翻译,容易受网络速度的影响。

本文所述方法可以很好地保留原文排版信息。另一种方法是使用ABBYY直接对PDF文件进行OCR,然后使用CAT翻译。