PDF之Word翻译流程 – 标记的秘密

翻译PDF,我们的建议是不要用CAT直接处理PDF,以避免最终无法生成译稿等问题。最佳实践是将PDF转成Word,然后再使用CAT处理,但是使用CAT处理PDF转换的Word会有很多标记,出现这些标记的原因包括以下方面:

 

Keeping-Secrets-The-Trent

1. PDF转换工具/OCR软件为了和原始文件的字体保持一致,在生成的Word文件中通常会应用不同的字符间距,但是在正常文档中通常很少应用字符间距,这些字符间距在CAT中会产生标记

2. 通常情况下,Word文档使用Automatic字体显示,即默认系统文本颜色。不过,部分文本可能使用了黑色字体颜色,虽然Automatic和黑色字体颜色在大部分系统中看上去是一样的,但是CAT工具会将它们视为不同的字体颜色,并会生成标记。

3.PDF转换工具/OCR软件会在生成的Word文档中添加书签。这些书签在CAT中会显示为标记对,虽然书签必须在文件中手工添加,但是在自动生成的Word文件中,大部分书签是没有用的。

4. 在PDF转换工具/OCR软件生成的绝大部分文件中,段落样式上方会包含很多字符样式,这些字符样式都是多余的,并且会在CAT工具中产生标记。

5.在处理PDF文件时,尤其是图片型PDF文件,PDF转换工具和OCR软件可能会在一个段落内使用几种不同的文本颜色和/或不同的字体大小,当文件导入CAT时,这可能会产生标记

6.多余的空行和多余的软回车

以上这些问题,其实我们都可以通过免费的工具轻松地处理,这些工具包括TransTools和我们的CAT PET。如果因为某种原因,上述方法无法奏效,我们还可以将Word文件转成RTF,去掉多余的标记。

总之,在PDF转成Word之后,应用上述最佳实践,在Word导入CAT后,不仅会显著减少标记,而且还可以提高翻译记忆匹配率,并能更稳定地生成译稿。

 

关于locren.com

除了免费的CAT PET外,www.locren.com还提供排重工具、对照工具、以及翻译工具培训和SDL Groupshare部署等服务。