新兴技术:创新和颠覆
本文编译自多语杂志2016-0607刊。完整源文请参见Emerging Technology: Innovation and Disruption,作者是CSA Research的高级分析家Helene Pielmeier。
在CSA Research,我们花了很大一部分时间来分析语言服务和技术市场。我们研究团队最近找到了最有创新或颠覆潜力的趋势和技术。我们考量了一系列书面语言技术和口头语言技术,包括机器翻译(MT)、翻译记忆(TM)、翻译管理系统(TMS)和IMS、以及从源头改进翻译等。
SDL Trados高效翻译Excel文件的技巧
Excel文件是一种极为常见的文件格式,在使用SDL Trados翻译的时候,大家可能会碰到各类问题,包括文件转换非常慢,无法导出译文等等情况。今天,Locren在这里给大家分享下应对方法。
实践中,有一种很常见的Excel文件形式,其各栏都有背景色,可能只有其中某一栏或几栏需要翻译。

这样的Excel文件,SDL Trados可以默认忽略指定颜色的内容,而翻译其中特定背景色的内容,例如,在本例中,可以忽略所有黄色背景的内容,仅翻译绿色内容。
但是这样处理之后,SDL Trados由于Excel解析器的原因,可能无法正常转出译文。
Locren.com排重工具PK奥林匹克百米飞人赛
对于商业企业而言,效率就是金钱。我们的排重工具虽然能非常稳定地排重,但是Word导出速度还不够快,尤其是在项目超大时,要等较长时间。
为了提升效率,我们工程师做了不懈努力。这一次,我们将旧的Word导出机制推倒,重新编写了程序,现在,即使项目有几百兆,我们的排重工具也可以轻轻松松在数秒内导出排重后的Word文件,也就是说,项目有数百万字或格式非常复杂导致项目体积十分庞大,我们的排重工具,都能以世界级百米短跑的速度,完成Word导出和排重。
另外,我们排重工具的一项更新是,在导出Word时,为不同的状态标注底色,以方便用户区分不同的状态并参考上下文。

更多信息,请参考我们的排重工具。
都是用Trados,为什么我的项目中标记那么多?
Locren在为很多企业提供技术咨询过程中,不少朋友会碰到这样的问题,“同样在用Trados,为什么我的项目中标记明显多出很多呢?”
这个不是人品问题。答案其实很简单,在将原始文件(Word)转成SDLXLIFF文件过程中,Trados的版本不同,生成的标记多寡会有差异。SDL Trados 2015 SR2中引入了新的Word解析器,若使用这个新的解析器,SDL Trados 2015 SR2中生成的标记会比SDL Trados 2014中生成的标记少。
例如,在SDL Trados 2014标记情形如下:
<cf>1. <cf><cf>This is a test.
在SDL Trados 2015中将无任何标记:
1. This is a test.
为什么同样的项目排重效果有很大差异?
为什么同样的项目,排重效果有很大差异呢?这个要从CAT的原理说起,CAT默认情况下解析文本都是以句为单位,即通过判断句号、问号、感叹号等标点来拆解文本。那么在实践中,可能句子结尾处并无标点符号,例如:
例子1
1. This is a test
2. This is a test
3. This is a test
例子2
1. This is a test
2. This is a test
在CAT解析时,例子1和例子2可能会分别被视为一个句子(TU),这样例子1和例子2不会被视为重复,而且例子1和例子2中实际上文本也是重复的。
如果这样类似结构的段落重复几万次,那排重效果会极差。
Mr. Right Technology -语资网厦门会议感想

大家常说一句话“客户越来越精了”。也就说,项目对客户的透明度将越来越高,例如,客户对项目的字数(包括重复情况)、进度、流程情况等有更大的掌控力,行业已有或即将有相关付费或免费平台问世,如果我们的客户利用这样的平台,要求我们提供更为优惠的价格,那么那些到目前都尚未使用翻译技术的同行,将会面临更大的竞争压力。
上升的成本、客户要求更低的价格以及更快的交付速度,是今天翻译界面临的同样问题。为应对这些挑战,很多企业推出了应对的解决方案,包括云端CAT、机器翻译平台等等。本次语资网厦门会议上,也有不少产品亮相。
面对纷繁芜杂的信息,我们需要好好梳理这些信息。
SDL最新的在线翻译工具
最近SDL推出了在线翻译工具SDL Translation Online Editor。如同其名字一样,它是一个简单的编辑器,支持的文件格式包括txt、office和PDF,默认仅可以重用当前项目的数据,不可以将当前项目的数据导出。因此,它可能更适合偶尔使用工具做翻译的人士,不适合专业译者。SDL Translation Online Editor支持的浏览器包括Chrome、Edge和Firefox,不支持IE。

标记消除器再创新
对于使用CAT的翻译公司来说,我们的旧版标记消除器可以消除绝大部分标记信息,并能保留整体排版信息不变。这一创新工具极大地降低了译者痛苦指数,有效提高了译者的实际生产速度。
但是我们并没有满足现有的成就。根据用户的反馈,我们持续进行创新。我们不惜将所有原先的源代码全部推倒,然后重新编写程序。
全新的标记消除器,在文件格式信息处理上更加精细,它可以保留所有必要的格式信息(包括粗体、斜体、上标、下标等等)、对象等等,将一切不需要的格式信息统统去掉。相比旧版,新版本即去掉了不需要的格式信息,又完美保留了整体排版信息和段内排版信息。
新版本不仅可以处理当前打开的文件,也可以选择处理其他目录下的任何文件或文件夹。

点击查看我们的视频演示。
字数统计工具Toolbox
Toolbox 目前由3个字数分析工具、TMX创建工具及Office文件转换工具、以及Project Console组合而成。
字数统计工具
我们知道Word是统计中文字数的标准,统计单个Word中文文件很简单,但是要批量统计上百个中文Word文件,就变得麻烦起来,您可能需要挨个打开文件计算字数。至于Excel和Powerpoint,则根本就没有字数统计功能。
CAT或其他独立的第三方工具可以统计MS Office文件字数,但是统计中文、日文和韩文字符字数不准确,或者说和Word存在明显差异。要正确统计中日韩字数,还是以Word为准。
我们发布的Office文件字数统计工具,可一键批量统计微软Office全系列文件和PDF文件字数。它直接使用Word内置统计功能,支持所有语言,包括中文、日文和韩文。适用的格式和Office版本包括(2007-2016),支持的文件格式见下:


