语料怎么制作?

有很多朋友有制作语料的需求,但不知道如何下手?

实践中,我们有很多单语言文件或双语言文件,需要制作成语料,那该怎么制作呢?

(语料,也可称为翻译记忆库。无论是语料还是翻译记忆库,概念都是一样的,本质上就是,将原文和对应的译文存储在数据库中,然后翻译工具可以实时调用。)

阅读全文…

繁体语言检查工具使用說明

我们推出的这一繁体语言检查工具,是一项前所未有的创新,支持检查繁体项目中的任何简体字和简繁差异用语,无需依托系统环境。不论是日常大小项目,都可极为方便的使用这一工具进行检查。

应用
繁体项目语言质量管理,快速评估语言供应商的繁体项目质量,培养新繁体译者。

例如,大型跨国本地化企业,可应用我们的这一工具,快速检查语言质量,并提出反馈,更有效管控语言质量;再者,用来评估供应商的质量,甚至不需要委托第三方供应商,仅需点击一下繁体语言检查工具,便可以发现当前项目中的不正确用语和繁体字。先期淘汰不合格的供应商,减少评估成本。

阅读全文…

中文繁体项目勘误工具

Locren.com很开心地宣布,我们推出了目前市场上唯一的一款中文繁体勘误工具,此工具可以检查繁体项目中常见的简体字词错误、以及简体用语和术语等。在繁体项目中,译者往往会因为没有足够的敏感性,会在繁体项目中引入简体字词和术语:

一对多
不少简体和繁体字词是一对多的关系,而且一些在简体中常用的字词,在繁体中则是罕见的字词。例如,简体字:只 zhi ,繁体对应的为“衹”; 只zhi,繁体对应的是“隻”。“只”在古汉语中用作语气词。

阅读全文…

微软术语库2017版

Locren.com很开心地宣布,为业界提供了微软术语库2017版。术语库分为简体和繁体版,繁体包含20000多条术语,简体包含13000多条术语,且词条均包含定义。

Termbase

阅读全文…

COTI文件的翻译

COTI表示Common Translation Interface,是由Association Of German Manufacturers Of Authoring And Content Management Systems推出的一种标准/文件格式,用于内容管理系统(CMS)与翻译管理系统(TMS)之间交换翻译和参考数据。

COTI分为三个层级:Level 1,Level 2,Level 3。简单来说,层级越高,自动化程度越高,即对于Level 1(观看视频),内容管理系统导出COTI包,然后翻译管理系统导入COTI包并导出翻译完成的COTI包,最后内容管理系统导入COTI包。对于Level 2和Level 3(观看视频),这一过程则是自动化的,内容管理系统可直接推送COTI包到翻译管理系统,在翻译管理中完成翻译后,可直接推送回COTI包到内容管理系统。

阅读全文…

翻译Word文件的几个秘诀

Word文件是翻译公司最常见的文件,也是问题最多的文件。但凡使用使用翻译工具(CAT)处理Word文件,就会出现各类问题。通常情况下,这些问题都可以预先避免和处理掉,或在出现后也能予以解决。我们这里谈一谈Word译前处理的几个秘诀。

1. 使用不同版本的文件

Word的来源可能包括MS Office、WPS、Libre Office、Google Office、Open Office等等。最为常见的就是MS Word了。主流CAT工具都能较好地支持MS Word文件。

阅读全文…

article-2184089-1466B186000005DC-963_964x529

Locren.com排重工具PK奥林匹克百米飞人赛

对于商业企业而言,效率就是金钱。我们的排重工具虽然能非常稳定地排重,但是Word导出速度还不够快,尤其是在项目超大时,要等较长时间。

为了提升效率,我们工程师做了不懈努力。这一次,我们将旧的Word导出机制推倒,重新编写了程序,现在,即使项目有几百兆,我们的排重工具也可以轻轻松松在数秒内导出排重后的Word文件,也就是说,项目有数百万字或格式非常复杂导致项目体积十分庞大,我们的排重工具,都能以世界级百米短跑的速度,完成Word导出和排重。

另外,我们排重工具的一项更新是,在导出Word时,为不同的状态标注底色,以方便用户区分不同的状态并参考上下文。

Match status

更多信息,请参考我们的排重工具

都是用Trados,为什么我的项目中标记那么多?

Locren在为很多企业提供技术咨询过程中,不少朋友会碰到这样的问题,“同样在用Trados,为什么我的项目中标记明显多出很多呢?”

这个不是人品问题。答案其实很简单,在将原始文件(Word)转成SDLXLIFF文件过程中,Trados的版本不同,生成的标记多寡会有差异。SDL Trados 2015 SR2中引入了新的Word解析器,若使用这个新的解析器,SDL Trados 2015 SR2中生成的标记会比SDL Trados 2014中生成的标记少。

例如,在SDL Trados 2014标记情形如下:

<cf>1. <cf><cf>This is a test.

在SDL Trados 2015中将无任何标记:

1. This is a test.

阅读全文…

为什么同样的项目排重效果有很大差异?

为什么同样的项目,排重效果有很大差异呢?这个要从CAT的原理说起,CAT默认情况下解析文本都是以句为单位,即通过判断句号、问号、感叹号等标点来拆解文本。那么在实践中,可能句子结尾处并无标点符号,例如:

例子1
1.    This is a test
2.    This is a test
3.    This is a test


例子2
1.    This is a test
2.    This is a test

在CAT解析时,例子1和例子2可能会分别被视为一个句子(TU),这样例子1和例子2不会被视为重复,而且例子1和例子2中实际上文本也是重复的。

如果这样类似结构的段落重复几万次,那排重效果会极差。

阅读全文…

Office文件字数批量统计工具

我们知道Word是统计中文字数的标准,统计单个Word中文文件很简单,但是要批量统计上百个中文Word文件,就变得麻烦起来,您可能需要挨个打开文件计算字数。至于Excel和Powerpoint,则根本就没有字数统计功能。

CAT或其他独立的第三方工具可以统计MS Office文件字数,但是统计中文、日文和韩文字符字数不准确,或者说和Word存在明显差异。要正确统计中日韩字数,还是以Word为准。

今天,我们发布了一款Office文件字数统计工具,可一键批量统计Word、Excel和Powerpoint文件字数。它直接使用Word内置统计功能,支持所有语言,包括中文、日文和韩文。适用的格式和Office版本包括(2013和2016也应可用):

阅读全文…