字幕句子都是断开的,怎么做机器翻译?

大家知道,视频字幕长度是有限制的,例如,若字幕为中文,则通常每行字数不能超过14个字,因此在字幕翻译文件中,句子往往都是断开的,譬如下面示例:

1.
通过使用云端协作方案
2.
可以解决语料库
3.
项目信息共享等协作问题
4.
这些解决方案包括Trados GroupShare
5.
Memosource, MemoQ Server等等

如果句子断开了,那么制作出来的机器翻译结果往往很差,换言之,机器翻译的参考性较低。只有将断开的句子全部合并回完整的句子,那么出来的机器翻译才具有更佳的参考性。

当然,我们可以手工合并断开的句子,这样效率比较低,为此,我们专门开发了一个小工具Caption Unbreaker,可以一键将所有断开的句子合并成完整的句子。

Caption Unbreaker是字数分析工具的一部分,所有字数分析工具用户皆可免费获取它。

Caption Unbreaker搭配我们的排重工具使用,首先使用排重工具,加载全部翻译文件,然后使用排重工具,导出一个去重的双语Word文件。

接着使用Caption Unbreaker加载该双语文件,一键将全部断开的句子合并。

最后使用CAT工具处理合并的文件,然后使用我们的机器翻译工具获取谷歌、Deepl或有道的机器翻译结果。