合聚咖

合聚咖

谁知道如何批量去除双语语料库中重复出现的语句啊

admin

语料清洗和去重。翻译记忆库中是否掺有杂质对记忆库质量影响很大。大量的杂质还会导致调取记忆库的速度变慢,因此要对杂质进行清洗。

例如原文与译文完全相同的条目,例如纯数字或者符号。需要进行清洗。

此外记忆库中完全相同的条目,只保留一条即可。

记忆库中的句子应是标准译法,因此对于一句多译的情况请予以避免。

利用Tmxmall在线对齐可以在制作记忆库之后将这些杂质批量过滤出来,可以进行一键去重等等操作。挺好用的。网页链接