
亚洲许多区域的经济得到了可持续的、健康的增长,这促进着亚洲地区中产阶级的不断膨胀。译入语为亚洲地区语言或跨亚洲地区语言的翻译需求也将越来越多。
我们人类不大可能独立满足这么大的需求。机器翻译完全符合这一要求,毋庸置疑它将在辅助沟通和加速边境贸易中起到至关重要的作用。
除了一些欧洲公司如Pangeanic、 Applied Language Solutions、以及拥有创新商业模式的新公司如Straker Software和Precision Translation Tools。目前,亚洲已经出现了一些能够提供机器翻译服务的公司,包括亚洲在线、赛迪、东方灵盾(East Linden)、高电社(Kodensha)、 富士通(Fujitsu) 和东芝(Toshiba)。
等待这些和其他从事机器翻译公司的将是一个着实振奋人心的竞争时代。值得注意的是以上列举的公司中有5家把开放源代码工具Moses作为他们技术框架的核心。
作为中国第一大搜索引擎,百度不断增长的比重也是亚洲机器翻译市场不可疏漏的一部分。百度效仿谷歌,致力于稳步发展数据驱动NLP技术和分布式计算。
通过百度框(Box),我们同样可以见证最高效的立足吸引和维护用户的中国产品的诞生。
但任何一个计算语言学家都会告诉你我们需要对机器翻译做出很多改进,才能使其成为亚洲语言翻译的可靠工具。
幸好,目前亚洲地区的机构已在自然语言处理方面取得突飞猛进的进展。这得益于一些亚洲国家可用的基金越来越多,以及越来越多的共识认为即便是对于亚洲语言(包括汉语、日语和韩语)而言,统计数据驱动技术与传统的语言方法相结合将获得人们的认可。
目前,在 ACL1 论文集上发表的、由亚洲(即中国、中国香港、韩国、印度和新加坡)研究人员撰写的论文数量不断增加,其所占比例也由2007年的15%增长为2011年的28%,是这种大趋势的一种体现。
2011年11月份,我有幸参加了 IJCNLP 2011会议, 自然语言处理领域最重要的活动之一),并在大会上发表讲话。在IJCNLP大会上,与会者将有机会观察到来自中国、印度、南韩、东南亚国家、甚至卡塔尔的有关机器翻译研究和其他跨语言技术之间的整合。
我很高兴看到有越来越多的论文谈及了如何扩大针对亚洲语言的机器翻译引擎覆盖面。不包含英语的语言对所面临的巨大挑战之一是缺乏高质量的平行语料库。为了解决这一问题,亚洲地区的研究人员正在对基于合成数据的大量策略进行研究,以人工获取更多的、用于机器翻译的语言数据/平行语料库。主要的三种研究方法是:
1. 通过网上信息搜索开发双语语料库;
2. 利用释义技术创造数据;
3. 使用中枢语言人工生成更多平行数据。
要解决(或至少缓和)SMT覆盖面问题,首要的、最显而易见的方法就是从因特网上获得平行或比较语料库。由香港研究人员(Simon Shi、Pascale Fung、Emmanuel Prochasson、Chi-kiu Lo和Dekai Wu)撰写的论文概述了平行文档搜索系统,该系统可以越过统一资源定位符(URL)匹配而从不平行网站寻找到平行文档,改善搜索回忆。 我惊喜地了解到使用提取的平行句子作为训练语料库的一部分的SMT系统的翻译效果与通过使用人工翻译语料库的、基于Moses系统所获得翻译质量不相上下(基于约4M的句对语料库)。
在阐述释义方法方面脱颖而出的一篇论文是由哈尔滨工业大学和百度(Wei He、Shiqi Zhao、Haifeng Wang和Ting Liu) 联合撰写 的。 这篇论文介绍了释义技术在扩充SMT中的平行语料库方面的应用。此方法于2006年由约翰霍普金斯大学的Callison-Burch首次提出,后又通过添加句子新颖特性进行了扩充,该特性用于帮助选择加入到平行语料中的最新颖的释义假设. 在应用了这一算法后,8M符号的英译汉翻译提高了约一个BLEU点。这个进步在产业方面并不十分显著,但它无疑将激发更多释义技术研究。
释义的另一个途径是使用中枢语言制作合成训练语料库。该途径是一种关键技术,可以解决很多语言对资源匮乏的问题。 另外还有一点也很重要,那就是涉及到亚洲语言时,尤其是当汉语或日语作为译出语或译入语时,所需要的语言数据要比将西班牙语翻译成英语所需要的语言数据多得多。
I2R(新加坡)和西班牙研究人员 (Marta R. Costa-jussà、Carlos Henríquez和Rafael Banchs)及中国 的研究人员(Ming Zhang、Xiangyu Duan、Ming Liu、Yunqing Xia和Haizhou Li)协同撰写的两篇论文证明了当英语作为中枢语言时,中枢结合策略在汉语与西班牙语翻译、汉语与日语翻译方面的潜力。 这两篇论文得到的结论都显示使用直接翻译系统所得到的翻译质量和使用英语作为中枢语言所得到的翻译质量几乎相同。最后,Michael Paul和Eiichiro Sumita(来自日本NIICT)发表了 精彩的演讲 阐述了在选择中枢语言和研究其对翻译效果的影响时应该考虑到的因素。
在IJCNLP遇到的人和正进行的亚洲语言研究深深地鼓舞了我。几乎是我一回到阿姆斯特丹,就带上了在翻译自动化用户协会(TAUS)实验室带的帽子,开始建立英<>汉机器翻译引擎,该引擎使用TAUS数据作为平行语料库的原始资料。 写这篇文章的时候,我们已经建立了32个不同的引擎,这些引擎使用各种数据组合、分割器和工作重排技术。我们期待能在接下来的几周中出版我们的新发现。
- 计算语言学协会年会,是世界范围内计算语言学和机器翻译领域的尖端会议.↑






