把AlphaGo的自我对弈模式用到机器翻译中,Atman的目标是用机器取代人工

石亚琼2016-09-21
Atman 做了一个微信公众帐号 ,但文章基本都不是人写的

当不少翻译类创业公司在讲机器取代人工有点早的时候,从微软亚研院离职的创业团队 Atman 做了一个微信公众帐号(帐号名:Atman机器翻译)。早期内容基本都是简单的时政新闻,最近开始涉足科技领域,乍看并无亮点,但译文内容都出自机器之手,不少是纯机器翻译的。

内容创业热之下,Atman并不想做一个“哗众取宠”的内容平台博眼球。Atman告诉36氪,这个公众号只是顺手做的,也没有投入专门的人力,只是想通过这种方式向外界展示公司的技术成果。

Atman目前重点在做时政领域,其机器翻译模型进行BLEU评分测试(国际上通用的客观评测机器翻译质量的指标),分数达到了52.53分,要高于微软、Google、百度等知名大公司。一般说来,在一个专业领域,人工翻译的得分在65-70分之间。

数据量、算法模型设计、计算力是影响AI算法的三个关键。Atman在“建模”和“数据使用”方面,都进行了创新,这些算法还是目前论文中没有提及的,因此暂时还不方便对外公开。

各家都在的想办法提高训练数据量时,Atman并不是想反其道而行之,而是想最大限度的提升数据的有效使用率。一般来说,直接的训练数据主要来自相关数据库、 公开信息,公开信息噪音有可能会比较大,相关的数据库价格有比较昂贵。提升数据的使用效率,就能降低前期投入的时间与金钱成本。因此,Atman借鉴了AlphaGo的自我对弈模式,通过生成模型和评估模型之间的博弈,提升数据生成质量,并从数据点云中挖掘更好的翻译数据。

目前Atman的主攻领域是时政, 有些新闻已经可以做到纯机器翻译。Atman告诉36氪,做到这个结果,主要只使用了联合国官网的新闻素材进行模型训练。36氪也查看了时政英文翻译的结果,具体结果如下:

(注:图为Atman的翻译结果)

(注:图为百度的翻译结果)


(注:图为Google的翻译结果)

(注:图为微软Bing的翻译结果)


Atman告诉36氪,从时政领域拓展到其他领域并不难。这是因为团队做了通用的模型,其他领域也可以基于现在的代码框架,在进入的新领域新语种语料数据充足的情况下,可在两周时间内,以人工成本接近零的方式获得性能良好的翻译模型。

之所以做到这一点,与团队过去的背景和经历十分相关。团队所有的开发团队成员来自于微软。团队成员都有大数据和大搜索的相关背景,在构建超大规模在线服务方面积累了经验。CEO马磊在微软研究院和微软搜索技术中心都供职过,担任Cortana及相关产品架构师,专长是机器学习。CTO刘炜毕业于北大电子系,在微软时加入的就是搜索引擎的相关性团队。

基于机器翻译结果以及对新垂直领域的快速扩展能力, Atman 想要同时拓展C端和B端用户。其中,面向C 端用户,建立了一个“量子镜”的项目计划,目标是精选国内用户会感兴趣的国外高质量内容网站,提供机器翻译后的中文内容,获取粉丝人群。官方表示,按照目前单机的翻译速度,镜像一个百万文章级别的内容网站,需要一个月左右时间。

在B端会主要面向对某个垂直领域有特定翻译需求的客户,通过机器翻译,帮助这些企业提高效率,减少人力开支。同时,团队还在计划开发智能的CAT软件,以辅助B端客户做最终的人工校对。目前已经有一批合作伙伴,预计三个月内会有合作方使用相关的服务。

现阶段机器学习的应用在各行各业。马磊透露, 之所以选择从机器翻译切入,主要是基于三个判断:①跨越沟通的语言障碍是人类的基础需求之一;② 深度机器翻译技术在未来的3-5年将有重大突破;③ 即使进入人工智能时代,机器翻译依然有巨大的市场空间。北极光的投资人张黎也表示,在做了大量研究之后发现,翻译是目前深度学习技术在自然语言处理领域最确定会产生系统性突破的方向,而且市场需求也是很大的。根据中国翻译协会统计,截至2015年,语言服务业存量产值2600亿,年均增速15%,并预测2020年将达到5461亿。

Atman 在2016年6月18日正式运营,已经获得来自北极光的天使轮融资。目前团队正在招聘各方面的人才(corp@atman360.com)。


 

 


+1
0

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

文章提及的项目

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业