搜索

发布全球首个“AI合成主播”,斩获IWSLT2018大赛全球第一,搜狗语音发展如何?

瑞雯@超人学院 · 2018-11-07
拿了第一的搜狗语音技术团队

在今天乌镇的第五届世界互联网大会上,搜狗联合新华社发布了全球首个合成新闻主播“AI合成主播”,“克隆”出与真人主播拥有同样播报能力的“分身”,应用于新华社中英文客户端等产品。

据了解,“AI合成主播”提取真人主播新闻播报视频中的声音、唇形、表情动作等特征,运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成,输出视频中可实现音频和表情、唇动自然一致,展现与真人主播无异的信息传达效果。

在前不久落幕的IWSLT(International Workshop on Spoken Language Translation)国际顶级口语机器翻译评测大赛*上,搜狗以1.6个BLEU的领先优势击败了包括讯飞、阿里巴巴,APPTEK(美国应用科技公司)、AFRL(美国空军研究实验室)以及KIT(德国卡尔斯鲁厄理工学院)等国内外多个强劲对手,赢得了2018年IWSLT大赛Baseline Model赛道冠军。

*IWSLT是国际最具影响力的口语机器翻译评测比赛,已累计举办15届。BLEU是一种机器翻译自动评价的方法,是衡量方案优劣的重要指标,其数值越大意味着越准确。

IWSLT2018大赛Baseline Model赛道最终结果

搜狗参与语音相关大赛表现

搜狗AI战略是以语言为核心,发展对话、问答、翻译以及语音的自然交互技术。2012年,搜狗着手研究语音技术,进行深度学习技术研发,语音技术接入包括输入法、地图在内的全线产品。2015年端到端的神经网络机器翻译兴起,搜狗入局。2016年8月,搜狗推出了语音交互引擎“知音”。基于知音引擎,搜狗又针对可穿戴设备、车载车间、电视、家居设备等不同场景搭建了技术产品解决方案知音OS交互平台。2017年7月,搜狗推出“智能副驾”产品,用户在使用搜狗地图时,可以全程语音交互;8月,搜狗又推出速记工具“搜狗听写”。2018年搜狗先后推出了两款智能硬件“旅行翻译宝”、“搜狗录音翻译笔”。根据早前披露的三季报显示,搜狗手机输入法日均语音请求量达到5亿次,是国内最大语音应用。

36氪采访了搜狗语音技术的研发团队,以下内容经36氪编辑,有删节:

Q:在语音识别上,讯飞很早就进入了,搜狗能够快速地做起来,背后是什么样的原因?

A:讯飞是我们很尊敬的一个公司,做得很细致也很扎实。但是语音识别技术在2010年之前,都是基于GMM-HMM的理论框架来构建整个系统,期间技术是在稳步提升,不断迭代,但是缺少技术变革,无论是公司还是研究机构,在模型训练、技术落地的差异性非常强依赖于经验和技巧。2010年之后,深度学习技术快速变革了语音识别技术,搜狗在2012年在线上将语音识别声学模型替换成深度神经网络之后,错误率快速下降了30%以上,这个提升非常巨大也给了整个行业后入者很好的机会,可以快速地实现弯道超车。 

此外在数据上,搜狗比讯飞还要多,我们输入法的语音识别峰值请求量已经达到了5亿次,而深入学习技术特别适合数据发挥威力,结合模型、数据,搜狗在整体能力上是不输的。另外就是经验和人才,搜狗对人工智能投入一直很大,我们团队同学都非常棒,也非常有热情。这几点使得了搜狗在语音识别能力上有突飞猛击的提升,另外很重要的一点是,搜狗是做2C产品的公司,我们很注重技术和产品的结合,核心要为用户体验负责,所以我们持续结合实际场景中的问题,细致打磨,持续迭代我们的能力,因此语音识别这件事搜狗一定可以做好。 

Q:今年看到很多公司都开始做同传了,包括BAT,搜狗在语音翻译技术落地方面有什么新的进展? 

A:搜狗目前在语音产品上有很广泛的布局,已经在搜狗各项产品中上线,搜狗输入法大家可以用到我们的语音翻译、文本翻译的能力,已经上线很久了,另外在搜狗的浏览器、搜索上都可以实现从文本翻译到语音翻译的完整能力。除此以外,搜狗还在拓展语音翻译的业务边界,围绕出行旅游的领域,搜狗推出了旅行翻译包和翻译宝Pro的翻译硬件以及搜狗翻译App,另外我们面对大会演讲和培训,推出了搜狗同传和录音翻译笔。此外我们也在不断地对外输出我们的语音翻译能力,目前正在和VIVO、OPPO有语音翻译的技术合作,技术上我们也在不断迭代,除了未来会有具有语音翻译功能的硬件发布,也会探索同传怎么能更多普惠到大众。 

Q:翻译这块是大家很期待的,但最近有一些事情让大家比较失望,您觉得从技术角度什么时候可以做到代替同传呢?

A:这个问题我们内部也讨论过。同传这个事到底什么时候可以超过一般的同传?我们预估需要3-5年的时间,需要在技术上不断发力,力争做到达到基本同传能力。从我自己来看,目前我们在做的是希望怎么能够更好地将同传普惠到大众,不断扩展同传的应用场景,同时降低同传的成本。从技术的发展阶段看,一定是人独立做同传、到人和机器有效结合在一起,最后到机器能够独立有效的承担复杂的同传任务。

 我们跟很多同传老师都做过沟通发现,一个成熟的同传用不到机器,因为他在听、在说,有时候还得记,你这时候再给他加一个屏幕,说你看我的译文,我翻得特别好,他是没有时间看这个东西的,因此去颠覆成熟的人工同传行业是很难的。目前我们面向人机结合的想法第一是先给正在进行同传学习的人提供帮助,比如特定行业的术语库参考,希望能够探索人机有效配合的产品模态;第二是降低目前人工同传的成本针对能力不足以独立进行同传的人员,让人和机器协同合作共同做好翻译这件事,而不是“要他没我,要我没他。

Q:目前搜狗在语音合成(TTS)上的发展规划和主要难点?

A:搜狗TTS目标是做到个性化和富媒体化,个性化是指根据每个人的音色特点做到低成本快速的定制;富媒体化是指仅输入文本就可以合成音视频结合的内容。合成的主要难点一方面是如何降低模型对于数据质量的要求,目前录音棚录制的数据对于合成品质至关重要,如果使用网络抓取的数据、噪声环境的数据等,合成质量下降非常明显,这个会大大拉高C端用户个性化定制音色的成本。此外目前合成还原音色的能力已经非常强,但是如何更好保留发音人的情感、韵律、风格等,仍需要持续打磨和算法迭代,这部分真正可以商用的成熟算法还没有,我们团队也正在这些方向上不断迭代。

+1
3

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

文章提及的项目

阿里巴巴

智能投

下一篇

以及,印度“微商”Meesho 完成5000万美元融资,顺为资本参与投资​;印度最大本土资本 Aavishkaar 计划为东南亚基金募资3亿美元​

2018-11-07

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业