专注语音合成前端技术,「标贝科技」完成千万级人民币Pre-A轮融资

孟小白 · 2017-11-03
从音库的源头解决语音交互不自然的大问题。

专注语音合成前端技术,「标贝科技」完成千万级人民币Pre-A轮融资

语音是人工智能和人类的一种主要交互方式;所以AI不仅要有足够聪明的大脑,也需要有足够的表达能力。语音交互包含三个方面:听得清(语音识别)、听得懂(语义分析)和说得好(语音合成)。这些年在科大讯飞的带领下,中文语境下的前两者进步明显,但是语音合成的部分,我们作为普通用户还是能感觉出大多数机器声音听起来并不自然。即便有些人认为我们有可能会逐步习惯“机械感”明显的发音,但是如果让我在前者和电影《Her》中斯嘉丽约翰孙配音的语音助手中选择,我会毫不犹豫地选择后者。尤其是当我们与人工智能交互的需求超越了百科问答的范畴之后,更加符合场景或者产品调性的声音是用户体验的重要组成部分。

36氪在《如何让机器说话更自然,有情感?》一文中介绍了语音合成常用的波段拼接和参数合成两种方法,但是这篇报道要介绍的「标贝科技」更加关注语音合成前端的音库质量和技术问题。为了让语音更加类人,标贝科技认为要从源头的问题抓起。

首先,从音库质量入手。标贝科技认为不同的产品需要不同的音库,举个简单的例子,我希望夜晚为我读书的声音是温柔的,但是倘若音库本身采集的是播音员字正腔圆的声音,无论对数据如何处理,都很难产出匹配产品调性的声音;而风格只是标贝科技重塑语音库的一个元素。

大量语音库在标贝科技看来是没有太大意义的,他们需要精准的数据。为了采集合适的人声,标贝科技的数据专家需要和发声人做大量的前期沟通,设计包含尽可能多素材的语料,指导发声人的说话风格、语调和停顿方式等,还需要监听环节对发声人不同的片段进行对比、确保风格一致。采集完成后,团队再对音字、韵律和音节音素进行标注。

但是,即便技术优秀,作为一家小企业如何拿到大公司的订单呢?标贝科技凭借10年以上语音合成的经验,为客户的语音产品做免费评测,分析出合成语音不自然的原因:可能是音库质量不佳、数据加工的问题、前端模块或者后期算法的问题。通过免费和专业的测评让潜在客户认识到自己的技术和专业能力,标贝科技获得了百度、滴滴、腾讯、喜马拉雅小雅音箱、芋头科技Rokid、Roobo机器人、暴风、出门问问等众多大客户,并保持长期稳定的合作关系。

标贝科技的核心竞争力得益于他们对前端音库和技术的关注,以及他们在数据和产品结合方面的经验。团队的技术合伙人在人工智能完全没有进入大众视野的2002年,就开始从事语音方面的研究工作,曾就职于百度,并获得百度语音合成TTS最高奖,从事语音行业十五年,有着丰富的项目经验。

专注音库和前期技术服务的语音公司并不多,所以标贝科技把市场定价权掌握在自己手里。公司的盈利方式有两种:一种是直接向采购方售卖标贝科技的自有语音库;另一种是为企业提供定制音库以及整体的语音解决方案,正如上文中描述的。成立于2016年2月,标贝科技在半年内收回全部前期投入,实现盈利;今年至今,30人的团队已完成了近2000万人民币的营收。

2017年10月,标贝科技完成千万级人民币Pre-A轮融资,接下去会把重心放在语音合成\TTS业务的规模的深入和扩大。之前的发展模式上限明显,整体解决方案不是标准化的产品,因此难以在规模化的同时,实现边际效益递增。所以在标准化和规模化的方向上,标贝科技有可能开发标准自有库,企业可以更方便地使用标贝科技合成语音库,迅速投入研发。

+1

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业