“没有钱的人,总是会被遗忘”,人工智能什么时候能说人话?

刘晓悦@36氪浙江 · 2021-01-19
把握AI语音交互的财富密码。

以前,人们幻想与机器交流,让机器学习人的劳动。

现在,愿望实现了,AI让机器有了人的行动方式和交流,我们却又嫌弃它“笨”。

最近,B站上一位叫做“鹰目大人”的UP主就用谷歌翻译对AI进行了一次随堂测验,翻译了20次《陈涉世家》,其表现让人大跌眼镜,甚至令人忍俊不禁。

比如,AI就把这句著名的“苟富贵,勿相忘”就翻译成了“没有钱的人,总是会被遗忘”;

“燕雀焉知鸿鹄之志”在AI看来竟然是“蝎子给了我一个热烈的拥抱”.........

AI的神之翻译,冥冥中有种“透过现象看本质”的反讽效果,引起了网友们的热议。

近年,随着AI技术的爆发和发展,智能语音技术已逐渐成为人们生活中最普遍的AI交互技术之一,这其中包含了AI语音识别、AI语音服务、AI语音合成、AI语音辨人等应用,几乎在人们生活和工作中无处不在。

尽管AI语音交互技术已在汽车、教育、客服、家居等商业领域有着不错的成绩,但显然,这并不能达到人们对AI语音交互的期望值。

从人到机器学习的过渡,浙江的企业开始思考“机器和人”畅通无阻交流的奥义,是替代人工?还是辅助人工?

AI+语音交互,人和机器交流为何如此困难?

语音交互发展的历史并不短,早在1952年,贝尔实验室就开发了能够识别阿拉伯数字的系统Audrey。1962年,IBM发明了第一台可以用语音进行简单数学计算的机器Shoebox。

在发展了半个多世纪后,AI技术加入,科技巨头们开始重燃语音交互的信心,“畅想”着AI语音交互机器人能完全替代真人交流工作。

讯飞听见CTO苏文畅告诉36氪浙江,AI语音交互的发展是一个从简单场景到复杂场景的过程。语音输入的场景因其场景简单、说话风格简单,最先被突破;接下来是远场人机交互场景;最后才是听见会议系统、智能录音笔等产品的逐步面世,解决了人人交流场景的语音转写问题。

如今,AI语音交互技术的不断升级,场景的拓展,国际巨头开始占领市场,意图成为最“智能”的NO.1。

2018年5月,谷歌在其I/O开发者大会上,展示了令人印象深刻的Duplex人工智能语音技术,当时谷歌现场演示了Duplex语音AI预约理发服务,在与理发店沟通过程中Duplex的那一声“嗯哼”更是技惊四座、惊艳全球,随后谷歌董事长骄傲的向世界宣布:在电话预约领域,Duplex已经通过了图灵测试。

然而,在《纽约时报》记者的测试中发现,在成功预约的4次中,有3次是由人工伪装成Duplex完成的,随后谷歌官方声明,目前通过Duplex拨打的电话中,约有25%由人类完全操作,在其他非人工操作的情况下,有15%的呼叫受到了人为干预。

连“老大哥”谷歌都难逃AI语音交互的“智能坑”。人们开始思考,为什么在语音交互上,机器就那么困难?

从技术构成上来看,AI语音交互技术大致可分为三个层面:“交互层、算法层、数据层”。在一个完整的AI语音交互过程中,由语音识别反馈技术为核心,实现交互层AI与人的交互触达,然后由算法层进行“动态规划”解析,将完整语义下的文字数据拆解为特定的“数据包”,并由算法将“数据包”与已有“语言系统数据”进行精确匹配,从而实现AI对语义的理解并给出反馈。

“以语音转文字为例,它需要从语音训练数据中学习统计规律的技术原理,训练数据的多少对语音转文字的效果有很大影响。此外,影响效果的因素还有口音、噪声、方言等因素,有限的数据库无法覆盖所有场景,对于训练数据没有覆盖的场景,语音转文字效果的高准确性很难保证,这就是为何机器目前还不如人工。同时,除语音转文字之外,AI语音交互涉及的其他技术也大多需要从数据中学习统计规律,同样无法做到100%准确。”苏文畅说。

也就是说,最难突破的点主要在于如何构建一个鲁棒(Robust)的系统,在更广泛的场景中使用。“语言系统”数据库的完善程度重某种意义上决定了整个语言交互系统的完成度,这也是技术上难度最高的一环。

背靠云计算、大数据,浙企怎么做AI语音交互

目前,浙江正着力发展AI语音交互市场。

据浙江省数字经济联合会组织编制的《人工智能产业2020(浙江)》中显示,2019年,浙江省人工智能产业共有企业482家,实现总营业收入1987.37亿元,形成千亿级规模。

同时,加速在安防、金融、零售、交通、教育、医疗、制造、健康等场景实现落地应用,涌现出一大批以阿里巴巴达摩院海康威视、浙江大华、依图等企业为核心的数据处理、语音视频、深度学习、计算机视觉、智能交互领域的重点企业。

其中,AI语音交互专业级市场的快速增长,除了依托深度神经网络算法技术的大幅度提升之外,5G的技术革新,也为同和通信服务和信息服务带来了巨大的增量市场。

在“2020云栖大会”上,阿里巴巴达摩院公布了语音AI技术的新突破:端上语音识别和语音合成能力,首次达到媲美云端的水平,这意味着未来个人用户在移动终端就可轻松体验逼近真人的语音技术。

杭州实在职能CEO孙林君认为,AI语音交互的核心是让机器听懂“人话”,成功的关键因素在于强劲的技术支撑、充足的语料积累及丰富的场景土壤。

图像与语音在人工智能企业中发展较快,其中,智能客服成为人工智能技术较早实现商业化落地的行业,是人工智能在语音领域的主战场。同时,更贴近真实使用场景的语料库也为语音识别提供了大量有效素材,大幅度提升了AI语音识别产品及服务的用户体验度,底层驱动力的提升,保证了商业市场的强劲势头。

如果算法是 AI 语音技术的引擎,那么数据就是燃料,目前最为棘手的语音转化问题之一,就是方言。

“针对每个场景进行语料收集,那将花费大量的人力及时间成本,我们做的,是通过迁移学习技术,对基础语料数据和标注数据进行预训练建模,在基础模型上加入垂直领域的少量场景数据后进行调优,就能够方便、快捷地得到高质量的模型,保持快速的产出,以满足客户的需求。”孙林君告诉36氪浙江,“同时,通过‘AI+RPA’技术打造的广泛应用于各行业的智能软件机器人,即‘数字员工’,把人类从低效的工作中解脱出来。”

目前,“数字员工”已被投入到金融、财税、物流等政企单位,在不同的应用场景下,实现人机协同办公。

AI交互市场升级,专家看好虚拟现实

针对中国AI交互市场的商业收入规模,沙利文研究院绘制做了预测分析,预测指出,2020至2024年,消费级市场总额预计提升12%,专业级市场提升24.9%。

腾讯研究院高级研究员曹建峰告诉36氪浙江,“目前,AI语音交互主要集中在个人语音助手、语音客服、智能音箱等场景应用。随着AI语音与深度合成(deep synthesis)、自然语言处理、数字虚拟人等技术的深度融合,数字虚拟人在电影制作(虚拟明星)、演绎演唱(虚拟歌手)、教育教学、社交娱乐等领域将爆发出很大发展潜力,带来全新的数字交互形式,成为虚实集成世界的的重要一环。”

未来,有了AI语音识别和机器翻译的加入,将进一步打破语言交流障碍,发展更多元的人际关系和线上互动。

随着数字虚拟人技术的发展成熟,将其与VR等技术结合,将带来前所未有的社交体验。(作者:刘晓悦、榆木)

发现未来独角兽,项目BP发过来!

如果你的项目足够优秀,希望得到36氪浙江的报道,参加36氪浙江的“未来独角兽活动”,请将你的需求和BP发至36氪浙江项目征集邮箱:zhejiang@36kr.com,我们会及时回复。 

36氪浙江——让浙江创业者先看到未来!

+1
15

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

下一篇

传化化学的有机硅整理剂年销量排名全国前二。

2021-01-19

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业