深思考人工智能CEO杨志明:多模态语义理解,是机器能否实现智能的关键 | WISE 2019超级进化者大会

未来一氪 · 2019-07-12
如何做到听懂和看懂,这是多模态语义理解要解决的问题。

7月9-10日,36氪在北京和上海同步举办“2019WISE超级进化者”大会,活动设有七大会场,关注企业发展变革路径、行业风向把握、零售行业的进击与蜕变、万亿企业服务市场的崛起、产业创新机会、全球化趋势与差异化需求的爆发逻辑等议题,邀请超百位行业领袖,聚焦那些引领行业变革的超级进化者的崛起之路。

细心、周到、有同理心,这或许是人们对未来机器的想象。然而目前看来,我们距离这种理想状态还有差距。在AI领域中,语音识别、图像识别和语义理解与机器的智能化息息相关。相对于语音识别和图像识别的大规模落地,语义理解的落地目前还处于推进过程中。深思考就是一家专注于多模态语义理解的公司,这家公司未来的目标是做万物互联时代每个终端的大脑。在深思考人工智能CEO兼AI算法科学家——杨志明看来,目前人机对话的体验远远不够,背后缺的就是多模态语义理解,而拥有多模态语义理解相关技术的深思考,已经在汽车、智能家居、医疗早筛等领域实现产品突破。杨志明认为,未来还会有更多、更前沿的应用出现。

深思考人工智能CEO杨志明:多模态语义理解,是机器能否实现智能的关键 | WISE 2019超级进化者大会

以下是演讲正文:

大家好,非常荣幸分享一下深度思考人工智能在AI语义理解的规模化落地。

我们聚焦在多模态语义理解技术。AI分三个领域,语音识别、图像识别和语义理解。在学术界大家认为语义理解是人工智能最后的一个皇冠。目前语义理解最前沿的阶段叫多模态语义理解。就像人去看电视一样,人是同时看着画面、听着声音、看着字幕来综合理解,人脑就是多模态理解。我们专注于多模态语义理解技术,我们是语义理解赛道的企业。

今天分享一下,人工智能语音识别、图像识别已经实现了大规模的落地,语义理解如何像图像识别和语音识别一样大规模快速落地。

介绍一下深思考:深思考最擅长多模态语义理解,在短文本理解方面,聚焦在人机对话上,目前在国内中文上下文评测是冠军;在长文本机器人理解方面,拿了全世界的第一名。团队来自于中科院和清华大学的AI一线科学家。我们未来的目标,是做5G时代或者万物互联时代每个终端万物理解的大脑。我们的产品就是多模态深度语义理解引擎。语音识别能解决听见的问题,图像识别解决看见的问题,那如何做到听懂和看懂,这就是多模态语义理解要解决的问题。

介绍一下深思考落地产品。现在深思考通过To B战略,快速把多模态语义理解的引擎和产品快速落地。我们主要应用在汽车上,汽车有智能车联网数字座舱,用在智慧营销,帮助汽车用户进行自动建档、智能跟踪,帮助汽车主机厂分析潜在客户,提高销售成单率。用在医疗健康,用多模态语义理解的技术来做癌症早期筛查。在智能家居,实现健康营养、人与家庭和设备的人机交互。另外依托于2亿部智能终端手机场景做手机和人的交互。

深思考人工智能CEO杨志明:多模态语义理解,是机器能否实现智能的关键 | WISE 2019超级进化者大会

介绍一下第一个落地场景,就是智能车联网数字座舱。传统汽车开车的时候就是驾驶室,驾驶室里有各种仪表,目前有很多汽车有大屏,这是传统的。有些厂商做语音识别,有一块屏做交互。在汽车发展过程中,在自动驾驶不断发展,智能车联网不断发展情况下,座舱发生了改变,我们称之为数字座舱。意思就是不再是一个简单的驾驶室,而是成为汽车在驾驶过程中的一个中央多模态信息的汇聚地。比如智能车联网场景下,汽车跟道路基础设施之间、汽车跟汽车之间、汽车跟互联网都能够做信息的连接和交互。汽车本身装了一些系统,通过视觉对车外的环境做感知与理解。很多汽车内部有很多传感器,比如温度传感器、有语音信息输入。在智能车联网有很多模态的信息,有手势的模态、语音的模态、图像的模态。数字化场景下这么多模态信息如何汇聚起来做综合理解,提供给人做互动,我们提供多模态语义理解与人车交互大脑。

我们用在车内,第一能对多模态信息进行理解,第二可以在座舱环境下实现人、车和家庭的连接。在汽车里面,对于一定的商务汽车,可以通过人车对话做智慧办公。另外我们还实现了RPA,传统的人机对话只是实现问答式,我们加入RPA自动软件机器人,不光跟你做人车对话,而且能够自动帮你完成一些事情,比如预定会议室、和家里的设备做联动、执行。在智慧驾驶场景下处理业务、家庭场景下进行健康咨询,也可以融入数字座舱的应用里。

第二个是汽车智慧营销场景。汽车里面,有用户的对话信息、线上咨询信息等等,我们把它综合起来做多模态语义理解。最后对用户进行自动建档、跟踪,以及大数据分析,为主机厂商销售提供闭环的大数据分析,以及助力4S店把车销售得更好。

第三,针对手机场景,跟手机厂商做深度战略合作。比如在智慧出行,用手机订酒店、订车票、饭店。像苹果Siri是一问一答式的,但一些事情不是通过一问一答就能完成,中间可能会穿插不同的场景。目前这块我们已经有一些突破,深思考的人机对话技术,不但能够实现上下文理解,还可以做到切换完场景之后,还可以切换回来,帮你自动完成这个任务。

另外在健康咨询这块,很多健康营养非常重要,比如妇女孕期的健康咨询,不用去医院,可以通过人机交互对话的方式,通过手机作为载体,实现健康里面的多模态语义理解和人机对话。

第四,智能家居人机交互场景。目前的对话体验远远不够,背后缺的就是语义理解,就是它能听见语音指令,但不能理解背后的场景。比如年初有一个媒体披露,我要订餐,不要日本菜,结果出来的都是日本菜。比如有一些厂商发布音箱的时候,无法进行上下文理解。说来一首梅艳芳的歌,然后再说换一首歌,就成了其他人的歌。如果用了多模态,就可以实现上下文的指代,说再换一首歌,出来还是梅艳芳的歌。比如调空调温度,传统的语音识别就是调到28度,它可以识别。但是我说,空调有点热,调到适合的温度,这时候就不能理解了。语义理解就可以起到这个作用,了解你的个性化信息和习惯,能够理解大白话。比如“调高一点”,它可以通过语义理解实现最终的意图。

第五,智慧医疗健康领域。

目前已经实现了大规模医疗早筛。为什么语义理解用在AI早筛呢?举个例子,宫颈癌的筛查,里面的细胞异常。单个细胞来看很难看出阴性、阳性或者病变。但是图像跟周围环境和相邻细胞位置关系、排列组合关系,可以判断出是隐性还是阳性。这就是语义理解,就是我能看懂这句话,这个图像背后的含义。

深思考落地的时候,重点关注AI的三驾马车——算法、算力和数据。在长文本的理解上,比如阅读一本书,传统人机对话技术需要搭建知识图谱和问答对。最新语义理解的技术,可以像人一样,看完一本书以后,问你这本书里面的问题。它对这本书里面的非结构化的文本进行多模态理解以后,可以像人脑理解以后再回答问题。人看完一本书去回答一个问题时,不会先整理出一个问答对或者知识图谱。人是凭着大脑的理解,回复别人问的问题。机器阅读理解的基本原理就是这样,在这方面,深思考是具备突出的技术优势的。

深思考具备了非结构化长文本的机器阅读理解,避免了传统语义理解或者智能客服,用大量的人力物力去构建知识图谱或者问答对。我们直接阅读非结构化文本,就像百度搜出来的文本就是非结构化的,一篇文章、一个网页都是非结构化的。

深思考人工智能CEO杨志明:多模态语义理解,是机器能否实现智能的关键 | WISE 2019超级进化者大会

AI语义理解里面的关键点,实现了AI的落地场景的四个闭环。

第一,业务闭环。很多AI厂商提供一个单一的API接口或者某一块算法。这样很难深入到业务场景。我们深入业务场景,解决业务里面的关键问题,提供一站式解决方案,实现业务闭环。

第二,数据闭环。把业务场景下的数据从流入到流出,流入以后AI如何去学习,如何去整理这些数据,如何用这些数据构建AI模型,以及用AI模型更好地输出AI能力,解决产品落地当中的问题,实现数据闭环。

第三,模型闭环。AI模型闭环,AI模型通过半监督、无监督或者全监督学习,不断在线去训练AI模型。模型会在线训练,训练以后,可以以更强的能力去解决问题,用户会越喜欢用。越喜欢用,这个场景积累的数据会越多,就成一个良性闭环。最终还是打造一个产品闭环。

第四,产品闭环。落地时候不管是AI还是CI,最后还是解决用户场景下的服务问题。

总结一下,语音识别是听见的问题,图像识别是看见的问题,深思考主要聚焦听懂看懂的问题。未来随着5G和物联网的发展、产业互联网的发展,要深植与端和中央智能,成为万物互联里面的语义理解的大脑。未来的设备不光能听到、看到,而且能理解你、听懂你、看懂你,更好地为你服务。处处皆智能,万物可对话。

现在落地了大量的服务,像汽车、医疗、智能家居中一些头部客户的需求已经成功落地。

希望大家多多关注深思考人工智能。谢谢大家!

+1

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

下一篇

无人再举大旗

2019-07-12

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业