搜索

36氪专访 | 第四范式陈雨强:AI落地难?95%的问题出在数据形式上

苏建勋 · 2020-08-27
“我们建设过数据仓库,数据湖,数据中台,可当我们建完这些数据平台,要去落地一个AI应用的时候,研发团队却告诉我们,数据在沉睡。”

谁是第四范式?

在人工智能行业之外,第四范式的面目尚有些模糊。特别是在“视觉识别”几乎成为 AI 代名词的当下,人们惊叹于商汤、旷视等“AI 四小龙”超强的融资能力,也多少听闻 AI 在摄像头、芯片、机器人等场景的落地。

而第四范式所做的 AI 平台,是想将 AI 应用全生命周期的模块“软件化”,让更多科学家以外的角色,实现诸如今日头条“千人千面”推荐机制、百度凤巢营销系统这样的效果。

不过,由于第四范式特殊的技术门槛,加之其效果被隐藏在业务之下,所谓的“AI 平台”,并不容易为人所知。

8 月 20 日,第四范式发布多款 AI 产品,当中核心产品为企业级 AI 操作系统 Sage AIOS,第四范式将其定位于 AI 时代的Windows(操作系统),以实现标准化数据规范、高可用资源管理以及更低门槛的桌面式 AI 管理。

如何理解桌面式的 AI 管理?简言之,就是第四范式想让用户能像使用Office 软件那样使用 AI。在操作页面上,Sage AIOS 以 Windows 桌面式的管理,承接起第四范式数据中台、自动化AI生产力平台Sage HyperCycle ML 等应用,让用户对 AI 平台有更具象的感知。

第四范式 Sage AIOS 展示。图片来源:第四范式

此前,第四范式已经推出过AI 平台“先知系列”,创始人&CEO戴文渊曾告诉 36 氪,通过“先知”产品,即使是公司前台行政,都可以将人脸信息灌入系统,自动生成一套智能人脸识别考勤应用。

这样的理念也是戴文渊提倡的“ AI FOR EVERYONE”(让每个人都能使用 AI),在第四范式的员工手册中,“实现 AI FOR EVERYONE”作为公司愿景被写了进去。

和“先知”不同的是,Sage AIOS 将 AI 产品化的范围,从之前的算法,延伸到了底层算力与上层业务。

在交互上,Sage AIOS 降低了用户使用AI 的门槛,更重要的是,Sage AIOS 还起到了数据治理、资源调度的作用,这恰恰是 AI 落地最大的阻碍。

“我们建设过数据仓库,数据湖,数据中台,可当我们建完这些数据平台,要去落地一个AI应用的时候,研发团队却告诉我们,数据在沉睡。”在 Sage AIOS 的发布会上,戴文渊分享了 AI 落地的残酷一面,“投入了那么多,数据却还没有唤醒,这是我们每天都头痛的。”

图片来源:第四范式

在接受 36 氪专访时,第四范式联合创始人、首席研究科学家陈雨强将 AI 落地需要的数据特性归纳为三点:即时序、闭环和一致(chronological、closed loop、consistent)。

其中,“时序”是指训练 AI 不能使用过于超前的数据,即不能让 AI “偷看”未来数据,以避免算法不准。举例来说,如果你想用 AI 预测早期电影《红高粱》的票房,就不能将后续张艺谋的电影计入算法中,即“不能使用未来的数据”。

“闭环”则是指收集数据的完整性,AI 落地不仅需要业务数据,也需要反馈数据。以媒体行业为例,如果想让 AI 去判断某篇文章的题目取得好不好,不能只给 AI 灌入一个文章库,还要将编辑的修改、文章的阅读量等反馈数据计入其中,才能让机器学习识别出“什么才是一个好题目”。

“一致”则指代获取数据的属性需要保持一致,这不仅指代在数据处理上的编解码、关键词需要保持一致,也需要在数据获取的源头,比如零售行业线上、线下对用户画像的识别,保持一致。

数据的 3C 原则看似是概念,但在落地时,却是实打实影响业务效率的依据。

陈雨强给36 氪举了一个例子,此前百度凤巢系统的广告变现提升率从 10%增长至 30%,就是修复了数据不一致的问题。当用户搜索“苹果”,系统会匹配用户此前的搜索结果,如果用户此前搜的是“华为”,系统就会给用户匹配手机广告;如果用户搜的是“梨”,则会匹配农业类产品。

然而,当时百度凤巢有上百位数据工程师,这样的数据属性调整,在诸如百度这样的大公司是可行的。但对于一般企业来说,是没有这样的经验、人力与财力完成复杂的数据治理工作,也自然无法将人工智能投产乃至规模化应用。

而在资源调度层面,要管理一个人工智能任务需要占用多少内存 CPU,对于业务人员来说是复杂的技术问题,而没有资源调度则会导致算力利用率不高或者过载宕机等问题。第四范式推出的Sage AIOS拥有和Windows类似的资源管理器——HyperScheduler,使AI 集群自动化实现资源配置,让用户不用去操心“打开一个 Word 要占用多少内存”。

这就是第四范式Sage AIOS产品诞生的原因。向上,第四范式数据中台的第一任务是做3C(时序、闭环、一致)的数据治理,陈雨强将这个过程称为“定义好数据形式”,数据形式是对数据治理环节提出的标准,可以供Sage AIOS上的App使用;向下,Sage AIOS通过资源调度提高性能,让算力利用率最大化。最终是为了确保传统企业应用AI的效率和效果。

戴文渊曾是百度晋升最快(三年晋升至 T10)、最年轻的高级科学家,被称为“戴神”,在百度任期之内,戴文渊通过优化百度营销系统“凤巢”,使得该系统变现能力提升了 8 倍,这也让戴文渊看到了 AI 平台的巨大潜力。

如今,成立五年的第四范式,已经将 AI 产品化的范围,从算法延伸到底层算力与上层应用,此次与Sage AIOS同时发布的新品,还有第四范式自动化AI生产力平台Sage HyperCycle ML、线上化智能运营系统天枢以及AI算力平台SageOne。

简言之,第四范式要做的事情,就是将 AI 能力进行高度封装(这个能力包括底层算力、中层算法与上层业务),使之达到低门槛的产品化。

以线上化智能运营系统“天枢”为例,第四范式与肯德基合作了一个名为“Trade Up”的场景,让用户在 App 点餐时快速收到餐品推荐,比如“点了汉堡薯条的话,再加一对鸡翅更实惠”。

“这种算法是基于用户画像做出来的,响应在毫秒级,最终能清楚地看到店面能有多少销售额的增长。”第四范式总裁裴沵思曾告诉 36 氪。

目前,除了最早进入的金融领域以外,第四范式已经将行业范围扩展至零售、制造、民航、能源、政府等传统行业,今年4 月,第四范式宣布完成C轮总计2.3亿美元融资,新战略股东包括思科、中信银行、联想,投后估值约20亿美元。

再早一点,第四范式拿过“中国五大行”及其所属基金的投资,成为迄今为止五大行联合投资的唯一创业公司。金融曾是第四范式最重要的领域之一,而根据戴文渊透露,行业营收占比方面,金融领域目前占第四范式不超过50%的营收,与此同时,新零售和制造业则增长迅速。

+1
4

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

文章提及的项目

百度

智能投

联合投资

未来数据

下一篇

2020年8月26日,苏州信诺维医药科技有限公司(简称“信诺维”)成功完成了10亿元人民币的C轮融资。本轮融资由正心谷资本与国际知名长线基金联合领投,海松资本、中金资本旗下中金启德基金、芯云资本、久友资本、德观资本等多家知名机构共同参与。

2020-08-27

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业