别笑,雅虎也有人工智能的秘密武器

joyceuni · 2016-02-29
又一个科技巨头与世界分享它的人工智能成果了 。

编者按:本文作者Klint Finley。

又一个科技巨头与世界分享它的人工智能成果了。2月24日,雅虎公布了CaffeOnSpark人工智能引擎的源代码,从学术研究者到大公司员工都可以使用或修改。 

也许近年来很少人了解雅虎在科技界的实力。它孵化了开源项目Hadoop——被Facebook、Twitter和许多其他公司广泛使用的数据分析平台。Hadoop对于人工智能有特别的价值。数据和算法对训练人工智能系统同样重要,而雅虎拥有最有意思的数据库之一——图片站点Flickr。 

和许多新的开源人工智能项目一样,CaffeOnSpark以深度学习为基础。深度学习是人工智能的一项分支,对帮助机器识别人类讲话、图像和视频内容用处尤其大。比如雅虎利用它测定不同图片的内容,来优化Flickr的搜素结果。雅虎不是依赖上传图片的人所输入的描述和关键词,而是教会计算机识别图片的某些特点,比如特定的颜色、甚至动物和物体。 

几个月来,谷歌开源了它的深度学习框架TensorFlow,微软开源了它的类似框架CNTK,脸书开源了它的人工智能硬件设计,中国搜索引擎巨头百度开源了它的深度学习训练软件代码。 

这些开源各有侧重。雅虎想在现有的系统上运行深度学习进程,不必把数据从一个地方移到另一个地方。雅虎的构架副总裁Andy Feng解释,训练一个深度学习系统识别图片需要巨大的数据量。比如你把大量猫的图片交给算法处理,最终机器会“学到”猫的共同特征,从而有能力分辨包含猫的照片和不包含猫的照片。

Flickr拥有几十亿张照片,有充足的图片类别来训练人工智能。但团队不想把所有Flickr主服务器的图片复制到新的运行深度学习软件的服务器集群中。因此他们发明了在现有的基础架构中运行深度学习软件的途径。

CaffeOnSpark,从名字可以看出,它将两种现有技术结合起来:广泛流行的深度学习框架Caffe和后起之秀数据分析系统Spark。雅虎创造了一种可以在Spark集群上运行Caffee的方式。它可以在Spark上单独运行,也可以在Hadoop上运行。Feng说,除了简化人工智能开发者对类似工具的操作,避免把数据搬来搬去,CaffeOnSpark还使在多个服务器上分配深度学习进程变得相对容易,这是谷歌的TensorFlow所做不到的。 

Feng表示在团队发布一条关于软件的长文后,很多公司要求雅虎开源CaffeOnSpark。看来有许多机构都不想把服务器集群上的数据移来移去。

+1

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

下一篇

跨境支付的实现难度不是很高,但持续服务的运维能力很重要。

2016-02-29

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业