搜索

Siri的前世今生(三)

新用户15808 · 2013-01-28
对于硅谷的寻梦者而言,虚拟助手犹如希腊神话中的海妖塞壬,无数科技精英被她美妙的歌声所吸引,踏上追求人工智能的航程,却终究难逃折戟的命运。 1994年,电话助手“Wildfire”问世,它能处理短信、来电并及时检索语音信箱。Wildfire一度吸引了大量关注,但最终却没能火起来。几年后,微软办公助手Clippy诞生,本想成为白领的办公助手,最终却入选时代杂志“最糟糕的50大发明”榜单。1998年,General Magic声称其声控助手Portico可以连接手机和因特网,还可以完成读邮件、发短信工作。四年后,该项目被迫关闭,公司申请破产。

对于硅谷的寻梦者而言,虚拟助手犹如希腊神话中的海妖塞壬,无数科技精英被她美妙的歌声所吸引,踏上追求人工智能的航程,却终究难逃折戟的命运。

1994年,电话助手“Wildfire”问世,它能处理短信、来电并及时检索语音信箱。Wildfire一度吸引了大量关注,但最终却没能火起来。几年后,微软办公助手Clippy诞生,本拟成为白领的办公助手,不料最后却入选时代杂志“最糟糕的50大发明”榜单。1998年,General Magic公司称其声控助手Portico可以连接手机和因特网,还可以完成读邮件、发短信工作。4年后,该项目被迫关闭,公司申请破产。

2007年秋天,伴随更快捷的无线传输,更成熟的语音识别技术,加之云计算的崛起,iPhone的问世以及一系列新型网络服务的涌现,一个属于虚拟助手的时代终于到来。

迁往半月湾的SRI小组(Kittlaus和Cheyer等人)预见到iPhone的触屏设计将成为新的行业趋势,因此,他们决定顺应时代潮流,设计一款针对iPhone的声控助手应用。

这支SRI小组有一项优势,那就是他们能利用CALO的技术。1980年的国会法案规定, 创业公司可以经由分给SRI股份来使用CALO项目的核心技术。

起初,Cheyer对于将CALO的研究变成商业项目的可行性还心存疑虑,但Kitlaus “创新灵魂伴侣”的构想打动了他。终于,一家名为Siri的公司应运而生。Kittlaus任CEO,联合创始人Gruber和Cheyer分别任任技术总监和副总工程师。

之后,这个三人团队开始招募员工。他们要求每位应聘者阅读麻省理工学院教授Michael Dertouzos的著作《The Unfinished Revolution : How to Make Technology Work for Us - Instead of the Other Way Around by》,该书的主旨是“以人为中心的计算”以及“设备应当服务人类,而非人类服务设备”。如果应聘者不赞同Dertouzos的理论, Siri 就不会接纳他。

Siri公司要求每位员工在其办公桌上放一张最能激励自己的人的照片。Cheyer桌上照片中的人正是信奉“people first”准则的Doug Engelbart。

2008年,Siri公司拿到了850万美元投资,而紧随其后的几个月,他们就取得了“惊人的突破性进展”,Siri早期的投资人Morgenthaler说。另一位早期投资人,来自Menlo Ventures的Shawn Carolan也回忆到:“每一次开董事会,都有重大突破。”

开发团队为了让Siri能准确的理解、翻译和回答问题,对它进行了严格的人工智能训练。Siri在收到一个提问请求后,会在远程数据中心处理信息,然后将提问者的语音发送至服务器,再经由语音识别软件将其转换成为文本。

之后,Siri就需要对这段话进行理解了,也就是计算机专家所说的 ”自然语言处理“过程(详见百科词条)。人们提问的方式是多种多样的,比如“我想吃面包”,“附近有面包店吗?”,“要是能来点法国点心就好了”,这三句话讲的都是一个意思。对我们人类而言,这是显而易见的,但要让计算机也把这几句话理解成同一个意思,则需要一套非常复杂的算法。

传统的自然语言处理方法是对句子的各个部分进行分析。但Siri采用的则是Cheyer及其同事设计的新方法,即不再对语言概念进行建模,而是对真实世界的物体进行建模。比如对Siri说“我想看恐怖片”,它就会迅速将“恐怖片”一词解读为为电影的种类之一,然后为你推荐相应的电影,而不是像传统方法一样去分析这个句子的主谓宾。

Siri可以把问题中的具体内容跟与内容相关的潜在行为相匹配,然后基于它对内容和真实世界概念的理解采取适当的行为。具体说来,当你让Siri推荐餐馆时,它会根据你的个人口味、所处位置以及用餐时间,为你推荐餐馆(包含评分、口味、位置、价位在内的相关信息)。

想象Siri是一家星级酒店的concierge (礼宾员)。当你在嘈杂的酒店大厅中问他“closest coffee shop(附近的咖啡厅)”时,他很容易听成“closest call Felicia(呼叫附近的Felicia)”。但礼宾员知道“closest”一般用来形容地点而非人物,因此他会推测你可能是想找个吃饭的地方,进而把你的问题理解成“想要一杯卡布奇诺”。Siri也是一样,它被设计成不需要听清每一个词,也能根据句子的关键词来判断用户需求。此外,Siri还支持文字输入提问,以避免嘈杂环境的干扰。

为了生成一张咖啡馆的清单,Siri需要访问来自40多家网络服务的数据,这就好比Siri是一个大脑,而这些网络服务是大脑中的脑叶。以往的虚拟助手都被训练成某个特定领域的行家,但Siri则是个万事通,它唯一要做的就是接入许多互联网公司提供给第三方的API接口。

在Siri开发者最初的设想中,虚拟助手能处理无穷多样的任务。他们为Siri设计的架构允许其接入无限多个网络服务的API,让他们来为Siri这款“do engine”添枝加叶 。

但他们同样也意识到,这款虚拟助手要想取得真正意义上的成功,光有聪明是不够的,它还得幽默、臭屁、有人情味儿。

Kittlaus和Saddler还脑暴(头脑风暴,brainstorming)了许多用户可能会问到的各种古怪问题。他们甚至想过给Siri准备几个不同风格的语言包,让用户可以依照自己喜好对Siri进行改造,使Siri嘴巴更甜或是脸皮更厚。设计者希望Siri最终能够模仿用户的个性,比如你若对Siri说”今日这天儿也算风和日丽,妾身打算出宫游玩一番,却不曾想竟自怀念起蛋糕的美味来。” Siri想必会这样回应:“前方第二个岔道口右转的一家点心店,里面的蛋糕是极好的。厚重的芝士配上浓郁的慕斯,是最好不过的了。你若愿多品几口,虽会体态丰腴,倒也不负恩泽。”(╮(╯▽╰)╭)

2010年初,Siri 作为iPhone上的一款独立应用发布。三周之后,Kittlaus接到一个陌生来电——一个他差点因为自己的iPhone屏幕故障而错过的来电。

来电的人正是史蒂夫·乔布斯。他想次日约见Kittlaus。

在乔布斯位于Palo Alto的家中,Siri公司的几位创始人和乔布斯对话了3个小时,探讨“do engine”的未来以及人机对话的方法——苹果有意收购这家年轻的公司。

“乔布斯和Scott Forstall对于语音识别的方法以及如何在iPhone上创建语音界面十分感兴趣。”Kittlaus说,“乔布斯认为,我们所设计的这款简洁的会话界面将会打破该领域的规范。”

Verizon也和苹果想到一块儿去了。2009年秋,也就是苹果向Siri伸出橄榄枝的前几个月,Verizon就已经为公司签署了一份协议,让Siri在新的一年里成为旗下所有Android手机的默认应用。而当苹果突然要来收购Siri的时候,开出的条件就是让Siri成为苹果设备的专有助手,并让Siri和Verizon之间的协议作废。可见,苹果当年险些错失Siri,让它成为自己最大的劲敌Google的利器。

最初版本的Siri只发布了两个月,此后,Siri的未来将由苹果接手。

“故事到这里就结束了。或者说,故事从这里才刚刚开始。”Kittlaus说。

+1
0

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

下一篇

据9to5mac报道,苹果可能会推出一款128GB的iPad,作为配备有Retina显示屏的第四代iPad产品线上的一个补充。目前价位还不清楚,但是确定的是设计上同第四代iPad区别不大,有黑白两款,既有只支持Wi-Fi的,也有同时支持Wi-Fi和3G的。

2013-01-28

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业