把定性点评变成定量打分

pestwave · 2011-02-06
编者按: 语义分析是当前互联网的重要研究方向之一,也是 36氪关注的话题之一。本文介绍了麻省理工学院口语系统小组的研究成果:一个可以自动梳理网站用户点评,提取有用的信息,对其进行量化处理,然后整理到一起供你搜索。以下为正文。 Yelp和CitySearch等点评网站的繁荣可以让人们很容易找到满足普通搜索标准的本地商家:比如地铁站附近的廉价海鲜餐馆。但那些不满足普通搜索标准的商家呢?它们的比例有多大呢?是否客满呢?调酒师的马丁尼味道如何呢?

把定性点评变成定量打分

编者按:
语义分析是当前互联网的重要研究方向之一,也是
36氪关注的话题之一。本文介绍了麻省理工学院口语系统小组的研究成果:一个可以自动梳理网站用户点评,提取有用的信息,对其进行量化处理,然后整理到一起供你搜索。以下为正文。

Yelp和CitySearch等点评网站的繁荣可以让人们很容易找到满足普通搜索标准的本地商家:比如地铁站附近的廉价海鲜餐馆。但那些不满足普通搜索标准的商家呢?它们的比例有多大呢?是否客满呢?调酒师的马丁尼味道如何呢?

这些信息通常出现在网站用户的点评里,但要想找到这些信息并不容易,你要翻阅很多没用的文字。但是来自麻省理工学院计算机科学与人工智能实验室的口语系统小组开发的一个新系统可以自动梳理用户的点评,提取有用的信息,然后整理到一起供你搜索。

首先该系统可以确定用户点评的语法结构,把单词分成形容词-名词词对。比如,有人写道“我发现马丁尼巨给力”,那么系统算法就可以提取出“巨给力的马丁尼”。

正如小组名称所示,该小组的主要研究领域是可以对口语做出反应的计算机系统,并且这个新系统的界面的确是基于语音的:比如当用户在找海鲜店,只要对着计算机或手机话筒说出“给我介绍海鲜店”即可。系统中使用的语法分析算法是该小组资深科学家 Stephanie Seneff 20年前就开始研究的一项算法,是语音识别系统的一部分。Seneff和她的硕士生刘晶晶(音)把这项算法应用到了截然不同的问题上:在修改很少的情况下对书面文字进行解析,她们也不知道结果会怎样。Seneff说:“我们运行了一下该算法,当看到它如此成功时我们兴奋不已。”

看到感觉

这种算法完全根据单词在句子中的位置来生成形容词-名词词对,比如“巨给力的马丁尼”,“友好的氛围”,但对单词含义一无所知。幸运的是很多点评网站允许用户对用户体验进行数字打分。刘和Seneff还开发了第二组算法,通过数字打分推测形容词的含义。如果说“巨给力”的人总是给出五星,说“特垃圾”的人总是给出一星打分的话,那么这个系统可以推断出“巨给力”可能意味着用户满意度高于“特垃圾”。

一旦系统已经计算出与数字打分相对应的形容词,它就可以利用这些形容词推测其它词的意思。比如,如果有足够多的餐馆的服务被评为“特垃圾”,“粗鲁”之后,系统就会认定“粗鲁”和“特垃圾”一样,也是个贬义词。同理,如果形容词“粗鲁”经常和“服务”,“服务员”,“员工”等名词出现一起(而不是和“风景”,“停车”)的话,那么系统就可以推断出“服务”,“服务员”,“员工”在主题上相关。

这样如果用户要求系统给出环境优雅的餐馆,系统搜索结果就会列出那些被描述为“友好的气氛”等字眼儿的餐厅。该系统还可以利用从商家网站提取的信息扩充自己的语义词库。比如,如果某家餐厅的鹅肝酱和浓汤受到一致好评,并同时出现在餐厅网站的“开胃菜”菜单里的话,那么系统就会把这家餐厅列入美味“开胃菜”餐厅列表,即便“开胃菜”从未出现在过该餐厅网站的任何一条点评里。

来自微软语音研究小组的李晓(音)称,从非结构化点评中提取定量打分在学术界和行业内都是一个热门话题,有些商业产品已经开始提供类似功能。她说:“没有最好,只有更好。”她认为MIT科研人员的工作与众不同,她们做了很多语言分析。比如其他系统可能会推测单词之间的关系,而不会首先确定句子的结构。哪种办法更有效还有待观察,但她补充说该研究领域的热度表明这些工作具有明显的实际意义

目前MIT该系统的两个产品原型已经出现在网站,都具有语音界面。一个可以
接受中文指令,包含台湾台北的商家信息。另一家可以
接受英文指令,包括波士顿的商家信息。

该小组的另一名研究生Alice李利用类似技术从病人用药论坛中提取有用的信息。在一篇尚未发表的论文中,李、Seneff和刘提供证据,表明某些降胆固醇药可能会比其替代药更容易造成神经副作用。

via
MIT news 图/
lifeboat

+1

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

下一篇

社交问答网站Quora受到的关注越来越多,随之而来的是如何保证答案的质量。那么Quora到底是采用的什么算法对答案进行排名呢? 1月21日,Quora共同创始人Charlie Cheever曾在Quora上 介绍过Quora的算法: 我们正在开发一种确定用户质量的算法。该算法有点类似于PageRank,但人和网页不同,Quora上的信号和互联网上释放的信号也不同,所以解决的不是同一个问题。我们将利用该算法确定在feed中显示哪些内容,何时发送通知,如何对问题进行排名。

2011-02-06

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业