Spotify算法是如何猜出你喜欢什么的?

神译局 · 2019-11-14
精准的推荐背后是强大的算法。

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:声田(Spotify)与其他音乐软件的主要区别就是有一套独特的算法准确为你推荐符合你品味的歌曲,为你量身打造属于你的听觉体验。本文译自Medium,作者Dave Gershgorn,原标题为" How Spotify’s Algorithm Knows Exactly What You Want to Listen To",希望对您有所启发。

Spotify算法是如何猜出你喜欢什么的?

Photo: Aytac Unal/Anadolu Agency/Getty

Spotify正竭尽全力地让用户听到更多的音乐。这家公司已经研发了一套算法来对软件实现管控,从个人主页到定制歌单,比如“每周发现”(Discover Weekly),而且还在继续尝试用新的方式理解音乐,以及理解人们为什么喜欢听某一首歌曲或某个流派的音乐。

当它的竞争者们,比如苹果音乐(Apple Music)、亚马逊尊享音乐(Amazon Prime Music)和谷歌音乐(Google Music)还依赖于付费用户和社区创建的付费播放列表时,声田和它们的最大区别就是向客户提供大量个性化定制的音乐,并提供广博的音乐知识拓展。声田还需要继续开发出更好的算法,因为这是为2亿多用户中的每一个度身定制音乐体验的唯一途径。在声田努力拓展业务之际,上述这种令它与众不同的因素需要对消费者产生足够的吸引力,让消费者订阅该服务。

算法如何管理聆听体验的一个典型例子就是:声田应用程序的主屏幕。研发主管莫尼娅·拉马斯·罗莱克(Mounia Lalmas-Roelleke)在今年早些时候的一次网络会议上发表的演讲中表示,声田的目标是帮助用户快速找到他们喜欢的音乐。

莫尼娅解释,主页面由一个叫做BaRT(全程“Bandits for Recommendations as Treatments”,“眼里只有推荐音乐一件事儿的强盗”)的人工智能系统控制。这个系统的任务是以个性化的方式组织每个用户的主页,这其中包括“音乐架”,包括一系列同一主题的歌单,例如“艺术家最佳”或“氛围音乐”,然后该人工智能系统会让歌单出现在对应主题的音乐架上。

BaRT系统是声田平衡各方面的核心手段。它只有一个目的,就是基于你前期的收听的音乐,给用户提供Spotify相信用户会喜欢的音乐。但声田也必须在其中加入新的音乐,以免你陷入一直听同一种音乐的循环中。

Spotify算法是如何猜出你喜欢什么的?BaRT的运用可以归结为两个概念:深挖和探索。当声田选择“深挖”模式时,它利用的是收集到的用户信息,考虑你的音乐收听历史、你跳过的歌曲、你创建的播放列表、你利用平台的社交功能做了什么、甚至包括你的位置。但是当声田选择“探索”模式时,它使用的是外界信息,比如符合你的音乐品味但你还没听过的播放列表和艺术家,以及其他艺术家的热度等。

与声田的深挖和探索能力同样重要的是该应用程序如何向用户解释它的推送选择。音乐架上的每个标签,像“跳转回这里”或“更多你喜欢的内容”,都在告诉用户这些播放列表被推荐的原因。根据2018年关于BaRT的研究论文,声田发现解释对于获得用户的信任是至关重要的。

BaRT的成功是通过你是否收听了架子上的音乐,以及收听了多久来衡量的。如果一首歌被播放超过30秒,算法就会追踪这一过程把这次推荐记为正确。你收听推荐的播放列表或歌曲集的时间越长,系统的推荐效果就被认为越好。

Spotify似乎将判断一个人是否喜欢一首歌的舒适点定在了30秒。在2015年新闻媒体Quartz的一次采访中,声田的产品总监马修·奥格尔(Matthew Ogle)提到在30秒之前跳过歌曲,就相当于对“每周发现”播放列表的否定。

该公司在研究中明确指出,这些算法服务想要获得成功,就必须追踪和记录用户在使用该服务时的每一项操作。

目前还没有太多的学术工作对“每周发现”播放列表的机制进行详细完整的介绍。在Quartz的报道中,奥格尔概述了该系统,此概述与2015年的一份报告有关,该报告由Spotify的员工所作,技术性略强。“每周发现”是一个包含了30首歌曲的播放列表,这些歌曲来自于音乐偏好跟你相似的其他用户、最近的音乐博客报道、以及其他听起来和你喜欢的音乐差不多的歌曲。2014年,声田耗资1亿美元收购了初创公司“回音之巢”(The Echo Nest),以提高推荐质量。回音之巢的联合创始人布莱恩·惠特曼(Brian Whitman)在2012年写道,他的软件每天需要搜索1000多万个与音乐相关的网页,以了解音乐世界的潮流趋势。

惠特曼说: “我们的系统会搜索互联网上每个人说的关于音乐的每一个字,寻找其中的描述性词汇、名词短语和其他文本。”

2014年,桑德·迪勒曼(Sander Dieleman)曾在声田公司实习,做过一些分析音乐听觉相似性的基础性工作,他在个人博客中解释了音频分析算法。最初的问题是,每天都有新音乐上传到声田,但如果音乐不是先前受欢迎的艺术家的作品,就没有系统会推荐它。在一开始没有人认识这位艺术家的时候,协同过滤算法(一种向有相似音乐兴趣的人推荐彼此喜欢的音乐的方法)是不起作用的。

迪勒曼把这种情况称为“冷启动问题”(Cold-start problem)。

解决方法就是分析音频本身,并训练一个算法来习得识别出音乐吸引力的不同可能来源。迪利曼做的一些实验识别出了歌曲的具体吸引力来源,例如失真吉他,而另一些实验则可以识别出更抽象的概念,比如流派。

现在这个方法已经成为“每周发现”播放列表的一个重要组成部分,这也是你为什么会看到从没听说过的艺术家出现在推荐列表里的原因。

算法可以应用在声田软件的各个方面。不仅有“每周发现”和主屏幕等功能的推荐算法,还有一些小工具,你可能用过但绝对不会意识到它们是相对尖端的人工智能研究的产物。

以自动连续播放列表为例。这个功能会分析特定播放列表中的歌曲,并试图预测接下来播放的是哪一首,就好像创建这个列表的人在往里面不断地添加音乐一样。声田希望以新的方式来思考如何构建该功能,因此它发布了由用户生成的“百万播放列表数据集”,用来了解人们心目中一组好的曲目该具有哪些特征。公司还邀请了其他人工智能研究人员来尝试和解决这个问题,把解决方案发表在2018年的产业大会上。比赛组织者在赛后所做的分析显示,围绕这个项目成立了超过100个学术和行业团队。(我们不知道优胜者的创意是否真的被声田收录了。)

Spotify算法是如何猜出你喜欢什么的?声田的研究人员也一直在研究检测歌曲不同版本的方法,因为其他的版本可能会取代你真正想听到的原始版本播放出来。他们最终工作的成果能够高度准确地分辨出原始曲目和其他版本,特别是器乐演奏版和现场表演。爵士乐更棘手一点,因为会有很多即兴创作。

该团队还致力于将歌词和演唱时刻保持一致,这不仅有助于公司开发出在流行歌曲旁边显示歌词地功能,还为声田提供了新的机遇。

“按时间排列歌词使卡拉OK、基于文本的歌曲检索和歌曲内部导航等应用成为可能,进而丰富用户的音乐体验,”声田的计算机科学家在今年早些时候写道。

除了面向平台的这些之外,声田的研究还包括面向用户的。2019年4月发表的一项研究表示,声田分析了超过1600万用户的数据,追踪了他们从2016年12月到2018年2月的听歌模式,包括每天播放特定艺术家或特定歌曲的次数和用户的位置信息等。

上述数据,再加上用户自己填写的性别和年龄,让声田能够研究一个人的音乐品味是否会在搬到另一个州之后发生变化,以及年龄如何影响一个人喜欢的音乐类型。

研究小组凭直觉以一种微妙的方式推测出了用户的住处:根据位置数据,声田部分用户会在选定数据期间的三个主要假期——2016年圣诞节、2017年感恩节和2017年圣诞节——中的两个假期去其他州度过,研究团队推测,他们假期前往的州就是他们的老家。 

通过研究各州用户的音乐品味,然后对比那些已经移动到音乐趋势不同的地区的人群,声田的团队得出了结论:长时间呆在某个地方确实在一定程度上影响了人们的音乐品味。

“搬迁确实会让一个人的音乐品味轻微地向新环境转变。但这种影响的程度很小,而且听众更倾向于模仿他们的过去,”他们写道。

团队在分析年龄之后还发现, 用户在10至20岁时期喜欢的音乐将会是他未来的主流音乐,这形成了他们的“音乐个性”。

这一切都暗示了声田为了保持其竞争优势,需要继续从用户那里手机信息。2015年“每周发现”的演示中提到声田每天会记录一万亿字节的用户数据。

不过,这些数据显然是为用户服务的。该公司在研究中明确强调,所有这些算法服务想要成功,就必须追踪记录用户在软件上进行的每一项操作。

这大概就是音乐流媒体的秘密武器。毕竟,包括拥有数千万付费用户的苹果在内的各音乐行业巨头都与声田展开了难分难舍的斗争,但它仍然得以蓬勃发展。

译者:Jane

推荐阅读:为什么科学劝你一定要睡午觉?

+1

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

下一篇

流量与演技,本不应该是对立关系。

2019-11-14

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业