网上各种关于网易云音乐的个性推荐算法的详解五花八门,但是官方从未现身说法!为了解开用户们对每日推荐歌单背后算法的好奇心,我们闯进网易云音乐总部里的产品与技术部门,挟持了技术专家,把我们心中的疑惑全都吐了出来。
本文转自:机器之能 撰文 | 宇多田
老铁们,知道今天是什么日子吗?
明知应该说声节日快乐,但咱们也不能忘记在寒冷狗窝里坐等国家分配的单身汪们(仿佛说的不是我自己)。
今天一早,当发现朋友圈撒的狗粮已经够吃 一年后,我还是打开了网易云音乐,想在热闹的评论区寻找同类:另一群单身狗们。
没想到,他们除了搞出个“单身元年特别访谈”,每日推荐给我推的第一首歌竟然是:
好吧,歌词“我不会自暴自弃,不要唤醒我,这是我人生中最美好的一天”,让我严重怀疑,网易云音乐的个性推荐已经洞悉了所有单身狗用户的生活常态:
“别总在评论区呆着了,请在下个元年来之前,找到自己的幸福。要不然,狗年一过,你的头衔就会变成‘单身猪’。”
情人节快乐,狗年快乐。
在知乎上,“网易云音乐的歌单推荐算法是怎样的”与“网易云音乐到底好在哪里”这两个问题,分别占据了“网易云音乐”热门话题的第三与第八位。
而很大程度上,第一个问题成就了第二个问题。
或许网易云音乐在知乎上好评一边倒的原因五花八门(有人说雇了大量水军,如果是这样,那应该是笔重金投入。我不会告诉你两个平台的社群重合度很大的),但歌单质量硬,且个性推荐对比国内竞品相对精准,是让一部分用户发展成为网易云音乐死忠粉的关键原因之一。
以及,第一个问题也可以解释,为何你在很多歌的评论区里,都会看到像“日推第一”、“日推第二”、“日推+FM同时推荐”这类的大量评论。
然而,有人把网易云音乐比作是”独立且小众音乐爱好者的天堂“其实并不十分贴切。将那些被大众忽视的歌重新曝光于你的眼下,很多时候是技术在背后起的作用。
就像你今天下载了一首周杰伦的歌,系统第二天是推给你周杰伦另一首曲风类似的热门歌曲,还是推一首曲风类似的冷门歌曲,更会让你感到新奇?
不过倒是让人有点惊讶,网易云音乐从来没有官方披露过自己的推荐算法与产品应用细节。但这不妨碍大众对其技术与产品融合的过程产生兴趣。
因此,网易云音乐里的算法模型与 AI 应用,基本已经被知乎用户们扒了个底朝天了。
你完全可以在“网易云音乐的歌单推荐算法是怎样的”这个知乎话题里找到非常棒的解答与推测(里面的高赞答案比媒体的报道简直不要清楚太多,讲的明白易懂)。
而我们之所以要拜访网易云音乐的数据挖掘工程师徐家与产品经理沈博文,与其说是揭开算法秘密,不如说是验证此前(包括网络上)的种种猜测,以及帮用户们解答在使用网易云音乐过程中产生的疑惑。
实际上,网易云音乐个性化推荐的算法与今日头条、B 站还有很多 O2O 电商平台应用的基础推荐算法大同小异。这个得到了徐家的认证,就是我们熟知的那类基础算法:
这个算法要归功于亚马逊工程师的发明——一个客户买了这个东西,那么他也可能买另一个东西。
简单来说,该算法的预测标准取决于人与人之间相似的消费模式。譬如,我喜欢这两首歌,而你的歌单里也有这两首歌,所以你歌单里有可能存在其他我喜欢的歌。
以上的说法只是便于理解。实际上,协同过滤算法其实应该分为两类:基于用户与基于项目(单曲)。
1、基于用户:我与小明收藏的歌单相似度很高,那么在判断我们口味相似的基础上,可以给小明推荐我歌单里她没收藏过的单曲。
2、基于项目(单曲):就是将用户对一首歌的偏好作为向量计算单曲之间的相似度,比对相似度后,根据这个用户历史偏好为另一位用户推荐单曲。
举个例子,小歆下载了《勇气》《小情歌》两首单曲,而小宜下载了《勇气》《天黑黑》和《小情歌》,而小艺下载了《勇气》…
那么根据这些用户的历史偏好,网易云音乐可以判断《勇气》与《小情歌》是相似的,喜欢《勇气》的可能也会喜欢《小情歌》,那么可以把《小情歌》推荐给小艺。
总之,如果你觉得对于“协同过滤”这种算法仍然理解困难,那可以只记住一个词:人以群分。
在这里要歪个楼:正是这种本质上基于用户偏好相似度的推荐模型,在无形中让用户在听音乐中组成了一个个“彼此聊得来”的社群。
因此,沈博文并没有把“以后可能会发展成全国最大的婚恋交友网站”看作是一个无厘头的笑话。而是认为这种基于音乐喜好的社交趋势,反而比当下的交友平台更靠谱:
好奇心日报之前曾做过一个调查,有关于人类找到灵魂伴侣的主要参考标准是什么?——是音乐品味。
神经网络模型下的“物以类聚”
可以看到,这种推荐算法绝对缺不了用户历史数据的支撑。在数据量庞大且足够干净的时候,协同过滤算法是非常强大的。
那么反过来想,假如我是一个新用户,或者我使用网易云音乐的频率特别低。也就是说,在数据稀少的情况下,网易云音乐该怎么获知我的口味?
这种冷启动问题,意味着不同算法模型交叉使用的必然性。或许下面的第二大类算法能在一定程度上消除这个障碍。
基于内容的推荐算法。