群体智慧前沿:大众评分落伍了,情感评分更有用

2021-06-15 21:05:13 作者: 群体智慧前沿

原创 熊宏晋 集智俱乐部 收录于话题#复杂科学前沿202183个

导语

在线网络评价为人们提供了可以立即获得群众智慧的渠道。在亚马逊和Yelp的所有在线评价中,积极正面的评价占据了绝大部分,但是人们对这些项目呈现出来的行为性质却存在着明显的差异,那么如何才能从这些积极在线评价的“海洋“中辨别出真正具有价值、成功的项目?目前流行的“星级评价”是否可以作为预测其项目成功的可靠依据?最近 Nature human behavior 一文中对于这些问题给出了答案。本文是对这篇论文的概述。

集智俱乐部已经启动招募,多位专家牵头,从计算科学与复杂科学等跨学科视角,探讨社会、经济等领域的问题。本文为读书会成员撰稿。读书会为期10-12周,每周四晚举办,详情见文末。

熊宏晋 | 作者

邓一雪 | 编辑

论文题目:

Mass-scale emotionality reveals human behaviour and marketplace success

论文网址:

https://www.nature.com/articles/s41562-021-01098-5

1. 从在线平台的“海量”评价中提取用户情感

目前随着互联网在线众包平台的发展,商品或线下服务的售卖都会在其在线众包平台中附着其一定的评价信息,而其中最为普遍的就是星级评价方式。这就可以供其平台的潜在消费者在选择商品或服务时可以通过成本最低的方式,获得最为直接的参考。但事实果真如此吗?已有研究调查所证明,这些在线的评级系统存在一定的局限性:其在线评价绝大多数都是积极正面的[1]。例如,在亚马逊网站上,平均星级评价约为4.2(满分5分),其中远超过一半的评论是5星级评价[2]。近一半的Yelp评论是5星评价[3],而近90%的Uber评价可能是5星[4]。

以上这种情况会导致个人经常面临着在众多星级相似的项目中进行选择,特别是考虑到人们甚至不会考虑获得低于3星级的选项。所以星级评价本身可能无法可靠地预测其项目成功与否,它也并不能作为对项目真实价值的有效性参考。高度集中的积极性评价会使其成为无效的信号, 那么究竟如何才能从这些海量的积极性评价中获取有效的信息。来自美国马萨诸塞大学管理学院的教授 Matthew D. Rocklage 和其研究团队把这种在大量积极评价中辨别成功的挑战称为“海量”评价积极性问题。他们首先证明了这种“海量”积极性问题存在的普遍性,并且提出具有情感性 (emotionality) 的评述性语言可以向个人提供更有意义的参考。他们将这一研究成果以《Mass-scale emotionality reveals human behaviour and marketplace success》为题目发表在了Nature Human Behaviour 上。

他们分别从电影票房收入、亚马逊图书出售量、超级碗广告中新品牌的追随者、Yelp上的餐厅预订量四个大规模在线评价案例中研究了海量评价积极性的问题。通过对于四个大规模在线信息评价平台的研究,他们证明了80%到100%的在线星级评价都是积极的,并且发现在线星级评分对于预测一个项目的行为和其成功性是不可靠的,即越来越多的积极评价通常不能预示着其项目的成功。但是评价文本的情绪化因素却可以用来预测一个项目的行为和其成功的可能性。这是因为情绪化语言为个人本身提供了一种迹象,表明发生了特别有影响的事情[5,6],因此它们可以作为一个特别明确的信号,让个人了解自己的态度。这种强烈的信号反过来会导致态度在记忆中更加牢固[7],这是一个公认的预测态度的影响和持久性的因素。

下面将展示出他们所研究的四个案例:

2. 情绪因素预测电影票房

研究者们从Metacritic.com获得了2005年到2018年这13年所有电影的在线评论,并使用为每部电影撰写的前30条用户评论来衡量电影的星级(0到10星)和在线评价文本的情绪化语言分析。他们发现一部电影的平均星级将会显著地减少其电影的票房收入。而当所有的电影都被包括在内时——即使是那些最初有负面评价的电影——星级评价对票房收入也没有显著的预测作用。

之后他们在同一模型中加入了评论文本的平均情感性因素,以及平均文本效价 (valence) 作为对照。星级评分仍然是电影票房收入的一个重要的负面预测因素(见图1左)。最重要的是,评价文本中的情绪化因素是未来票房收入的一个重要的正向预测因素(见图1右)。

图1. (左) 预测电影票房收入与其电影星级评价的关系; (右)预测电影票房收入与其电影评价文本中的情绪化因素的关系

3. 图书销量:文本情绪比评分更重要

在第二个研究案例中,研究者们预测了从1995年到2015年亚马逊网站上所有书籍的成功性(20年的数据)。他们再次使用每本书的前30条评论来索引该书的星级(1-5星)、文本效价和文本中的情绪化因素。

其平均星级评价的回归结果好坏参半。星级评价是预测购书数量的一个负面因素。当被评为负面的书籍也被包括在内时,正面的星级评价对购买量有显著的预测作用。然而,这里的总体证据好坏参半的,因为在1/3的图书类型中,星级评价是不显著的或为负面的预测因素。

在分析积极评价的书籍时,他们根据该书的平均星级和文本的情感性来预测该书的购买量。其发现平均星级是购买的一个负面预测因素,而文本的情绪化是一个重要的正面预测因素。除了这些影响之外,前30条评论中更多正面的情感性语言预示着更多的购买量,并且这一结论在百分之93的图书类型中都有展现。

4. 广告中新品牌追随者:评价预测粉丝增长

在研究案例3中,研究者们考察了针对电视广告的实时推文的情感性是否能预测成功和人类行为,即品牌的每日新粉丝数量的增加。对于2016年和2017年的超级碗,他们获得了发生在该超级碗当天的所有实时推文,其中提到了超级碗期间播放的广告。共有84家企业的94个广告,关于这些广告的推文总数为187206条。然后,他们使用评价词典来量化推文中对每个商业的平均效价和情绪化的表达。

 1/2    1 2 下一页 尾页