虎扑湿乎乎姓詹还是库?

  NBA东西部决赛分别于北京时间5月28日、29日结束,无论是骑凯还是火勇,皆是打足了七场才决出胜负,这出「双抢七」剧情跌宕起伏,紧张刺激。自1958年NBA东西部决赛改为七场四胜制后,除了这次,东西部「双抢七」60年来只出现过两次,上一次还是1979年。紧接着而来的是两场总决赛,JR的脑回路,老詹的眼睛和神勇,追梦的手指,库昊的射程,将各路球迷点燃。

  也正是因为这样,这段时间来,各位球星的黑吹风向飘忽不定,今天还被退役了,明天就成了稳拿FMVP,让各位只想好好看球的朋友们在虎扑上瑟瑟发抖,不敢发言。

  这股邪风让我不由得想起今年年初在知乎上被各位知乎篮球板块大佬纷纷参与的话题——「虎扑到底是不是詹扑?」后来发生的称号一事将此话题推向顶峰,知乎篮球板块的各位也似乎纷纷达成观点一致:虎扑就是詹扑,只能说詹姆斯的好话。

  然而,勇士作为近几年骑士的头号对手,作者也经常能看到有人发表类似「虎扑风向向着勇士」、「湿乎乎上吹库里才是政治正确」、「湿乎乎里的老詹无脑黑特别多」的观点,即使在知乎。

  作为一名严谨的数据分析工作者,作者认为单凭直观感受和个例得出的结论是不足以服众的,于是作者将虎扑最大也是各路球迷都会去的板块——湿乎乎——拿出来管中窥豹,见见一斑。我们一起来看看:湿乎乎到底姓詹还是姓库?

  注1:由于数据量级以及数据完整性的考虑,在数据scope范围上我们使用的都是2016年1月1日至2018年5月23日的数据。

  将湿乎乎2016年1月1日至2018年5月23日的近28万个帖子的标题进行切词,生成词云如下:

  排名前十的词分别是:球员、勇士、NBA、詹姆斯、水平、赛季、球队、骑士、库里、季后赛。这十个词里只有「詹姆斯」和「库里」是球员名字。典型的湿乎乎标题也差不多可以从这几个词里挑几个写出来,例如:

  在统计了语义资料切词结果、查看了众多新闻快讯后,根据近两年多来国内的讨论焦点,作者筛选了16名热门球星作为湿乎乎「命姓」候选池,并从感观角度将他们分为四档,更靠前的档更容易被广大球迷讨论,我们可以在后面的数据中验证这个分档到底对不对。

  对2016.01.01至2018.5.23的帖子正文进行话题识别,并与球星池内所有巨星相匹配后,我们先来看看各位球星的声量总量排行:

  这两年多来线)毫无悬念地拿下了前两强,老詹在虎扑的声量确实是很恐怖,是库里声量的1.5倍,他的三名(前)队友欧文 (26259)、韦德 (22162)、乐福 (10182.5)的声量加和之后,还需要加上16至17赛季MVP威少威斯特布鲁克 (36042.5)的声量才能将将超过他。

  比较有意思的是,在2016年退役的老科拿到了第四位,挤掉了近两年做了大动作的凯里欧文进入前四,有点60亿科密可不是吹的的意思。不过,当我看到百度指数之后,才真正惊叹了一番:

  百度指数上,四人2016年1月至今的平均指数排名是科比 库里 詹姆斯 杜兰特,而且由于老科退役那段时间的指数过于高,顶的这张图都没办法做其它分析了,鉴于老科已经退役不会再在球场上边喷垃圾话边大杀四方了,咱们还是不叨扰老科先,放他去继续做他的Detail节目好了。

  从百度指数的情况来看,2016年一直到总决赛之前,库里都是作为自带流量党,高潮迭起,而詹姆斯的骑士逆转赢得了总决赛,老詹的指数飙升,再到杜兰特转会,当了一会儿老大,之后的时间里基本都是库里和老詹轮流做老大,除了17年总决赛杜兰特FMVP翻了一把身,其他时间杜兰特都是被两位稳稳压住。

  如果说对全网关注篮球的朋友来说,杜兰特的转会是突如其来的一个大浪(指数值达到老詹夺冠时指数的3/4),那虎扑则是惊涛骇浪,居然是老詹夺冠时声音的两倍。

  这是最让我吃惊的地方,17年总决赛勇士夺冠后,在百度指数上库里、杜兰特和詹姆斯的声量都达到了2016年9月-2018年5月的峰值,而

  ,詹姆斯的讨论还是要高过库里和杜兰特二人,而且在欧文要求离队时詹姆斯声量到达了一个新的顶峰。

  整体来说,百度指数中库里与詹姆斯基本保持互有胜负的状态,而湿乎乎声量指数中,2016年8月后,无论发生什么,老詹的讨论始终遥遥领先库杜二人。

  看到这里,我们不难得出结论,相比全网的声量,老詹在湿乎乎上的确是要更多地受到关注,甚至在2017年总决赛期间,库里和杜兰特只是在球场上击败了詹姆斯,湿乎乎声量上而言,他们还是败者。

  到了情感分析部分,作者陷入了沉思,如何确定球星A在湿乎乎上比球星B更受欢迎呢?直接使用好评率吗?乍一想直觉正确,但仔细想想单纯比较正面评价率,无法得出虎扑是否超常。

  假如说,全网有80%对A球员的评价是正面的,但在虎扑上仅仅60%,同时假设全网对B球员的评价有20%是正面的,但在虎扑上却高达50%。很显然,虽然虎扑上A的好评率60%依然大于B的50%,但相比于全网,虎扑是一个更偏向于夸赞B的地方。

  如果情感识别的好评率缺少参照物对比,不能作为发现湿乎乎讨论对某球员情感的超常倾向。所以,要看虎扑情感是否超常,也要像在声量分析中用百度指数做参照一样,找一个参照物。

  为了更加清楚地看到各位在虎扑的受欢迎程度,我们想到了对比全球范围球迷的NBA全明星投票。我们取出虎扑所有的正面评价的发言,计算各位球星话题在总量内的占比,再将其与全明星投票结果进行对比。这相当于我们把虎扑看成一个投票的地方,你的每一次正面发言或点亮都在为所提及的球星进行投票,用这个「虎扑投票结果」和全明星投票进行对比。

  考虑到16名球星池中并非所有球员都参加了16-18三届全明星,我们并非将票数简单加和,而是每位球星每年得票数先除以16名球星的总票数,再进行求平均数处理,同样的方法计算出湿乎乎「投票」得票率,结果如下:

  拿到湿乎乎声量和百度指数的比较,以及湿乎乎「投票」与全明星投票的比较,我们画出一张二维四象限图。

  横轴是湿乎乎「投票」球星得票占总票数的百分比 除以 全明星平均得票率占总得票率的百分比,反映的是该球星在湿乎乎上相对于全社会是否更倾向于被认同;纵轴是球星在湿乎乎的声量指数 除以 百度指数,反映的是湿乎乎上,该球星是否相比使用百度的关注NBA用户更容易被关注。

  相比百度与全明星投票,湿乎乎可以说是姓詹了。反正数据看不出来姓库,炮哥克里斯保罗明年努力努力,和登哥一起打进总决赛,拿下奥布莱恩杯,没准湿乎乎能改姓保,甚至姓火。

  处理了这么多数据,分析了这么多,满足了自己的好奇心后,文章写完的那一天晚上,在家看老科的detail,我忽然发现,其实篮球有趣的地方就在于不停地研究对手的战术、不停地接受新鲜的事物、不停地挑战自己,而球迷能享受的就是这些突破的过程,了解多元事物的快乐。

  当我们情绪波动剧烈,带着有色眼镜去看比赛、对手以及其他球迷的时候,很容易丧失掉自我,只会去贪图那些直来直去的赢球爽,或者为了宣泄输球时的愤怒图口舌之快,去人身攻击球员、对方球迷。

  湿乎乎的板块介绍是「工业时代是干巴巴的,我们在虚拟世界的关系是湿乎乎的。每一个话题,都会让我们更多一些交集,更多一些黏着力O(∩_∩)O~ 」,但如今部分「球迷」的争论让湿乎乎有些酸唧唧、辣、脏兮兮的。

  其实不用去在意那些键盘产生的污言秽语,湿乎乎、虎扑、知乎姓什么也并不重要,重要的是带着一颗开放的心,坚守自己的原则,才能真正地去享受竞技篮球带来的质朴快乐。毕竟老詹阿杜也长得不好看,迷失自我的疯狂追星式的看球模式还是少来为妙。

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注