好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

二次元属性被稀释,B站还剩什么?| 数据分析

二次元属性被稀释,B站还剩什么?| 数据分析

HeoiJin 裸睡的猪

本文为HeoiJin原创投稿文章,欢迎更多读者投稿!

作者简介 HeoiJin:立志透过数据看清世界的产品策划,专注爬虫、数据分析、产品策划领域。 万物皆营销 | 资本永不眠 | 数据恒真理 CSDN:https://me.csdn.net/weixin_40679090

本篇目录

一、前言

本篇章为《二次元属性被稀释,B站还剩什么?》系列篇的下篇。在上篇当中我们已经完成了数据的采集,那么本篇将着重对采集到的数据进行对比分析及可视化。

PS:由于篇幅关系,本文仅展示核心代码,详细源代码可移步至文末Github地址或阅读原文。

二、项目特色

利用pandas库对数据进行分类聚合 利用pyecharts和帆某的Bi软件对数据进行可视化实战 结合DT财经的数据分析B站2019至2020的变化

三、项目准备

语言:Python 3.7 IDE :Pycharm 浏览器:Chrome 插件:ChromeDriver 库:Pandas、pyecahrts、snapshot_selenium 其他:Fine Bi

四、问题定义

4.1 关键词定义

在进行分析前,要先确认什么是二次元和三次元,具体通过什么标准进行划分。

「二次元」一词来自于日语「二次元(にじげん)」,本义为「二维」,引申为「在纸面、屏幕等平面上展示的动画、游戏等作品中角色」。「三次元(さんじげん)」也被引申用来指现实中的人物。——萌娘百科 二次元:动画(Animations即ACG的A)、漫画(Comics即ACG的C)、游戏(Games即ACG的G)。三次元:现实世界。——维基百科

即在爬取的所有分区当中,可以明显归类为二/三次元的分区分别是: 二次元 :动画、国创相关、游戏 三次元 :科技、数码、生活、时尚、娱乐 其余的鬼畜、舞蹈、音乐、影视则因为兼备二次元和三次元的属性,定义为2.5次元[滑稽]。

4.2 确立目标

完成对分区进行属性划分之后,就可以开始确立研究目标:

分析B站综合评分前100中,什么分区是占比最多?用户在不同分区的行为情况如何。 分析B站各分区情况,找出各分区的播放量情况及用户行为情况 分析热门标签变化 针对B站变化,洞悉背后的行为和心理本质

五、数据分析实战

5.1 数据预清洗

在进入正式的分析之前,先使用 df.info()了解下抓取到的数据情况。

通过上面打印数据可看出:共有14列、1300行,没有缺失值。 但要注意的是,这里我们先把全站榜排除在外,避免重复计算,后面的分析都基于下面得出的数据df_without_all。

 
#波浪线~表示不选取该部分
df_without_all=df[~df['rank_tab'].isin(['全站'])] 

5.2 全站综合评分top100系列

5.2.1各分区占比情况可视化

数据处理思路及核心代码:

对df_without_all按综合评分降序,切片取前100项 获取分区名列,统计每个分区出现次数

得到一个分区名为index,频次为values的Series。

接下来使用pyecahrts的玫瑰图进行可视化处理。

相比于Excel或者Fine Bi,pyecahrts的玫瑰图制作非常友好,而且颜值方面也不错。

核心代码:

在未找到2019年相关播放量的官方数据情况下,暂与2018年的财报数据进行比较。

经比对,生活、动画的排名分别提升至第1名和2名,可以说动画依旧是B站比较重要的一部分。

而娱乐、游戏、科技跌出榜单,时尚、鬼畜、音乐成为新秀,总体看完全属于二次元的视频占比较低,仅占27%。

5.2.2各分区平均情况数据处理

数据处理思路及核心代码:

对df_without_all按照综合评分进行降序排序,并获取前100项 以分类名作为行索引对DataFrame进行分组,求出平均数

对数据进行处理完成之后,分为三部分进行可视化:

播放情况分析 平均三连情况可视化及分析 平均评论、弹幕、转发量情况可视化及分析

5.2.3 平均播放量情况可视化及分析

只需要分类名作为维度,平均播放量作为指标即可。 对单维度单指标进行可视化时,可以有柱状图、折线图、面积图等多种选择,这里我选择其中的柱状图进行可视化。

思路和核心代码:

获取数据,构建分类名和平均播放量的列表 创建柱状图,并加入Javascript语句制作渐变色

动画区以微弱的优势超过时尚区成为平均播放量的top1,是否意味着二次元依旧是B站的主场?

并不然,回看动画区的详细数据,按播放量进行降序,可以看到,排名第一的《【哔哩哔哩2020拜年祭】》播放量是排名第二的5.74倍。 而时尚区的前两名仅为1.6倍,即动画区的播放量被平均。

5.2.4 平均三连情况可视化及分析

投币、 点赞和收藏行为的计量单位为人数,相对于播放量以人次作为计量单位,更能精准地反映用户喜好情况。这里使用pyecharts的雷达图进行可视化。.

核心代码:

尽管动画区存在黑马视频,但生活区的平均投币和点赞量依然高于动画区。

5.2.5 平均评论、弹幕、转发量情况可视化及分析

pyecahrts的混合图表在代码实现上复杂,比较于Fine Bi,性价比极低。因此这部分使用Fine Bi进行数据的可视化,不多赘述,直接上图。

动画区的平均弹幕量表现很不错,但是评论量和分享则表现平平。话题性和自传播性的高门槛,导致二次元无法如三次元一样具有爆发性增长的能力。 在部分增长速度低于整体增长速度时,必然看到B站二次元属性被稀释的现象。

5.3 各区top100系列

以上,只针对了综合评分前100的数据进行初步的分析,为避免出现幸存者误差的逻辑谬误,下面将对所有分区的top100进一步的分析,并联系DT财经数据进行对比分析。

5.3.1数据预处理

处理思路

对df_without_all按分区名进行分类 统计出每个分区各情况数据的均值 存入csv

5.3.2 播放量均值情况

思路及核心代码:

读取分区名和播放量数据 对播放量数据进行缩放 绘制折线图表

对比DT财经在2019年的数据,除去我们没有采集到放映厅、番剧、广告分区,生活区依然是B站播放量的巨头。

动漫区因拜年祭的火热,由第三升至第二。值得注意的是,各分区top100的平均播放量,相对于19年的数据都有大幅度的增长,生活区热门视频的平均播放量翻了两番。

5.3.3 用户行为数据均值对比

pyecharts折线图的制作方式已在上文提及,那么这部分的可视化就交由Bi软件帮我们完成,不多展开。

继续与DT财经的数据进行对比,除去番剧、放映厅和广告区,在DT财经的各项数据指标中,几乎是动画区一家独大。 而到了2020年,则能看到百花齐放的现状,二次元在不同指标的龙头地位都被各三次元分区瓜分,生活区更是拿到了多数指标的头把交椅。

5.4 热门标签

同样在处理数据之前,先了解下数据结构是怎么样的。

观察可知每一项数据里面包含了N个标签,因此,需要将标签列先转化为一个无嵌套的Series,后统计每一个唯一标签出现的次数。

核心代码:

对比于DT财经统计的2019年3至4月热门视频的标签频次统计,历时一年后,搞笑依然是B站热门视频中出现频率最多的标签,鬼畜也依旧在显眼位置。 从今年的词云中能找到不少与生活密切关联的标签,有我们正在经历的抗击肺炎大作战,也有每次都订立目标,但总是败给吃吃吃的瘦身塑形和减肥。

六、项目总结

创立十载的B站,发展成仅APP的DAU就高达3千3百万的大平台。从二次元社区到综合视频社区,原有的二次元属性必被稀释。 回归到最初的问题:

1、二次元属性的稀释情况如何?

二次元依然是B站核心的组成部分。但从B站的商业布局来看,直播线、综艺线、Vlog线等更多贴合生活的内容将进一步稀释二次元属性。

2、什么分区是B站的龙头?

拥有更广受众面的生活区逐步成为B站主流,而且这种趋势会更加明显。在大众传播学提出过这么一个理论——沉默的螺旋:即大众的更大众,小众的更小众,传播学中的马太效应。

3、B站的主流用户喜欢什么标签的视频?

搞笑依旧是B站用户最热爱的标签。毕竟在残酷的社会环境中,幽默是稀缺的资源。

4、本次分析带来什么思考?

B站从二次元成功转型为综合型网站,获得腾讯、阿里等巨头投资成功上市,而处于寒冬的我们,也要不断地增值升级,才能迎来暖春。 最后希望B站能越来越好,不忘初心! 源码地址(或阅读原文):https://github.com/heoijin/Bilibili-Rnak

郑重声明:本项目及所有相关文章,仅用于经验技术交流,禁止将相关技术应用到不正当途径,因为滥用技术产生的风险与本人无关。

参考文献: 1、《数据解读 | 我们研究了B站,发现它很不“二次元”》-DT财经:https://mp.weixin.qq.com/s/EObWtXz1yxsZhvZQVKnk3g 2、2020中国移动互联网“战疫”专题报告- QuestMobile2020:https://www.questmobile.com.cn/research/report-new/81 3、产品分析报告|B站,从二次元社区到综合视频社区- FMR:http://www.woshipm.com/evaluating/2102696.html

查看更多关于二次元属性被稀释,B站还剩什么?| 数据分析的详细内容...

  阅读:41次