打印本文 关闭窗口 | |
豆瓣电影 数据分析 | |
作者:佚名 文章来源:本站原创 点击数 更新时间:2020/11/17 3:45:18 文章录入:admin 责任编辑:admin | |
|
|
取了数据既然获,阐发一下那必定要,种细致的数据豆瓣片子的各,分评,内同类型网站中影评等等在国,质量的算是高,析也是有价值的所以进行数据分。 布环境根基是合适正态分布的能够看出豆瓣片子的评分分,全数片子评分的均值我计较了一下豆瓣,.8分为6,影评分均值为6.6分(02000年当前的豆瓣电,分)10。 录的片子豆瓣上收,1878年的最早的一部是,片)---飞驰中的萨利·加德纳一部美国片子(精确说是一部短,2018年的数据不全不断到2017年(,可视化出来)就没有将其,看出来能够,是很较着的上升的趋向每年片子的数量全体,017年的数据来看从2016年到2,显的下跌又有较明,16年到20,量是一个颠峰值这年的片子数,年的数据不全由于2018,影数量能否会不断下降下去所以欠好(预测)判断电。 时候良多,不会有个感受不晓得大师会,是越来越多此刻的烂片,一年比一年少都雅的片子是,比此刻的片子质量好而多年前拍的片子,事实是错觉这个感受,实环境呢仍是真,的角度来看一此刻从数据下 系数(两个变量间协方差和尺度差的商)这张图显示的是两个变量间的皮尔逊相关,代表正相关越接近1,代表越负相关越接近-1,量间增加没有任何干系0就是代表这两个变,评分(10分满分)“rates”暗示,瓣星级(5星为满级)“star”暗示豆,一星“,星二,星三,星四,星”五,其占比环境别离代表,部片子想看的人数“想看”暗示这,部片子看过的人数“看过”暗示这,评数”“短,的人数及评价了的人数(打了分就算评价“评价数”别离代表这部片子的写了短评,评论)不消写,”暗示年份“year。之间的具体关系环境再看一下每两个变量。 片子评分的均值大陆片子全数,.1分为6,影评分均值为5.6分(02000年当前的大陆电,分)10。 占比倒是不断在添加5分以下的片子数量,且而,势是越来越较着其占比的增加趋; 样子的,似(别人的回覆大要4W-5W和知乎上别人的谜底也比力相,7年数据)到201,18年最新的全数数据我是获取到目前20,数据去重也做了,也有些人的回覆里说有10W+的数据量大要就是这个样子(当然,评论也说了我看下面的,视理解分歧每小我对影,0W+那些1,量更多的以至数据,电视剧是把,算进去了的综艺等等都,是片子的数据我这个数据,视剧那些不包罗电) 以所,年的片子感受近几,越难看越来,来越多烂片越,人的客观认识并不只是个,是片子难看而现实就,片烂多 |
|
打印本文 关闭窗口 |