B站UP数据分析

import pymongo
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
print('导入成功!')

def data_yc(df,col):
    #df:DataFrame
    #col:列名
    q1 = df[col].quantile(q=0.25)
    q3 = df[col].quantile(q=0.75)
    iqr = q3 - q1
    tmax = q3 + 3*iqr
    tmin = q3 - 3*iqr
    return (tmax,tmin)

def per(df,cols,p):
    #df:DataFrame
    #cols:列名
    #p:对比的列名
    for col in cols:
        df[col +'_per'] = df[col] / df[p]
    return df

if __name__ == "__main__": 
    myclient = pymongo.MongoClient("mongodb://localhost:27017")
    db = myclient['看电影了没']
   
    data0725 = db['视频信息_dif'+'2019-07-25']
    datalist0725 = list(data0725.find())
    datadf0725 = pd.DataFrame(datalist0725)
    df0725 = datadf0725.copy()
    pic0725_1 = df0725[['分享_dif', '弹幕数_dif', '投币数_dif', '播放量_dif', '收藏_dif', '评论_dif']]
    pd.scatter_matrix(pic0725_1,figsize=(20,12),
                         marker = 'o',
                         diagonal='kde',
                         alpha = 0.5,
                         range_padding=0.1)
    
    pic0725_2 = df0725[['分享_x', '弹幕数_x', '投币数_x', '播放量_x', '收藏_x', '评论_x']]
    pd.scatter_matrix(pic0725_2,figsize=(20,12),
                         marker = 'o',
                         diagonal='kde',
                         alpha = 0.5,
                         range_padding=0.1)
    total = df0725[['投币数_x', '弹幕数_x', '收藏_x', '评论_x', '分享_x','播放量_x','播放量_dif','上线年份']].groupby('上线年份').sum()
    count = df0725[['电影名称','上线年份']].groupby('上线年份').count()
    total = total.join(count)
    total.columns = ['投币数','弹幕数','收藏','评论','分享','播放量','播放量_dif','视频数量']
    print(total)
    print(total.info())
    cols = ['投币数', '弹幕数', '收藏', '评论', '分享','播放量','播放量_dif']
    p = '视频数量'
    total = per(total,cols,p)
    #print(total)
    
    fig,axe = plt.subplots(1,2,figsize = (12,6))
    total[['投币数','弹幕数','收藏','评论','分享']].plot(kind = 'bar',ax = axe[1],stacked = True , title = '年度其他情况',rot = 0)
    total['播放量'].plot(kind = 'bar',ax = axe[0],title = '年度播放量',rot = 0)
    
    print(pic0725_1.corr())

    df_2017 = df0725[df0725['上线年份'] == 2017]
    df_2018 = df0725[df0725['上线年份'] == 2018]
    df_2019 = df0725[df0725['上线年份'] == 2019]
    fig1,axe = plt.subplots(1,3,figsize = (8,6),sharey=True)
    df_2017['播放量_x'].plot.box(ax = axe[0],title = '2017年各视频播放量',whis = 3)
    df_2018['播放量_x'].plot.box(ax = axe[1],title = '2018年各视频播放量',whis = 3)
    df_2019['播放量_x'].plot.box(ax = axe[2],title = '2019年各视频播放量',whis = 3)

    hot_2017 = df_2017[df_2017['播放量_x'] > data_yc(df_2017,'播放量_x')[0]]
    hot_2018 = df_2018[df_2018['播放量_x'] > data_yc(df_2018,'播放量_x')[0]]
    hot_2019 = df_2019[df_2019['播放量_x'] > data_yc(df_2019,'播放量_x')[0]]
    hot = df0725[df0725['播放量_x'] > data_yc(df0725,'播放量_x')[0]]
    hotlst = []
    hotlst.extend(hot['电影名称'].values.tolist())
    hotlst.extend(hot_2017['电影名称'].values.tolist())
    hotlst.extend(hot_2018['电影名称'].values.tolist())
    hotlst.extend(hot_2019['电影名称'].values.tolist())
    hotlst = list(set(hotlst))
    #print(hotlst)
    
    hot_df = df0725[df0725['电影名称'].isin(hotlst)]
    del hot_df['_id']
    hot_df = hot_df[['上线年份','播放量_x', '电影名称']].sort_values('播放量_x',ascending = False).reset_index()
    del hot_df['index']
    
    from pyecharts.charts import Bar
    from pyecharts import options as opts
    from pyecharts.globals import ThemeType

    hot1,hot2,hot3 = hot_df.copy(),hot_df.copy(),hot_df.copy()
    hot1[hot1['上线年份'] != 2019] = 0
    hot2[hot2['上线年份'] != 2018] = 0
    hot3[hot3['上线年份'] != 2017] = 0
    xlim = hot_df['电影名称'].values.tolist()
    lst1 = hot1['播放量_x'].values.tolist()
    lst2 = hot2['播放量_x'].values.tolist()
    lst3 = hot3['播放量_x'].values.tolist()

    bar = (
        Bar(init_opts=opts.InitOpts(theme=ThemeType.LIGHT))
        .add_xaxis(xlim)
        .add_yaxis("2019", lst1, stack = '1',gap="15%")
        .add_yaxis("2018", lst2, stack = '1',gap="15%")
        .add_yaxis("2017", lst3, stack = '1',gap="15%")
        .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
        .set_global_opts(title_opts=opts.TitleOpts(title="主标题", subtitle="副标题"))
        .set_global_opts(xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=15)))
    )
    bar.render('01.html')

    hot1,hot2,hot3 = hot_df.copy(),hot_df.copy(),hot_df.copy()
    hot1[hot1['上线年份'] != 2019] = 0
    hot2[hot2['上线年份'] != 2018] = 0
    hot3[hot3['上线年份'] != 2017] = 0
    xlim = hot_df['电影名称'].values.tolist()
    lst1 = hot1['播放量_x'].values.tolist()
    lst2 = hot2['播放量_x'].values.tolist()
    lst3 = hot3['播放量_x'].values.tolist()

    bar = (
        Bar(init_opts=opts.InitOpts(theme=ThemeType.LIGHT))
        .add_xaxis(xlim)
        .add_yaxis("2019", lst1, stack = '1',gap="15%")
        .add_yaxis("2018", lst2, stack = '1',gap="15%")
        .add_yaxis("2017", lst3, stack = '1',gap="15%")
        .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
        .set_global_opts(title_opts=opts.TitleOpts(title="主标题", subtitle="副标题"))
        .set_global_opts(xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=15)))
    )
    bar.render('02.html')
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容