Part 1: 动机
作为一个知乎的重度用户,我深深的被知乎社区的高素质群体所吸引,这也是我在微信朋友圈、新浪微博、baidutieba等社区见不到的东西。那么为什么知乎这个社区的群体素质偏高呢,这些用户究竟都是干什么的,来自哪里,从事什么职业,爱好什么话题呢,有多少名校的学生?等等,这些有趣的问题都是我所关心的。
Part 2: 数据
我用scrapy爬取了知乎328w用户的基本信息。这些信息包括:
aggree_count: 得到的点赞数
answer_count: 得到的支持数
carrer : 职业
city :所在城市
company :所在公司
education :哪所大学毕业
most_good_topic :最擅长的话题
topic_list: 关注哪些话题
job :工作
这些信息被我放在了user1.json-user48.json这48个json文件中。共计差不多1.7G,如果想要数据的话,可以私信我,或者直接发邮件给我。邮箱和联系方式我都会在下面给出。
Part 3: 读取并清理数据
import os
import ujson as json #使用ujson解析更快一些
import pandas as pd
data_list = []
base_dir = 'E:\研究生阶段课程作业\python\数据堂数据\data1\zhihu_bigdata'data_list = []
for i in range(1,49):
file_name = 'user%d.json' %i
df = json.load(open(os.path.join(base_dir,file_name)))
data_list.extend(df)
df = pd.DataFrame(data_list)
上面的10多行代码的作用是:一次解析user1.json到user48.json文件,最后转化成pandas.Dataframe中。
df.info() #总体了解一下信息
out: <class 'pandas.core.frame.DataFrame'>
Int64Index: 3288208 entries, 0 to 3288207
Data columns (total 15 columns):
aggree_count object
answer_count object
article_count object
article_list object
carrer object
city object
company object
education object
job object
most_good_topic object
name object
question_count object
thanks_count object
topic_list object
url object
dtypes: object(15)
memory usage: 401.4+ MB
我们的df数据帧中包含了328w条数据,共计有15个字段,只有部分字段是我们感兴趣的,我们提取感兴趣的字段。并随机抽样1个用户查看结果:
df = df[["aggree_count","answer_count","carrer","company","job","education","city","most_good_topic","topic_list"]] #选取我们感兴趣的话题
df.sample(1) #抽样选取1个,查看情况
|aggree_count |answer_count |carrer |company |job |city |most_good_topic |topic_list |
| ------------- |:-------------:| -----:|
|[32] |[11] |[]|[]|[]|北京|[iOS] |[应用, 设计, RSS, iPhoto, iPhone 应用, 健康, Dribb...] |
从显示结果上来看,每个数据段的格式都是list,这些并不是我们想要的,对于有的数据段,我们需要的是int格式,有的数据段,我们需要的是字符串格式。
def list2str(obj):
if (isinstance(obj,list)):
return ''.join(obj)
else:
return obj
def list2int(obj):
if(isinstance(obj,list)):
if obj:
return obj[0]
else:
return obj
上面两个函数分别把list转化成int和string
df.aggree_count = df.aggree_count.map(list2int)
df.answer_count = df.answer_count.map(list2int)
df.carrer = df.carrer.map(list2str)
df.company = df.company.map(list2str)
df.job = df.job.map(list2str)
df.city = df.city.map(list2str)
df.education = df.education.map(list2str)
df.most_good_topic = df.most_good_topic.map(list2str)
df.sample(10) #随机抽取10个样本查看
我们蛋疼的发现,在carrer和job上,有的人只填了一个,或者两个都填了,或者两个都没填,为了了解知乎用户的具体职业,我们为数据框新添了一个字段:occupation
#我们再来了解一下,在知乎上活跃的人,都是做什么工作的:job和career
#因为有的用户,只有job信息,或者career信息,或者都有,或者都没有
#对于这两项信息全部没有的用户,我们直接忽略
#如果都有,那么我们选择career
#只有一个话,我们选择有的那一个
def job_career2occupation(obj):
if obj['carrer'] and not obj['job']:
return obj['carrer']
elif (not obj['carrer'] and obj['job']):
return obj['job']
elif (not obj['carrer'] and not obj['job']):
return ''
else:
return obj['carrer']
df['occupation'] = df.apply(job_career2occupation,axis=1)
df.replace(to_replace = '',value = np.nan,inplace=True) #对于数据段出现空的字符段,我们用np.nan来代替。
Part 4: 数据可视化
4.1:出获得点赞数最多的人,最擅长哪些领域
假如我们是一个知乎新用户,我们希望得到更多人的关注和认可,那么我们首先应该知道那些话题更容易得到别人点赞
我们尝试着找出获得点赞数最多的人,最擅长哪些领域
most_good_topic = df.sort(columns=['aggree_count','answer_count'],ascending = [False,False]).most_good_topic
most_good_topic.dropna(inplace=True)
most_good_topic.drop_duplicates(inplace = True)
most_good_topic.values[:20]
out: array(['人物 ', '德语 ', '心理学专业 ', '阅读 ', 'DotA ', '游戏 ', '社会现象 ', '健康 ',
'汽车 ', '调查类问题 ', '纽约 ', '电子商务 ', '足球 ', '编程 ', '积累中 ', '工作体验 ',
'摄影入门 ', '经济学 ', '飞机 ', '视频剪辑 '], dtype=object)
我们对在知乎上特别活跃的用户进行了统计,发现获得点赞数比较多的人,擅长哪些问题。
我们还想知道,知乎上的这些超级活跃的用户,都是干什么工作的
most_occupation = df.sort(columns=['aggree_count','answer_count'],ascending = [False,False]).occupation
most_occupation.dropna(inplace=True)
most_occupation.drop_duplicates(inplace = True)
most_occupation.dropna(inplace=True)
out: array(['信息传媒', '教育', '民用航空业', '高等教育', '地产建筑', '计算机硬件', '首席点赞师', '汽车',
'计算机软件', '法律', '电子商务', '建筑设备', '互联网', '金融', '飞行员', '政府', '创意艺术',
'高新科技', '广播电视', '进出口贸易'], dtype=object)
从上面的结果上,可以看出,知乎上用户高素质也是有原因的,活跃的用户大多数从事信息,互联网,高等教育等前沿职业。
我们想知道知乎上的用户,在哪里工作。
换句话说,我们想知道那些地区的知乎用户比较集中
我们提取用户拥有量前20位的才城市
import matplotlib.pyplot as plt
import seaborn as sns
top_20city = df.city.value_counts()[:20]
sns.set_style("darkgrid")
bar_plot = sns.barplot(x=top_20city.index,y=top_20city.values,
palette="muted",
x_order=top_20city.index.tolist())
for label in bar_plot.get_xticklabels():
label.set_fontproperties(font)
plt.xticks(rotation=90)
plt.show()
从结果上看,北上深广占据前四名,同时也说明了这四个大城市对人才的吸引力,另外杭州表现的也很突出,我觉得可能的原因是杭州也非常好的创业文化和基因,难道是阿里带动的,这个需要进一步去发现。
我们想知道哪些高校的学生用知乎,换句话说,
我们希望找出拥有用户数量最多的二十个高校。
import matplotlib.pyplot as plt
import seaborn as sns
top_20education = df.education.value_counts()[:20]
sns.set_style("darkgrid")
bar_plot = sns.barplot(x=top_20education.index,y=top_20education.values,
palette="muted",
x_order=top_20education.index.tolist())
for label in bar_plot.get_xticklabels():
label.set_fontproperties(font)
plt.xticks(rotation=90)
plt.show()
非常出乎我的意料,竟然浙江大学的知乎用户最多,难道浙江大学招生已经那么多啦,还是我的样本数太少了(328w不算少啦),但是令我欣慰的是大武大排名第二,华中柯基大学竟然也排名第四,呵呵。
我们想知道各个地区的用户的就业情况,准确来说,我们想知道各个城市的高素质人群最喜欢从事什么职业,这在城市之间有差别吗,我们取每个城市,用户从业最多的五个职业
上面的表述转化成程序语言就是:对数据框按城市分组,再找出每个城市的人从业最多的五个职业,为了简单,我们只选择那二十个大城市
df_big_city = df[df.city.isin(top_20city.index)] #我们的研究对象只是知乎用户数量的前二十名城市
df_big_city_with_occupation = df_big_city[df_big_city.occupation.notnull()] #过滤掉职业为空的用户
def get_top5_city_occupation(grouped):
grouped = grouped.occupation.value_counts()[:5]
return grouped
group = df_big_city_with_occupation.groupby('city')
group.apply(get_top5)
out:
city
上海 互联网 28149
计算机软件 8749
金融 4343
高新科技 3947
电子商务 3045
北京 互联网 80233
计算机软件 11418
高新科技 6138
金融 5250
电子商务 4802
南京 互联网 4579
计算机软件 2805
高等教育 1021
高新科技 949
通信 720
厦门 互联网 2638
计算机软件 692
电子商务 489
电子游戏 375
高新科技 368
大连 计算机软件 869
互联网 653
高等教育 225
金融 195
高新科技 189
天津 互联网 1442
计算机软件 687
高等教育 542
金融 340
地产建筑 325
...
由于篇幅有限,我没有列出所有的城市,我们可以看到在前二十个城市中,排名前五的职业,都有互联网和计算机软件,另外科研这个职业在所有的城市中,只出现一次,还是在美国,我们可以大致猜测一下,去美国工作的人应该有相当一部分拥有博士背景甚至更高的学历,看来真的是美国的科研环境好一些,中国都是忙着赚钱呢。
Part 5 总结
其实我还远远没有挖掘掉这320w用户的信息,我们还可以得到更多的信息,数据是会说话的,如果我的工作对你有一点启发或者帮助的话,那么我将很高兴,如果你想与我讨论的话,或者需要源代码甚至所有的数据的话,请联系我。我也可能会放在我的github上。
QQ :1527927373
EMAIL :QQ邮箱