一、数据读取及查看
读取数据集并查看:
train_df = pd.read_csv('train_set.csv', sep='\t',,encoding='utf-8')
train_df = train_df.set_index('label')
print(train_df.head(10))
text
label
2 2967 6758 339 2021 1854 3731 4109 3792 4149 15...
11 4464 486 6352 5619 2465 4802 1452 3137 5778 54...
3 7346 4068 5074 3747 5681 6093 1777 2226 7354 6...
2 7159 948 4866 2109 5520 2490 211 3956 5520 549...
3 3646 3055 3055 2490 4659 6065 3370 5814 2465 5...
9 3819 4525 1129 6725 6485 2109 3800 5264 1006 4...
3 307 4780 6811 1580 7539 5886 5486 3433 6644 58...
10 26 4270 1866 5977 3523 3764 4464 3659 4853 517...
12 2708 2218 5915 4559 886 1241 4819 314 4261 166...
3 3654 531 1348 29 4553 6722 1474 5099 7541 307 ...
在数据集中标签的对应的关系如下:
{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}
查看详细一些指标:
print(train_df.describe(percentiles=[.2,.75, .8]))
text
count 200000
unique 199903
top 2538 2506 1363 5466 3772 340 922 433 2397 5778...
freq 11
二:
查看每一条记录中排名前10的词:
print(list(FreqDist(' '.join(list(train_df['unique'])).split(' ')).most_common(10)))
[('3750', 7482224), ('648', 4924890), ('900', 3262544), ('3370', 2020958), ('6122', 1602363), ('4464', 1544962), ('7399', 1455864), ('4939', 1387951), ('3659', 1251253), ('4811', 1159401)]
通过上面可以看出3750出现次数最多