1. 说明
直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况(见下图)。
直方图是统计中的常用工具,在图像处理中,经常通过边缘或者颜色统计计算直方图,并通过直方图匹配实现图像识别;也可以据此判断颜色分布,以调节色彩均衡;还可以筛选出感兴趣的区域,并做进一步处理。
在股票数据处理中,也同理,统计出直方图后,可利用它和以往数据匹配,寻找近似的情况;统计有效数据集中区域,并聚焦于该区域进一步处理。
下面是一个最简单的实例:每天我们能看出大盘的整体涨跌,但并不了解各股涨跌情况的分布(比如:是普涨还是二八行情),下例分析并显示了昨天各股涨跌幅主要分布在哪些区间内。
2. 程序
1) 代码
# -*- coding:utf-8 -*-
import tushare as ts
import numpy as np
import matplotlib.pyplot as plt
e = ts.get_today_all()
cc = e[u'changepercent']# 涨跌幅
plt.hist(cc,int(np.sqrt(len(cc))+0.5))
plt.show()
2) 运行结果
(此处直方图主要分布在0附近,提供的信息并不多,下篇:《数据预处理》将对直方图结果进行进一步的处理)