从头开始学习统计学了,前篇中提及《统计思维》看了大约一半,由于概念模糊、误差积累致使阅读无法继续。所以更换更加简单的《深入浅出统计学》理清概念、打好基础。
饼形图:扇形面积代表分项的频数或百分比,用于差距比较大的图示。
条形图:比饼形图显示的差距更细微,注意纵轴标识是频数还是百分比。垂直型和水平型区分,主要是分项名称长短区别使用;需要同时产生数据对比时还可用堆砌条形或分段条形图。
直方图:面积与频数成比例,纵轴是频数密度,块与块之间无缝隙,宽度可以不同,注重看面积。
折线图:(累计频数图),数值增加不会减少,用于数值型数据。
以上阐述了几种基本图形的应用,各自适用范围不同。
第一个重要概念:平均数
平均数是一个整体概念:包含均值、中位数、众数。
平均数不只是均值。
均值(μ)=算术平均值
举例:略
中位数:将所有数字由小到大排列,位于最中间的数字。(数字个数奇、偶不同计算略有不同)
举例:数据:1、1、1、2、2、2、8、9、11则9个数字中的第五个“2”为中位数。
众数:数据中出现频率最多的数字,可能不止一个。
举例:数据:1、1、1、2、2、2、8、9、11则9个数字中的“1”、“2”两个数字都出现了三次为众数。
用我们经常诟病统计局平均工资的例子加以应用解释。
某公司工资分为三个层级:董事长、总经理2人工资20000元、中层管理者10人10000元、基层员工100人为3000元。
那么:均值=(2*20000+10*10000+100*3000)/112人=3928元;另类均值=(20000+3000)/2=11500(最恶心偏离的算法)
中位数:20000、20000、10000、10000(共10个)、……3000(共100个)则总共为偶数个数字,中间为第56、57个数字是3000和3000。中位数为(3000+3000)/2=3000
众数:100个3000元的个数当之无愧频数最高,众数为3000.。
所以说,工资被平均提高,宣传者根本没错,理解错是“统计没学好”不能怪媒体,但作为一个专业信息发布者这样误导,那就是别有用心的模糊概念了、美化数据了。