- 平均数:把握全局的第一步。
平均数是个总称,包括均值、中位数、众数等,不要跟均值概念相混淆。
-
均值:最广泛的统计量之一,专用符号:μ
带频数f的均值表达式:
-
异常值:与其他数据格格不入的极高或者极低的数值。会扭曲均值,是均值抬高或降低。
-
数据偏斜:异常值的存在,会将数据向左或向右“拉”。
数据右偏:数据按照升序排列,异常值位于右边,就叫数据右偏。相反,为左偏。
左右偏,主要看异常值的位置,在左还是右。
或者,看均值在中位数的右边就是右偏,反之,左偏。
-
中位数:一组按由小到大排列的数据中,位于中间位置的那个数。
当有异常值和数据偏斜发生时,用中位数表示典型值会更适合。
-
中位数求法:
按由小到大顺序排列。
-
n个数中,无论n是偶数,还是奇数,中位数 =(n + 1)/ 2 位数的值。
-
众数:
一组数据中,频数最大的数值。必须是数据集中的一个数值,而且是最频繁出现的数值。 可以是一个或者多个。
-
双峰数据:一批数据有2个众数的这种数据。
- 众数是唯一能用于类别数据的平均数,所以,它是处理类别数据最常用的平均数类型。
当 一组数据不集中时,就可能有很多众数,这时众数就比较无用了。
- 3种平均数比较: