小学生都会算的平均值,大学生也未必算的对。
不久前我家附近刚开了一家健身俱乐部,各种促销活动也随之而来,广告很是让人心动:一年只需1000块,每天不到3块钱,即可练就好身材。每天3块钱,的确很便宜。
等等,真的每天只要3块钱吗?
没有意义的平均值
我必须得承认,花1000块钱健身的确是值得的。但是,“每天不到3块钱”这种计算平均值的方法,除了让你感觉“很便宜”之外,没有其任何他意义。原因很简单,用户付的是1000块钱一年,而不是每天付3块钱。
就像商场做促销,会有买一送一的活动,一盒牙膏原价10块,现在10块钱两盒。但是,这并不意味着5块钱就能买一盒牙膏。你必须买两盒,才能享受这个价位。健身俱乐部也一样,必须交够一年的钱,才能进去健身。
那么,计算平均值是没有意义的吗?那也未必,有时我们恰恰需要计算平均值。
《彭博商业周刊》上有一篇文章,呼吁大家不要在开车时给手机充电。现在人们根本离不开手机,为什么会提出这么奇怪的要求?
文中解释道,汽车上的电都是燃烧汽油产生的,而这种发电模式太浪费了,每年因为美国人在车上给手机充电,会多消耗掉价值两亿美元的石油!
你是不是觉得文章说的有道理,竟然浪费了这么多钱!但是,需要提醒你的是,美国开车的人差不多有两亿,平均每个美国人每年只是多花了1美元……你还觉得多吗?
怎样计算才有意义
看到这你可能糊涂了,平均值到底有没有意义呢?
关键看你关注的是什么。
比如说,如果你关注的是自己的花费,加入健身俱乐部前,计算每天花了多少钱是没有实际意义的,因为你花的是1000块钱,你给人家3块钱,人家肯定不会让你进去锻炼一天的。
而计算在车上给手机充电是否划算时,两亿美元是浪费的总钱数,这与你无关——你关心的只是自己会多花掉多少钱。所以,你应该计算平均数,了解平均每个人花了多少钱,或者说你大概花了多少钱。
回到我们之前说过的健身俱乐部,你不妨花一分钟时间想一想,怎样计算是有意义的?
就像之前我们说的,计算平均每天花多少钱是没有意义的,但是,计算你一共锻炼了多少天,平均每天花了多少钱,这是有意义的。
比如说,一年中你只锻炼了一天,这一天的价格应该是1000块钱。如果你每天都锻炼,那么每天的确只花了3块钱。
小心平均值的陷阱
现在,相信你已经知道平均值什么时候是有意义的了。但是,如果不了解平均值的含义,你仍然可能掉入平均值的陷阱。
学过数理统计的同学应该了解,平均值是衡量一组数据的关键参数。但是,当数值相差非常大时,平均值就失去了衡量这些数据的能力。
理论比较抽象,不妨举个例子。如果我告诉你,原始人的平均寿命只有30岁,你会不会认为他们特别短寿?其实,事实恰恰相反,如果正常死亡的话,他们基本上可以活到60岁。
不要惊讶,这是因为原始人婴儿的夭折率很高,直接拉低了寿命的平均值。
也许你对原始人能活多少岁并不关心,那你自己的收入水平呢?每年,网上公布各行业的平均收入时,总是伴随着这样的言论:“对不起,我又拉低了平均收入!”。
似乎人人都拉低了平均收入——这当然是不可能的。出现这种情况是因为,和年龄一样,收入同样不是平均分布的,二八定律告诉我们,社会上20%的人占有80%的社会财富 ,少数顶尖人士拉高了行业的平均收入。
由于世界并不是均匀分布的,只看平均值很可能会被误导。比如,对于下面这条消息:好丽友旗下的“呀!土豆”,2016年在中国共卖出5.5亿袋,平均每3个中国人中就有1个人吃过。它能说明“呀!土豆”已经风靡全国了吗?当然不是。事实是,我的小侄女一天能吃好几袋,而她爷爷却连这个品牌都没听过。
在面对数据时,你应该如何避免陷入平均值的陷阱呢?可以问自己下面3个问题:
1.平均值是怎么计算的,结果是否有意义?
健身俱乐部年费/天数=每天花费的钱数,这样的计算是没有意义的,有意义的计算方法是,健身俱乐部年费/实际锻炼天数=每次锻炼花费的钱数。
2.数据的整体分布是怎样的?衡量数据的真实情况,还需要哪些参数?
对于不同的情形,数据有多种分布方式,比如,身高是正态分布的,财富是指数分布的,仅仅只看平均值,并不能反应数据的真实情况,还需要其他参数,比如标准差。有兴趣的同学,可以了解下概率论与数理统计。
3.平均值能反应“大部分人的水平”吗?
对于非均匀分布的数据,平均值并不能反应大部分人的真实水平,比如原始人的平均寿命,行业平均工资。更准确的做法是,找到与自己条件相近的群体,用他们的平均值来衡量自己的水平。比如,你在汽车行业工作了两年,可以参考相同条件人群的平均收入。
其实,因为不知道具体含义,而被误解的公式还有很多,比如美国失业率。失业率下降一定意味着更多的人找到了工作吗?事实可能恰恰相反。
美国失业率的计算公式是:失业率=还在找工作的人数/(有工作的+还在找工作的)人数。
也许你已经看出来了,如果有的人失业后找了一段时间工作,但是没找到,于是放弃找工作,选择领取社会补助,这种人并不算“失业”,但是失业率却因为他们下降了。
你还知道哪些平均值的陷阱?哪些计算公式容易引起误解?不妨分享在评论区,我们一起交流讨论。