如何理解统计学这种思维方式之DCOV

《商务统计学》戴维-莱文

翻开书的一瞬间秒懂,这是我一直想要找的统计学书藉。

他不但讲知识,重要的是,站在整个数据工作流程上,给出一套完整的框架,给所有的知识点找到了安放的位置。

符合我们面对工具、知识的一般理解逻辑:是什么?怎么用?为什么虽然重要,但却不是当下最重要的。

在此之前已经看了好几本统计学相关的知识,知识点大概都知道了,但仍然不知道怎么用,有什么用,仿佛空有内力,但没有招式一般,与人切磋仍然只会蛮干。

什么是统计学?

统计学是一种思维方式,包含一系列处理数据的方法,能帮助我们判断事件的发生、数据的差异是偶然的,还是具有显著意义的,以便更好的做出决策。

如何更好的理解统计学这种思维方式?

通过一个框架将统计学的各种任务组织起来。

一个框架(DCOVA

  • 定义(Define)解决问题所需研究的变量,这些变量有助于解决问题或实现目标。
  • 从适当的数据源收集(Collect)数据。
  • 创建表格对收集到的数据进行整理(Organize)。
  • 创建图形使整理出来的数据更加可视化(Visualize)。
  • 分析(Analyse)数据得出结论并进行演示。

在使用DCOVA之前,需要先定义问题,确定一个研究目的是定义问题结束的标志。

在DCOVA中,首先需要完成DC获取有意义的结果,OVA的执行顺序则不固定,根据实际需要执行。

如何定义问题?

如何定义变量?

  • 那什么叫变量?

    有助于分辨个人或事物的特征。

  • 数据的定义是什么?

    与变量相关的各个值的集合。

  • 如何定义变量?

    对每个感兴趣的问题,需要提供可操作的定义,即对所有与分析相关的人而言该定义是明显普遍接受的含义。

    为此,需要先划分变量类型:

    1. 属性变量(定性变量)

      分类的不同类型。

    2. 数值变量(定量变量)

      通过计数或测量所得到的值。

      • 离散变量:计数所得。
      • 连续变量:测量所得。注意,测量单位与精确程度是连续变量的可操作定义的一部分。

收集数据需要注意什么?

  1. 注意区分数据来源

    数据来源可分为原始数据来源(一手)和二手数据来源。

  2. 辨别收集的数据是来自总体还是样本

    分析一个总体的数据时,需要计算参数。

    分析来自样本的数据时,需要计算统计量。

  3. 数据可能是结构化数据和非结构化数据

  4. 同样的数据可能是不同的电子格式,或不同的编码方式

  5. 数据清理

    异常值,对于属性变量是未定义的值,对于数值变量是不可能值。

    缺失值,由于某种原因无法收集到的值。

  6. 重新编码数据

    可能需要考虑将属性变量的类别重新划分,或将数值变量划分为分组转化为属性变量。

    特别注意,为新的变量提供可操作定义,每个数据的值只能被分配到一个类别,即互斥,且新产变量应包含所有的数据,即完备

抽样方法类别

  • 抽样框

    1. 概率样本

      凡有可能都应该使用概率样本,唯有概率样本才可以对总体进行统计推断。

      简单随机样本、系统样本、分层样本、聚类样本。

    2. 非概率样本

      便利样本、判断样本。

调查误差的类型

  • 调查是收集数据的主要方式之一。要识别调查的客观性/可信度。

    1.评价调查目的:为什么进行调查?调查为谁而做?

    2.调查是基于概率样本还是非概率样本?

    3.即使使用概率样本,调查也可能存在潜在误差

    • 覆盖面误差(导致选择性偏差)
    • 无回复误差(或低回复率)
    • 抽样误差
    • 测量误差

如何整理数据?

  1. 整理性属性变量

    将值按不同类别计数、计算百分比。

    总结表、列联表

  2. 整理数值变量

    有序数组、频数分布、频率分布、百分比分布、累积百分比分布

如何可视化数据?

用什么图形进行可视化,取决于我们的目的。

  1. 属性变量可视化

    • 条形图,各类别之间进行比较。
    • 饼图,观察各类别在总体中的占比。
    • 帕累托图,当数据主要集中在少数几个类别中时。
    • 对比条形图,对两个属性(变量)进行比较时。
  2. 数值变量可视化

    • 单个数值变量

      1. 茎叶图。

      2. 直方图,X轴数值变量,Y轴观测值的频数/频率。

      3. 百分比多边形图,X轴为组中值、Y轴为百分比。

      4. 累积百分比多边形图,X轴为组下限,Y轴为百分比。

    • 两个值变量

      1. 时间序列图
      2. 散点图
  3. 一组变量的整理和可视化

    • 多维列联表
    • 数据发现:向下钻取、树状图

准奏构造图表的恰当做法

1.使用简单图形;

2.包含标题;

3.标明所有的轴;

4.如果图表包含轴,每个轴标明刻度;

5.纵轴从0开始;

6.使用固定比例尺;

7.不使用3D特效;

8.不使用花哨图表。

如何分析数据?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,376评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,126评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,966评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,432评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,519评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,792评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,933评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,701评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,143评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,488评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,626评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,292评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,896评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,742评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,324评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,494评论 2 348

推荐阅读更多精彩内容