数据分析入门 | 探索性数据「上」

「写在前面」


        大家好,这里是卢敬宜和林高兴的学习园地,接下来会在这里更新卢敬宜的数据分析学习笔记和林高兴营销方向秋招的面经(或许也会有一些营销方向的心得体会),一方面是作为学习成果的记录,另一方面也是希望让自己收获的知识发挥一点光和热。更新周期不定,但会努力⛽️

「正文」


        数据分析的第一步,也是数据科学项目的第一步:探索数据。

        ※那我们这里产生疑问:

        为什么要探索数据,直接进行数据分析可以吗?

        当然可以,前提是你的数据都已「结构化」。事实上,我们面对的很多数据,例如文本单词的处理、用户点击与阅读的信息流 ,这些原始性的数据都不具备可操作性(即机器无法理解)。我们需要将原始数据转化为可操作性的信息,这才是我们面临的主要挑战:「将非结构化的原始数据结构化」。

        一、我们的目标 “结构化数据”是什么

        结构化数据主要包含两种基本类型:“数值型数据” 与 “分类数据”。

        (一)数值型数据

        1.连续型数据。数据可在一个区间内取任何值,例如风速、持续时间等。

        2.离散型数据。数据只能取整数,例如计数,如年龄、大小、发生次数等。

        (二)分类数据

        数据只能从特定集合中取值,来表示可能的分类。

        例如,我们拨打固定电话前,如果是跨省电话往往需要加上区号,北京是010,上海是021,用分类数值对应特定的地区。

        除了数值型和分类两种基本类型数据,还包括“二元数据”与“有序数据”

         (三)二元数据

        “二元数据”是一种重要且特殊的分类数据,该类数据的取值只择其一。

        (四)有序数据

        “有序数据”是另一种分类数据,该数据是按照分类排序,例如学生的学号、医院排队的号码。

        自我理解,二元数据和有序数据都可以理解为特殊点的分类数据。

        二、矩形数据

        在得到结构化数据后,我们需要有一个更好的框架去“整体”、“系统”地去了解和阅读数据,因此我们需要借助「矩形数据」。

        *矩形数据的本质是一个二维矩阵;

        *行表示记录事例(就是我们所说的一个数据),列表示特征(即我们所说的维度、特征或变量);

        *数据刚开始一般都是矩阵式的,需要经过处理。

        其中最著名的矩形数据就是Python里的熊猫包(Pandas)里的DataFrame对象。

        通过pd.DataFrame方法可以将非结构化数据变成矩形结构数据,并自动建立一个整数索引。

        当然,有的数据并不隶属于矩形数据。

        例如时序数据、空间数据、网络数据,都有其特定的结构。空间数据结构常用地图进行定位和分析,网络数据通常用点连接图,这些数据类型有其独特的方法论。

        三、在对数据结构化之后,我们需要对数据特征进行总结

        数据特征两大维度分别是 “位置” 与 “变异性”

        (一)位置

        我们先来理解"位置"(或成集中趋势)。探索数据的一个基本步骤,就是获得每个特征的“典型值”,典型值是对数据最常出现的位置的估计,即数据的集中趋势。

        1.均值

        均值:所有数据之和除以数值的个数

        乍一看,总结数据很似乎很简单,对数据取均值即可。但均值很多时候“并非”那么好的度量值,因此在统计学上提出一些估计量来替代均值。

        我们在均值的基础上引申出两个均值的变种:

        (1)切尾均值

        很好理解,在有数据集上,去头去尾(头和尾去的数值相同),对剩余数值取均值。

        应用场景:除非数据集比较小,否则我们将数据集开头和结尾各舍弃10%以免受离群值影响。

        例如,跳水比赛一般有8个评委,为了排除国籍之间的偏好与厌恶,去掉最高分与最低分,最剩下6个的平均分。

        (2)加权均值

        计算加权均值时,将每个值Xi乘以其对应的权重Wi,将加权的的值综合除以权重的总和。

        例如,大学计算学分时候,如果你的微积分成绩是90(学分是4分),大学英语成绩是80(学分是2分),则加权平均分=(90*4+80*2)/6= 86

        2.中位数和稳健估计量

        (1)中位数

        相信大家对中位数计算很熟悉,是位于有序数据集中间位置处的数据。

        在不少实际应用中,中位数是比均值更好的位置度量(因为其对于离群值不那么在乎)。

        有时候,我们还需要加权中位数(这个可能稍微陌生)。加权中位数是使有序数据集上下两部分的权重综合相同的值。

        (2)离群值

        我们称中位数为一种对位置的“稳健”的估计量,因为其不会受离群值(极端值)的影响,因为离群值会使得结果产生偏差。

        (3)稳健的估计量

         「稳健」就是对极值不敏感。对于极端值不敏感的估计量都是稳健的估计量,包括中位数、切位均值

    (二)变异性

        位置是总结特性的一种维度,另一个维度则是“变异性”,衡量的是数据值是“紧密的”还是“分离的”。

        在统计学中,变异性是一个核心概念。进行统计的时候,我们关注这几个问题:如何测量变异性?如何降低变异性?如何在有变异性情况下做出决策?

        衡量变异性的有以下几个特征:

        1.残差 (观测值与实际值直接的差异)

        但残差本身效果是很差的,因为负的偏差值会抵消正的偏差值,因此我们提出改进的计算方法↓

        2. 平均绝对偏差

        对均值的偏差取绝对值,并且除以n,这就是平均绝对偏差。比起残差具有更好的衡量变异性效果。

        3. 但,为什么统计学更多用方差与标准差,而不用平均绝对偏差?

        统计学中更常用的两个指标“方差”与“标准差”。

        这里我的理解是:从计算角度而言,使用平方值的计算要比使用绝对值更加方便,尤其对于统计模型。

        4. 极差

        基于有序数据的统计量,数据的最大值与最小值之间的差值(但极差对离群值非常敏感,对于测量数据的离差并非十分有用)。

        5. 百分位数

        同极差一样,百分位数也是基于有序数据的统计量,基于百分位数间的差异。在一个数据集中,第p百分位数表明,至少有P%的值小于或等于该值,而(100-p)%的值大于或等于该值。


作者:卢敬宜

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355