特征工程(一)

对于一个机器学习问题,数据和特征往往决定了结果的上线,而模型、算法的选择及优化则是在逐步接近这个上限。

特征工程,就是对原始数据进行一系列工程处理,将其提炼为特征,做为输入供算法和模型使用。

特征工程的目的是去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。

一、特征归一化

数据归一化,使各指标处于同一数值量级,使不同指标之间具有可比性。

归一化的方法:线性函数归一化((对应值-最小值)/(最大值-最小值));零均值归一化(均值为0,标准差为1分布,公式:(对应值 - 均值)/标准差)。

为什么对数值类型的特征做归一化?

例如:两种数值特征,x1~[0,5]  x2~[0,10],使用随机梯度下降时,在学习速率相同的情况下,x1比x2需要较多的迭代才能找到最优解,这个时候训练的话,两种特征对结果的影响就会因为数值范围不同而受影响。但是将两种数值特征归一化到相同的数值区间后,他们的迭代速度就是一样的,对最后结果的影响就不会因为数值范围不同而有影响。

数据归一化不是万能的,通过梯度下降法求解的模型通常是需要归一化的,包括线性模型、逻辑回归、支持向量机、神经网络等模型。但是决策树就不适用。比如c4.5,节点分裂时,选择的依据是信息增益比。而信息增益比与是否归一化无关。

二、类别型特征

类别型特征(比如性别):原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型,类别型特征必须经过处理转换成数值型特征才能正确工作。

在对数据进行预处理时,应该怎样处理类别型特征?

序号编码

独热编码

二进制编码

序号编码:用于处理类别间具有大小关系的数据。比如成绩:92,91,90。序号分别表示为3,2,1。转换后依然保留了大小关系。

独热编码:用于处理类别间不具有大小关系的特征。例如:血型,一共4个取值。独热编码将其转化为一个4维稀疏向量。A型血表示为(1,0,0,0),B型血表示为(0,1,0,0),AB型血表示为(0,0,1,0),O型血表示为(0,0,0,1)。对于类别取值较多的情况下使用独热编码需要注意两个问题:1. 使用稀疏向量来节省空间。在独热编码下,特征向量只有某一维取值为1,其他位置取值均为0,因此可以用向量的稀疏表示有效的节省空间,并且大部分的算法均接受稀疏向量形式的输入。2.配合特征选择来降低维度。高维度特征会带来几方面的问题。一是在k近邻算法中,高维空间下两点之间的距离很难得到有效的衡量;二是在逻辑回归模型中,参数的数量会随着维度的增高而增加,容易引起过拟合;三是通常只有部分维度是对分类、预测有帮助,因此可以考虑配合特征选择来降低维度。

二进制编码:先用序号编码给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果。本质上是利用二进制对 ID 进行哈希映射,最终得到0/1特征向量,且维数少于独热编码,节省了存储空间。例如:对四种血型的表示为:A型血是001,B型血是010,AB型血是011,O型血是100。

还有很多其他的编码方式:如Helmert Contrast、Sum Contrast、Polynomial Contrast、Backward Difference Contrast。

向量的稀疏表示:  向量(1, 0, 0, 1, 3, 0)  密集表示:[1, 0, 0, 1, 3, 0]。稀疏表示:(6, [0, 3, 4], [1, 1, 3])  6表示向量的长度,[0, 3, 4]表示的是有值的索引组成的数组,[1, 1, 3]表示的是不为0的值组成的数组。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349