浅读机器学习有感(一)

一、机器学习简介和概述

1.1什么是机器学习?

        机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

1.2为什么需要机器学习?

        机器学习可以解放生产力,解决专业问题,提供便利

1.3机器学习应用场景:

        自然语言处理,无人驾驶,计算机视觉,推荐系统

二、机器学习中的数据

2.1数据类型:

            离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所

                                有这些数据全部都是整数,而且不能再细分,也不能进一步提高他

                                们的精确度。

            连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的,

                                如,长度、时间、质量值等,这类整数通常是非整数,含有小数部分。

            注意:只要记住一点,离散型是区间内不可分,连续型是区间内可分

2.2可用数据集:


2.3常用数据集数据结构:

三、机器学习中数据的特征工程:

3.1什么是特征工程?

           特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,

           从而提高了对未知数据的模型准确性

3.2 Scikit-learn库:

            介绍:Scikit-learn库是Python语言的机器学习工具

                      Scikit-learn库包括许多知名的机器学习算法的实现

                      Scikit-learn库文档完善,容易上手,丰富的API,使其在学术界颇受欢迎。

                      目前稳定版本0.18

            安装:pip install Scikit-learn

注意:安装scikit-learn需要Numpy,pandas等库

            使用:import sklearn

四、机器学习中数据的特征抽取:

4.1为什么要进行特征抽取?

            特征抽取可以对文本进行特征值化,使计算机可以更好地理解数据

4.2利用Scikit-learn库实现特征抽取:

            4.2.1字典特征抽取:

                            类:sklearn.feature_extraction.DictVectorizer

                           语法:


                              使用流程:


              4.2.2文本特征抽取:

                            类:sklearn.feature_extraction.text.CountVectorizer

                            语法:


                               使用流程:


               4.2.3使用jieba分词对中文进行特征值化:

                            安装:pip install jieba

                            使用:

               4.2.4使用TF-IDF:

                            TF-IDF的中心思想:如果某个词或短语在一篇文章中出现的概率高,

                                                           并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,

                                                           适合用来分类。

                            TF-IDF的作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

                            类:sklearn.feature_extraction.text.TfidfVectorizer

                            语法:


五、机器学习中数据的特征处理:

5.1什么是特征处理:

           通过特定的统计方法(数学方法)将数据转换成算法要求的数据

5.2特征处理的分类:

            数值型数据:

                  1、归一化:

                            特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间

                            原理:


                            使用:

                                    sklearn.preprocessing.MinMaxScaler

                            流程:

                                    1、实例化MinMaxScalar

                                    2、通过fit_transform转换

                            总结:注意在特定场景下最大值最小值是变化的,

                                      另外,最大值与最小值非常容易受异常点影响,

                                      所以这种方法鲁棒性较差,只适合传统精确小数据场景。

                  2、标准化:

                           特点:通过对原始数据进行变换把数据变换到均值为0,方差为1范围内

                           原理:


                           使用:scikit-learn.preprocessing.StandardScaler

                         语法:


                             流程:


                             总结:在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

                  3、缺失值

                            处理方法:

                                   删除:如果每列或者行数据缺失值达到一定的比例,建议放弃整行或者整列

                                   插补:可以通过缺失值每行或者每列的平均值、中位数来填充


                            使用:sklearn.preprocessing.Imputer

                            语法:


                            流程:


            类别型数据:one-hot编码

            时间类型:时间的切分

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容