机器学习

1、什么是机器学习？

机器学习，是人工智能一个基本条件，是建立大数据基础之上。从数据中提取出模型，并可以利用模型对未知的数据做出预测

机器学习算法分类又分为监督学习和无监督学习

监督学习

定义：输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归），或是输出是有限个离散值（称作分类）

算法：分类（ k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络）

回归（线性回归、岭回归）
无监督学习

定义：输入数据是由输入特征值所组成

算法：聚类（k-means）

机器学习一个流程图：

2、机器学习算法

2.1、K-近邻算法(KNN)

2.1.1、算法介绍

定义： 1）如果一个样本在特征空间中的k个最相似(特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别

2）欧氏距离计算

3）根据你的‘邻居’来判断你的属性
优点：简单，易于理解，易于实现，无需训练
缺点：1）懒惰算法，对测试样本分类时的计算量大，内存开销大

2）必须指定K值，K值选择不当则分类精度不能保证（可以使用模型调优，超参数搜索）
应用场景：小数据场景，几千～几万样本，具体场景具体业务去测试

2.1.2、算法的API接口

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')

n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数
algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，可选用于计算最近邻居的算法：‘ball_tree’将会使用 BallTree，‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)

2.1.3、模型选择与调优API

sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)

参数描述

estimator：估计器对象
param_grid：估计器参数(dict){“n_neighbors”:[1,3,5]}
cv：指定几折交叉验证

属性描述

fit：输入训练数据
score：准确率
bestscore:在交叉验证中验证的最好结果
bestestimator：最好的参数模型
cvresults:每次交叉验证后的验证集准确率结果和训练集准确率结果

2.2、朴素贝叶斯分类算法

2.2.1、算法介绍

定义：条件概率、联合概率计算方式与特征独立的关系去预测
优点：1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。

2）对缺失数据不太敏感，算法也比较简单，常用于文本分类。

3）分类准确度高，速度快
缺点：由于使用了样本属性独立性的假设，所以如果特征属性有关联时其效果不好

2.2.2、算法的API接口

sklearn.naive_bayes.MultinomialNB(alpha = 1.0)

alpha：拉普拉斯平滑系数

2.3、决策树算法

2.3.1、算法介绍

定义：通过多层特征，并且选择特征有优先级
优点：简单的理解和解释，树木可视化
缺点：决策树学习者可以创建不能很好地推广数据的过于复杂的树，这被称为过拟合

（使用随机森林树解决，相当于KNN算法使用模型调优）

2.3.2、算法的API接口

sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)

criterion:默认是’gini’系数，也可以选择信息增益的熵’entropy’
max_depth:树的深度大小
random_state:随机数种子

2.4、随机森林算法

2.4.1、算法介绍

定义：一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定
优点： 1）能够有效地运行在大数据集上，处理具有高维特征的输入样本，而且不需要降维

2）在当前所有算法中，具有极好的准确率

3）能够评估各个特征在分类问题上的重要性

2.4.2、算法的API接口

sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)

n_estimators：integer，optional（default = 10）森林里的树木数量
criteria：string，可选（default =“gini”）分割特征的测量方法
max_depth：integer或None，可选（默认=无）树的最大深度
max_features：默认"auto”,每个决策树的最大特征数量
bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样
min_samples_split:节点划分最少样本数
min_samples_leaf:叶子节点的最小样本数

超参数：n_estimator, max_depth, min_samples_split,min_samples_leaf

2.5、逻辑回归算法

2.5.1、算法介绍

定义：逻辑回归就是解决二分类问题的利器

2.5.2、算法的API接口

sklearn.linear_model.LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0)

solver:优化求解方式（默认开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数） sag：根据数据集自动选择，随机平均梯度下降
penalty：正则化的种类
C：正则化力度

2.6、线性回归算法

2.6.1、算法介绍

定义：利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式
过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)
欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)
上诉两个问题，引出岭回归算法解决

2.6.2、算法的API接口

正规方程

sklearn.linear_model.LinearRegression(fit_intercept=True)

fit_intercept：是否计算偏置
LinearRegression.coef_：回归系数
LinearRegression.intercept_：偏置

梯度下降

sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='invscaling', eta0=0.01)

loss:损失类型 loss=”squared_loss”: 普通最小二乘法
fit_intercept：是否计算偏置
learning_rate : string, optional
- 'constant': eta = eta0
- 'optimal': eta = 1.0 / (alpha * (t + t0)) [default]
- 'invscaling': eta = eta0 / pow(t, power_t)
- 对于一个常数值的学习率来说，可以使用learning_rate=’constant’ ，并使用eta0来指定学习率。

2.7、岭回归算法

2.7.1、算法介绍

定义：岭回归，其实也是一种线性回归。只不过在算法建立回归方程时候，加上正则化的限制，从而达到解决过拟合的效果

2.7.2、算法的API接口

sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False)

alpha:正则化力度，也叫 λ （λ取值：0~1 1~10）
solver:会根据数据自动选择优化方法， sag:如果数据集、特征都比较大，选择该随机梯度下降优化
normalize:数据是否进行标准化， normalize=False:可以在fit之前调用preprocessing.StandardScaler标准化数据
Ridge.coef_:回归权重
Ridge.intercept_:回归偏置

2.8、k-means算法

2.8.1、算法介绍

定义：无监督学习，由于数据没有标签，没有目标值

2.8.2、算法的API接口

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)

n_clusters:开始的聚类中心数量
init:初始化方法，默认为'k-means ++’
labels_:默认标记的类型，可以和真实值比较（不是值比较）

3、模型保存和加载

from sklearn.externals import joblib

保存：joblib.dump(rf, 'test.pkl')
加载：estimator = joblib.load('test.pkl')

4、算法评估

4.1、分类评估

评估方式：准确率, 精确率和召回率
评估API：sklearn.metrics.classification_report(y_true, y_pred, labels=[], target_names=None )
- y_true：真实目标值
- y_pred：估计器预测目标值
- labels:指定类别对应的数字
- target_names：目标类别名称
- return：每个类别精确率与召回率

4.2 聚类评估

评估方式：轮廓系数
评估API：sklearn.metrics.silhouette_score(X, labels)
- X：特征值
- labels：被聚类标记的目标值

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345

机器学习

机器学习

1、什么是机器学习？

2、机器学习算法

2.1、K-近邻算法(KNN)

2.1.1、算法介绍

2.1.2、算法的API接口

2.1.3、模型选择与调优API

2.2、朴素贝叶斯分类算法

2.2.1、算法介绍

2.2.2、算法的API接口

2.3、决策树算法

2.3.1、算法介绍

2.3.2、算法的API接口

2.4、随机森林算法

2.4.1、算法介绍

2.4.2、算法的API接口

2.5、逻辑回归算法

2.5.1、算法介绍

2.5.2、算法的API接口

2.6、线性回归算法

2.6.1、算法介绍

2.6.2、算法的API接口

2.7、岭回归算法

2.7.1、算法介绍

2.7.2、算法的API接口

2.8、k-means算法

2.8.1、算法介绍

2.8.2、算法的API接口

3、模型保存和加载

4、算法评估

4.1、分类评估

4.2 聚类评估

推荐阅读更多精彩内容