模型调参——随机森林在泰坦尼克数据集上的调参应用

一、数据集

Kaggle泰坦尼克数据集train.csv

二、模型选择

泰坦尼克数据集是二分类模型,本文选择使用随机森林模型进行调参。

三、数据预处理

泰坦尼克数据集需要进行数据预处理才能后续建模导入,删除了列Name、Ticket、Cabin,对列Sex、Embarked进行编码,使用平均值填补列Age缺失样本,分离出特征集与标签集。

四、调参流程

1)简单建模,观察模型在数据集上具体的表现效果
2)调参——n_estimators
3)调参——max_depth
4)调参——min_samples_leaf
5)调参——min_samples_split
6)调参——max_features
7)调参——criterion
8)确定最佳参数组合

五、调参详解应用步骤

1)导入相关库
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.impute import SimpleImputer
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
2)查看数据集概况
data=pd.read_csv("C:\\Users\\DRF\\Desktop\\tatanic\\datasets\\train.csv",index_col=0)
data.head()
data.info()

发现数据存在缺失值等问题,需要进行数据预处理后才能建模

3)数据预处理
data.loc[:,'Age']=SimpleImputer(missing_values=np.nan,strategy='mean').fit_transform(data.loc[:,'Age'].values.reshape(-1,1))
data.drop(['Name','Cabin','Ticket'],axis=1,inplace=True)
data.loc[:,'Sex']=(data.loc[:,'Sex']=='male').astype('int32')
data=data.dropna()
labels=data.loc[:,'Embarked'].unique().tolist()
data['Embarked']=data['Embarked'].apply(lambda x:labels.index(x))
x=data.iloc[:,data.columns!='Survived']
y=data.iloc[:,data.columns=='Survived']
y=y.values.ravel()

这样就预处理成功泰坦尼克数据集,并区分好特征x和标签y,可进行下一步的建模。

4)简单建模,观察模型在数据集上具体的表现效果
rfc=RandomForestClassifier(n_estimators=100,random_state=90)
score_pre=cross_val_score(rfc,x,y,cv=10).mean()
score_pre

score_pre 分数为 0.809920837589377

5)调参 n_estimators
scorel=[]
for i in range(1,201,10):
    rfc=RandomForestClassifier(n_estimators=i,random_state=90)
    score=cross_val_score(rfc,x,y,cv=10).mean()
    scorel.append(score)
print(max(scorel),((scorel.index(max(scorel))*10))+1)
plt.figure(figsize=[20,5])
plt.plot(range(1,201,10),scorel)
plt.show()

运行结果:

通过数据和学习曲线可以发现,当n_estimators=71的时候,阶段性准确率最高,达到0.8121807967313586,调整n_estimators效果显著,准确率较之前有提升。

接下来缩小范围,继续探索n_estimators在 [65,75] 之间的表现效果

scorel=[]
for i in range(65,75):
    rfc=RandomForestClassifier(n_estimators=i,random_state=90)
    score=cross_val_score(rfc,x,y,cv=10).mean()
    scorel.append(score)
print(max(scorel),[*range(65,75)][scorel.index(max(scorel))])
plt.figure(figsize=[20,5])
plt.plot(range(65,75),scorel)
plt.show()

运行结果:

缩小范围后,正好也是当n_estimators=71时,模型准确度为0.8121807967313586。确定最佳 n_estimators 为 71,接下来就进入网格搜索,我们将使用网格搜索对参数一个个进行调整。窥探如何通过复杂度-泛化误差方法调整参数进而提高模型的准确度。

6)调参max_depth
grid_param={'max_depth':[*np.arange(1,7)]}

rfc=RandomForestClassifier(n_estimators=71,random_state=90)
GS=GridSearchCV(rfc,grid_param,cv=10)
GS.fit(x,y)
GS.best_params_

运行结果:

通过运行结果可以看到,网格搜索给出的最佳参数max_depth是5,此时最佳准确度为0.8346456692913385

限制max_depth减小至5,模型准确率有所提升,说明模型现在位于图像右边,即泛化误差最低点的右边。最终确定参数max_depth=5。

7)调参min_samples_leaf
grid_param={'min_samples_leaf':[*np.arange(1,11,1)]}

rfc=RandomForestClassifier(n_estimators=71,random_state=90)
GS=GridSearchCV(rfc,grid_param,cv=10)
GS.fit(x,y)
GS.best_params_
GS.best_score_

运行结果:

当min_samples_leaf=3时,准确率最高为0.8335208098987626,较之前的0.8346456692913385小,说明模型准确度下降了,位于图像左边,即泛化误差最低点的左边。舍弃调整参数min_samples_leaf。

8)调参min_samples_split
grid_param={'min_samples_split':[*np.arange(2,22,1)]}

rfc=RandomForestClassifier(n_estimators=71,random_state=90)
GS=GridSearchCV(rfc,grid_param,cv=10)
GS.fit(x,y)
GS.best_params_
GS.best_score_

运行结果:

当min_samples_split=17时,准确率最高为.8357705286839145,较之前的0.8346456692913385有所提高,说明模型准确度随着模型复杂度的下降而降低了,表明模型现在位于图像右边,即泛化误差最低点的右边。确认参数min_samples_split=17。

9)调参max_features
grid_param={'max_features':[*np.arange(2,7,1)]}

rfc=RandomForestClassifier(n_estimators=71,min_samples_split=17,random_state=90)
GS=GridSearchCV(rfc,grid_param,cv=10)
GS.fit(x,y)
GS.best_params_
GS.best_score_

运行结果:

网格搜索给出的最佳参数max_features是2,此时准确度与之前相同。而max_features的默认值是特征数的开平方即为2,因此模型的准确率没有变化。最终确认参数max_features=2。

10)调参criterion
grid_param={'criterion':['gini','entropy']}

rfc=RandomForestClassifier(n_estimators=71,min_samples_split=17,max_features=2,random_state=90)
GS=GridSearchCV(rfc,grid_param,cv=10)
GS.fit(x,y)
GS.best_params_
GS.best_score_

运行结果:

网格搜索给出的最佳参数criterion是gini,此时准确度与之前相同,默认的criterion也是gini,因此模型的准确率没有变化。

六、调参完毕,总结模型最佳参数组合

RandomForestClassifier(n_estimators=71
                      ,min_samples_split=17
                      ,max_features=2
                      ,criterion='gini'
                      ,random_state=90)

调参前模型准确率:0.809920837589377(80.99%)
调参后模型准确率:0.835770528683914(83.58%)
模型提升的准确率:0.025849691094537(+2.58%)

·································································································································································
完整代码:

#导入相关库
from sklearn.ensemble import RandomForestClassifier #导入集成算法随机森林模块
from sklearn.model_selection import cross_val_score #导入交叉验证模块
from sklearn.model_selection import GridSearchCV    #导入网格搜索模块
from sklearn.impute import SimpleImputer            #导入SimpleImputer用于填补缺失值
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#数据集概况
data=pd.read_csv("C:\\Users\\DRF\\Desktop\\tatanic\\datasets\\train.csv",index_col=0) #导入数据集
data.head()
data.info()

#数据预处理
data.loc[:,'Age']=SimpleImputer(missing_values=np.nan,strategy='mean').fit_transform(data.loc[:,'Age'].values.reshape(-1,1))
data.drop(['Name','Cabin','Ticket'],axis=1,inplace=True)
data.loc[:,'Sex']=(data.loc[:,'Sex']=='male').astype('int32')
data=data.dropna()
labels=data.loc[:,'Embarked'].unique().tolist()
data['Embarked']=data['Embarked'].apply(lambda x:labels.index(x))
x=data.iloc[:,data.columns!='Survived']
y=data.iloc[:,data.columns=='Survived']
y=y.values.ravel()

#简单建模,观察模型在数据集上具体的表现效果
rfc=RandomForestClassifier(n_estimators=100,random_state=90)      #实例化
score_pre=cross_val_score(rfc,x,y,cv=10).mean() #交叉验证
score_pre

#调参n_estimators
scorel=[]
for i in range(1,201,10):
    rfc=RandomForestClassifier(n_estimators=i,random_state=90) #设置n_estimators[1,201]依次建模评分
    score=cross_val_score(rfc,x,y,cv=10).mean()
    scorel.append(score)
print(max(scorel),((scorel.index(max(scorel))*10))+1)
plt.figure(figsize=[20,5]) #绘制学习曲线
plt.plot(range(1,201,10),scorel)
plt.show()

scorel=[]
for i in range(65,75):
    rfc=RandomForestClassifier(n_estimators=i,random_state=90) #设置n_estimators[1,201]依次建模评分
    score=cross_val_score(rfc,x,y,cv=10).mean()
    scorel.append(score)
print(max(scorel),[*range(65,75)][scorel.index(max(scorel))])
plt.figure(figsize=[20,5]) #绘制学习曲线
plt.plot(range(65,75),scorel)
plt.show()

#调参max_depth 网格搜索最佳参数
grid_param={'max_depth':[*np.arange(1,7)]} #网格搜索设置参数及参数大小范围
rfc=RandomForestClassifier(n_estimators=71,random_state=90) #实例化
GS=GridSearchCV(rfc,param_grid,cv=10) #网格搜索
GS.fit(data.data,data.target)  #训练模型
GS.best_params_   #最佳参数
GS.best_score_    #最佳分数

#调参min_samples_leaf 网格搜索最佳参数
grid_param={'min_samples_leaf':[*np.arange(1,11,1)]} #网格搜索设置参数及参数大小范围
rfc=RandomForestClassifier(n_estimators=71,random_state=90) #实例化
GS=GridSearchCV(rfc,param_grid,cv=10) #网格搜索
GS.fit(data.data,data.target)  #训练模型
GS.best_params_   #最佳参数
GS.best_score_    #最佳分数

#调参min_samples_split 网格搜索最佳参数
grid_param={'min_samples_split':[*np.arange(2,22,1)]} #网格搜索设置参数及参数大小范围
rfc=RandomForestClassifier(n_estimators=71,random_state=90) #实例化
GS=GridSearchCV(rfc,param_grid,cv=10) #网格搜索
GS.fit(data.data,data.target)  #训练模型
GS.best_params_   #最佳参数
GS.best_score_    #最佳分数

#调参max_features 网格搜索最佳参数
grid_param={'max_features':[*np.arange(2,7,1)]} #网格搜索设置参数及参数大小范围
rfc=RandomForestClassifier(n_estimators=71,min_samples_split=17,random_state=90) #实例化
GS=GridSearchCV(rfc,grid_param,cv=10) #网格搜索
GS.fit(data.data,data.target)  #训练模型
GS.best_params_  #最佳参数
GS.best_score_   #最佳分数

#调参criterion 网格搜索最佳参数
grid_param={'criterion':['gini','entropy']} #网格搜索设置参数及参数大小范围
rfc=RandomForestClassifier(n_estimators=71,min_samples_split=17,max_features=2,random_state=90) #实例化
GS=GridSearchCV(rfc,grid_param,cv=10) #网格搜索
GS.fit(data.data,data.target)  #训练模型
GS.best_params_  #最佳参数
GS.best_score_   #最佳分数

#确定最佳参数组合
RandomForestClassifier(n_estimators=71
                      ,min_samples_split=17
                      ,max_features=2
                      ,criterion='gini'
                      ,random_state=90)

以上全部是我对关于随机森林算法对泰坦尼克号数据集的调参思路分享。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,639评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,277评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,221评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,474评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,570评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,816评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,957评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,718评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,176评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,511评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,646评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,322评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,934评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,755评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,987评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,358评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,514评论 2 348