红色餐桌
随机森林指的是利用多棵树对样本进行训练并预测的一种分类器
01、前言
宠物店里有猫和狗两种宠物,每个动物都有他编号、名字、交易时间、交易结果、性别、物种、毛色等属性;建立这些属性与结果之间的关系。
train数据集
根据数学模型建立的属性与结果关系,预测test数据集中动物的结果(test数据集中结果缺失,需要预测)
test数据集
随机森林
采用随机森林对宠物可能面临的结果进行预测。预测结果是给出test数据集中每个宠物可能面临的结果的概率
预测结果
模型最后给出变量的权重,即各个变量对宠物结果的影响权重分布。影响最大的因素是宠物的交易年龄,其次为宠物是否阉割,hour是指交易发生时间,早中晚的交易主题不太一样。simplecolor是指宠物自身的毛色···
变量权重
这里就简单介绍一下随机森林的应用,详细的R语言代码可以参考泰坦尼克的处理。随机森林的模型操作类似,只是换了一下数据集而已。
《泰坦尼克》的随机森林应用以及数据集变量处理