机器学习实战——决策树

【主要内容】

  • 决策树简介
  • 数据集中度量一致性
  • 使用递归构造决策树
  • 使用Matplotlib绘制树

【数据集度量】

  • 信息增益
    • 克劳德·香农:信息论之父
    • 熵:信息的期望值
    • 信息:l(x_i) = -logp(x_i)
    • 参考材料
      • 《信息论》香农
      • 《财富公式》威廉·庞德斯通
  • 计算数据集的熵——DONE

【划分数据集】

  • 对每一个特征划分数据集,度量划分数据集熵
  • 计算信息增益
    • g(D|A) = H(D) - H(D|A)
    • H(D|A) = sum { |D1|/|D| * H(D_1), |D1|/|D| * H(D_1) ... |Dn|/|D| * H(D_n) }
  • 选择g(D|A)最大的A
  • 划分splitData

【构建决策树】

  • 中止条件:
    • dataSet中,只有一类数据,返回该类(作为叶子);
    • dataSet中只有一种特征,返回主要类(作为叶子)
  • 找到最优特征,(通过遍历所有特征,计算并寻求最大增益熵)
  • 找到最优特征对应的feature label,生成一个root节点,设置feature label为节点标签
  • 遍历最优特征的所有特征值,对每个特征值,抽取数据集合
  • 对每一个数据子集合递归生成一个决策树,挂在当前树下
  • 返回当前tree

【绘制tree】

  • DONE
Paste_Image.png

【剪枝】chapter 9

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 简述 本章构造的决策树算法能够读取数据集合,构建类似于图3-1的决策树。决策树很多任务都 是为了数据中所蕴含的知识...
    芮芮cat阅读 397评论 0 1
  • 决策树 决策树是一个选择的过程,以树的结构来展示,其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性...
    z3r0me阅读 296评论 0 0
  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,939评论 0 25
  • 第二章介绍的k-近邻算法可以完成很多分类任务,但是它最大的缺点就是无法给出数据内在的含义,决策树的主要优势在于数据...
    mov觉得高数好难阅读 860评论 0 2
  • 这里开始机器学习的笔记记录。今天的这篇是一个分类方法--决策树。 决策树优点:计算复杂度不高,输出结果易于理解,对...
    七号萝卜阅读 6,498评论 0 18