仓库:杂乱想法堆积处①c4.5

开始后的第二周,在这一周内的脑洞。

几乎都是错的想法,自留,如果有谁不幸看到了这篇请不要当做参考会被带到沟里的……

关于整个C4.5算法非常我流的理解

给一坨数据,判断指向的结果是否唯一或满足某个条件(预剪枝情况下),如果不唯一,则计算信息增益率,选择信息增益率最大的属性(即对结果影响最大的属性)作为节点,同时生成基于该属性具体数值的子数据集,重复以上步骤

Q0.(非习题)信息增益和信息增益率的区别,以及为什么要用信息增益率

唔姆唔姆

Q1.对决策树诱导过程的大O时间复杂度给出细致的量化,给出关于属性数量和训练实例数量的复杂度ry

(个人理解的)人话:考虑一下影响事情发生的因素数量(属性数量)和总次数(训练实例数量)对算出来树需要花费的时间的影响处于哪个量级(eg.对时间影响以n计和以n^2计,数以千计和数以万计ry)

若n表示数据规模,O(f(n))表示运行算法所需要执行的指令数,和f(n)成正比。

O(f(n))表示算法执行的最低上界

几个常见的大O

具体复杂度是啥改天再看8……算法还没仔细看(

“可以考虑先确定树深度的界”,这是预剪枝8大概……

“此外,也请给出对剪枝代价的评估”,如果上一句真的是预剪枝不就和第三题撞了嘛orz

Q3.避免过拟合的另一种方法是限制树的生长,考虑一下这种预剪枝的方法是否合理

方法1是指定深度,2是指定阈值

我就说第一题是预剪枝嘛!!!

《机器学习实战》基于信息论的三种决策树算法(ID3,C4.5,CART) - CSDN

防挂,贴大佬github Github - Thinkgamer_Machine-Learning-With-Python

讲道理我觉得还行,网上(至少度娘能搜到的文章)不然就是一笔带过,不然就是把预剪枝批评的一无是处(……)还是和第一题的大O有关,如果某项的复杂度太高(eg.假设训练实例数量影响是O(c^n),当训练实例过多时再用后剪枝显然不合理,可能生成树都需要很久),这时候就需要用到预剪枝来避免出现生成树花费时间过长的情况。

所以还是要先分析大O才能确定到底适不适用预剪枝,以及当超过哪个数量级时预剪枝比后剪枝效率高,当超过那个数量时采用预剪枝才是更好的选择,一棒子打死是没有前途的

于是这和过拟合有啥关系……

Q4.请证明c4.5算法所用的不纯度(即熵)的度量是凹的

你以为是熵其实 是我DIO哒 不是化学的熵想不到吧.jpg

是说这个是信息熵/香农熵,和化学的熵不太一样,本来以为是混乱度or权重,也就是对最后结果的影响程度来着,后来发现好像不是(。

姑且说一下之前(第一时间)的想法。

因为想成了化学的熵,所以理解的是“使剩下的趋于不混乱直至得到唯一可以确定的结果”,也就是先把混乱度即不确定性最高的挑出来判断,然后根据判断结果再转到别的位置……有点像小时候的星座性格测试那种的,选a转到第三题选b转到第五题那种感觉

↑微妙地错了。

简单地说这俩熵根本不是一个东西,鬼知道为什么翻译成同一个字(。参见 数据压缩与信息熵-阮一峰

比较喜欢的一篇信息熵的解释:信息熵是什么? - 知乎用户的回答 - 知乎

是说信息熵是 代表随机变量不确定度的度量 ,熵越大=不确定程度越大=信息量越大,个人理解 信息量越大=影响越大

关于log以2为底比较喜欢的解释 信息熵是什么? - 蒋竺波的回答 - 知乎

说白了就是每个事件的结果只有0(不发生)或1(发生),所有结果2^n所以就是log2

精简截图,别开链接了

关于决策树,思路大概是从最混乱且影响最大的开始消除8……是说如果从最小的开始消除也没啥用啊,消不消没啥区别(。然后到最后会逐渐趋于信息熵变小即确定性变高直至熵无限趋近于0,得到唯一确定的结果。

信息熵就是把一个系统的不确定性,按照其可能出现结果的概率分布,进行定量化计算。算一个简单的算例便于理解。

大致知道啥意思但是说不出来emmm

离散信源的信息熵具有②对称性,即对称于p=0.5 ④极值性,当P=0.5时,H(U)最大;而且H(U)是P的上凸函数

唔姆

与百度百科凸函数(下凸)对比,这里的凹函数(上凸)应:如果其二阶导数在区间上恒小于等于0,就称为凹函数凹函数 - 360百科 想不到吧凹函数不是你以为的凹函数

如果不是这样(有一个极值点)就没办法确定熵(???)

Q6.等待编辑中

instead of using information gain

if we directly selected the attribute with the highest prediction accuracy

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,845评论 0 25
  • 前言 谢谢牛客网帮助我成功拿到心仪的offer(自然语言算法工程师),也感觉各位大佬分享的面经,所以想回馈一波。...
    batbattle阅读 3,671评论 0 3
  • 目录: 1.决策树简介 2.决策树生成 a) 选择标准——熵 b) 信息增益——ID3算法 c) 信息增益率——C...
    最会设计的科研狗阅读 5,750评论 1 4
  • 今天我说的是龙,不是恐龙儿是神龙。龙友京龙,木龙,水龙。杨龙也可以称作火龙还有土龙。农地隆的战争境界是最高一届最高...
    卡12阅读 289评论 0 0
  • 人生苦短世事无常,我最多的就是在唉声叹气。 对于追求完美的我来说要求事事都必须,十全十美!其实我也并不是每一次都做...
    李胖虎阅读 276评论 2 5