(三)多项式分布&&分类回归问题分开讨论的原因


Author: Pan

Date:    2020/7/17


    我们在做分类的问题时,会不禁这么想,毕竟分类问题只是回归问题的一个特例,为什么我们不能用回归的方式去设计分类问题的策略,为什么它要被拿出来讨论?

    例如经常我们能见到的:一个三类问题的Label编码成(0,0,1)(0,1,0), (1,0,0)。又或者(0.1,0.2,0.7)取输出概率最大的那个,类别为第三类。为什么我们不能直接就这个问题也约化成一个回归问题,比如:设置几个阈值,将输出的连续值按阈值划分为几类,不用ONE-HOT编码,表示还简单?

    那么问题来了,这个阈值你怎么设置,训练样本数据极度不平衡时,这个阈值设置多少比较适合潜在的你要学习的真实模型?这个阈值会不会是样本偏倚程度的函数?如果这样的话,这个阈值真的“玄学”了,也许我们可以深究一下它们之间的关系,以图使其合理,但是这是一个很麻烦的事。。。不仅麻烦,还有一些我们将要提到的一些较为隐蔽的问题。

    我们知道多项式分布是二项分布的推广,它的渐进分布高斯分布(高斯分布具体见上一篇),假设你真的按照阈值法去做了,本质上你在假设一个事情,那就是你的分布服从于高斯分布。你会说这有什么问题吗?

    那么我们一起来看看:

    首先我们快速过一下多项式分布的定义,假如我们有K类需要分:

K,n>0;A=\left\{  \vec{X}|\vec{x}=(x_{1},x_{2},...,x_{K}) \right\} ;x_{i}\geq 0;i=1,2,...K; \sum_{i=1}^{K} x_{i} =n;\forall p_{1},p_{2},...,p_{k};\\\\(p_{1}+p_{2}+...+p_{k})^{n}=\sum_{X \in A}\frac{n!}{x_{1}!x_{2}!...x_{k}!}\cdot p^{x_{1}}_{1}p^{x_{2}}_{2},...,p^{x_{k}}_{k}

其中,p_{i}均为在区间(0,1)取值的数,且\sum^{K}_{i=1}p_{i}=1;

 \vec{X}服从多项式分布,相关参数由\vec{P}=(p_{1},p_{2},...,p_{k})n组成。

所以多项式分布的概率质量函数(PMF)为:

M_{k-1}(\vec{X};\vec{P},n)=\frac{n! }{\prod _{i=1}^k x_{i}!}\prod _{i=1}^{K}p^{x_{i}}_{i};\\ \sum_{i=1}^{K} x_{i} =n;\sum^{K}_{i=1}p_{i}=1

其中,k-1为自由度。

多项式分布期望E(x_{i})=np_{i}

多项式分布方差D(x_{i})=np_{i}(1-p_{i})

多项式分布协方差Cov(x_{i},x_{j})=-np_{i}p_{j}

因此协方差矩阵为:\Sigma = n(diag(p_{1},p_{2},...,p_{n})- \vec{P}^{T}P;)

我们发现:\Sigma \cdot \vec{1}=\vec{0} \cdot \vec{1},这说明0是它的一个特征值,这个协方差矩阵是奇异矩阵。

另,我们给出该协方差矩阵是半正定矩阵的证明:

\vec{a}^{T}\cdot \Sigma \cdot \vec{a}=\sum^{K}_{i=1}a_{i}^{2}p_{i}-(\sum^{K}_{i=1}a_{i}p_{i})^{2}

由于凸性不等式:

f(\sum\theta x )\leq \sum \theta f(x)

我们令f(x)=x^{2}

所以:\vec{a}^{T}\cdot \Sigma \cdot \vec{a}\geq 0;

因此得以证明,该协方差是半正定矩阵。

我们先放一放上面关于协方差矩阵是奇异矩阵的发现,我们来看看它的边界分布

(无关乎主题,为了内容的完整性我们说一下下面内容)

边界分布

我们对\vec{X}切分,并从中取出它的一个子集\vec{X^{(m)}}=(x_{1},x_{2},...,x_{m})

\vec{X^{(m)}}\tilde{}M_{m}(\vec{X^{(m)}};\space (p_{1},p_{2},...p_{m}),n)

条件分布

B=\left\{ (X_{1}, X_{2}, ...X_{K-1})|\sum^{K-1}_{i=1}n-X_{K}\right\}

f(X_{K}|(X_{1}, X_{2}, ...X_{K-1}))=\sum_{(X_{1}, X_{2}, ...X_{K-1}) \in B}\frac{n!}{x_{1}!x_{2}!...x_{K}!}\cdot p^{x_{1}}_{1}p^{x_{2}}_{2},...,p^{x_{K}}_{K}\\=\frac{n!p^{x_{K}}_{K}}{x_{K}!(n-x_{K})!}\cdot \sum_{(X_{1}, X_{2}, ...X_{K-1}) \in B}\frac{p_{1}^{x_{1}}p_{2}^{x_{2}}...p_{K-1}^{x_{1}}}{x_{1}!x_{2}!...x_{K-1}!}\\=\frac{n!p^{x_{K}}_{K}}{x_{K}!}\cdot (p_{1}+p_{2}+...+p_{K-1})^{n-x_{K}}\\=\frac{n!}{x_{K}!(n-x_{K})!} \cdot p^{x_{K}}_{K} (1-p_{K})^{n-x_{K}}

发现这个条件分布为二项分布。

更一般的:f((X_{1}, X_{2}, ...,X_{m} )|(X_{m+1}, X_{m2}, ...X_{m+K}))\\=M_{m1}((X_{1}, X_{2}, ...,X_{m});[(\frac{p_{1}}{1-p_{K}})^{x_{1}}, (\frac{p_{2}}{1-p_{K}})^{x_{2}},..., (\frac{p_{m}}{1-p_{m}})^{x_{m}}]^{T},n-\sum_{j=1}^{m}x_{j})

  (补充内容说完了,我们进入正题)

我们设\vec{Z}=(z_{1},z_{2},...,z_{t},...,z_{s})^{T};z_{t}\tilde{}M(z_{t};p,n_{t});

所以对于每一个z_{t},均值都等于n_{t}p,方差都等于n_{t}p(1-p);

{Z}^{*}= \sum_{t=1}^{s}z_{t};那么Z^{*}\tilde{}M(Z^{*};p,\sum_{t=1}^{s}n_{t}); n=\sum_{t=1}^{s}n_{t};

Z^{*}期望为:np

协方差矩阵为:\Sigma = n(diag(p_{1},p_{2},...,p_{n})- \vec{P}^{T}P;)

继续:

那么关于分类问题,现在我们的label编码可以用one-hot编码,例如令x=(0,0,0,0,...,1),x_{i}=0 \space or\space 1;那么此时的n就为1,由于x_{i}此时的阶乘无论怎样都是1,它的PMF实际上就是\prod _{i=1}^{K}p^{x_{i}}_{i};所以可以用对数似然估计、使用这样一个PMF来构造损失函数;也就是在(一) 机器学习基本概要中提到的,二分类伯努利取对数后的那个交叉熵的推广。

根据中心极限定理,对于每个z_{t}(每个均值都是n_{t}p,方差都是n_{t}(diag(p_{1},p_{2},...,p_{n})- \vec{P}^{T}P)),我们需要考虑变量\bar{Z}= \frac{1}{n}{Z}^{*}=\frac{1}{n} \sum_{t=1}^{n}z_{t},又根据Z^{*}的分布,在n很大时,也就是我们的类别足够多时,可依分布渐近于高斯分布

\bar{Z}\tilde{}N(p,diag(p_{1},p_{2},...,p_{n})- \vec{P}^{T}P)

在(一)机器学习基本概要 中有提到,损失函数可以通过e^{- (y-\hat{f} (x))^{2}  }转化为最大后验概率;其实这个转化的形式e^{- (y-\hat{f} (x))^{2}  },就是一个高斯分布。

    也就是说,当采用最小二乘回归的方式来处理分类问题,其实是给了问题一个本不存在的数据正态假设,而且,即使n够大,采用了高斯,那么接踵而至的问题还有协方差矩阵的奇异问题,在处理奇异矩阵,我们不得不采用伪逆来算,行列式上也要对0行进行丢弃处理。当然还要加上一开始说的阈值的问题。所以假如分类和回归问题不分开,这些缺陷都很麻烦。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,290评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,107评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,872评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,415评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,453评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,784评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,927评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,691评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,137评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,472评论 2 326
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,622评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,289评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,887评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,741评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,316评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,490评论 2 348