Analysis of Learning from Positive and Unlabeled Data

PU learning论文阅读。

本文从基本的分类损失出发,推导了PU的分类问题其实就是Cost-sensitive classification的形式,同时,通过实验证明了如果使用凸函数作为loss function,例如hinge loss会导致错误的分类边界(有bias),因此需要使用例如ramp loss之类的凹函数。同时,论文还对先验\pi存在偏差的情况进行了讨论,说明了如果样本中大部分都是正样本,那么就算先验差距比较大,但对总体的分类效果没有太大影响。最后对分类边界进行讨论,证明了使用PU进行分类的误差小于监督学习误差的2\sqrt{2}倍。

基本概念和定义

  1. Ordinary classification
    • Bayes optimal classifier的目标是最小化misclassification rate,这在Introduction to Statistical Machine Learning By Masashi Sugiyama 书里有定义,直观理解就是最小化期望错分率:
    • R(f) = \pi R_1 (f) + (1 - \pi) R_{-1}(f)
    • 这里的R_1表示false negative rate,也就是分错正类的概率,乘以先验正类的概率\pi
    • R_{-1}表示false positive rate,也就是分错负类的概率,乘以先验负类的概率1-\pi
    • 这样,对分错样本的概率分别乘以其先验概率,就是其错分概率的期望。
  2. Cost-sensitive classification
    • 如果对于某种错误我们的敏感程度不一样,那么就乘以不同的权重,重新定义为:
    • R(f) = \pi c_1 R_1(f) + (1-\pi) c_{-1}R_{-1}(f)
    • 这里用c_1c_{-1}分别表示对两种错分的代价
  3. PU classification
    • 定义在未标记数据集X​ 中的分布:
      • P_X = \pi P_1 + (1-\pi) P_{-1}
      • 注意,这里的P_X可以理解为样本的分布:P(x) = P(y=1)P(x|y=1) + P(y=-1)P(x|y=-1)
      • 也就是说,P_1 = P(x|y = 1), P_{-1} = P(x|y=-1)
      • 论文认为两个数据集的分布不同:
        • 对于positive sample:x \sim P(x|y=1)
        • 对于unlabel sample:x\sim P_X
    • 对于PU问题,我们没有办法直接得到负类的信息,因此我们想要把目标函数中的R_{-1}(f)去掉。定义R_X(f)表示在P_X分布下预测为正类的风险risk:
      • \begin{equation}\begin{split}R_X(f) &= P_X(f(X = 1)) \\&= \pi P_1(f(X) = 1) + (1-\pi) P_{-1}(f(X) = 1) \\&= \pi(1-R_1(f)) + (1-\pi) R_{-1}(f) \end{split}\end{equation}
    • 这样,我们就可以将R_{-1}替换为R_X(f)​
      • \begin{equation}\begin{split}R(f) &= \pi R_1(f) + (1-\pi)R_{-1}(f) \\&= \pi R_1(f) - \pi(1-R_1(f)) + R_X(f) \\&= 2\pi R_1(f) + R_X(f) - \pi \end{split}\end{equation}
    • 我们可以定义\eta \sim \frac{n}{n + n'}​P_1​P_X​的占比,也就是在我们正类数据集样本数占所有样本数的比例,因此可进一步写成:
      • R(f) = c_1\eta R_1(f) + c_X(1-\eta)R_X(f)- \pi
      • 其中c_1 = \frac{2\pi}{\eta},c_X = \frac{1}{1-\eta}
    • 这样,我们就把PU分类问题转换为了Cost-sensitive classification问题。通过设置不同的阈值并最小化分类错误率,就可以使用SVM等分类器进行训练。

Necessity of non-convex loss functions

论文认为,如果在PU分类问题中使用常见的凸函数作为loss function,可能导致结果有biased,因此需要选择非凸函数。

  1. Loss functions in ordinary classification
    • 在分类器上定义一个符号函数:sign (g(x)) = f(x)
    • 使用01损失,仿照之前的期望错分率定义损失函数:
      • J_{0-1}(g) = \pi E_1[l_{0-1}(g(X))] + (1-\pi )E_{-1}[l_{0-1}(-g(X))] ​
      • l_{0-1}在大于0的时候取0,小于0时取1
    • 由于01损失在实际中很难优化,因此用ramp loss代替:
      • l_R(z) = \frac{1}{2}\max(0,\min(2,1-z))
    • 而为了保证凸性,因此一般使用hinge loss
      • l_H(z) = \frac{1}{2}\max(1-z,0)
    • image-20190329204755315
    • 可以发现,ramp loss 在大于1时没有损失,在-1到1之间为线性损失,而大于1以后损失恒定为1
    • hinge loss在小于1时也依然为线性损失(在SVM中使用)
  2. Ramp loss function in PU classification
    • ramp loss带入之前定义的PU目标函数中,同时根据ramp loss的特殊性质:l_R(-z) +l_R(z) = 1,我们可以得到
    • J_{PU-R} (g) = \pi E_1[l_R(g(X))] + (1-\pi)E_{-1}[l_R(-g(X))]
    • 这个形式和最初的分类损失相同,也就是说,它们会有相同的分类边界
  3. Hinge loss function in PU classification
    • 如果用hinge loss,同样的道理我们可以得到:
      • image-20190329211244615
    • 除了最初分类损失的项,还有另外的一项惩罚
    • 作者认为,这个惩罚会导致分类边界的改变,及时g(X)很好的区分了数据,由于惩罚项的存在,目标函数可能并不会是最小值
  4. 论文做了一个简单的实验,说明了如果使用hinge loss,那么在先验\pi增大的情况下,阈值增大的非常快,也就是说,会将所有的样本都标记为正样本(阈值为1),因此false positive概率为1。这样会导致总的分类错误率为1-\pi
    • image-20190329212345496
  5. 因此,作者用实验和公式说明了,光光最小化分类错误率不够(因为当\pi很大时,会将所有类标记为正类以获得最小的损失1- \pi,因此需要使用ramp loss对其进行惩罚

Effect of inaccurate class-prior estimation

现实中有很多方法来估计先验\pi,但如果估计值离实际值很大(有偏),那么会对我们的PU问题造成什么样的影响?

  1. Ordinary classification
    • 考虑普通分类的情形。我们的目标函数时最小化R(f,\pi) = \pi R_1(f) + (1-\pi) R_{-1}(f)
    • 注意,这是一个凹函数。
    • 如果我们的先验为\hat{\pi},最小化后得到的分类器为\hat{f},这时候固定\hat{f},真实的先验为\pi,可以发现当靠近\hat{\pi}时两个risk 的差距最小,随着\pi的变化而逐渐增大:
      • image-20190329213643994
  2. PU classification
    • 通过变量替换,我们同时定义当前的先验为\hat{\pi},真实的先验为\pi,可以得到risk为:
      • R(f) = (2\hat{\pi} - \pi) R_1(f) + (1-\pi)R_{-1}(f) + \pi - \hat{\pi}
    • 可以发现,如果 \hat{\pi } \le \frac{1}{2}\pi 时,该分类就完全失效了(risk 的符号改变)
    • 将其进行归一化,定义effective class prior为:
      • image-20190329214636202
    • image-20190329214702001
    • 观察图片可以发现,当真实的\pi很大,那么估计的先验就算相差大一点,影响也不大(顶部较为平缓),这与现实相符。例如,如果我们在异常检测中,正类远远大于负类,那么估计的阈值稍微小优点,也不会对risk造成太大的改变。
    • 同样,如果真实的正类并不多,那么对正类的估计如果不准的话,会对结果造成较大改变。

Generalization error bounds for PU classification

待完成。。。

Reference

  1. Analysis of Learning from Positive and Unlabeled Data
  2. Introduction to Statistical Machine Learning By Masashi Sugiyama
  3. Why are the popular loss functions convex?
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,204评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,091评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,548评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,657评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,689评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,554评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,302评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,216评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,661评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,851评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,977评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,697评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,306评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,898评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,019评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,138评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,927评论 2 355

推荐阅读更多精彩内容