机器学习的未来:半监督学习

姓名:韩宜真

学号:17020120095

转载自:https://mp.weixin.qq.com/s/LsY8hWCv5TruC-Avp1jk0A

【嵌牛导读】本文介绍了机器学习中半监督学习方法。

【嵌牛鼻子】监督模式 无监模式

【嵌牛提问】 半监督学习是什么?

【嵌牛正文】

监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精确度和预测能力。

然而,一个重大突破揭示了添加“无监督数据”可以提高模型泛化和性能。事实上,在非常多的场景中,带有标签的数据并不容易获得。半监督学习可以在标准的任务中实现SOTA的效果,只需要一小部分的有标记数据 —— 数百个训练样本。

在这个我们对半监督学习的探索中,我们会有:

半监督学习简介。什么是半监督学习,它与其他学习方法相比如何,半监督学习算法的框架/思维过程是什么?

算法:Semi-Supervised GANs。与传统GANs的比较,过程的解释,半监督GANs的性能。

用例和机器学习的未来。为什么半监督学习会有如此大的需求,哪里可以应用。

半监督学习介绍

半监督学习算法代表了监督和非监督算法的中间地带。虽然没有正式定义为机器学习的“第四个”元素(监督、无监督、强化),但它将前两个方面结合成一种自己的方法。

这些算法操作的数据有一些标签,但大部分是没有标签的。传统上,人们要么选择有监督学习的方式,只对带有标签的数据进行操作,这将极大地减小数据集的规模,要么,就会选择无监督学习的方式,丢弃标签保留数据集的其余部分,然后做比如聚类之类的工作。

这在现实世界中是很常见的。由于标注是很昂贵的,特别是大规模数据集,特别是企业用途的,可能只有几个标签。例如,考虑确定用户活动是否具有欺诈性。在100万用户中,该公司知道有1万用户是这样的,但其他9万用户可能是恶意的,也可能是良性的。半监督学习允许我们操作这些类型的数据集,而不必在选择监督学习或非监督学习时做出权衡。

一般来说,半监督学习算法在这个框架上运行:

半监督机器学习算法使用有限的标记样本数据集来训练自己,从而形成一个“部分训练”的模型。

部分训练的模型对未标记的数据进行标记。由于样本标记数据集有许多严重的限制(例如,在现实数据中的选择偏差),标记的结果被认为是“伪标签”数据。

结合标记和伪标签数据集,创建一个独特的算法,结合描述和预测方面的监督和非监督学习。

半监督学习利用分类过程来识别数据资产,利用聚类过程将其分成不同的部分。

算法:Semi-Supervised GAN

半监督的GAN,简称为SGAN,是[生成对抗网络](https://medium.com/analytics-vidhya/gans-for-one -an-直觉解释-革命概念-2f962c858b95)架构的一个变体,用于解决半监督学习问题。

在传统的GAN中,判别器被训练来预测由生成器模型生成的图像是真实的还是假的,允许它从图像中学习判别特征,即使没有标签。尽管大多数人通常在GANs中使用训练很好的生成器,可以生成和数据集中相似的图像,判别器还是可以通过以转移学习作为起点在相同的数据集上建立分类器,允许监督任务从无监督训练中受益。由于大部分的图像特征已经被学习,因此进行分类的训练时间和准确率会更好。

然而,在SGAN中,判别器同时接受两种模式的训练:无监督和监督。

在无监督模式中,需要区分真实图像和生成的图像,就像在传统的GAN中一样。

在监督模式中,需要将一幅图像分类为几个类,就像在标准的神经网络分类器中一样。

为了同时训练这两种模式,判别器必须输出1 + n个节点的值,其中1表示“真或假”节点,n是预测任务中的类数。

在半监督GAN中,对判别器模型进行更新,预测K+1个类,其中K为预测问题中的类数,并为一个新的“”类添加额外的类标签。它涉及到同时训练无监督分类任务和有监督分类任务的判别器模型。整个数据集都可以通过SGAN进行传递 —— 当一个训练样本有标签时,判别器的权值将被调整,否则,分类任务将被忽略,判别器将调整权值以更好地区分真实的图像和生成的图像。

虽然允许SGAN进行无监督训练,允许模型从一个非常大的未标记数据集中学习非常有用的特征提取,但有监督学习允许模型利用提取的特征并将其用于分类任务。其结果是一个分类器可以在像MNIST这样的标准问题上取得令人难以置信的结果,即使是在非常非常少的标记样本(数十到数百个)上进行训练。

SGAN巧妙地结合了无监督和监督学习的方面,强强联合,以最小的标签量,产生难以置信的结果。

用例和机器学习的未来

在一个可用数据量呈指数级增长的时代,无监督数据根本不能停下来等待标注。无数真实世界的数据场景会像这样出现 —— 例如,YouTube视频或网站内容。从爬虫引擎和内容聚合系统到图像和语音识别,半监督学习被广泛应用。

半监督学习将监督学习和非监督学习的过拟合和“不拟合”倾向(分别)结合起来的能力,创建了一个模型,在给出最小数量的标记数据和大量的未标记数据的情况下,可以出色地执行分类任务。除了分类任务,半监督算法还有许多其他用途,如增强聚类和异常检测。尽管这一领域本身相对较新,但由于在当今的数字领域中发现了巨大的需求,算法一直在不断地被创造和完善。

半监督学习确实是机器学习的未来。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容