自监督学习: 人工智能的未来

姓名:安怡睿 学号:20021210857 学院:电子工程学院

转自https://mp.weixin.qq.com/s/bePH-MftVBa9W6TiPQlH4w

【嵌牛导读】本文介绍了什么是自监督学习,自监督学习是如何实现的。

【嵌牛鼻子】自监督学习,人工智能

【嵌牛提问】为什么说自监督学习是AI的未来

【嵌牛正文】

1.什么是自监督学习

自监督学习(Self-supervised Learning)作为Unsupervised Learning的一个重要分支,给出了很好地解决方案。它的目标是更好地利用无监督数据,提升后续监督学习任务的效果。

其基本思想是:Predicting everything from everything else。

具体方法是首先定义一个Pretext task (辅助任务),即从无监督的数据中,通过巧妙地设计自动构造出有监督(伪标签)数据,学习一个预训练模型。构造有监督(伪标签)数据的方法可以是:假装输入中的一部分不存在,然后基于其余的部分用模型预测缺失的这部分。如果学习的预训练模型能准确预测缺失部分的数据,说明它的表示学习能力很强,能够学习到输入中的高级语义信息、泛化能力比较强。而深度学习的精髓正在于强大的表示学习能力。

然后可以将预训练模型,通过简单的Finetune,应用到下游的多个应用场景,能比只使用监督数据训练的模型有更好的效果。

通常来说有标签数据越少的场景,自监督学习能带来的提升越大。事实上,在一些论文的实验结果里,在大量无标签数据上自监督学习的模型,不需要finetune,能取得比使用标签数据学得的监督模型更好的效果……对于有大量标签数据的场景,自监督学习也能进一步提升模型的泛化能力和效果。下图展示了在CV领域自监督学习的标准流程:



在自监督学习中,最重要的问题是:如何定义Pretext任务、如何从Pretext任务学习预训练模型。

2. 为什么自监督学习是AI的未来?

Yann Lecun在AAAI 2020的演讲中,指出目前深度学习遇到的挑战:监督学习:深度模型有海量参数,需要大量的label数据,标注成本高、扩展性差,难以应用到无标记或标记数据少的场景。强化学习:agent需要和环境大量的交互尝试,很多实际场景(例如互联网搜索推荐、无人驾驶)中交互成本大、代价高,很难应用。而人类和动物学习快速的原因:最重要的是观察世界,而不是靠大量的监督、强化学习。

智能的精髓在于预测:我们通过观察世界、理解世界、尝试预测未来,并根据实际结果的反馈信息,来不断调整自己的世界模型,变得越来越有智能。简单来说,无论人还是机器,预测的准确度越高,说明智能越强。自监督学习的思想就是通过构造任务来提升预训练模型预测能力,即Predicting everything from everything else。具体方法是假装输入中的一部分不存在,然后基于其余的部分用模型预测这个部分,从而学习得到一个能很好地建模输入语义信息的表示学习模型。


3. 自监督学习如何实现?

-CV领域中,自监督学习的Pretext任务可以是预测图片相对位置信息、旋转角度、视频中帧的顺序等。

-NLP领域,包括多个任务:POS tagging, Named-entity recognition, Language Modeling, Word sense disambiguation, Summarization, Sentiment analysis, Text Classification, Relation Extraction, Question Answering, Machine Translation等。这些任务的标注成本很高,因此训练数据规模一般比较小,而无标签的文本数据却是海量的,因此通过自监督学习学习预训练模型,然后应用到下游任务,既是自然、也是必须的,已经成为state-of-the-art的NLP技术。

NLP领域的自监督学习方法包括经典的Word2vec、ELMo、BERT、GPT、GPT3等。

预训练模型,应用到下游任务的方式包括:

(1)Feature-based: 将训练好的embedding或模型输出,添加到下游任务的输入特征中。

(2) Finetune: 预训练的模型基础上,添加输出层,用下游监督数据finetune模型参数。


-自监督学习同样可以用在图表示学习(例如GNN)中,通过预测节点属性、mask掉节点、边等方法,来提升图表示学习的泛化能力、鲁棒性。

Self-supervised Learning在CV、NLP、Graph、RL、RecSys等领域已经取得了很awesome的效果。如何更好的挖掘无标签数据中的知识?如何和有监督数据更好地结合学习?仍然都是开放的问题,通过已有的研究工作,我们有充足的理由相信:

Self-supervised Learning is the future of AI!

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 2016年12月,在AlaphaGo战胜世界围棋冠军李世石的9个月后,“人工智能”的风潮已经势如破竹般席卷全球,...
    智能加研究院阅读 1,013评论 0 0
  • 解释一: 自监督学习让我们能够没有大规模标注数据也能获得优质的表征,反而我们可以使用大量的未标注数据并且优化预定义...
    金字塔的AI阅读 6,561评论 0 1
  • 在计算机视觉(CV)领域,目前的方法主要依赖大量的标注样本来学习丰富的视觉表征,从而在各项CV任务中取得较好的表现...
    小软同学阅读 2,612评论 0 1
  • 表情是什么,我认为表情就是表现出来的情绪。表情可以传达很多信息。高兴了当然就笑了,难过就哭了。两者是相互影响密不可...
    Persistenc_6aea阅读 126,028评论 2 7
  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,104评论 0 4