OpenAI新模型---DALL·E

2021年刚到来,AI界就迎来了一场开门红,1月5号OpenAI发布了两个新模型,分别叫DALL·E (据说名字跟艺术家达利有关) 和 CLIP, 其融合了图像识别和NLP,在前任GPT-3的基础上给了AI更大的能力。

DALL·E的具体训练细节OpenAI还没有给出详细介绍,目前能确定的是,DALL·E也是基于Transformer,训练时同时用了海量的文本和图像。

未来的AI如果想更接近人类智慧,应该需要不光能看懂文字,理解文字(NLP的领域),也需要理解图片(CV领域),声音,外界环境等,毕竟我们人类生活在一个立体的世界,这也是这两年越来越多提到多模态学习的原因,这一次OpenAI在此方向上的尝试,开了一个好头。


鳄梨形状的扶手椅,from OpenAI


这个拥有120亿参数的庞然大物能做什么呢?它可以接收一段文本并生成与之匹配的图像,比如上图,告诉它鳄梨形状的扶手椅,它就会生成这么多对应的图片,着实令人震惊。根据官网描述,接收到输入的文本,DALL·E 可以生成很多图片,随后第二个模型CLIP会对这些图片根据其跟文本的匹配程度排序。这样的能力可能会改变今后设计师的工作,大大提高他们的工作效率。

也有很多人会怀疑,因为DALL·E 在训练时看了那么多文字和图片,会不会这些图片就是它记下来的,并不是理解了文本后的创造。为了证明这一点,OpenAI给出了下面例子,作者给DALL·E 这样的文本提示:“长颈鹿和海龟的专业高质量插图。” 

于是得到下面的结果:


from OpenAI


给它这样的提示:“由竖琴制成的蜗牛”, 得到下面结果:


from OpenAI


按理说,训练模型时,不可能有这么多奇怪的图片存在,这也更让人对DALL·E 的能力印象深刻。

根据官网,DALL·E还能做一些zero-shot视觉推理和简单的视觉IQ测试 ,如下图:


zero-shot视觉推理,告诉它“顶部的猫一样,地下是素描”


模型必须按照规律来完成网格的右下角。


由于安全考虑,OpenAI暂时不太会发布模型供人们测试。虽然DALL·E已经很强大,但就像GPT-3一样,找办法愚弄它让它出丑也不难,期待未来能看到更多关于DALL·E细节的东西。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

推荐阅读更多精彩内容

  • 1 预训练模型由来 预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。...
    readilen阅读 49,902评论 6 45
  • 2020 年是近代史上史无前例的一年。人类在过去一百年中都没有经历过像 COVID-19 这样的全球性大流行病。它...
    夜风月圆阅读 2,909评论 8 51
  • 目录 一、前言 二、如何理解BERT模型 三、BERT模型解析 1、论文的主要贡献2、模型架构3、关键创新3、实验...
    奇点机智阅读 94,768评论 1 35
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,575评论 16 22
  • 今天感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 中午开了第一次的党会,身份的转变要...
    迷月闪星情阅读 10,615评论 0 11