OpenAI新模型---DALL·E

2021年刚到来，AI界就迎来了一场开门红，1月5号OpenAI发布了两个新模型，分别叫DALL·E （据说名字跟艺术家达利有关）和 CLIP, 其融合了图像识别和NLP，在前任GPT-3的基础上给了AI更大的能力。

DALL·E的具体训练细节OpenAI还没有给出详细介绍，目前能确定的是，DALL·E也是基于Transformer，训练时同时用了海量的文本和图像。

未来的AI如果想更接近人类智慧，应该需要不光能看懂文字，理解文字（NLP的领域），也需要理解图片（CV领域），声音，外界环境等，毕竟我们人类生活在一个立体的世界，这也是这两年越来越多提到多模态学习的原因，这一次OpenAI在此方向上的尝试，开了一个好头。

鳄梨形状的扶手椅，from OpenAI

这个拥有120亿参数的庞然大物能做什么呢？它可以接收一段文本并生成与之匹配的图像，比如上图，告诉它鳄梨形状的扶手椅，它就会生成这么多对应的图片，着实令人震惊。根据官网描述，接收到输入的文本，DALL·E 可以生成很多图片，随后第二个模型CLIP会对这些图片根据其跟文本的匹配程度排序。这样的能力可能会改变今后设计师的工作，大大提高他们的工作效率。

也有很多人会怀疑，因为DALL·E 在训练时看了那么多文字和图片，会不会这些图片就是它记下来的，并不是理解了文本后的创造。为了证明这一点，OpenAI给出了下面例子，作者给DALL·E 这样的文本提示：“长颈鹿和海龟的专业高质量插图。”

于是得到下面的结果：

from OpenAI

给它这样的提示：“由竖琴制成的蜗牛”，得到下面结果：

from OpenAI

按理说，训练模型时，不可能有这么多奇怪的图片存在，这也更让人对DALL·E 的能力印象深刻。

根据官网，DALL·E还能做一些zero-shot视觉推理和简单的视觉IQ测试，如下图：

zero-shot视觉推理，告诉它“顶部的猫一样，地下是素描”

模型必须按照规律来完成网格的右下角。

由于安全考虑，OpenAI暂时不太会发布模型供人们测试。虽然DALL·E已经很强大，但就像GPT-3一样，找办法愚弄它让它出丑也不难，期待未来能看到更多关于DALL·E细节的东西。

OpenAI新模型---DALL·E

推荐阅读更多精彩内容