人工智能时代前沿技术社区

首页 > 人工智能 > 热点

OpenAI的虚构AI正在学习生成图像

通过对像素而不是文字训练GPT-2,该模型可以接受一半的图像并预测如何完成它。

作者: | 2020-07-17 15:43:32

去年2月,OpenAI 宣布其AI系统现在可以编写令人信服的英语文章将句子或段落的开头输入到GPT-2中,就像它具有与人类相似的连贯性一样,它可以使思想继续下去。

现在,实验室正在研究如果将相同的算法代入图像的一部分会发生什么情况。结果不久前的国际机器学习大会上获得了最佳论文的荣誉奖,它为图像生成开辟了一条新途径,机遇与后果并存。

GPT-2的核心是强大的预测引擎。它通过查看从互联网的各个角落刮掉的数十亿个单词,句子和段落的示例来学习掌握英语的结构。通过这种结构,它可以通过统计预测单词出现的顺序,将单词操纵为新的句子。

因此,OpenAI的研究人员决定将单词换成像素,并在ImageNet(最流行的深度学习图像库)中的图像上训练相同的算法。因为该算法被设计为处理一维数据(即文本字符串),所以它们将图像展开为单个像素序列。他们发现名为iGPT的新模型仍然能够掌握视觉世界的二维结构。给定图像上半部分的像素序列,它可以以人类认为明智的方式预测下半部分。

下面示例。最左边的列是输入,最右边的列是原始输入,中间的列是iGPT的预测完成量。

1594973283633230.png 

结果令人震惊,并显示了在计算机视觉系统开发中使用无监督学习的新途径,该方法可对未标记的数据进行训练。虽然2000年代中期的早期计算机视觉系统之前曾试用过此类技术,但由于使用标记数据的监督学习被证明更为成功,因此它们不受欢迎。但是,无监督学习的好处在于,它允许AI系统在没有人工过滤的情况下了解世界,并大大减少了标记数据的人工工作。

iGPT使用与GPT-2相同的算法的事实也显示了其有希望的适应性。这符合OpenAI实现更通用的机器智能的最终雄心。

同时,该方法提出了一种有关创建深层伪造图像的新方法。生成对抗网络(过去用于创建深造假的最常见算法)必须经过高度精选的数据训练。例如,如果您想让GAN生成人脸,则其训练数据应仅包括人脸。相比之下,iGPT只是从数十亿个示例中了解了足够多的视觉世界结构,以吐出其中可能存在的图像。尽管训练模型仍然在计算上很昂贵,但为模型的访问提供了自然障碍,这种情况可能不会长期存在。