微软Obj-GAN可将文字转换成复杂的场景

VR/AR
2019
06/26
17:09
新浪VR
分享
评论

正如任何热心的读者都会做到的那样,人类只要精心挑选几个词,就能想象出复杂的场景。然而,人工智能系统在将文本描述转换成图片的任务上遇到了困难。现在,来自微软和JD人工智能实验室的研究人员提出了一种基于对象驱动的专注生成对抗网络(Obj-GAN)的新模型,该模型能够基于一个简短的短语或描述性文本句子生成相对复杂的场景。

Obj-GAN的生成器识别描述性单词和对象级信息,逐步细化合成图像,在图像细节和成分元素之间的关系方面改进了之前的前沿模型。

下面是使用不同人工智能技术生成的真实图片和文本描述图像的比较。研究结果表明,随着描述的复杂化,Obj-GAN与其他GANs相比,越来越能够将文本转换成逼真的图像。

通过测试Obj-GAN的泛化能力,研究人员发现,该模型会根据在现实世界中没有多大意义的文本输入生成物理或关系不合理的图像。例如:

从文本生成图像的一个困难是,如何让人工智能系统理解场景中多个对象之间的关系。以前的方法使用图像描述对,它们仅为单个对象提供粗粒度的信号,因此即使是这种类型的最佳模型也难以生成包含以合理配置排列的多个对象的图像。

为了解决这个问题,研究人员提出了一种新的目标驱动注意力机制,将图像生成分为两个步骤:

首先,研究人员使用seq2seq关注模型,将文本转换为语义布局,比如边框和形状。

然后,一个多级注意力图像生成器在上述布局的基础上创建一个低分辨率的图像,通过关注最相关的单词和预先生成的类标签,在不同区域细化细节。研究人员还设计了分段和对象分类器,以确定合成的图像是否与文本描述和预先生成的布局匹配。

在他们的实验中,研究人员发现Obj-GAN在各种COCO基准测试任务上优于之前的SOTA方法,使Inception的分数提高了27%。

该论文通过对抗性训练,实现了基于对象驱动的文本到图像的合成。Obj-GAN模型和代码已经在GitHub上开源。

来源:新浪VR

THE END
广告、内容合作请点击这里 寻求合作
VR
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

Ocrolus是纽约一家利用人工智能和机器学习来分析财务文件的初创公司,该公司今天宣布,在由风险成长型股权公司Oak HC/FT牵头的B轮融资中,已筹集2400万美元。Ocrolus联合创始人兼首席执行官山姆·博利(Sam...
VR
2019年6月6日,工业和信息化部向中国电信、中国移动、中国联通、中国广电发放了5G商用牌照,这意味着中国正式进入了5G商用元年。6月25日,中国移动在上海发布旗下5G品牌标识“5G++”,这标志着三大运营商...
VR
6月26日,在世界移动通信大会(MWC19 ShangHai)上,Rokid宣布与德国电信达成合作,共同打造基于5G和云技术的混合现实体验。现场还展示了一款多人竞技篮球游戏,玩家可以使用Rokid Vision体验沉浸式的游戏...
VR
对于高端系留VR头显而言,“剪断线缆”一直是行业致力于实现的目标。行业一直希望通过无线传输的方式来实现PC主机与头显之间的“无线缆”通信,而这显然包括Facebook。
VR
视觉辐辏调节冲突是VR头显的一种常见现象。在现实世界中,你的眼睛可以自动对一个物体进行聚焦,而世界的其他部分则会脱离焦点。VR的问题是,无论你在VR世界中看向何处,你实际上只是盯着屏幕,也就是看着...
VR

相关推荐

1
3