Generative Adversarial Text to Image Synthesis 生成性对抗性文本图像合成
- 一、摘要
- 二、关键词
- 三、相关工作
- 四、背景知识
-
- 4.1、GAN
- 4.2 、Deep symmetric structured joint embedding
- 三、主要方法
-
- 3.1、框架
- 3.二、一是改进:GAN-CLS
- 3.三、二是改进:GAN-INT
- 四、实验
-
- 4.1、数据集
- 4.2.文本特征的预训练
- 4.3、训练过程
- 4.4、实验结果
- 4.5、分离内容和风格
- 4.6.流形插值的结果
- 4.7、泛化性
- 4.8、实验结论
- 五、心得
- 扩展阅读
论文链接:https://arxiv.org/pdf/1605.05396.pdf
代码链接: https://github.com/zsdonghao/text-to-image
本文是本文的报告,包括一些个人理解、知识拓展和总结。
一、摘要
从文本中自动合成真实图像将是有趣和有用的,但目前的人工智能系统离这个目标还很远。然而,近年来,人们发展了一种通用的、强大的递归神经网络结构来学习区分文本特征。同时,深度卷积生成对抗网络(GAN)人脸、专辑封面、房间内部等特定类别的吸引人图像已经开始生成。在这项工作中,我们使用它GAN通过有效地桥接文本和图像建模的进展,开发了一种新的深层结构,将视觉概念从字符转化为像素。我们展示了这个模型可以从详细的文本描述中生成鸟和花的图像。
二、关键词
Deep Learning, Generative Adversarial Network, Image Synthesis, Computer Vision
三、相关工作
本研究的方向是一个子集。 例如,人们有触觉、听觉、视觉嗅觉;信息媒介、语音、视频、文本等;各种传感器,如雷达、红外线、加速度计等。以上每一种都可以被称为一种模式。
Denton等人(2015)使用拉普拉斯金字塔对抗生成器和鉴别器合成多分辨率图像。这项工作生成了引人注目的高分辨率图像,也可以控制和生成类别标签。拉普拉斯金字塔生成对抗网络。图像金字塔是图像中多尺度表达的一种。图像金字塔是一系列以金字塔形状排列的分辨率逐渐降低的图像集,来自同一原始图像。
Radford等人(2016)使用标准卷积解码器,但结合批量标准化,开发出高效稳定的系统结构,实现显著的图像合成效果。 Mansimov可变循环自动编码器用于等人(2016年)(VAE)从文本标题生成图像,但生成的图像并不真实。
1)我们的模型条件。2)第一个从字符级别到字符级别3)引入了一个架构。,能显著提高生成样品的质量。
四、背景知识
4.1、GAN
损失函数为: GAN相关数学知识可以看这个博客:简单理解GAN数学原理
4.2 、Deep symmetric structured joint embedding
为了获得文本描述的视觉辨别矢量表示,文章使用《Learning Deep Representations of Fine-Grained Visual Descriptions》方法,使用,学习与图像的对应函数如下。,在本文中,。获得文本特征后,需要将文本特征压缩并与图像特征拼接在一起DC-GAN。
三、主要方法
3.1、框架
训练了一个 的 。生成器网络G和识别器网络D根据文本特征进行前馈推理。 生成器和识别器都使用文本编码φ(t)。 生成器G通过预处理(卷积循环神经网络文本编码器)表达文本信息,然后将其与噪声向量结合起来。在上图中,蓝色矩形表示文本信息的特征,z相应的白色长方体是噪声向量。输入组合向量经过多层处理,最终得到图像。
3.2、第一个改进:GAN-CLS
GAN-CLS: 伪代码为:
3.三、二是改进:GAN-INT
GAN-INT:
2)风格迁移公式: S提取生成器一张图像的风格信息,得到s(style),其次将随机噪声换成提取到的s,s与embedding(t)输入生成器中,生成某风格下的图像。
四、实验
4.1、数据集
数据集:使用了CUB(鸟)、Oxford-102(花)。CUB分为有150个训练类集合和50个测试类集合,而Oxford-102有82个训练类集合和20个测试类集合。每个图像配有5个对应文本。
4.2、文本特征的预训练
对于文本特征,首先使用了
4.3、训练过程
训练图像大小设置为64×64×3。文本编码器产生1024维嵌入,在深度连接到卷积特征映射之前,在生成器和鉴别器中投影到128维。采取交替步骤更新生成器和鉴别器网络,学习率设置为0.0002,使用了ADAM solver(动量0.5),生成器的随机噪声从100维单位正态分布取样。Minibatch的大小为64,训练了600个epoch。
4.4、实验结果
4.5、分离内容和风格
所谓内容,我们指的是鸟本身的视觉属性,如身体的形状、大小和颜色。所谓风格,我们指的是图像中所有其他变化因素,如背景颜色和鸟的姿势。
文章把图像根据图的背景色,鸟或者花的姿态利用k-means聚成了100个类。用训练的CNN网络用G生成的图片预测style,并计算style和其同类与不同类图像的cos相似度。
4.6、流形插值的结果
通过插值学习的文本流形,通过控制插值可以准确反映颜色信息,例如鸟类从蓝色变为红色,而姿势和背景不变。通过控制两个噪声向量之间进行插值,并保持内容固定,生成两种样式之间平滑过渡的鸟类图像。
4.7、泛化性
作者为了测试泛化性,在MS-COCO数据集上面进行了训练测试。从远处看,结果令人鼓舞,但经过仔细观察,很明显,生成的场景通常不连贯。
4.8、实验结论
开发了一个简单有效的模型,用于根据详细的视觉文本描述生成图像。我们证明了该模型可以合成给定文本标题的许多合理的视觉解释。我们的流形插值正则化器大大改进了CUB上的文本到图像合成。我们展示了风格和内容的分离,以及从查询图像到文本描述的鸟姿和背景转换。最后,我们用MS-COCO数据集上的结果证明了我们生成具有多个对象和可变背景的图像的方法的通用性。
五、心得
这篇文章是用GAN做文本生成图像的开山之作,作者使用了卷积循环神经网络文本编码器+深度卷积生成对抗网络(DC-GAN)。在此基础上,作者还做了三点改进:
1)
2)
3)
补充知识点: 受试者工作特征曲线 (receiver operating characteristic curve,简称ROC),又称为感受性曲线(sensitivity curve)。ROC曲线下面积(the area under the ROC curve, AUC)是指ROC曲线与x轴、x=1围绕的面积,只要ROC曲线下面积大于0.5,就证明该诊断试验具有一定的诊断价值。同时,AUC越接近1证明诊断试验的真实性越好。ROC曲线越是靠近左上角,灵敏度越高,误判率越低,则诊断方法的性能越好。可知ROC曲线上最靠近左上角的ROC曲线上的点其灵敏度和特异性之和最大。
扩展阅读
下一篇:Text to image论文精读 StackGAN:Text to Photo-realistic Image Synthesis with Stacked GAN具有堆叠生成对抗网络文本到图像合成
阅读指南:2016~2021 文字生成图像 Text to image(T2I)阅读路线和阅读指南
2021文本生成图像最新综述 阅读报告:Adversarial Text-to-Image Synthesis: A Review