资讯详情

英伟达又一个GAN!PoE-GAN,AI绘图细节拉满,看完直接沸腾了!

点击下方“AI算法法与图像处理,共同进步!  重磅干货,第一时间送达

大家好,我是 阿潘~

最近加入了新公司,开业了 965 生活,也开始做一个新的项目。最近,我正在适应一个新的环境,但我仍然会努力分享有趣的前沿结果。在春节期间,我收到了朋友的私人信息,说要分享更多的实际战斗内容。在未来,我将总结一些常见的坑,并与你一起学习和成长。

回到正题,今天和大家分享一篇英伟达的最新成果

对抗网络提出了新的生成 (PoE-GAN) 框架可以合成即可以文本 分割、文本 草图或分割 合成高质量的图像结果,如草图。

Multimodal Conditional Image Synthesis with Product-of-Experts GANs

http://arxiv.org/abs/2112.05130

https://deepimagination.cc/PoE-GAN/

摘要

现有的为了解决这一限制,我们提出了专家产品生成对抗网络 (PoE-GAN) 框架可以合成。PoE-GAN 由专家产品生成器和多模态多尺度投影判别器组成。通过我们精心设计的培训方案,PoE-GAN 学会合成高质量、多样性的图像。除提高多模态条件图像合成的最新技术水平外,PoE-GAN 在单模态条件下进行测试也优于现有最佳单模态条件图像合成方法。

de552d4927b05f7bf43921749a36cb87.png

解读

Product-of-Experts

我们的目标是训练一个单一的生成模型,可以捕图像分布的单一生成模型。本文考虑了文本、语义分割、草图和样式参考四种不同的模式。直观地说,每个输入模式都会增加合成图像必须满足的约束。满足所有约束的图像集是集合的交集,每个集合都满足一个单独的约束。如下图所示,我们通过假设联合条件概率分布与单条件概率分布的乘积成比来建模。在此设置下,要使产品分布在某个区域具有高密度,则每个单独的分布都需要在该区域具有高密度,从而满足每个约束。这也被称为 product-of-experts。

Generator Design

下图显示了我们的生成器架构。我们将每个模式编码为特征向量,然后使用专家产品 Global PoE-Net 聚合在中间。使用解码器 Global PoE-Net 输出生成图像,跳过分割与草图编码器的连接。

生成器架构。查看论文获取架构的更多细节。

Discriminator Design

我们提出了一种将投影判断器推广到处理多个条件输入的多模态投影判断器。与计算图像嵌入和条件嵌入之间的单个内积的标准投影判断器不同,我们计算每个输入模式的内积,并将其添加到一起以获得最终损失。

本文标准投影判别器(左)与多模态投影判别器(右)的比较。

Results

使用单输入模式进行测试时,PoE-GAN 优于以前专门为这种模式设计的。state-of-the-art例如,将图像分割的方法(SPADE、OASIS)从文本到图像的合成方法 (DF-GAN,DM-GAN CL)。

在任何模态子集的条件下,PoE-GAN 它可以产生不同的输出图像。下面我们来看看 PoE-GAN 基于风景图像数据集的两种模式的随机样本(文本 分割、文本 草图和分割 草图)。

下面我们展示一下来自 PoE-GAN 基于两种模式的随机样本,包括样式参考(分割) 样式、文本 样式和草图 样式)。

在没有输入模式的情况下,PoE-GAN 成为无条件生成模型。以下是由 PoE-GAN 未经处理的样本是无条件生成的。

好了,今天的分享到此为止。查看论文更多细节

科研人员必备新神器,ReadPaper!爱真好用!

CVPR2021 最有创意的工作成果!也许这就是计算机视觉的魅力!

多变冰冰!手把手教你实现!CVPR2021年最新化妆迁移算法

标签: cl09连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台