文章目录
- Abstract
- 1. Introduction
- 2. Related work
- 3. Generalized adversarial adaptation
- 3.1. Source and target mappings
- 3.2. Adversarial losses
- 4. Adversarial discriminative domain adaptation
- 5. Experiments
- 5.1. MNIST, USPS, and SVHN digits datasets
- 5.2. Modality adaptation
- 5.3. Office dataset
- 6. Conclusion
- References
Abstract
对抗学习方法是一种非常有前途的方法,可以在不同的领域生成复杂的样本。尽管存在域转移或数据集偏差,但它们也可以提高识别率:最近的非监督域自适应对抗减少了训练域和测试域分布的差异,从而提高了泛化性能。然而,尽管生成性对抗网络(GAN)显示出令人信服的可视化效果,但它们在区分任务上并不是最好的,并且可以限制在较小的位移。另一方面,判别方法可以处理较大的域偏移,但对模型施加约束权重,不利用氮化镓的损失。在这项工作中,我们首先总结了一个新的广义框架,以最新、最先进的方法为例,并使用这种广义观点更好地联系以前的方法。然后,我们提出了一个以前没有探索过的通用框架实例,它结合了判断建模、权重共享和GAN损失,我们称之为对抗判别域适应(ADDA)。我们证明了ADDA比竞争领域的对抗方法更有效,但要简单得多,通过超越标准领域最先进的无监督适应结果和困难的跨模态对象分类任务,证明了我们方法的前景。
1. Introduction
在大规模数据集训练中,深度卷积网络可以学习在各种任务和视觉领域中普遍有用的表示[1,2]。然而,由于一种叫做数据集偏差或域偏差的现象[3],在大数据集中与这些表示一起训练的识别模型不能很好地推广到新的数据集和任务[4,1]。典型的解决方案是在特定的任务数据集上进一步微调这些网络——然而,通常很难获得足够的标记数据来适当地微调深层多层网络的参数。 图1:我们提出了一种改进的无监督域自适应方法,将对抗学习与区分特征学习相结合。具体来说,我们试图通过愚弄区分编码目标图像和源示例的域识别器来学习目标图像到源特征空间(目标编码器)的识别映射。
领域适应方法试图减轻领域转移的有害影响。最近的域自适应方法学习深度神经变换,将两个域映射到公共特征空间。这通常是通过优化表示来实现的,以最小化域偏移的某些度量,例如最大平均差异[5,6]或相关距离[7,8]。另一种方法是从源表示[9]重建目标域。
对抗适应已经成为这种方法越来越流行的体现。该方法通过针对领域识别器的对抗目标,寻求最小化近似领域的差距。这些方法与生成对抗学习[10]密切相关,使两个网络相互对立-生成器和识别器。生成器通过混淆识别器来训练生成图像,识别器试图将其与真实图像示例区分开来。该原则用于确保网络无法区分其训练域和测试域示例的分布[11、12、13]。然而,每种算法都会做出不同的设计选择,比如是否使用生成器、使用哪种损失函数或跨域共享权重。例如,[11,12]共享权重,学习源图像和目标图像到共享特征空间的对称映射,[13]解耦某些层,从而学习部分不对称映射。
在这项工作中,我们提出了一个新的统一的对抗领域适应框架,以便我们能够有效地检查现有方法之间的不同变异因素,并清楚地看到它们的相似性。我们的框架统一了权重共享、基本模型和对抗损失等设计选择,吸收了以前的工作,促进了改进现有实例的新实例的设计。
特别是,我们观察到没有必要对输入图像分布进行建模,因为最终的任务是学习判断。另一方面,非对称映射比对称映射更能模拟低层特征的差异。因此,我们提出了一种未经探索的无监督对抗适应方法,即对抗区域分域适应(ADDA),如图1所示。ADDA首先,使用源域中的标签学习区分表示,然后使用目标数据映射到同一空间的单独编码。我们的方法简单但功能强大MNIST、USPS和SVHN最先进的视觉适应结果在数字数据集中实现。我们还通过从对象分类器测试了它RGB在没有实例约束的情况下,将彩色图像转移到深度观察中,以弥合跨模态转换之间更困难的差距的潜力。最后,我们是标准的Office评估了自适应数据集,结果表明,ADDA特别是在最具挑战性的领域转移方面,比竞争方法有了很大的改进。
2. Related work
关于领域转移学习的早期工作已经很多了,比如[3]。最近的工作重点是将深度神经网络从标记源数据集转移到标记数据稀疏或不存在的目标区域。对于未标记的目标区域(本文的重点),主要策略是通过最小化源与目标特征分布的差异来指导特征学习[11、12、5、6、8、9、13、14]。
为此,有几种方法使用最大平均差(MMD)[3]损失。MMD计算两个域均值差的范数。DDC除了源头上的常规分类损失外,方法[5]还使用MMD学习区分性和域不变的表达。深度自适应网络(DAN)[6]将MMD应用于嵌入再生核希尔伯特空间的层,有效匹配两个分布的高阶统计。相比之下,深相关对齐(CORAL)[8]该方法提出了两种分布的平均值和协方差。
其他方法选择对抗性损失来最小化域转移,学习同时区分源标签的表示,同时无法区分域。[12] 建议添加预测输入的二进制域标签的域分类器(单个完全连接层),设计域混淆损失,鼓励其预测尽可能接近二进制标签的均匀分布。梯度反转算法在[11]中提出(ReverseGrad)域不变性也被视为二元分类问题,但通过反转梯度直接最大化域分类器的损失。DRCN[9]采用类似的方法,但也学会了重建目标域图像。域分离网络[15]强制执行这些对抗性损失,以最小化共享特征空间中的域移动,但通过使用每个域的私有特征空间、共享和私有空间之间的额外差异性损失和重建损失来增强模型,从而取得令人印象深刻的效果。
在相关工作中,探索了生成任务的对抗性学习。产生对抗网络(GAN)方法[10]是一种生成深度模型,使两个网络相互对立:一个生成模型G捕获数据分布,另一个判断模型D通过预测二进制标签来区分从G提取的样本和从训练数据提取的图像。以mini-max的方式使用backprop联合训练网络在标签上预测损失:同时更新G以最大化损失,同时更新D以最大化损失(愚弄识别器)。与其它生成方法相比,GAN优点是训练期间不需要复杂的采样或推理;缺点是训练可能很难。GANs自然图像已应用于生成物体,如数字和人脸,并以多种方式扩展。BiGAN扩展了方法[16]GANs,它还可以学习从图像数据到潜在空间的反映射,并表明它对图像分类任务有用。条件生成对抗网(CGAN)[17]是GAN的扩展,其中网络G和D接收额外的信息向量作为输入。例如,这可能包含关于培训示例的信息。作者应用CGAN根据图像特征生成(可能是多模式)标记向量分布。GAN它还被明确应用于域传输任务,如域传输网络[18],它寻求直接向目标图像映射源图像。
最近,CoGAN[13]训练两种方法GAN将分别生成源图像和目标图像GAN应用于域转移问题。该方法连接两个GAN实现域不变特征空间的高层参数,并表明相同的噪声输入可以从两个分布中产生相应的图像对。域自适应是通过训练分类器在识别器输出中执行的MNIST和USPS数字数据集之间的移位。然而,这种方法依赖于生成器在两个域中找到从共享高层特征空间到完整图像的映射。这可以很好地用来表示数字,在更明显的域可能很难。在本文中,我们观察到,只要潜在的特征空间不变,就不需要严格建模图像分布来实现域自适应,并提出了一种判断方法。
3. Generalized adversarial adaptation
[图2:我们用于适应抗域的一般架构。现有的对抗适应方法可以被视为我们框架的例子,其属性有不同的选择。
我们提出了一个对抗性无监督适应方法的一般框架。在无监督自适应中,我们假设我们可以访问源域分布ps(x,y)源图像绘制Xs和标签Ys,从目标分布pt(x,y)绘制目标图像Xt,没有标签观察。我们的目标是学习目标表示、机器翻译和分类器Ct,尽管缺乏域内注释,但在测试过程中,目标图像可以正确分类为K类之一。由于不可能直接监督目标学习,域自适应将学习源表示映射Ms和源分类器Cs,然后学习在目标领域使用自适应模型。
对抗性自适应的主要目标是正则化源和目标映射Ms和Mt最小化经验源与目标映射分布之间的距离:Ms(Xs)和Mt(Xt)。如果是这样下,源分类模型Cs它可以直接应用于目标表示,因此不需要学习单独的目标分类器,而是设置C=Cs=Ct。
然后用以下标准监督损失来训练源分类模型: 我们现在可以描述对抗性适应方法的完整整体框架视图。我们注意到,所有方法都通过交替最小化两个函数之间的距离来最小化源和目标。第一个是域识别器D,它对数据点是从源域还是从目标域提取进行分类。D损失按标准监督LadvD(Xs、Xt、Ms、Mt)优化,它标签表示原始域,定义如下: 其次,根据受约束的敌对目标优化源和目标映射,其特定实例化可能因方法而异。因此,我们可以得出以下领域对抗技术的通用公式:
[表1:对抗域自适应方法及其各种特性概述。在统一的框架下查看方法使我们能够轻松地提出一种新的自适应方法,即对抗性区分域自适应(ADDA)。] [表1:对抗域自适应方法及其各种特性概述。在统一的框架下查看方法使我们能够轻松地提出一种新的自适应方法,即对抗性区分域自适应(ADDA)。]
在接下来的几节中,我们将通过在我们的框架内定位最近的领域对抗性方法来展示我们框架的价值。我们描述了潜在的映射结构、映射优化约束(ψ(Ms,Mt))选择以及最终的对抗映射损失选择,LadvM。
3.1. Source and target mappings
在仅学习信源映射Ms的情况下,很明显,通过使用已知标签Ys的潜在空间判别损失进行监督训练可以获得最终信源识别的最佳表示。然而,鉴于我们的目标域未标记,如何最好地最小化源映射和目标映射之间的距离仍然是一个悬而未决的问题。因此,首先要做的选择是对这些映射进行特定的参数化。
由于无监督域自适应通常考虑分类等目标判别任务,因此以前的自适应方法通常依赖于在域之间自适应判别模型[12,19]。利用判别基模型,将输入图像映射到特征空间,该特征空间对判别任务(如图像分类)有用。例如,在数字分类的情况下,这可能是标准的列奈模型。然而,刘和Tuzel使用两个生成对抗网络在无监督MNIST-USP上取得了最先进的成果[13]。这些生成模型使用随机噪声作为输入来生成图像空间中的样本。通常,敌对鉴别器的中间特征被用作训练任务特定分类器的特征。
一旦确定了源的映射参数化,我们必须决定如何参数化目标映射Mt。通常,目标映射几乎总是在特定功能层(架构)方面与源匹配,但不同的方法提出了各种正则化技术。所有方法都用信源初始化目标映射参数,但不同的方法在信源和目标映射之间选择不同的约束,ψ(Ms,Mt)。目标是确保设置目标映射,以最小化源域和目标域在其各自映射下的距离,同时至关重要的是保持具有类别区分性的目标映射。
考虑分层表示,其中每个层参数表示为,Mℓs或Mℓt,对于给定的一组等效层{ℓ1.ℓn} 。然后,可以通过分层等式约束来描述文献中探索的约束空间,如下所示:
其中每个单独的层可以独立约束。约束的一种常见形式是源和目标分层相等: 让层不受约束也是很常见的。通过权重共享,可以在卷积网络框架内轻松施加这些等式约束。 对于许多先前的对抗性适应方法[19,12],所有层都受到约束,从而强制实现精确的源和目标映射一致性。学习对称变换可以减少模型中的参数数量,并确保用于目标的映射至少在应用于源域时具有区分性。然而,这可能会使优化条件较差,因为同一网络必须处理来自两个单独域的图像。
另一种方法是学习仅约束层子集的非对称变换,从而强制部分对齐。Rozantsev等人[20]表明,在监督和非监督环境中,部分共享权重可以导致有效的适应。因此,一些最近的方法倾向于在两个域之间(完全或部分)解算权重,允许模型分别学习每个域的参数。
3.2. Adversarial losses
一旦我们决定了机器翻译的参数化,我们就利用对抗损失来学习实际的映射。对抗损失功能有各种不同的可能选择,每种功能都有其独特的用例。所有对抗性损失都使用标准分类损失LadvD训练对抗性鉴别器,如前等式2所述。然而,它们在用于训练映射LadvM的损失方面有所不同。
[19]的梯度反转层优化了映射,以直接最大化鉴别器损耗. 这种优化对应于生成对抗网络的真正极小极大目标。然而,这个目标可能有问题,因为在训练的早期,鉴别器收敛很快,导致梯度消失。 在训练发电机时,通常使用带反转标签的标准损耗函数来训练发电机,而不是直接使用极大极小损耗[10]。这将优化分为两个独立的目标,一个用于生成器,另一个用于鉴别器,其中LadvD保持不变,但LadvM变为: 该目标具有与极大极小损失相同的不动点特性,但为目标映射提供了更强的梯度。在本文的其余部分中,我们将此修改后的损耗函数称为“GAN损耗函数”。
请注意,在此设置中,我们对源和目标使用独立映射,并仅反向学习机器翻译。这模拟了GAN设置,其中真实图像分布保持不变,并学习生成分布以匹配它。
当发电机试图模拟另一个不变分布时,GAN损耗函数是设置中的标准选择。然而,在两种分布都在变化的环境中,当映射收敛到其最佳值时,该目标将导致振荡,鉴别器可以简单地翻转其预测的符号作为响应。Tzeng等人提出了域混淆目标,在此目标下,映射使用均匀分布的交叉熵损失函数进行训练[12]: 这种损失确保了敌对鉴别器对这两个域的看法相同。
4. Adversarial discriminative domain adaptation
我们的领域对抗方法通用框架的好处是,它直接支持开发新的自适应方法。事实上,设计一种新方法现在已经被简化为三种设计选择的空间:是使用生成型还是判别型基础模型,是绑定还是解开权重,以及使用哪种对抗性学习目标。根据这一观点,我们可以根据我们的选择总结我们的方法,即对抗性区分域适应(ADDA),以及它与先前工作的联系(见表1“ADDA”)。具体来说,我们使用了判别基模型、非共享权重和标准GAN损耗。我们在图3中说明了整体顺序训练过程。
首先,我们选择了一个判别基础模型,因为我们假设生成令人信服的域内样本所需的许多参数与判别适应任务无关。因此,大多数先验对抗性自适应方法直接在判别空间中进行优化。一个反例是CoGANs。然而,该方法仅在源域和目标域非常相似的环境中显示出优势,例如MNIST和USPS,在我们的实验中,我们很难使其收敛到更大的分布偏移。
接下来,我们选择通过解开权重来允许独立的源和目标映射。这是一种更灵活的学习范式,因为它允许学习更多领域特定的特征提取。然而,请注意,目标域没有标签访问,因此如果我们不注意适当的初始化和训练过程,在没有权重共享的情况下,目标模型可能会快速学习退化解。因此,我们使用预训练的源模型作为目标表示空间的初始化,并在对抗训练期间固定源模型。
在这样做的过程中,我们有效地学习了一种非对称映射,在这种映射中,我们修改了目标模型以匹配源分布。这与原始的生成对抗学习环境最为相似,其中生成的空间会被更新,直到与固定的真实空间无法区分为止。因此,我们选择上一节中描述的倒标GAN损耗。
因此,我们提出的方法ADDA对应于以下无约束优化: 我们选择分阶段优化该目标。我们开始通过使用标记的源数据Xs和Ys进行训练,优化Ms和C上的LCL。由于我们选择在学习机器翻译时保持Ms不变,因此可以优化LadvD和LadvM,而无需重新访问第一个目标项。图3总结了整个培训过程。 [图3:ADDA方法概述。我们首先使用标记的源图像示例预训练源编码器CNN。接下来,我们通过学习目标编码器CNN来执行对抗性适应,使得看到编码源和目标示例的鉴别器无法可靠地预测其域标签。在测试过程中,使用目标编码器将目标图像映射到共享特征空间,并由源分类器进行分类。虚线表示固定网络参数。]
我们注意到,上一节中提出的统一框架使我们能够比较先前的领域对抗方法,并就不同的变异因素作出明智的决定。通过该框架,我们能够激发一种新的领域适应方法ADDA,并深入了解我们的设计决策。在下一节中,我们将展示关于无监督适应基准任务的有希望的结果,研究跨视觉域和跨模式的适应。
5. Experiments
现在,我们评估ADDA在三种不同适应设置下的无监督分类适应。我们探索了不同难度的三位数数据集:MNIST[21]、USPS和SVHN[22]。我们还对NYUD[23]数据集进行了评估,以研究不同模式的适应性。最后,我们在标准Office[24]数据集上进行了评估,以与以前的工作进行比较。图4提供了所有实验数据集的示例图像。
对于数字自适应的情况,我们比较了多种最先进的无监督自适应方法,它们都基于领域对抗性学习目标。在我们4个实验装置中的3个中,我们的方法优于所有竞争方法,在上次研究的域转移中,我们的方法优于除一个竞争方法外的所有方法。我们还使用纽约大学深度数据集在真实的模态适应任务上验证了我们的模型。尽管RGB和深度模式之间存在较大的域偏移,ADDA在没有任何标记深度数据的情况下学习有用的深度表示,并比非自适应基线提高50%以上(相对)。最后,在标准Office数据集上,我们通过与竞争方法相比令人信服的改进,特别是在最困难的领域转移上,证明了ADDA的有效性。
5.1. MNIST, USPS, and SVHN digits datasets
我们在MNIST[21]、USPS和SVHN[22]数字数据集(包括10类数字)之间的无监督自适应任务中实验验证了我们提出的方法。图4和表2显示了每个数据集的示例图像。对于MNIST和USPS之间的自适应,我们遵循[25]中建立的训练协议,从MNIST中采样2000个图像,从USPS中采样1800个图像。对于SVHN和MNIST之间的自适应,我们使用完整的训练集与[19]进行比较。所有实验都是在无监督的环境下进行的,其中目标域中的标签被保留,我们考虑在三个方向上的适应性:MNIST→美国药典,美国药典→MNIST和SVHN→MNIST。
对于这些实验,我们使用了Caffe源代码[21,26]中提供的简单修改的透镜体系结构。当使用ADDA进行训练时,我们的对抗鉴别器由3个完全连接的层组成:两个层有500个隐藏单元,然后是最终的鉴别器输出。500个单元层中的每一层都使用ReLU激活功能。优化使用Adam优化器[27]进行10000次迭代,学习率为0.0002,β1为0.5,β2为0.999,批量大小为256个图像(每个域128个)。所有训练图像均转换为灰度,并重新缩放为28×28像素。 [图4:我们评估了ADDA在三种不同设置下跨七个域转移的无监督适应。第一种设置是MNIST、USPS和SVHN数据集之间的自适应(左)。第二种设置是在RGB和纽约大学深度数据集(中心)的深度模式之间进行具有挑战性的跨模式适应任务。第三种设置是在Amazon、DSLR和网络摄像头域之间的标准Office自适应数据集上进行自适应(右)。]
[Table 2: Experimental results on unsupervised adaptation among MNIST, USPS, and SVHN.]
我们的实验结果如表2所示。在更简单的MNIST和USPS移位上,ADDA实现了与当前最先进的CoGANs[13]相当的性能,尽管是一个相当简单的模型。这提供了令人信服的证据,表明生成图像所需的机器在很大程度上与实现有效适应无关。此外,与其他方法相比,我们在具有挑战性的SVHN和MNIST任务上显示了令人信服的结果,表明我们的方法具有推广到各种环境的潜力。相反,我们无法使CoGANs收敛于SVHN和MNIST,因为域是如此不同,我们无法为它们训练耦合生成器。
5.2. Modality adaptation
我们使用纽约大学深度数据集[23],其中包含1449幅室内场景图像中19个对象类的边界框注释。数据集分为序列(381个图像)、val(414个图像)和测试(654个)集。为了执行跨模态自适应,我们首先在数据集中存在的这19个类的实例周围裁剪出紧密的边界框,并在对象裁剪的19路分类任务上进行评估。为了确保在两个域中都看不到相同的实例,我们使用来自序列分割的RGB图像作为源域,使用来自val分割的深度图像作为目标域。这对应于2186个标记的源图像和2401个未标记的目标图像。图4显示了两个域中每个域的样本。
我们考虑了这些RGB和HHA编码深度图像之间的自适应任务[28],分别将其用作源域和目标域。由于边界框很紧且分辨率相对较低,即使在域中进行评估,也很难进行准确分类。此外,对于某些类(如马桶和浴缸),数据集的示例很少,这直接导致分类性能下降。
对于本实验,我们的基本架构是VGG-16架构,从ImageNet上预训练的权重初始化[29]。然后,使用128个批量在源域上对该网络进行20000次迭代的完全微调。当使用ADDA进行训练时,对抗鉴别器由三个额外的完全连接层组成:1024个隐藏单元、2048个隐藏单元,然后是对抗鉴别器输出。除输出外,这些层使用ReLU激活功能。然后,ADDA训练继续进行另外20000次迭代,使用与数字实验中相同的超参数。 [表3:NYUD[23]数据集上的自适应结果,使用序列集的RGB图像作为源,使用val集的深度图像作为目标域。由于我们的目标集(在#实例中指出)存在较大的类不平衡,因此我们在此报告了每类的准确性。总的来说,我们的方法将每个类别的平均准确率从13.9%提高到21.1%]
[表4:Office数据集在全转导环境下的无监督适应性能。ADDA在所有三个评估的域移位上都取得了很好的结果,并且在最难的移位上显示了最大的改进,即A→ W]
我们发现,我们的方法ADDA大大提高了该任务的分类精度。对于某些类别,例如计数器,分类精度从仅源基线下的2.9%提高到自适应后的44.7%。总的来说,所有类别的平均准确率从13.9%显著提高到21.1%。然而,并不是所有的课程都有进步。三类在自适应之前没有正确标记的目标图像,自适应无法恢复这些类的性能。此外,枕头和床头柜类在适应后会出现性能下降。
5.3. Office dataset
最后,我们在基准Office视觉域适应数据集[24]上评估了我们的方法。该数据集由4110幅图像组成,分布在3个领域的31个类中:亚马逊、网络摄像头和数码单反。继之前的工作[19]之后,我们将评估重点放在三个领域的转变上:亚马逊到网络摄像头(A→ W),单反到网络摄像机(D→ W),并将网络摄像头连接到dslr(W→ D) 。我们对ADDA进行全反式评估,在源域中的每个标记示例和目标中的每个未标记示例上进行训练。
由于Office数据集相对较小,微调整个网络很快会导致过度拟合。因此,我们使用ResNet-50[30]作为我们的基础模型,因为它的参数数量相对较少,并且只微调目标模型的较低层,达到但不包括conv5。使用SGD进行了20000次迭代,学习率为0.001,动量为0.9,批大小为64。对抗鉴别器由三个维度为1024、2048和3072的完全连接层组成,每个层后面都是ReLUs,以及一个用于最终输出的完全连接层。我们在表4中给出了该实验的结果。
我们看到,ADDA在这个适应任务上也很有竞争力,在所有三个评估的域转移上都达到了最先进的水平。虽然ADDA使用的基本架构不同于以前的工作,以前的工作通常使用AlexNet作为基础,但通过比较源代码基线,我们发现ResNet-50架构的性能并没有显著提高。此外,我们还发现,在最困难的一次转变中,增长幅度最大→ W尽管ResNet-50在该转换中表现不佳,但这表明ADDA即使在具有挑战性的现实世界适应任务中也是有效的。
6. Conclusion
我们提出了一个基于对抗性学习目标的无监督领域适应技术的统一框架。我们的框架提供了一个简化且连贯的视图,通过该视图,我们可以理解最近提出的适应方法之间的异同。通过这种比较,我们能够理解每种方法的优点和关键思想,并将这些策略结合到一种新的适应方法ADDA中。我们对我们的无监督适应方法进行了跨四个领域的评估。我们的方法可以很好地推广到各种任务中,在基准适应数据集以及具有挑战性的跨模态适应任务上取得了很好的结果。
References
[1] Jeff Donahue, Y angqing Jia, Oriol Vinyals, Judy Hoff- man, Ning Zhang, Eric Tzeng, and Trevor Darrell. De- caf: A deep convolutional activation feature for generic visual recognition. In International Conference on Machine Learning (ICML), pages 647–655, 2014. 1 [2] Jason Y osinski, Jeff Clune, Y oshua Bengio, and Hod Lipson. How transferable are features in deep neural networks? In Neural Information Processing Systems (NIPS), pages 3320–3328, 2014. 1 [3] A. Gretton, AJ. Smola, J. Huang, M. Schmittfull, KM. Borgwardt, and B. Sch¨olkopf. Covariate shift and local learning by distribution matching, pages 131–160. MIT Press, Cambridge, MA, USA, 2009. 1, 2 [4] Antonio Torralba and Alexei A. Efros. Unbiased look at dataset bias. In CVPR’11, June 2011. 1 [5] Eric Tzeng, Judy Hoffman, Ning Zhang, Kate Saenko, and Trevor Darrell. Deep domain confusion: Maxi- mizing for domain invariance. CoRR, abs/1412.3474, 2014. 2, 8 [6] Mingsheng Long and Jianmin Wang. Learning transfer- able features with deep adaptation networks. Interna- tional Conference on Machine Learning (ICML), 2015. 2, 8 [7] Baochen Sun, Jiashi Feng, and Kate Saenko. Return of frustratingly easy domain adaptation. In Thirtieth AAAI Conference on Artificial Intelligence, 2016. 2 [8] Baochen Sun and Kate Saenko. Deep CORAL: corre- lation alignment for deep domain adaptation. In ICCV workshop on Transferring and Adapting Source Knowl- edge in Computer Vision (TASK-CV), 2016. 2 [9] Muhammad Ghifary, W Bastiaan Kleijn, Mengjie Zhang, David Balduzzi, and Wen Li. Deep reconstruction-classification networks for unsupervised domain adaptation. In European Conference on Com- puter Vision (ECCV), pages 597–613. Springer, 2016. 2, 8 [10] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Y oshua Bengio. Generative adversarial nets. In Advances in Neural Information Processing Systems 27. 2014. 2, 5 [11] Yaroslav Ganin and Victor Lempitsky. Unsupervised domain adaptation by backpropagation. In David Blei and Francis Bach, editors, Proceedings of the 32nd International Conference on Machine Learning (ICML- 15), pages 1180–1189. JMLR Workshop and Confer- ence Proceedings, 2015. 2 [12] Eric Tzeng, Judy Hoffman, Trevor Darrell, and Kate Saenko. Simultaneous deep transfer across domains and tasks. In International Conference in Computer Vision (ICCV), 2015. 2, 4, 5 [13] Ming-Y u Liu and Oncel Tuzel. Coupled generative adversarial networks. CoRR, abs/1606.07536, 2016. 2, 3, 4, 6 [14] Ozan Sener, Hyun Oh Song, Ashutosh Saxena, and Silvio Savarese. Learning transferrable representations for unsupervised domain adaptation. In NIPS, 2016. 2 [15] Konstantinos Bousmalis, George Trigeorgis, Nathan Silberman, Dilip Krishnan, and Dumitru Erhan. Do- main separation networks. In Advances in Neural In- formation Processing Systems, pages 343–351, 2016. 2 [16] Jeff Donahue, Philipp Kr¨ahenb¨uhl, and Trevor Darrell. Adversarial feature learning. CoRR, abs/1605.09782, 2016. 3 [17] Mehdi Mirza and Simon Osindero. Conditional gen- erative adversarial nets. CoRR, abs/1411.1784, 2014. 3 [18] Y aniv Taigman, Adam Polyak, and Lior Wolf. Unsuper- vised cross-domain image generation. arXiv preprint arXiv:1611.02200, 2016. 3 [19] Y aroslav Ganin, Evgeniya Ustinova, Hana Ajakan, Pas- cal Germain, Hugo Larochelle, Franc ¸ois Laviolette, Mario Marchand, and Victor Lempitsky. Domain- adversarial training of neural networks. Journal of Machine Learning Research, 17(59):1–35, 2016. 4, 5, 6, 7, 8 [20] Artem Rozantsev, Mathieu Salzmann, and Pascal Fua. Beyond sharing weights for deep domain adaptation. CoRR, abs/1603.06432, 2016. 4 [21] Y . LeCun, L. Bottou, Y . Bengio, and P . Haffner. Gradient-based learning applied to document recog- nition. Proceedings of the IEEE, 86(11):2278–2324, November 1998. 6 [22] Y uval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu, and Andrew Y . Ng. Reading digits in natural images with unsupervised feature learning. In NIPS Workshop on Deep Learning and Unsupervised Feature Learning 2011, 2011. 6 7175 [23] Nathan Silberman, Derek Hoiem, Pushmeet Kohli, and Rob Fergus. Indoor segmentation and support infer- ence from rgbd images. In European Conference on Computer Vision (ECCV), 2012. 6, 7, 8 [24] Kate Saenko, Brian Kulis, Mario Fritz, and Trevor Darrell. Adapting visual category models to new do- mains. In European conference on computer vision, pages 213–226. Springer, 2010. 6, 8 [25] M. Long, J. Wang, G. Ding, J. Sun, and P . S. Y u. Trans- fer feature learning with joint distribution adaptation. In 2013 IEEE International Conference on Computer Vision, pages 2200–2207, Dec 2013. 6 [26] Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadar- rama, and Trevor Darrell. Caffe: Convolutional ar- chitecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014. 6 [27] Diederik P . Kingma and Jimmy Ba. Adam: A method for stochastic optimization. CoRR, abs/1412.6980, 2014. 6 [28] Saurabh Gupta, Ross Girshick, Pablo Arbel´aez, and Ji- tendra Malik. Learning rich features from rgb-d images for object detection and segmentation. In European Conference on Computer Vision (ECCV), pages 345– 360. Springer, 2014. 7 [29] K. Simonyan and A. Zisserman. V ery deep convo- lutional networks for large-scale image recognition. CoRR, abs/1409.1556, 2014. 7 [30] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015. 8