Automatic Noise Modeling for Ghost-free HDR Reconstruction 阅读笔记
- 摘要
- 1. 简介
- 2. HDR去鬼影方法
-
- 2.1 估计图像噪声
- 2.2 一致性测试
- 2.3 一致集的合成
- 3. 实验验证
- 4. 讨论
- 结论
摘要
动态场景的高动态范围重建需要仔细处理动态对象,以防止鬼影(Ghost)。然而,在最近的综述中,Srikantha 等人[2012] 结论:没有最好的解决方案,需要根据用户的目标选择不同的解决方案。我们试图用一种新的方法来解决这个问题,并建模颜色值的噪声分布。我们估计,不同图像中的一对颜色是观察相同辐照的可能性,在重建相同静态场景对象的像素辐照之前,我们使用马尔可夫随机场。通过选择单个低动态范围源图像来处理动态内容,并通过基于单应性的图像对齐支持手持拍摄。对于物体位移大的混乱场景,我们的基于噪声的重建方法比最先进的方法实现了更好的鬼影检测和去除。因此,我们的方法具有广泛的适用性,有助于将该领域转向动态场景 HDR 单一重建方法。
1. 简介
在不引入鬼影的情况下,很难获得动态场景的高动态范围图像 (HDR)。即使使用自动包装曝光的现代相机,输入图像之间的帧间捕获时间也可能足够长,导致动态场景图像之间明显的物体位移(图片) 1)。早期的 HDR 隐含研究假设获得一组低动态范围 (LDR) 相机姿势和场景在图像期间保持静态 [Burt and Kolczynski 1993; 曼和皮卡德 1995]。当这些平均动态场景的图像被引入鬼影时。
通过三种不同的策略种不同的策略来解决:1) 平均颜色前对齐场景,2) 使用 LDR 集中参考图像执行联合对齐重建, 3) 移动对象区域通过平均值检测,图像排除在外。在具有挑战性的现实生活条件下,所有这些策略都失败了。在对最先进的去虚影方法进行实验验证后,Srikantha 等人[2012] 没有什么是最好的解决方案,需要根据用户的目标选择不同的解决方案。
- 场景对齐 Bogoni [2000]、Kang 等人。[2003]和齐默等人[2011] 在平均颜色之前,使用光流密集对齐图像。虽然光流方法可以纠正相机抖动和移动物体引起的短位移,但它们通常不能估计大位移,也很难阻挡高混乱和高动态场景。流量估计是一个具有许多局限性的活跃研究领域,这取决于精确流场的可用性。
- 对齐和重建关节 森等人。[2012] 同时对齐和执行 HDR 重建。其方法定义了一个参考图像,所有其他图像都与参考图像补丁对齐。使用双向相似函数的适应性填充参考文献中曝光不良的区域[Simakov et al。2008]剩余输入图像和HDR结果之间。同样,胡等人。[2012] 找出参考图像和剩余图像之间的密度和补丁对应关系,并使用泊松重建混合对齐梯度以获得最终结果。这些方法可以在物体变形足够小的情况下提高运动对象的动态范围,从而建立可靠的对应关系,优于基于运动检测(包括我们的方法)的方法。但由于图像之间噪声分布的差异,可能很难建立相应的关系(见图 10)。在这种情况下,参考图像对象的动态范围无法完成。此外,单个参考可能不对应于所需的输出,可以使用来自不同图像的部分来合成更好的结果。
- 运动检测 大多数 HDR 通过检测和排除可能产生重影伪影的图像区域来工作。一般来说,假设图像已经对齐,这些方法取决于测试不同图像中相同像素观察到的颜色是否一致。一致性通过成对辐照差等标准进行测试 [Grosch 2006; Silk and Lang 2012年,与背景模型的辐照差异 [Granados et al. 2008]距离强度映射函数 [Gallo 等人。2009; Raman and Chaudhuri 2010年,辐照估计方差 [Reinhard et al. 2005;雅各布斯等人。2008]图像之间的平均比率 [Tomaszewska and Markowski 2010年,与背景模型的距离概率 [Khan et al. 2006;Pedone 和 Heikkila 2008 ¨ ], 与参考图像的相关性 [Menzel and Guthe 2007],局部图像块的熵差 [Jacobs et al. 2008年,梯度方向的差异 [Zhang and Cham 2012]。然而,这些一致性测试中的每一个都需要设置固定阈值,这不太可能概括为不同相机和曝光设置的噪声属性。
颜色量化和 bin 匹配技术 [Min et al. 2009; Pece and Kautz 2010],测试强度是否随曝光单调而增加 [Sidibe et al. 2009 ′ ],可视为处理输入序列中噪声差异的策略(短曝光时噪声高,长曝光时噪声低)。与其他方法相比,这些不变量具有较高的特异性,但灵敏度较低(第) 3 节)。 在秒。如图 3 通过实验证明,我们的方法比基于运动检测的最先进方法更准确。 我们声称,通过建模相机测量的颜色值的噪声分布,可以显著改善 HDR 去重影吧。这在以前的工作中很大程度上被忽视了,但它提供了一种简单而有原则的解决方案。 在 LDR 集中的不同曝光中,在相同像素位置观察到颜色。我们必须考虑它们的噪声分布,以测试两种颜色是否对应于相同的辐照(因此对应于相同的物体)。噪声分布取决于相机和曝光设置,可采用高斯分布建模。分布方差与光强成正比,与曝光时间的平方成反比,取决于相机参数,如增益因子和读取噪声参数(第一 2.1 节)。 由于噪声取决于场景辐照和相机参数,因此无法可靠地设置固定阈值来检测相机模型和场景之间的图像差异。根据此观察,我们估计相机增益因素可以预测输入图像的噪声分布,并使用它来标准化颜色一致性测试(第一 2.2 节)。这种新颖的噪声建模方法提高了重影检测的辨别能力。
图 2:HDR 重建的一维图表。从输入图像中相应像素位置的颜色得到的辐照度可以平均重建 HDR 图像。当平均值包含不一致的颜色集时,就会出现重影伪影。HDR 去重影的问题可以定义为为为每个像素选择集。
一般来说,可以有多个与一组输入图像一致的无重影 HDR 图像。其中,我们选择最终 HDR 图像使每个像素颜色 1) 重建一组一致的输入图像(动态对象为单个图像),2) 具有高信噪比 (SNR),以及 3 ) 在空间上与其他源图像中的邻居兼容(第) 2.3 节)。
总之,据我们所知,我们的算法是第一个处理具有强杂波和动态的场景而不会引入重影伪影的 HDR 重建方法。这在一个非常具挑战性的场景中得到了证明,包括拥挤的地方,物体位移大小,拍摄低光。这些场景都是用固定参数计算的。此外,我们的算法与只有小物体位移的图像集的最先进方法相当。因此,我们的方法具有广泛的适用性,有助于将该领域转向动态场景 HDR 单一重建方法。我们论文的贡献是:
- 从任何图像中估计相机增益因子的一种新颖而简单的方法。这使得图像噪声范围的自动预测成为可能。
- 第一个全自动利用相机噪声模型在不同的相机和场景中进行可靠的无重影重建 HDR 成像方法。
2. HDR去鬼影方法
我们的算法输入是在不同曝光时间使用静态或手持相机拍摄的一组图像,其中图像中的像素值是相机的原始输出,即在任何内部处理之前。如果我们用手,我们用它 RANSAC [Fischler and Bolles 1981] 从稀疏 SURF 关键点匹配 [Bay et al. 2008]。使用对齐图像集,我们的方法估计辐照图像,每个图像构建为输入图像中相应像素颜色的加权平均值。通过平均生成一组像素,包括不一致子集。我们的算法识别每个像素位置的一致图像子集,并将最终辐照值重建为一致像素颜色的平均值 2)。这避免了必须选择参考图像 [Sen et al. 或者必须建立背景模型[Khan et al。2006],这就要求背景更容易在每个图像位置观察到——这对混乱的场景不一定正确。首先,我们讨论我们的噪声模型和自动相机校准程序。
2.1 估计图像噪声
即使假设静态场景和恒定的相机参数,图像噪声也会随曝光时间而变化。两个主要的时间噪声源称为散粒噪声和读出噪声。散粒噪声是由光发射过程引入的,遵循方差等于平均泊松分布。读出噪声包括影响数码相机采集过程的其他几个与信号无关的源(包括量化噪声),可以通过零平均高斯分布建模。 在 CCD/CMOS 在传感器中,每个像素中收集的光子电子数量与入射辐照度成线性比。这源于光电效应对可见波长的硅基传感器的特性 [Janesick 2001]。原相机输出也与收集的光子电子数成线性比。这种关系称为相机响应函数 f。该函数的斜率对应于相机的增益因子 g。该系数与 ISO 设置成正比(例如,ISO400 的增益是 ISO100 的四倍)。 由于原始输出的响应函数 f 它是线性的,因此可以恢复相机收集的光子电子数,并以近似每个像素测量的概率分布 [Granados 等人。2010]。 i 和像素 p 非饱和原始相机输出 vi§,反应函数的倒数,即收集的光子电子量,估计为 (1) 其中暗框 bi 是使用与 vi 曝光时间相同但未进入射光(例如,打开镜头盖)获得的图像。图像的曝光时间 ti 以及入射辐照 x§ 之间的乘积 tix§ 它被称为曝光,与相机收集的光子电子数成正比。 暗帧测量暗电流,由热能而不是光引起的像素强度)。我们假设暗电流可以忽略不计,或者等效地,暗帧减法是在相机内执行的。因此,在等式。(1),我们将暗帧 bi§ 替换为相机的黑电平 L0,并省略了等式中暗电流对散粒噪声的贡献。(2) 下面。 曝光 tix§ 遵循泊松分布,其测量的不确定性对应于散粒噪声。我们使用高斯 [Hubbard 1970] 来近似这个分布来模拟辐照度估计 x§ 的方差。从方程式。(1),图像 i 中 x§ 的方差可以导出为 (2) 其中 σ2R 是读出噪声的方差,它也是使用高斯建模的。评估方程式。(2)、我们需要估计参数g、L0、σ2R和ti。曝光时间ti可以直接从数字图像文件中获得;接下来,我们解释剩余参数的估计。 读出噪声 黑电平 L0 和读出方差 σ2R 使用 [Janesick 2001; 中描述的方法进行校准;格拉纳多斯等人。2010]。该方法将 L0 和 σ2R 分别估计为黑色帧的像素值的平均值和方差,即在没有入射光和没有积分时间(实际上是非常短的曝光时间)的情况下拍摄的图像。原则上,制造商可以为每个相机型号提供此数据。 相机增益 如果制造商没有提供,可以校准相机增益 g。Janesick [2001] 和 Granados 等人。[2010] 建议使用平面场(即在每个像素处以恒定照明曝光的图像)对其进行校准,以便可以假设每个像素颜色是相同随机变量的样本。在这种假设下,观察到的颜色的均值和方差可以使用平面场的空间均值和方差来近似。使用这种近似,可以通过利用期望值和曝光方差之间的等价性来推导增益。这种平场校准是最好的方法,它可以应用于任何数码相机。然而,在实践中,这需要额外的平场图像,这对于没有经验的用户来说可能很麻烦。 图 3:基于图像的增益校准。红点(顶部和底部)对应于用于校准的低方差超像素。黄点代表剩余的超像素。绿线显示基于图像校准的预测噪声,蓝色虚线显示平场校准的预测。我们的去重影方法对校准误差具有鲁棒性,因此即使在增益被高估的情况下(b),最终图像仍然没有重影伪影(见图 10)。有关其他结果,请参阅补充材料。 图 4:相机增益估计的置信度。箱线图显示了从平场校准(36 个平场图像样本)获得的增益因子分布的第 1、25、50、75 和 99 个百分位数,以及从基于图像的校准(a七个图像的样本,每个图像来自不同的场景;两个如图 3 所示)。灰线表示相机的真实增益。两种方法的预期增益非常接近,但基于图像的校准的方差更高。尽管如此,我们的增益估计仍可用于重建无重影 HDR 图像(见图 5)。红色曲线说明了增益因子和图像方差预测之间的依赖关系。通常,当相机增益被高估时,输入图像的预测噪声被低估。这使得重影检测更加严格,从而降低了最终 HDR 图像的 SNR,因为会找到更小的一致子集。因此,此错误不会引入重影伪影(参见图 5)。 图 5:我们的去重影方法对获得校准精度的敏感性。这里,g,σg 表示平场增益校准的平均值和标准偏差。我们的方法对相机增益的轻微低估 (b) 和较大的高估 (d) 具有鲁棒性:当它被低估时(很少发生,见图 4),可能会出现重影伪影(a,品红色箭)。相反,当增益被高估时,它会导致低 SNR (d),但不会引入重影伪影。有关中等错误级别的附加测试,请参阅补充材料。 因此,我们提出了一种替代的基于图像的校准,它根本不需要平坦的场,直接从场景的输入图像集工作。这个想法是使用输入图像中的恒定照明区域作为平面场的代理。我们将输入图像(例如,中央曝光)划分为超像素 [Veksler 等人。2010]; 它具有预定义的补丁大小并遵循图像边缘。从超像素颜色的均方差散点图(图 3–顶部)中,我们选择每个数字值的最小方差,并使用 RANSAC [Fischler and Bolles 1981] 拟合通过 (L0, σ2 R),即通过黑色电平的预期方差。使用超像素估计图像方差下限的想法最早是在 [Liu et al. 2008]用于图像去噪。我们的方法使用针对原始相机输出量身定制的更简单的噪声模型,以及一种非常简单的推理方法(即 RANSAC 而不是贝叶斯推理),该方法非常易于实现。图 3 说明了这个过程:顶行显示每个超像素(黄色和红色点)的均值和方差颜色值。其中,我们选择方差最小的超像素作为平面场的代理(以红色显示)。这种选择是合理的,因为只有散粒噪声和读出噪声对具有恒定照明的图像区域的变化有贡献,因此,这些噪声源决定了颜色变化的下限。顶行显示每个超像素(黄点和红点)的均值和方差颜色值。其中,我们选择方差最小的超像素作为平面场的代理(以红色显示)。这种选择是合理的,因为只有散粒噪声和读出噪声对具有恒定照明的图像区域的变化有贡献,因此,这些噪声源决定了颜色变化的下限。顶行显示每个超像素(黄点和红点)的均值和方差颜色值。其中,我们选择方差最小的超像素作为平面场的代理(以红色显示)。这种选择是合理的,因为只有散粒噪声和读出噪声对具有恒定照明的图像区域的变化有贡献,因此,这些噪声源决定了颜色变化的下限。 图 4 比较了每种增益校准方法的性能:我们的基于图像的校准足够准确,并且在预测的图像噪声方面与平场校准相当。重要的是,由于广泛的场景包含局部平坦区域,因此这种校准方法允许直接应用我们的去重影算法,而无需用户捕获平坦场图像。但是,其准确性取决于内容;图 3b 显示了无法精确估计增益的示例图像:由于图像中的平坦区域覆盖了有限的色带,因此斜率估计被误导(图 3b–顶部)。也就是说,重影伪影通常仅在超像素内的方差(以及增益)被低估时才会出现(例如,低于真实增益 6σg,参见图 5)
2.2 一致性测试
接下来,我们分别引入像素对和一组像素的一致性度量:如果对应的色差遵循预测的色差分布,则不同图像中对应位置的两个像素是一致的,如果是一组像素是自洽的,则所有像素都是成对一致的。 图像对的一致性测试 假设我们在像素 p 和颜色通道 k 处得到两个辐照度观测值 xki §、xkj §,它们分别来自图像 i、j 上的像素颜色 vki §、vkj §,使用相机响应函数的逆函数(等式(1))。检测重影伪影需要测试这些辐照度观测值是否一致,即它们是否对应于相同入射光的测量值。现有算法依靠难以设置的预定阈值来解决这个问题。这个要求可以通过利用第 2 节中讨论的噪声模型来避免。2.1。 我们的方法是估计差分函数 dkij § = xki § − xkj § 的概率分布;由于 xki § 和 xkj § 遵循高斯分布,因此 dkij § 具有相同的分布类型,对于一致的对,均值为零且具有方差: (3) 其中 Var xki § 和 Var xki § 是从方程式获得的。(2)。给定 Var dkij §,我们可以通过将相应的辐照度差异与每个颜色通道上的预期噪声分布进行比较,来估计图像 i、j 上像素 p 处的观察结果一致的概率: (4) 其中 C = {R, G, B}, N 是标准高斯随机变量,均值为 0,方差为 1。在实践中,估计 Pr (p |{vi, vj}) 可能是有噪声的(例如,当图像是在弱光下拍摄时或当相机具有高读出噪声时)。出于这个原因,在估计概率之前,我们使用双边滤波 [Tomasi and Manduchi 1998] 对差异图像 d kij § 进行平滑处理。我们将此步骤称为噪声自适应差分滤波(DF)。我们使用大带宽的距离核,以及与预测图像噪声成比例的可变带宽 σr = 2 Std d kij § 的距离核。这种过滤引入了相邻像素分布之间的依赖关系。然而,这种依赖性主要发生在已经具有相似分布的像素之间。鉴于这种相似性,过滤的净效果是差异分布尾部的衰减。这使我们能够在相同的特异性水平下获得更高的检测灵敏度(实验验证见第 3 节)。 由于序列中每个像素和图像的噪声方差 Var xi§ 不同,因此差分函数 Var dkij § 的方差也随每个像素和图像对而变化。这一观察是我们技术的组成部分:由于其他重建和去重影方法不会自动模拟噪声,它们不太可能很好地概括不同相机和曝光设置的噪声属性。 图像集的一致性测试 令 V = {vi}i∈T 为曝光序列中的图像集。基于成对一致性度量(方程 4),我们将给定子集 S ∈ 2 V 中的图像在像素 p 处一致的概率定义为成对一致性的最小值: (5) 对于单例 S(即 |S| = 1)的情况,相应的一致性概率被给出为相应观察充分暴露的概率: (6) 其中 Prue 和 Proe 分别对应于根据(高斯)读出噪声分布的观察的曝光不足和过度曝光概率,分别以黑色水平和饱和水平为中心。在这个定义中,观察结果 vi§ 不一致的概率在两种情况下很高:当所有颜色通道都曝光不足的可能性很高时,或者当任何颜色通道曝光过度的可能性很高时。
2.3 一致集的合成
由于对于给定的像素位置,可以有多个图像子集是一致的,因此要平均的特定子集的选择受到限制。我们通过要求选定的子集在空间上颜色一致来讨论这种选择的正则化。逐像素一致性测试和空间一致性测试一起将 HDR 去重影问题视为马尔可夫随机场 (MRF) 型全局能量最小化。因此,为了获得无重影的 HDR 图像,我们最小化了一个促进两个标准的能量函数:每个像素应该从一致的子集重建(以一致性潜力编码,参见下面的等式(7)),并给定一对相邻的像素,用于重建每个像素的图像子集应该是相互一致的(即子集的并集也应该是一致的;编码在先验电位中)。此外,为了防止噪声重建,我们尽可能促进低噪声子集的选择;这被编码在噪声电位中。每个可能的 HDR 图像由标记 F§ : Ω → 2 V 表示,它为图像域 Ω 中的每个像素 p 分配输入图像的子集 Fp := F§。我们通过最小化能量泛函获得合适的标记 F: (7) 其中 1{·} 表示指示函数,Fpq ∈ 2 V 表示子集 Fp ∪ Fq,N 对应于 Ω 中的 4 邻域系统。标量 α 表示置信度值(见下文),标量 β 和 γ 是加权超参数。 在一致性和先验潜力中,我们没有直接惩罚一致性概率,而是设置了一个置信度值 α 来确定一组图像 Fp 是否一致。这包含了一个重要的设计选择:我们希望选择任何一致的子集,而不是最一致的子集。这种设计为优化算法提供了更多的自由来构建最终的复合材料。 噪声电位可防止生成平凡的解决方案。在秒。2.2、单张图像曝光良好的观察结果被定义为一致的。在这个定义下,选择一个曝光良好的图像来重建整个图像将创建一个能量最小的标签。这种选择是不希望的,因为包含在其他一致图像中的信息被排除在平均值之外,从而降低了所得辐照度估计的 SNR(参见图 6,顶行)。相反,每当两个不同的图像子集一致时,我们更喜欢产生低噪声估计的集合,而不管集合大小。潜在噪声 V (S) 通过为提供噪声估计的集合分配更高的成本来编码这种偏好。每个估计的相对噪声为: (8) 其中每个图像集的方差近似为 σ2S =(Pi∈S1/t2 i ) -1 。参数选择方程中有三个超参数需要调整。(7):噪声势的权重γ,一致性检验的置信度α,先验势的权重β。我们将参数 γ 设置为 0.1 以确保方程中的噪声电位。(7) 产生比一致性潜力低一个数量级的成本。这种设计指示算法更喜欢一致的子集,但是当呈现几个一致的选项时,它会更喜欢噪声最小的那个。其他两个参数是基于使用具有挑战性的繁忙正方形序列的性能评估确定的(图 8)。置信值α设置为0.98,与场景的手动注释相比,它在鬼检测的灵敏度和特异性之间提供了良好的折衷(详见第 3 节)。在我们的初步实验中,α 的变化不会显着影响结果。我们将参数 β 设置为 20,这是在测试序列上没有引入视觉不连续性的最低值(见图 6)。一旦确定,参数 α、β、γ 在本文中提出的所有实验中都是固定的。 图 6 显示了不同参数 β 和 γ 的影响。当噪声子集没有受到惩罚时(γ = 0;顶行),该算法主要选择单个图像作为源,除了曝光不良的区域(白色箭头),因为只有这些区域被认为是不一致的。无论赋予先验潜力的权重 β 如何,这种行为都成立。如果噪声子集受到轻微惩罚,即小于不一致的子集(γ = 0.1;中间行),则如果它们是一致的,则首选较大 SNR(以蓝色和绿色阴影表示)的剩余子集,从而导致标签更适应现场。在这种配置中,随着先验电位的 β 增加,视觉不连续性(由黄色箭头标记)从去幻影图像中消除(例如,在 β = 10、20 中)。当嘈杂的子集和不一致的子集一样受到惩罚时(γ≥1;底行),如果对象出现在最长(噪声较小)的图像上,则包含部分曝光不良(由紫色箭头指向)的对象变得负担得起。这些结果支持我们对 γ 的选择。 优化和最终重建 为了获得最小成本标记 F *,我们应用扩展移动算法 [Boykov 等人。2001;Boykov 和 Kolmogorov 2004]。使用生成的标签,最终的辐照度图估计为加权平均值: (9) 其中 Pr(p| {vi}) 是 vi§ 被充分暴露的概率(见方程(6))。加权函数 Wi = (P k∈C Var xki §)−1 导致接近最大似然解的结果 [Robertson et al. 2003],并且限制对给定像素中的每个颜色通道应用相同的权重。 流程总结 提议的 HDR 去重影流程总结如下:(b) 如果制造商未提供,则使用额外的黑框估计读出噪声,并使用一个输入图像估计相机增益;© 为每个像素选择一致的图像子集,并且 (d) 从一致的集合中重建每个像素的辐照度。
3. 实验验证
我们使用佳能 Powershot S5IS(10 位 ADC)和佳能 EOS 550D(14 位 ADC)获得了几个序列(见表 1)。遵循 [Granados 等人的方法。2010],相机的黑电平(分别为 L0 = 32 和 L0 = 2048)和读出方差(分别为 σ 2 R = 2.655 和 σ 2 R = 61.01)是从黑框估计的。使用基于图像的校准(第 2.1 节)独立估计每个序列的增益因子(表 1)。虽然每个相机模型只需要估计一次增益,但我们按序列校准它以验证我们方法的鲁棒性。作为参考,从平场校准获得的增益因子分别为 g = 0.2394 和 g = 0.4795。 每个场景,我们以 RAW 模式分别以一档或两档的步长拍摄三张或五张图像。彩色图像由在未去马赛克原始图像的每个 2 × 2 像素块上发现的 RGB 测量值构成(其中一个测量值未使用)。如果手持捕获,我们使用 RANSAC 从稀疏 SURF 关键点匹配计算的全局单应性来稳健地注册图像。在 HDR 重建之后,使用 Drago 等人对图像进行白平衡和色调映射。[2003](夜间广场)和 Fattal 等人。[2002](所有剩余序列)。 杂技演员(图 1)和街道交通(图 8)场景显示了具有小位移(树木、人转移体重)和快速运动(杂技演员、汽车)的大位移的手持捕捉。我们专注于图 7 中的小位移质量,表明我们的方法产生了令人信服的结果。花店(图 1)和繁忙的广场(图 8)序列显示了在 HDR 重建中强烈的场景杂波如何导致严重的鬼影伪影,其中包括每个图像到辐照度平均值中。此外,夜间广场(图 10)序列表明我们的算法对高图像噪声具有鲁棒性。咖啡馆露台的序列(图 9)和额外的圣诞市场序列(补充材料)包含相对较小的对象位移,以前的基于参考图像的方法是针对这些位移设计的 [Sen 等人。2012]。 与基于参考的方法的比较 我们将我们的方法与 Sen 等人的最新方法进行了比较。[2012],和齐默等人。[2011] 在繁忙的正方形序列上使用他们自己的实现。Sen等人的方法。找到参考图像和剩余输入图像之间的补丁对应关系。由于参考图像的动态范围较低,因此曝光不良或包含高噪声的区域可能无法与其他曝光正确匹配。这在图 9 中得到了证明,其中过度曝光区域的动态范围无法增强(由箭头指示)。此外,图 10 显示参考中的强噪声可能会限制其他图像中的对应关系查找以进行范围增强,从而导致噪声 HDR 图像。相比之下,我们的方法旨在选择既一致又低噪声的图像集,导致 HDR 图像的噪点相对较少。一般来说,如果这能保证一致性,我们的方法也可以生成噪声图像区域(见图 8,右),因为这比实现低噪声更重要(见方程(7))。 齐默等人。使用光流建立对应关系,这将在经历大位移或遮挡的物体上失败。这种失败案例显示在图 11 中的人身上,其中在经历局部运动的人的两个实例无法正确对齐之后引入了重影伪影。相比之下,我们的方法选择了一个单一的自洽图像,从而防止了重影伪影的引入。 图 8:左:通过相机内包围进行手持拍摄。动态的汽车运动是无鬼重建的。右图:杂乱无章的方形序列,其中天真的平均会产生严重的伪影(左侧),而我们的结果是无重影(右侧)。 与检测和排除方法的比较 我们将我们的方法与 Sidibe 等人报告的前四种执行方法进行了比较。[´ 2012],根据他们的敏感性得分:Grosch [2006],Sidibe 等。[´ 2009],Heo 等人。[2010],以及 Pece 和 Kautz [2010]。我们使用各自作者指定的确切参数使用我们自己的这些方法实现;由于 Grosch 没有提供差异阈值,我们将其稳健地设置为中值差异加上三个中值绝对偏差。所有的检测和排除方法,包括我们的方法,都分两个阶段工作:检测不一致的区域,并仅使用一致的部分重建 HDR 图像。由于不一致性检测通常是嘈杂的,他们在重建阶段之前应用了不同的正则化技术(例如,高斯平滑、形态学操作或 MRF 先验;我们的方法应用了后者)。因此,为了排除不同正则化策略(即不同图像先验)的影响,只比较每种方法的检测阶段(见图12)。为了进行比较,我们使用了繁忙正方形序列的前两个输入图像。作为基本事实,我们构建了它们差异的手动分割(图 12a)。表 2 总结了每种方法在将像素分类为一致或不一致时所达到的灵敏度和特异性。基本事实。为了公平比较,我们展示了应用和不应用我们方法的差分过滤 (DF) 步骤的结果。我们使用了繁忙正方形序列的前两个输入图像。作为基本事实,我们构建了它们差异的手动分割(图 12a)。表 2 总结了每种方法在将像素分类为一致或不一致时所达到的灵敏度和特异性。基本事实。为了公平比较,我们展示了应用和不应用我们方法的差分过滤 (DF) 步骤的结果。我们使用了繁忙正方形序列的前两个输入图像。作为基本事实,我们构建了它们差异的手动分割(图 12a)。表 2 总结了每种方法在将像素分类为一致或不一致时所达到的灵敏度和特异性。基本事实。为了公平比较,我们展示了应用和不应用我们方法的差分过滤 (DF) 步骤的结果。 在以前的方法中,Grosch 的方法通过对图像之间的绝对辐照度差异进行阈值处理,实现了最佳灵敏度(43.5%)(图 12g)。Sidibe 等人的方法。(图 12f)和 Pece 和 Kautz(图 12h)的特异性最高(99.4% 和 99.9%),但敏感性最低(24.6% 和 15.8%)。这是因为两种方法都基于只要两个像素对应于相同的光强度时满足的不变量,但这并不总是被移动对象违反。 我们用置信度值 α = {0.95, 0.98, 0.999} 测试了我们的方法,并在应用和不应用噪声自适应差分滤波 (DF) 的情况下(参见第 2.2 节)。在所有情况下,我们都高于以前的方法(46.7-58.3% vs. Grosch 的 43.5%)。使用我们的自适应 DF,特异性与其他方法相当,包括那些基于不变量的方法。在 α = 0.98 时获得了最佳权衡,灵敏度和特异性分别为 51% 和 95%(图 12c)。我们的方法实现了最佳灵敏度,这对于去除重影至关重要,而不会影响特异性,这对于生成低噪声 HDR 图像至关重要。
4. 讨论
处理具有挑战性的场景和运动模糊 我们的方法可以生成具有大小物体位移和杂乱的场景的合理 HDR 图像(图 1、图 8、9 和 11)、手持拍摄的场景(图 1、左和图 8,左)和夜间拍摄的场景(图 10)。据我们所知,这是第一个在所有这些场景中展示无重影结果的方法。此外,用于所有结果的参数是相同的。然而,我们的方法不能检测运动模糊,因此我们的算法可以选择长时间曝光中的模糊对象。将来,可以使用模糊检测方法来排除此类对象。 处理 HDR 移动物体 我们的方法无法恢复移动 HDR 对象的动态范围,即无法在单次曝光中正确捕获的对象,因为它仅执行全局图像对齐,而不是在不同曝光中移动对象之间的局部对齐。结果,运动物体很可能从单个图像中重建。这可以使用基于对应的方法来缓解 [Sen et al. 2012],这说明了噪音。然而,在具有变形物体和遮挡的动态场景中,永远无法保证在不同的曝光下会观察到相同的物体表面,如果没有这种保证,基于对应的重建有时是不可能的。 手持拍摄的处理 只要可以使用单应性近似相机运动,我们的方法就可以成功处理手持捕获(图 1 左和图 8 左)。其他独立移动的对象没有被注册,而是通过一个优化过程隐式处理,该过程选择输入中可用的实例之一(通常是它们相对于噪声的最佳曝光)。 时间复杂度 我们算法的 C++ 实现需要 1 到 5 分钟,在 Intel Core i5 3GHz CPU 上以 1648 × 1236 的分辨率对三到五个 LDR 图像集进行去鬼镜处理。更大的图像堆栈将导致更长的运行时间,因为我们的方法考虑了输入图像的每种可能组合。在实践中,如果曝光时间足够分开,三到五张图像的堆叠足以重建大多数场景的动态范围。此外,在采集时起作用的曝光选择方法 [Gallo et al. 2012]可以用来选择最好的五幅或更少的子集。 处理语义不一致的交互 在某些情况下,我们的方法可能会产生语义不一致,例如包含一半的对象,或最终图像中相同对象的两倍。这可能在三种情况下发生。在第一种情况下,不同图像中相同位置的具有一致颜色的对象可能会合并到最终的 HDR 图像中。这是因为只能将观察结果与信号的噪声水平进行比较。这种情况如图 13-top 所示,其中所指示的人的衬衫颜色与背景颜色一致。这导致部分包含人,因为该算法更喜欢较低方差的背景图像。当不同图像上给定位置的所有对象曝光不良时,就会出现第二种情况。在这种情况下,如果不对曝光不良的像素进行平均,就不能完全包含任何对象,这会导致视觉上的不连续性。解决这种情况需要在使用曝光不良的像素或将对象分成两半之间做出决定。这在图 13 中进行了说明,我们通过执行去重影(排除繁忙正方形序列的最短和最长曝光)来引发这种情况。在去幻影的图像中,仅包括右侧人的腿(以红色包围)。在最后一种情况下,我们的算法可能会产生语义不一致,要么包括同一对象的多个实例,要么只包括视觉上不连贯但概念上完整的对象的某些部分。这在图 8 中可见,其中拿着手提箱的人在最终的 HDR 图像中出现了两次,在图 13 中,仅包括被灯柱遮挡的人的部分。一般来说,这三种情况可以通过用户交互通过编辑自动标签来纠正(见图 13)。除了花店序列(图 1,右),本文中呈现的所有结果都是完全自动计算的。
结论
我们提出了一种鲁棒的方法来模拟图像噪声并产生无重影 HDR 重建。我们的算法使用了一种新的一致性度量,该度量利用了图像中估计的噪声分布。这避免了对任何参考图像或背景模型的需要。由此产生的一致性度量与空间相干先验相结合,构成了一个 MRF 型能量最小化框架。实验表明,我们的算法可以应用于现有算法无法处理的具有挑战性的动态和杂乱场景,并且在挑战性较低的场景中也可以与最先进的技术相媲美。因此,我们的算法朝着一种广泛适用的无鬼动态场景 HDR 重建算法发展。