Ghost-free HDRI with Context-aware Transformer

  • 背景介绍
  • 已有算法
  • 本文算法
  • 实验对比

背景介绍

高动态范围成像(HDR)是一种图像技术,它能够捕捉到比传统图像更广泛的亮度范围。1997年,Paul Debevec在他的论文《Recovering High Dynamic Range Radiance Maps from Photographs》中提出了HDR的概念。论文里提出可以通过对同一个场景进行不同曝光时间的拍摄,然后用这些低动态范围 (LDR) 图像合成一张高动态范围(HDR)图像。这样做可以捕捉到从暗部的阴影到亮部的高光,或者说是高反光的更大动态范围的场景。

HDR技术主要应用于高对比度场景,比如风景照、阳光下的人物、弱光和背光场景等。在这些情况下,HDR可以有效地捕捉到细节和颜色,增强图像的视觉效果。在显示设备上,HDR技术也被广泛应用于电视、显示器和手机等设备,以提升图像的亮度和颜色表现,从而带来更真实的视觉体验。

然而,在实际拍摄过程中,图像容易受到相机、物体运动的干扰,导致三张低动态范围图像往往不能很好地对齐。直接对这些图像做融合的话,所生成的图像容易产生伪影、重影等问题。

已有算法

为了解决这些问题,人们提出了各种方法,通常称为HDR去重影算法,以获得高质量的无重影HDR图像。
这些算法通常分为两类:

  • 一类是传统算法,如在图像融合前对图像进行对齐或者拒绝不对齐的像素来去除重影,但这种方法往往难以实现精确的对齐或定位不对齐的像素,因此所生成的HDR图像效果并不好;
  • 另一类是基于CNN的去重影方法,主要分为两类:
    – 第一类是使用单调或光流对LDR图像进行预对齐,然后使用CNN进行多帧融合和HDR重建,但在面对前景中的动态物体、存在遮挡和饱和的情况时,光流是不可靠的;
    – 第二类是具有隐式对齐模块或新颖的学习策略的端到端网络来处理重影伪影,从而实现最先进的性能,但当面对远距离物体运动和剧烈的强度变化时,卷积的内在局部性限制就会出现,使结果产生意想不到的重影和失真伪像。

本文算法


本文作者提出了一种上下文感知的ViT(Context-Aware Vision Transformer, CA-ViT),通过双分支架构来同时捕获全局和局部的依赖关系,也就是同时实现全局和局部的建模。对于全局分支,作者使用基于窗口的多头transformer编码器来捕远程上下文关系(即Swin transformer);对于局部分支,作者设计了局部上下文提取器(local context extractor, LCE),通过卷积块来提取局部特征映射,并且通过通道注意力机制在多个帧特征之间选择有用的特征,抑制无用的特征,因此,CA-ViT结构可以使全局和局部以互补的方式发挥作用。基于CA-ViT结构,作者提出了用于HDR成像的transformer结构(HDR-Transformer)。

对于HDR-Transformer,主要包括两个模块:特征提取网络和HDR恢复网络,特征提取网络利用卷积运算和空间注意力模块来提取浅层特征,并且进行粗融合,有助于稳定transformer的训练和抑制图像中不对齐的像素。HDR重建模块以CA-ViT为基本组件,从全局和局部两个角度对图像建模,有助于重建高质量的HDR图像,同时无需堆叠非常深的卷积块。

实验对比

将HDR-Transformer的结果与几种最先进的方法进行了比较,其中包括两种基于贴片匹配的方法和五种基于CNN的方法。HDR-Transformer重建了无鬼影的结果,同时在这些区域产生了更精确的边界。