PhysFormer

研究背景

诸如心率 (HR)、呼吸频率 (RF) 和心率变异性 (HRV) 等生理信号是在许多情况下需要测量的重要生命体征，尤其是用于医疗保健或医疗目的。传统上，心电图 (ECG) 和光电容积描记器 (PPG) 是测量心脏活动和相应的生理信号的两种最常用的方法。然而，ECG 和 PPG 传感器都需要连接到身体部位，这可能会引起不适，不方便长期监测。为了解决这个问题，远程光电体积描记法(rPPG)方法近年来发展迅速，旨在在没有任何接触的情况下远程测量心脏活动。在面部 rPPG 测量的早期研究中，大多数方法分析细微的颜色使用经典信号处理方法改变面部感兴趣区域 (ROI)。此外，还有一些颜色子空间变换方法利用所有皮肤像素进行 rPPG 测量。基于传统方法的先验知识，一些基于深度学习的方法被设计为非端到端方式。首先生成基于 ROI 的预处理信号表示（例如，时频图和时空图），然后可学习的模型可以从这些图中捕获 rPPG 特征。然而，这些方法需要严格的预处理程序，忽略了预定义 ROIs 之外的全局上下文线索。同时，越来越多的基于端到端深度学习的 rPPG 方法被开发出来，它将面部视频帧作为输入并直接预测 rPPG 和其他生理信号。然而，纯粹的端到端方法很容易受到复杂场景（例如，头部运动和各种光照条件）的影响，并且在学习中不能排除与 rPPG 无关的特征，导致在现实数据集中性能大幅下降（例如，VIPL-HR ）。最近，由于 Transformer 在解决序列到序列问题方面出色的远程注意力建模能力，Transformer 已成功应用于许多人工智能任务，例如自然语言处理 (NLP)、图像和视频分析。

问题

远程光电体积描记术 (rPPG) 旨在在没有任何接触的情况下从面部视频中测量心脏活动和生理信号，在许多应用中具有巨大的潜力。最近的深度学习方法专注于使用具有有限时空感受野的卷积神经网络挖掘细微的 rPPG 线索，忽略了 rPPG 建模的远程时空感知和交互。由于来自面部视频的 rPPG 测量也可以被视为视频序列到信号序列问题，其中应该利用远程上下文线索进行语义建模。如下图所示，来自不同皮肤区域和时间位置的 rPPG 线索（例如，t1、t2 和 t3 周围的信号轨迹）具有相似的特性（例如，上升沿先上升后下降沿和相对较高幅度的趋势），然而这些信息可用于远程特征建模和增强。与大多数针对巨大运动表示的视频任务不同，面部 rPPG 测量侧重于捕捉细微的肤色变化，这使得全局时空感知具有挑战性。此外，基于视频的 rPPG 测量通常是一项长时间的监控任务，设计和训练具有长视频序列输入的转换器具有挑战性。

方法

受上述问题的启发，作者提出了一种端到端的视频 Transformer 架构，即PhysFormer，用于远程生理测量。自适应地聚合局部和全局时空特征以增强 rPPG 表示。作为 PhysFormer 的关键模块，时间差分 Transformer 首先通过时间差分引导全局注意力增强准周期 rPPG 特征，然后针对干扰细化局部时空表示。此外，作者还提出了标签分布学习和课程学习启发的频域动态约束，为 PhysFormer 提供了精细的监督并减轻了过度拟合。代码可见PhysFormer。

如下图所示，PhysFormer 由一个浅的 stem 层 $E_{stem}$ 、一个tube 分词器 $E_{tube}$ 、N 个时差 transformer 块 $)E^i_{trans} (i = 1, …, N)$ 和一个 rPPG 预测头组成。受 Early convolutions help transformers see better 中研究的启发，作者采用浅的 stem 层来提取粗略的局部时空特征，这有利于快速收敛和更清晰的后续全局自我注意。具体来说，stem 层由三个卷积块组成，内核大小分别为 (1x5x5)、(3x3x3) 和 (3x3x3)。每个卷积运算器都与批量归一化 (BN)、ReLU 和 MaxPool 级联，而池化层仅将空间维度减半。因此，给定一个 RGB 面部视频输入 $\in R^{3 \times T \times H \times W}$ ，主干输出 $X_{stem} = E_{stem} (X)$ ，其中 $X_{stem} \in R^{D \times T \times H/8 \times W/8}$ 和 D, T , W , H分别表示通道、序列长度、宽度、高度。然后 $X_{stem}$ 将通过tube 分词器 $E_{tube}$ 划分为时空 tube token $W′X_{tube} \in R^{D \times T^′ \times H^′ \times W^′}$ 。随后，将使用 N 个时差 Transformer 块转发 Tube token，并获得与 $X_{tube}$ 具有相同维度的全局-局部细化 rPPG 特征 X。最后，rPPG 预测器对 $X_{trans}$ 的特征进行时间上采样、空间平均和投影到一维的信号 $\in R^T$ 。

Tube tokenization

在这里，粗略的特征 $X_{stem}$ 将通过 $E_{tube}(X_{stem})$ 划分为不重叠的 tube token，它聚合了时空邻居语义并降低了后续转换器的计算成本。具体来说，在目标 tube 尺寸 $T_s \times H_s \times W_s$ 下（与非重叠设置中的分区步长相同），tube token 图 $W′X_{tube} \in R^{D \times T ^′ \times H^′ \times W^′ }$ 具有长度、高度和宽度
$]T^′ = [\frac{T}{T_s}],H^′ = [\frac{H/8}{H_s}],W^′= [\frac{W/8}{W_s}]$
并且在 tube 标记化之后没有位置嵌入，因为早期的 stem 层已经捕获了相对时空位置。

Temporal difference multi-head self-attention

在自注意力机制中，token 之间的关系通过投影查询键对之间的相似性来建模，从而产生注意力分数。本片论文使用时间差分卷积（TDC）代替逐点线性投影，用于查询（Q）和关键（K）投影，这可以捕获精细颜色的细粒度局部时间差异特征。具有可学习 w 的 TDC 可以表示为：

其中 p0、R 和 R′分别表示当前时空位置、采样的局部（3x3x3）邻域和采样的相邻邻域。然后查询和键被投影为:

$Q = BN(TDC(X_{tube})), K = BN(TDC(X_{tube}))$

对于值的投影，使用没有 BN 的逐点线性投影。然后 $\in R^{D \times T^′ \times H^′ \times W^′}$ 被展平为序列，并分成 h 个磁头（每个磁头的 $D_h = D/h$ ），然后使用多头自注意力 (SA)：
$iSA_i = Softmax(Q_iK_i^T / \tau )V_i$
其中 $τ\tau$ 控制稀疏度。作者发现默认设置 $\tau = \sqrt{D_h}$ 在 rPPG 测量中的表现不佳。根据 rPPG 特征的周期性，使用更小的 $τ\tau$ 值来获得更稀疏的注意力激活。TD-MHSA 的输出是来自所有头部的 SA 的串联，然后进行线性投影 $\in R^{D \times D}$
$T D - M H S A = C o n c a t (S A 1; S A 2; \dots; S A h) U$

Spatio-temporal feed-forward

普通前馈网络由两个线性变换层组成，其中两层之间的隐藏维度 D0 被扩展以学习更丰富的特征表示。作者在这两层之间引入了深度 3D 卷积（具有 BN 和非线性激活），计算成本非常低，但性能显着提高。好处有以下两方面：

作为 TD-MHSA 的补充，ST-FF 可以细化局部不一致性和部分噪声特征
更丰富的局部性提供了 TD-MHSA 足够的相对位置线索

Label Distribution Learning

与面部年龄估计任务相似，年龄相近的面部看起来非常相似，具有接近 HR 值，面部 rPPG 信号也通常具有相似的周期性。受此观察的启发，作者没有将每个面部视频视为具有一个标签（HR）的实例，而是将每个面部视频视为与标签分布相关联的实例。标签分布覆盖一定数量的类标签，代表每个标签描述实例的程度。通过这种方式，一个面部视频可以对目标 HR 值及其相邻 HR 做出贡献。为了在训练阶段考虑 HR 类之间的相似性信息，作者将基于 rPPG 的 HR 估计问题建模为特定的 L 类多标签分类问题，L=139（[42, 180] bpm 内的每个整数 HR 值作为一个类）。标签分布 ${p_1, p_2, …, p_L} \in R^L$ 分配给每个面部视频 X。假设 p 的 Peach 条目是 [0,1] 范围内的实数值，使得 $1\sum^L_{k=1} p_k = 1$ 。并且作者使用高斯分布函数，以真实 HR 标签 $Y_{HR}$ 为中心，标准差 $θ\theta$ 构造对应的标签分布p
$)p_k = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(k-(Y_{HR} – 41))^2}{2\sigma^2})$
标签分布损失可以表示为 $p^) )L_{LD} = KL(p, Softmax(\widehat p))$ ，其中散度度量 KL(·) 表示 Kullback-Leibler (KL) 散度， $p^ \widehat p$ 是功率谱密度 (PSD）的预测 rPPG 信号。

Curriculum Learning Guided Dynamic Loss

课程学习作为一种主要的机器学习体系，具有易到难的课程理念，。在 rPPG 测量任务中，时域（例如，均方误差损失、负 Pearson 损失）和频域（例如，交叉熵损失、信号-信噪比损失）为模型学习提供了不同程度的约束。前者给出了信号趋势级别的约束，这对于模型收敛来说简单易行，但之后会过拟合。相比之下，后者对频域有很强的限制，强制模型在目标频带内学习周期性特征，由于现实的 rPPG 无关噪声，很难很好地收敛。受课程学习的启发，作者提出了动态监督以逐渐扩大频率约束，这缓解了过度拟合问题，并逐渐有利于内在的 rPPG 感知特征学习。动态损失 Loverall 可以表示为

采用负 Pearson 损失和频率交叉熵损失分别作为 $L_{time}$ 和 $L_{CE}$ 。通过动态监督，PhysFormer 可以在开始时更好地感知信号趋势，而这种完美的预热有利于后期逐渐增强的频率知识学习。

实验

Intra-dataset Testing

下图可以看到 PhysFormer 模型在不同的数据集上的情况：

Cross-dataset Testing

本文所提出的方法和最先进的方法的在跨数据集的表现如下表所示。很明显可以表明这篇论文所提出的 PhysFormer 在未见领域具有很好的泛化性。

Ablation Study

Impact of tube tokenization

在 PhysFormer 的默认设置中，使用与 tube token 级联的浅层stem。在这个实验中，考虑了其他四种带有或不带 stem 的 token 配置。从下表的第一行可以看出，stem 有助于物理前体看得更好，当没有 stem 时，RMSE 显着增加（+3.06 bpm）。然后作者还研究了空间和时间域在 tube token 中的影响。很明显，第四行全空间投影的结果很差（RMSE=10.61 bpm），表明空间注意力的必要性。相比之下，使用较小节奏（例如 [2x4x4]）或空间输入（例如 160x96x96）的标记化会略微降低性能。

Impact of TD-MHSA and ST-FF

如下表所示，TD-MHSA 和 ST-FF 在 PhysFormer 中都起着至关重要的作用。第一行的结果表明，在没有时空注意力的情况下，性能急剧下降。本研究中一个重要的发现，温度对 MHSA 的影响很大。用较小的正则化会强制执行更稀疏的时空注意力，这对于准周期性 rPPG 任务是有效的。

Impact of label distribution learning

除了时间损失 L_{time} 和频率交叉熵损失 L_{CE}，带和不带标签分布损失 L_{LD} 的消融显示在下表的最后四行。虽然 L_{LD} 的性能比 L_{CE} 稍差（+0.12 bpm RMSE），使用这两种损失可以实现最佳性能，表明显式分布约束对相邻标签知识传播的有效性。从最后两行有趣的发现，使用来自真实 PPG 信号的真实 PSD 分布作为 p，由于没有明显的峰值和部分噪声，总体的性能较差。

Impact of dynamic supervision

下图说明了在 Fold-1 VIPL-HR 中使用固定和动态监督进行训练时的测试性能。很明显，随着频率损耗呈指数级增加，蓝色曲线中的模型收敛速度更快，RMSE 更小。

Impact of θ and layer/head numbers

超参数 θ 权衡局部时间梯度信息的贡献。如下图 4(b) 所示，当 θ=0.4 和 0.7 时，PhysFormer 可以实现更小的 RMSE，表明归一化的局部时间差异特征对于全局时空注意力的重要性。并且作者还研究了层数和头数如何影响性能。如图 5(a) 所示，随着时间跨度的加深，在之前的块中，尽管计算成本更高，但 RMSE 会逐渐降低。就 head 数量的影响而言，从图 5(b) 可以清楚地发现，具有四个 head 的 PhysFormer 性能最好，而 head 越少会导致性能急剧下降。

Visualization and Discussion

作者在下图中可视化最后一个 TD-MHSA 模块的注意力图以及关于查询键交互的一个示例。x 轴和 y 轴分别表示来自键和查询管令牌的注意力置信度。从注意力图中，可以很容易地找到沿两个轴的周期性或准周期性响应，表明来自 PhysFormer 的内在 rPPG 特征的周期性。具体来说，给定来自前额（空间人脸域）和峰值（时间信号域）位置的第 530 个管标记（蓝色）作为查询，相应的关键响应在注意力中的蓝线处说明地图。

一方面，从关键响应中可以看出，占主导地位的空间注意力集中在面部皮肤区域并丢弃不相关的背景。
另一方面，关键响应的时间定位在预测的 rPPG 信号中的峰值位置附近。

所有这些模式都是合理的：1）前额和脸颊区域具有更丰富的 rPPG 测量血量，并且也是可靠的，因为这些区域受面部肌肉运动的影响较小，例如面部表情、说话； 2) 来自健康人的 rPPG 信号通常是周期性的。
然而，作者还从下图中发现了时空注意力的两个局限性。首先，注意力图可能会引入与任务无关的噪音和损坏性能。其次，时间注意力并不总是准确的，有些细微的偏移（例如，下图底部中 rPPG 信号的第一条垂直虚线）。

总结

在本文中提出了一种用于远程生理测量的端到端视频 Transformer 架构，即 PhysFormer。通过时间差 Transformer 和动态监督使得 PhysFormer 能够在基准数据集上实现卓越的性能。基于 Video Transformer 的生理测量研究仍处于早期阶段。未来的方向包括：

设计更高效的架构。提出的 PhysFormer 参数为 7.03 M，GFLOPs 为 47.01，不利于移动部署
探索更准确、更高效的时空自注意力机制，尤其是对于长序列rPPG监测