Setting

Fully Test-Time Adaptation 是一种独特的模型适应设定。在此设定下,模型 $ f_\theta(x) $ 在训练阶段已通过源数据 $ x^s $ 和标签 $ y^s $ 完成训练,获得参数 $ \theta $。但在测试阶段,模型将遇到与源数据分布不同的无标签目标数据 $ x^t $。

FTT-Adaptation 与以下方法不同:

  • Fine-tuning:需要目标标签进行重新训练。
  • Domain Adaptation:需要源数据和目标数据进行联合训练。
  • Test-Time Training (TTT):需要修改训练过程并共同优化有监督及自监督损失。

相比之下,FTT-Adaptation 仅能利用预训练模型 $ f_\theta $ 和无标签目标数据 $ x^t $ 进行适应,不依赖源数据或额外的监督信息。

Method

论文的核心贡献是提出了 Tent 方法,其核心思想是通过最小化测试熵Test Entropy Minimization)来适应模型预测,旨在使模型对测试数据的预测结果更“有信心”。

Entropy Objective

Tent 的测试时目标函数是最小化模型预测 $ \hat{y} = f_\theta(x^t) $ 的熵 $ H(\hat{y}) $。论文中使用的香农熵计算公式如下:

$$ H(\hat{y}) = - \sum_c p(\hat{y}_c) \log p(\hat{y}_c) $$

其中, $ p(\hat{y}_c) $ 表示模型预测目标数据 $ x^t $ 属于类别 $ c $ 的概率。

  • 最小化熵促使模型输出更“尖锐”或更“确定”的预测分布。
  • 优势:熵是一种无监督目标,仅依赖于模型预测,不需要真实标签。最小化熵与减少预测误差和数据漂移之间存在内在联系,因为更确定的预测通常意味着更正确的预测。

Modulation Parameters

Tent 不直接修改原始模型的全部参数 $ \theta $。相反,它仅更新模型内部归一化层(如Batch Normalization layers)中的线性且低维度的仿射变换参数:尺度参数 $ \gamma $ 和偏移参数 $ \beta $。

  • 这一选择的理由是:这些参数只占模型总参数的极小部分(<1%),优化效率高且稳定。
  • 特征调制过程包含两个步骤: 1.Normalization (标准化):根据当前批次测试数据的均值 $ \mu $ 和标准差 $ \sigma $ 来标准化特征 $ x $,即 $ \hat{x} = (x - \mu)/\sigma $。这里的 $ \mu, \sigma $ 是在测试时从当前批次数据中估计的。 2.Transformation (仿射变换):对标准化后的特征 $ \hat{x} $ 应用仿射变换,即 $ x' = \gamma \hat{x} + \beta $。参数 $ \gamma $ 和 $ \beta $ 通过最小化熵目标函数进行优化。

Algorithm

Tent 算法的流程如下:

  • Initialization
    • 加载预训练好的源模型参数 $ \theta $。
    • 固定所有非仿射变换的参数。
    • 丢弃源数据中估计的归一化统计量。
    • 优化器收集所有归一化层的通道级仿射变换参数 $ \{\gamma_{l,k}, \beta_{l,k}\} $。
  • Iteration:在线处理数据批次。
    • Forward Pass:对每个数据批次,逐层估计该批次数据的归一化统计量 ($ \mu, \sigma $)。
    • Backward Pass:计算预测熵 $ H(\hat{y}) $ 相对于仿射变换参数 $ \gamma, \beta $ 的梯度 $ \nabla H(\hat{y}) $。
    • Update:使用梯度更新 $ \gamma, \beta $ 参数。Tent 采用高效的在线更新策略,每次更新只影响下一个批次的数据处理。
  • Termination:对于在线适应,适应过程只要有测试数据就持续进行。对于离线适应,模型会先进行更新,然后重复推断,适应可以持续多个Epochs

Experiments

论文在多种计算机视觉任务和数据集上对 Tent 进行了全面评估。

Robustness To Corruptions

在图像分类的鲁棒性基准测试中,使用受损版本的 CIFAR-10/100-C 和 ImageNet-C 数据集(15 种损坏类型,不同严重程度)。

  • 主要发现
    • Tent 在 ImageNet-C 上达到了 44.0% 的最低错误率,优于 SOTA 鲁棒性训练方法(如Adversarial Noise Training (ANT) 的 50.2%)和Test-Time Normalization (BN) 基线(49.9%)。
    • 在 CIFAR-10/100-C 上,Tent 也显著优于其他 TTA baseline(BN, Pseudo-Labeling (PL))以及需要联合训练源域和目标域的Domain AdaptationRG, UDA-SS)和Test-Time Training (TTT) 方法。
    • 这些改进仅通过一次Epoch的测试时优化实现,且未改变原始模型训练。

Source-Free Domain Adaptation

评估 Tent无源域适应场景下的性能,包括数字识别(从 SVHN 到 MNIST/MNIST-M/USPS)和语义分割(从 GTA 到 Cityscapes)。

  • 主要发现
    • 在数字识别任务中,Tent 大多数情况下错误率低于源模型和BN,部分情况甚至优于需要源数据的Domain Adaptation方法(RG, UDA-SS)。
    • 语义分割任务中,TentIntersection-Over-Union (IOU) 分数从源模型的 28.8% 提高到 35.8%,显著优于 BN 的 31.4%。

Analysis

论文通过多项分析实验探究了 Tent 的工作原理和特性:

  • Tent 降低熵和误差:实验证实,Tent 成功降低了预测的熵值和任务损失(如Softmax Cross-Entropy),印证了熵最小化与误差减少之间的正相关性。
  • Tent 需要特征调制:不更新归一化统计量或不优化仿射变换参数会显著降低 Tent 性能,说明这些特征调制步骤对于适应不可或缺。
  • Tent 泛化到不同的目标数据:适应过程对未用于更新的其他测试数据点同样有效,表明其学习到的调制是通用的。
  • Tent 调制与归一化不同:对比分析显示,Tent 的特征调制使特征更接近在目标标签上优化的Oracle模型(理想模型),而非仅像Batch Normalization那样接近原始参考分布。
  • Tent 适应其他网络架构Tent 在基于Self-AttentionEquilibrium Solving (MDEQ) 的模型上也能有效降低误差,展现了其普适性。

论文回顾了与 Tent 相关的现有工作:

  • Train-Time Adaptation 方法:传统的Domain AdaptationTest-Time Training (TTT) 等,通常需要源数据或训练阶段修改模型。
  • Source-Free Adaptation 方法:近期一些不依赖源数据的方法,但通常需要更复杂的设计、离线优化或修改训练过程。Tent 的优势在于其在线、高效且不改变训练过程。
  • Entropy Minimization:熵最小化已被广泛用于Semi-Supervised LearningDomain Adaptation的正则化项,但 Tent 首次将其作为Fully Test-Time Adaptation中唯一的无监督损失来驱动模型适应。
  • Feature Modulation:归一化层和仿射变换已被用于各种任务的特征调制,但 Tent 将其作为在测试时通过无监督目标进行优化的核心机制。

Discussion

Tent 通过Test Entropy Minimization实现了在数据漂移情况下的泛化误差降低。其核心在于模型的自监督自我改进,即依据自身的预测反馈进行调整。

  • 优势总结
    • 高效:仅通过在线优化少数参数($ \gamma, \beta $)实现。
    • 实用:无需源数据访问,不改变模型训练过程。
    • 通用:适用于多种数据漂移类型和不同网络架构。

尽管 Tent 在广泛的场景中表现出色,但仍存在挑战,例如在特定困难的数据漂移(如 SVHN 到 MNIST-M/USPS)上仍有提升空间。未来研究方向可探索更全面的参数调整、更通用的Test-Time Adaptation Loss以及进一步提升效率的方法。总而言之,TentFully Test-Time Adaptation 提供了一个创新且实用的范式,使得模型能够在部署后,在面对未知且无标签的测试数据时,具备强大的自我适应能力。