南加大提出全新「通用时间序列」基础模型TimeDiT！基于扩散模型创新物理约束机制

随着近年来在文本和视频数据上构建基础模型的进展，学术界对时间序列的基础模型也表现出浓厚的兴趣。

时间序列分析在许多关键领域中具有重要性，能够影响从科学研究到经济决策的广泛应用。

例如，在自然科学中，气候数据的分析直接关系到全球变暖的预测和资源管理；在社会科学中，时间序列数据有助于理解社会行为的演变；在医疗健康领域，病人的生命体征和治疗进程记录依赖于时间序列分析。随着全球可持续发展目标的推进，能源和环境监控等领域的时间序列数据也越来越受到重视。

然而，尽管已经有许多模型专门针对特定的时间序列任务取得了显著的成果，现有的模型仍面临诸多挑战。

首先，现实世界中的时间序列数据往往含有缺失值，并且来自不同领域的数据通常具有多通道和多分辨率的特性。这些问题使得现有模型在处理数据不完整性和复杂性时表现不佳，难以有效地进行预测、补全和异常检测。

此外，现有模型在整合物理知识方面存在明显局限。许多真实的时间序列数据背后遵循着严格的物理定律，例如偏微分方程（PDEs），这些定律能够为数据建模提供重要的先验知识。

然而，已有的时间序列基础模型难以将这些物理知识直接融入预测或数据生成过程，从而限制了其在科学和工程等物理领域中的适用性。

为了应对这些挑战，南加州大学的研究人员提出了一种通用的时间序列基础模型TimeDiT：通过结合去噪扩散模型和Transformer架构，TimeDiT能够处理数据中的多通道、多分辨率和缺失值等问题，同时通过创新的物理约束机制，TimeDiT能将物理知识无缝整合到时间序列生成和预测过程中。

南加大提出全新「通用时间序列」基础模型TimeDiT！基于扩散模型创新物理约束机制

论文链接：https://arxiv.org/pdf/2409.02322

这种灵活性不仅提高了模型应对复杂时间序列任务的能力，还使其能够在需要严格物理约束的领域（如气候建模和工程模拟）中表现出色。

背景与挑战

时间序列数据与文本和图像等数据有着根本的区别，因此直接将大型语言模型（如GPT-4、LLaMA等）的成功经验移植到时间序列领域并不现实。

时间序列数据的特殊性质使得该领域面临一系列独特的挑战，例如：

1. 通道维度不一致：在不同领域中，时间序列可能会有不同数量的通道。而这一现象在文本和图像数据上并不常见。这对通用模型设计提出了更高的要求，要求一个模型能够灵活处理不同通道数的多变量数据。

2. 缺失值问题：在实际应用中，时间序列数据往往存在大量缺失值，如何在这些不完整数据上实现有效的预测和补全是另一个难题。

3. 多分辨率问题：同一时间序列数据的不同维度采样频率可能各不相同，这种多分辨率特性增加了模型在处理时的复杂度。

4. 自回归生成方式的局限性：传统的时间序列模型通常采用自回归生成方式，即使是基于Transformer架构的模型亦然。这意味着数据是按顺序生成的，这种方式在整合外部知识（如以偏微分方程形式表达的物理定律）时存在局限性。

模型创新

为了解决这些问题，本文提出了一种全新的时间序列基础模型——TimeDiT，即时间扩散Transformer模型。该模型结合了Transformer架构和去噪扩散模型，既能捕捉时间序列中的长短期依赖，又能生成高质量的时间序列样本，与此同时又克服了传统自回归模型在生成过程中容易累积误差的问题。

TimeDiT模型通过以下几个方面的创新来应对时间序列数据的挑战：

1. 扩散模型的引入

传统时间序列模型通常采用自回归生成方式，即逐步生成序列的未来值，这种方式的局限性在于其对模型的依赖较大，容易导致预测误差的累积。部分已有的工作通过独立预测不同时间窗口的结果来规避这一问题。然而这又使得模型一定程度上丧失了捕捉相邻时间信号间的依赖关系的能力。而扩散模型则采用了一个去噪的逆向过程，从噪声逐步生成数据，这种方法避免了自回归生成方式中常见的误差累积问题，又使得模型能够在每一步的去噪过程中根据附近时间片的预测值修正自身。

2. 通道对齐策略

为了应对不同领域中通道数量的变化，TimeDiT模型设计了一个通道对齐策略，使得模型能够灵活处理不同输入数据的维度变化。

3. 综合掩码机制

TimeDiT模型使用了一种新颖的掩码机制，通过不同的掩码方案来处理多分辨率、缺失值等问题，确保模型能够在各种数据条件下保持稳定的性能。这种掩码机制包括随机掩码(random position mask)、分段掩码(stride mask)、步幅掩码(block mask)等，能够适应不同的时间序列任务。

4. 无微调模型编辑策略

TimeDiT模型还提出了一种创新的无须微调的模型编辑策略，允许在采样过程中无缝整合外部知识（如物理定律），而不需要更新模型的参数。这种策略使得TimeDiT模型能够根据偏微分方程（PDEs）等领域知识，在生成数据的过程中显式约束生成的样本，使其符合已知的物理规律。

模型架构与实现

TimeDiT模型的架构设计围绕扩散过程展开，扩散过程可以看作是一个马尔科夫链，在前向过程中逐步向数据中加入高斯噪声，最终破坏数据的原始结构。然后，模型在逆向过程中通过逐步去噪的方式重建原始数据。

TimeDiT的Transformer架构通过注意力机制来捕捉时间序列中的时间依赖关系，同时依靠扩散模型生成高质量的样本。在采样阶段，TimeDiT模型还设计了一种基于物理知识的能量先验，通过偏微分方程（PDEs）来约束模型生成的时间序列样本，使其符合物理定律。

模型的标准化训练流程通过掩码机制实现，能够同时处理预测、数据补全、异常检测等任务。在训练阶段，TimeDiT模型通过重建被掩盖的时间序列片段来进行自监督学习。在推理阶段，模型根据具体任务选择不同的掩码策略，以便更好地适应下游任务的需求。

南加大提出全新「通用时间序列」基础模型TimeDiT！基于扩散模型创新物理约束机制

图1 TimeDiT架构。左图：TimeDiT框架包含来自不同领域的多分辨率、多变量时间序列数据，并能够利用掩码策略处理缺失值问题；中间：TimeDiT模块的结构；右上方：由时间序列掩码单元生成的掩码的示意图；右下方：TimeDiT在推理过程中处理下游任务时使用的掩码

此外，在TimeDiT架构中，物理知识的整合是一大亮点，特别是在生成高质量时间序列数据时，物理信息通过物理约束的扩散过程得到体现。通过引入偏微分方程（PDEs）作为物理先验，TimeDiT在推理阶段可以显式的将物理定律融入扩散生成过程，确保生成的时间序列符合真实世界的物理规律。

具体而言，TimeDiT使用能量函数来量化生成数据与物理模型之间的偏差，通过优化该能量函数，使生成的数据更加符合物理约束。这一过程通过朗之万动力学进行采样调整，结合物理先验和数据驱动模型，从而在生成过程中迭代优化，使生成的样本不仅符合数据分布，还满足物理定律。算法1中详细提供了伪代码

这种物理引导的扩散策略显著提升了TimeDiT在科学和工程领域中的应用潜力，尤其是在气候与海洋学等复杂物理现象的建模中，展现了较强的泛化能力和适用性。

南加大提出全新「通用时间序列」基础模型TimeDiT！基于扩散模型创新物理约束机制

算法1 TimeDiT中基于物理知识的采样过程

实验验证与结果分析

为了验证TimeDiT模型的有效性，本文进行了大量的实验。在TimeDiT模型的实验结果中，针对缺失值（missing value）和多分辨率数据（multi-resolution）的处理表现尤为突出（见图2）。传统的时间序列模型在应对这些复杂的现实问题时往往表现不佳，而TimeDiT通过其创新性的掩码机制，展现了卓越的适应能力。

对于含有缺失值的预测任务，TimeDiT在不同缺失率条件下的表现优于现有的最先进模型。当缺失率从5%增加至50%时，TimeDiT依然保持较低的CRPSsum分数，显示出其对缺失数据的强大鲁棒性。与其他模型相比，随着缺失率的增加，TimeDiT的性能优势愈加明显，表明其在面对更具挑战性的缺失数据条件下依然能够有效补全缺失值。

在处理多分辨率时间序列数据时，TimeDiT同样表现优异。实验结果表明，随着数据的采样分辨率从2种增加至6种，TimeDiT在处理多分辨率数据时依然能维持明显的性能优势，充分说明其能够有效整合不同采样频率的数据，进行高质量的预测。

这些实验结果表明，TimeDiT不仅在理想化数据集上表现出色，更能应对现实中常见的复杂问题，如缺失数据和多分辨率采样，这使其在实际应用中的潜力大大提升。

南加大提出全新「通用时间序列」基础模型TimeDiT！基于扩散模型创新物理约束机制