查看原文
其他

ICLR 2023 | 用于长时间序列预测的多尺度混合分解模块

杜大钊 PaperWeekly 2023-02-10

©作者 | 杜大钊

单位 | 中科院软件所

研究方向 | 时序建模



论文标题:

MICN: Multi-scale Local and Global Context Modeling for Long-term Series Forecasting

论文链接:

https://openreview.net/forum?id=zt53IDUR1U


本文中了 2023 ICLR 的 oral。又是一篇长时间序列预测的文章,但是它是一个基于时域卷积模块的模型,而不是基于 Transformer 的模型。本文的动机有两点:先提取时间序列的局部特征,然后再提取所有局部特征之间的关联性,进而得到全局特征,从 Local 和 Global 的角度建模;在建模全局特征时,不采用复杂度高的 attention,而是采用新提出来的 Isometric Convolution 模块。




Key Points


1.1 MICN模型总览



先是将输入序列送到多尺度混合分解模块中进行序列分解,得到 Seasonal 项和 Trend-Cyclical 项,分别对两者独立进行预测,最后将预测结果加起来。对于 Trend-Cyclical 项,直接采用线性回归的方式,即 Trend-Cyclical Prediction Block 就是一个线性层,因此下面不再介绍;对于 Seasonal 项,采用提出的 MIC 层进行预测。


1.2 多尺度混合分解


首先是如何将原始输入序列进行分解得到 Trend-Cyclical 项和 Seasonal 项。作者也是采用了和 AutoFormer 比较相似的,用平均池化得到 Trend-Cyclical 项,然后原始序列减去 Trend-Cyclical 项就得到了 Seasonal 项。考虑到平均池化的 kernel 大小控制着分解的不同模式,因此作者综合多个 kernel 的平均池化结果,将这些结果再取一个平均,得到 Trend-Cyclical 项:


其实这个方式几乎和 FEDformer 的混合专家分解块(MOEDecomp)是一模一样的,只不过 MOEDecomp 是对多个 kernel 的平均池化结果进行加权平均,而本文是直接平均。


1.3 Seasonal Prediction Block



季节预测模块首先对输入进行 Embedding,其次使用 个堆叠的 MIC 层预测未来。每个 MIC 层中,有多个代表不同尺度的 Branch,如上图中浅蓝色部分所示。每个 branch 实际上就是一个 Local-Global 模块,在下一节中将具体介绍。对于每一个 MIC 层,输入首先通过多个 branch 中的 Local-Global 模块,然后不同 branch 的结果会合并起来,相当于融合多尺度信息,最后馈送到 FFN 和 Add&Norm,即得到该 MIC 层的输出。


1.4 Multi-scale Isometric Convolution(MIC) Layer



对于每一个 MIC 层,本节详细介绍其中的 Local-Global 模块。Local-Global 模块由聚合局部特征的 Local 模块和建模所有局部特征之间的关系的 Global 模块串联而成。

对于 Local 模块,首先使用 kernel 大小为 的平均池化进行滤波,然后使用 kernel 大小为 ,stride 大小也为 的 1D 时域卷积来进行降采样(这相当于将序列长度缩小了 倍)。作者认为,这样相当于把每 个相邻的时间点特征聚合成了一个局部特征。

对于 Global 模块,它的输入实际上就是降采样后的序列,也就是局部特征的序列。于是,作者提出了 Isometric Convolution 来建模这些局部特征的全局关系。之后,利用 1D 转置卷积进行上采样,将序列长度扩大了 倍,也就是再恢复到原始的长度。

下图是 Isometric Convolution 和 masked self-attention 的对比。可以看到,Isometric Convolution 就是把长度为 的序列从头部再填充 的长度,然后利用 kernel 大小为 的 1D 卷积来直接处理即可。我认为 Isometric Convolutio 实际上就是 kernel 大小等于整个序列长度的因果卷积,换汤不换药,就是换了个名字。对于每个输出,只能看到位于该输出前面时刻的那些输入。


那多尺度,也就是上一节提到的多个 Branch 是如何实现的呢?很简单,对于不同的 branch,采用不同的参数 即可。



实验结果

主要结果:

Local-Global 模块的消融:



Comments


本文消融实验比较完备,模型结构也蛮合理。提出的 isometric convolution 来替代 masked self-attention 是本文最主要的创新点,但它就是因果卷积换了个皮,而且不太清楚为什么要用这种因果卷积的形式,因为模型的输入本身就不包括未来序列,未来序列是以填充 0 的方式输入到模型中的,并不需要防止信息泄露。

事实上,在很多基于 Transformer 的时序预测论文都不用因果 mask 了,以及基于 TCN 的模型如 SCINet 认为 TCN 中的因果卷积不但没有必要,反而自我限制了对时序信息的提取能力。模型的效果虽然超过了一些 Transformer 的模型,但和另一些方法如 DLinear 比还是有一些差距的。在 openreview 上可以看到该文章以 668 的得分中了 oral,但老实说我觉得远不够 oral 的门槛,可能是 PC 觉得实验比较充分吧。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存