CAST-LSTM：一种用于雷达回波外推的时空LSTM模型

论文

引用本文 [复制中英文]

渠海峰, 何光鑫, 康志明, 等, 2023. CAST-LSTM：一种用于雷达回波外推的时空LSTM模型[J]. 气象, 49(12): 1481-1494. DOI: 10.7519/j.issn.1000-0526.2023.083101.

[复制中文]

QU Haifeng, HE Guangxin, KANG Zhiming, et al, 2023. CAST-LSTM: A Spatio-Temporal LSTM Model for Radar Echo Extrapolation[J]. Meteorological Monthly, 49(12): 1481-1494. DOI: 10.7519/j.issn.1000-0526.2023.083101.

[复制英文]

资助项目

国家自然科学基金项目(41975183、41875184)、广东省“珠江人才计划”引进创新创业团队项目(2019ZT08G669)共同资助

第一作者

渠海峰，主要从事深度学习下的短时临近预报研究. E-mail: 2504931080@qq.com。

通信作者

康志明，主要从事集合预报和定量降水预报等研究. E-mail: kangzm@cma.gov.cn.

文章历史

2022年10月21日收稿
2023年6月12日收修定稿

Contents Abstract Full text Figures/Tables PDF

CAST-LSTM：一种用于雷达回波外推的时空LSTM模型

渠海峰 ^1,2, 何光鑫 ^1,2, 康志明 ³, 程勇 ¹, 王军 ¹, 庄潇然 ³, 李远禄 ¹

1. 南京信息工程大学，南京 210044；
2. 中国气象局广州热带海洋气象研究所，广东省区域数值天气预报重点实验室，广州 510640；
3. 江苏省气象台，南京 210008

2022年10月21日收稿；2023年6月12日收修定稿

资助项目：国家自然科学基金项目(41975183、41875184)、广东省“珠江人才计划”引进创新创业团队项目(2019ZT08G669)共同资助

第一作者：渠海峰，主要从事深度学习下的短时临近预报研究. E-mail: 2504931080@qq.com

通信作者：康志明，主要从事集合预报和定量降水预报等研究. E-mail: kangzm@cma.gov.cn

摘要：基于循环神经网络的雷达回波外推算法的预报结果随时间逐渐模糊失真，同时难以预报强回波区域。针对上述问题，提出一种上下文融合和注意力机制的时空长短期记忆网络模型。该方法通过上下文融合模块充分提取雷达图像不同尺度的短期上下文信息；通过注意力模块拓宽预测单元的时间感受域，使模型感知更多的时间动态。以2019—2021年4—9月江苏省气象雷达数据为样本，通过试验对比分析，基于上下文融合和注意力机制的时空长短期记忆网络取得了更好的预测性能。在外推60 min，阈值为10、20、40 dBz的条件下，临界成功指数和HSS分别达到0.7611、0.5326、0.2369和0.7335、0.5735、0.3075，有效提高了预测精度。

关键词：雷达回波外推深度学习降水预报长短期记忆

CAST-LSTM: A Spatio-Temporal LSTM Model for Radar Echo Extrapolation

QU Haifeng^1,2, HE Guangxin^1,2, KANG Zhiming³, CHENG Yong¹, WANG Jun¹, ZHUANG Xiaoran³, LI Yuanlu¹

1. Nanjing University of Information Science and Technology, Nanjing 210044;
2. Guangzhou Institute of Tropical and Marine Meteorology, CMA/Guangdong Provincial Key Laboratory of Regional Numerical Weather Prediction, Guangzhou 510640;
3. Jiangsu Meteorological Observatory, Nanjing 210008

Abstract: The forecast results of radar echo extrapolation algorithm based on recurrent neural network are gradually blurred and distorted with time, and it is difficult to forecast the severe echo area. To solve the above problems, this paper proposes a spatio-temporal long short-term memory network model based on context fusion and attention mechanism. The method fully extracts the short-term context information of different scales of radar image through the context fusion module. The attention module broadens the time perception domain of the prediction unit, so that the model perceives more time dynamics. Taking the weather radar data of Jiangsu Province from April to September in 2019-2021 as a sample, the spatio-temporal long short-term memory network based on context fusion and attention mechanism achieves better prediction performance through experimental comparison and analysis. Under the conditions of 60 min extrapolation and the thresholds of 10, 20 and 40 dBz, the critical success index (CSI) and heidke skill score (HSS) reach 0.7611, 0.5326, 0.2369 and 0.7335, 0.5735, 0.3075, respectively, which effectively improved the prediction accuracy.

Key words: radar echo extrapolation deep learning precipitation forecast long short-term memory(LSTM)

引言

降水短时临近预报一直是气象预报的一项重要任务，通常是指对某一地区未来短时间内(通常是0~2 h)的降雨量进行预测(Singh et al, 2017)，准确的短时临近预报可以在暴雨、雷暴等恶劣天气提供预防作业(如为农业、航海等提供天气指导)，减少人员伤亡和财产损失。因此，如何利用雷达回波外推技术获取精准、快速的天气短时临近预报，成为气象研究方面的热点问题。

降水短时临近预报可以看作是一种时空序列预测问题。预测雷达图通过Z-R关系(Marshall and Palmer, 1948)转换为降雨强度，作为最终短时临近预报。传统的雷达回波外推方法主要有交叉相关法(Rinehart and Garvey, 1978; Zou et al, 2019)、单体质心法(Chung and Yao, 2020; Lakshmanan et al, 2009)和光流法(Ayzel et al, 2019; Woo and Wong, 2017)。交叉相关法是将整个数据区域划分成若干小区域，然后在相邻时刻雷达回波图像的小区域之间计算相关系数，通过最大相关系数确定相邻时刻图像中的区域对应关系，进而确定回波区域的平均运动。但是，在强对流天气中，跟踪失败的情况就会显著增加。单体质心法是将雷暴视为三维单体进行识别、分析和追踪，对雷暴进行拟合外推来做临近预报。该方法在雷达回波较为零散或出现合并、分裂现象时，准确度将会大大下降。而光流法本质上是通过计算雷达回波的光流场得到回波的运动矢量场，并基于运动矢量场对雷达回波进行外推，但光流法在计算光流矢量和外推两步时存在累计误差。雷达回波图像数据作为一类序列图像数据，以上三种传统方法没有充分学习海量雷达数据内部蕴含的复杂天气变化规律，存在外推准确率低的问题。

近年来，深度学习是机器学习中发展最为迅速的技术，针对传统方法存在的问题，越来越多的人尝试采用深度学习方法来解决视频预测(Bei et al, 2021; Chang et al, 2021; Tamaru et al, 2021)、交通流预测(Tian and Chan, 2021; Yin et al, 2022; Zhao et al, 2022)和降水短时临近预报(陈锦鹏等, 2021; 郭瀚阳等, 2019; 顾建峰等, 2020; 黄骄文等, 2021; 黄兴友等, 2021; 尹麒名等, 2021; 周康辉等, 2021；袁凯等，2022；陈鹤等，2022)等时空序列预测问题。深度学习方法可以处理复杂的时空关系，以便从大量先前的雷达回波序列中自适应地学习降水量变化的规律。例如，Shi et al(2015)提出了将卷积神经网络(CNN)和长短期记忆网络(LSTM)相结合的卷积LSTM(ConvLSTM)模型用于降水预测，LSTM用于提取时间动态信息并存储在时间记忆单元中，CNN则负责提取空间信息。因此，该网络可以对时空信息进行更好的学习和建模。基于循环神经网络的预报方法，采用堆叠网络单元的方式搭建整体网络架构，考虑到ConvLSTM只关注了时间信息，而忽略了来自不同单元层之间的空间信息。Wang et al(2017)提出了ST-LSTM单元(spatio-temporal LSTM)，通过在ConvLSTM中添加一个新的、并行的空间记忆单元，来保存每个单元层的空间特征并将其应用在新的端到端模型PredRNN上。Wang et al(2018)进一步将双记忆单元采用级联的方式构建Causal-LSTM单元，并加入梯度高速公路单元(gradient highway unit，GHU) 缓解梯度消失问题，形成新的端到端模型PredRNN++。Wang et al(2019a)提出了一种新的模型E3D-LSTM(eidetic 3D LSTM)，将3D卷积集成到RNN中，使存储单元能够存储更好的短期特征。对于长期关系，通过门控制的自注意力机制使当前记忆状态与其历史记忆状态相互作用。但由于集成的3D卷积，使E3D-LSTM的计算负载非常高。Wang et al(2019b)提出了MIM(memory in memory)，可以捕捉雷达回波图像中的非平稳和近似平稳特性。Luo et al(2021)提出了一种新的PFST-LSTM单元(pseudo flow spatio-temporal LSTM)，其开发的空间存储单元和位置对齐模块，解决了位置不匹配和缺少空间外观保护器的问题。Yang et al(2023)提出了CEMA-LSTM，引入多头注意机制块(MAB)使用位置和信道注意机制来捕获雷达回波的全局特征。Geng et al(2022)提出了一种注意力融合时空残差网络(AF-SRNet)来精确预测对流降水的弱连续性。具体而言，时空残差网络用于提取雷达回波和降水数据的深层时空特征，实现了更精确的对流降水预报。

尽管上述方法有了重大改进，但这些网络仍存在一些缺陷：(1)输入数据和隐藏状态之间的上下文特征相关性较弱，不能相互帮助识别和保存重要信息；(2)随着预测时间增加，会出现记忆单元中存储信息逐渐衰减的问题，即当前时刻记忆单元很难有效回忆起先前时刻存储记忆。这些问题导致在雷达回波外推任务中，随着预测时间的增加，雷达回波预测图像逐渐模糊，反射率较高的雷达回波区域有消失的趋势，这大大影响了预测精度。

针对上述问题，本文提出了上下文融合和注意力机制的时空LSTM模型(CAST-LSTM)。首先，提出了上下文融合模块，有效地提取图像多尺度时空信息并提高上下文相关性。然后，提出了一种注意力模块，通过拓宽网络模型的时间感受域，使模型感知更多的时间信息。将这两个模块集成到网络单元中，性能显著提高，尤其是在强降雨地区。

1 数据 1.1 Moving MNIST数据集

Moving MNIST数据集是时空序列预测任务中使用最广泛的数据集，在有限的范围内，几个数字随机移动，具有一些运动模式，包括旋转缩放、亮度变化等。每20个连续帧划分为一个序列。其中10帧用于输入，10帧用于预测，每帧的大小为64×64。训练集包括10 000个序列，验证集为2000个序列，测试集为3000个序列。本文通过Moving MNIST数据集初步检验改进模型对时空序列预测任务的性能。使用训练集对网络进行训练；使用验证集调整模型结构和超参数，使模型性能达到最佳；最后使用测试集检验模型的性能。

1.2 雷达数据集

使用江苏气象雷达数据集来评估模型在真实场景下的雷达回波外推性能。数据集为2019—2021年4—9月对江苏多部S波段气象雷达质量控制及组网拼图后得到的实际观测数据，覆盖整个江苏省区域面积，该数据集由江苏省气象台制作，以灰度图形式存储。数据取值范围为0~70 dBz，水平分辨率为0.01°(约1 km)，时间间隔为6 min，单时次数据(即单张图片)的网格尺寸为480×560像素。

在本文中，将数据集中每20张间隔为6 min的雷达图像作为一个序列样本。在每个序列样本中，前10张回波图像作为输入，后10张作为实际输出，即根据过去一小时的观察结果预测未来一小时的结果。将所有序列样本按4∶1的比例划分为训练样本和检验样本，其中训练样本含21 103组，检验样本含5275组，使用训练样本对网络模型进行训练，使用检验样本进行测试评估。由于检验样本没有参与算法的训练和参数调整，因此可以客观地衡量算法的学习能力和预报效果。

使用江苏2022年4—9月雷达数据资料，采用与上文相同的处理方式，从中挑选并划分出5143组序列样本用于检验算法的泛化性能及在实际业务中的可用性。

2 算法描述

本节详细介绍CAST-LSTM模型。首先介绍上下文融合模块，然后阐述注意力模块，并描述如何将上下文融合模块和注意力模块嵌入到ST-LSTM单元中。最后，将介绍所提出的CAST-LSTM模型的整体外推结构。

2.1 上下文融合模块

在基于LSTM的模型(如ConvLSTM、Pred- RNN等)中具有由输入门、遗忘门、输入调制门和输出门组成的门控结构，这些门控在当前输入X_t和先前隐藏状态H_t-1^l中分别学习新的输入特征和先前特征，X_t和H_t-1^l之间不仅在时间上存在先后关系，在空间上也存在着低层和高层的关系。因此，这种上下文间的密切联系对预测结果的准确性至关重要。而现有网络当前输入和先前隐藏状态之间仅仅通过卷积层和加法操作单独交互。随着模型深度的增加，当前输入和先前隐藏状态之间的上下文关系会逐步减弱，这将导致模型的短期相关性信息丢失。因此，本文提出了一种上下文融合模块，如图 1所示。

图 1 上下文融合模块注：X_t和H_t-1^l表示上下文信息，其中X_t表示当前时刻输入，H_t-1^l表示先前时刻隐藏状态；“σ”表示Sigmoid函数。 Fig. 1 Context fusion module

在卷积操作中，卷积核大小代表着感受野的范围大小。卷积核偏小时，每次滑动提取信息的范围更小，偏向于捕捉较小范围间变化较慢的信息；卷积核偏大时，每次滑动提取信息的范围更大，偏向于捕捉较大范围间变化较快的信息。因此，不同尺寸的卷积运算相结合可以充分提取雷达回波图像中更全面的多尺度时空演变特征，而好的预测结果需要网络模型充分的提取特征。因此，本文提取上下文不同尺度时空特征如式(1)所示：

$ \begin{array}{ll} X_t^{\prime}=\operatorname{Concat}\left(W_x^{k \times k} * X_t\right) & k=1, 3, 5 \\ H_{t-1}^{l ^\prime}=\operatorname{Concat}\left(W_h^{k \times k} * H_{t-1}^l\right) & k=1, 3, 5 \end{array} $

(1)

式中：“*”表示二维卷积(下同)，“Concat”表示通道拼接，W_x^k×k表示X_t的卷积核，W_h^k×k表示H_t-1^l的卷积核，k×k表示卷积核尺寸，t表示时刻，l表示层。首先，将当前输入X_t和先前隐藏状态H_t-1^l分别进行卷积核为1×1、3×3、5×5的卷积操作，提取上下文信息中不同尺度的细节时空特征。然后分别进行通道拼接，然后再对其进行卷积操作使通道还原，得到带有多尺度特征信息的当前输入X_t^′和先前隐藏状态H_t-1^{l^′}。

然后，将当前输入X_t^′和先前隐藏状态H_t-1^{l^′}进行融合，为了控制信息的融合率，两个融合门如下式所示：

$ \begin{aligned} & U_x=\sigma\left(W_{x u} * X_t^{\prime}\right) \\ & U_h=\sigma\left(W_{h u} * H_{t-1}^{l^\prime}\right) \end{aligned} $

(2)

式中：U_x为当前时刻X_t^′的融合门，U_h为先前时刻H_t-1^{l^′}的融合门，“σ”表示Sigmoid函数(下同)，W_xu表示X_t^′的卷积核，W_hu表示H_t-1^{l^′}的卷积核。通过两个门控进行融合，如下式所示，

$ \begin{aligned} \hat{X}_t= & U_x \odot\left(W_{x x} * X_t^{\prime}\right)+ \\ & \ \ \ \ \left(1-U_x\right) \odot\left(W_{h x} * H_{t-1}^{l^ \prime}\right) \\ \hat{H}_{t-1} &= U_h \odot\left(W_{h h} * H_{t-1}^{l^ \prime}\right)+ \\ & \ \ \ \ \left(1-U_h\right) \odot\left(W_{x h} * X_t^{\prime}\right) \end{aligned} $

(3)

式中：“⊙”表示矩阵的Hadamard积(下同)，“W”表示对应的卷积核。

由上述公式可见，通过对上下文信息进行不同尺寸的卷积来提取更精细的多尺度时空特征。使用融合门来控制上下文融合过程，提高了当前输入和先前隐藏状态的上下文相关性。

2.2 注意力模块

为了进一步提高模型的长期依赖能力，减少信息在传递中的遗忘问题。本文提出了一种注意力模块，如图 2所示。该模块根据当前时刻空间状态M_t^l-1和历史时刻空间状态M_{t-τ: t-1}^l-1(τ=5)的相关系数分配注意力权重，相关系数越大表明两者的关系密切程度越大。基于注意力权重对历史时间记忆信息给予不同程度的注意力，并将历史时间记忆信息聚合为长期记忆信息C_att。因此，预测单元可以从更宽的感受域感知更多的时间动态。然后，进一步将长期记忆信息C_att和短时记忆信息C_t-1^l融合为最终的增强记忆单元C_emu。

图 2 嵌入模型的注意力模块 Fig. 2 Attention module embedded in model

首先，当前空间状态M_t^l-1分别与历史空间状态M_{t-τ: t-1}^l-1(τ=5)之间的相关性注意力分数，如式(4)所示：

$ \begin{aligned} & M^{\prime}=W_m * M_t^{l-1} \\ & \alpha_j=\operatorname{Softmax}\left(M_{t-\tau: t-1}^{l-1} \cdot M^{\prime}\right) \quad \tau=5 \end{aligned} $

(4)

式中：当l=1时，M_t^l-1=X_t，M_{t-τ: t-1}^l-1=M_{t-τ: t-1}(τ=5)。其中，W_m表示M_t^l-1的卷积核，“·”表示矩阵的点乘，先对M_t^l-1进行卷积运算得到M′，其次将M′分别与历史多个时间步的空间记忆M_{t-τ: t-1}^l-1(τ=5)点乘运算，然后使用Softmax激活函数进一步归一化为注意力分数α_j。

为了帮助空间信息在时域内对历史时间信息C_t-1^l进行监督，将注意力得分α_j应用于相应的时间记忆单元，如式(5)所示：

$ C_{\mathrm{att}}=\sum\limits_{j=1}^\tau \alpha_j \cdot C_{t-j}^l \quad \tau=5 $

(5)

式中C_att可以表示为时间注意力信息，代表一种长期的运动趋势。通过当前空间状态与历史空间状态之间相关性所得的注意力分数可以更好地、有选择性地保留历史时间记忆单元的信息。

为了有效地聚合长期运动趋势信息C_att和短时运动信息C_t-1^l，通过设置一个融合门U_f来控制两者间的融合率，如公式(6)所示：

$ \begin{aligned} & U_{\mathrm{f}}=\sigma\left(W_{\mathrm{f}} * C_{t-1}^l\right) \\ & C_{\mathrm{emu}}=U_{\mathrm{f}} \odot C_{t-1}^l+\left(1-U_{\mathrm{f}}\right) \odot C_{\mathrm{att}} \end{aligned} $

(6)

式中：W_f表示短时运动信息C_t-1^l的卷积核。通过U_f来控制短时运动状态信息保留的百分比，通过(1-U_f)控制长期的运动趋势信息保留的百分比，得到最终的增强记忆单元C_emu。

2.3 CAST-LSTM单元

在本小节中，将介绍CAST-LSTM单元的内部结构。如图 3所示，CAST-LSTM单元的输入包括当前输入X_t、空间记忆单元M_t^l-1、时间记忆单元C_t-1^l、历史时间记忆集C_{t-τ: t-1}^l、历史空间记忆集M_{t-τ: t-1}^l-1和隐藏状态H_t-1^l。当前输入X_t和隐藏状态H_t-1^l首先通过上下文融合块提取不同尺度的细节时空特征后进行信息融合，得到新的输入$\widehat{X}_t$和隐藏状态$\widehat{H}{}_{t-1}^l$。当前空间记忆单元M_t^l-1、历史空间记忆集M_{t-τ: t-1}^l-1、时间记忆单元C_t-1^l、历史时间记忆集C_{t-τ: t-1}^l作为注意力模块的输入，得到增强的记忆单元C_emu。CAST-LSTM单元的计算如式(7)所示：

$ \begin{gathered} \hat{X}_t, \hat{H}_{t-1}^l=\operatorname{FM}\left(X_t, H_{t-1}^l\right) \\ i_t=\sigma\left(W_{x i} * \hat{X}_t+W_{h i} * \hat{H}_{t-1}^l+b_i\right) \\ g_t=\tanh \left(W_{x g} * \hat{X}_t+W_{h g} * \hat{H}_{t-1}^l+b_g\right) \\ f_t=\sigma\left(W_{x f} * \hat{X}_t+W_{h f} * \hat{H}_{t-1}^l+b_f\right) \\ C_t^l=i_t \odot g_t+f_t \odot \operatorname{Att}\left(C_{t-1}^l, C_{t-\tau: t-1}^l, M_t^{l-1}, M_{t-\tau: t-1}^{l-1}\right) \\ i_t^{\prime}=\sigma\left(W_{x i}^{\prime} * \hat{X}_t+W_{m i} * M_t^{l-1}+b_i^{\prime}\right) \\ g_t^{\prime}=\tanh \left(W_{x g}^{\prime} * \hat{X}_t+W_{m g} * M_t^{l-1}+b_g^{\prime}\right) \\ f_t^{\prime}=\sigma\left(W_{x f}^{\prime} * \hat{X}_t+W_{m f} * M_t^{l-1}+b_f^{\prime}\right) \\ M_t^l=i_t^{\prime} \odot g_t^{\prime}+f_t^{\prime} \odot M_t^{l-1} \\ o_t=\sigma\left(W_{x o} * \hat{X}_t+W_{h o} * \hat{H}_{t-1}^l+\right. \\ \left.W_{c o} * C_t^l+W_{m o} * M_t^l+b_o\right) \\ H_t^l=o_t \odot \tanh \left(W_{1 \times 1} *\left[C_t^l, M_t^l\right]\right) \end{gathered} $

(7)

图 3 上下文融合注意力长短期记忆单元内部结构图 Fig. 3 Internal structure diagram of long short-term memory unit of context fusion attention

式中：“FM”表示上下文融合模块，“Att”表示注意力模块，i_t为第一输入门，g_t为第一输入调制门，f_t为第一遗忘门，i_t^′为第二输入门，g_t^′为第二输入调制门，f_t^′为第二遗忘门，o_t为输出门，C_t^l表示更新的时间记忆单元，M_t^l表示更新的空间记忆单元，W表示对应的卷积核，b表示对应的偏差值。“tanh”表示双曲正切激活函数，τ是历史时间步数。特别地，在Att方程中，当l=1时，M_t^l-1=X_t，M_{t-τ: t-1}^l-1=M_{t-τ: t-1}(τ=5)。

2.4 CAST-LSTM网络结构

CAST-LSTM模型的网络结构如图 4所示。通过堆叠四层CAST-LSTM单元以构建网络，在网络中沿“之”字形方向更新空间存储单元M(如橘色线所示)，并在水平方向更新时间存储单元C(如蓝色线所示)，顶层输出预测结果$\widehat{X}_t$。

图 4 CAST-LSTM网络模型结构 Fig. 4 CAST-LSTM network model structure

3 试验分析

在本章节，将分别在Moving MNIST数据集和2019—2021年4—9月江苏省气象雷达数据分别进行试验，在2022年4—9月江苏省气象雷达数据上进一步检验算法的泛化性能及在实际业务中的可用性，并与现有模型对比分析。按照图 4所示应用了四层CAST-LSTAM单元，每个单元的通道数设置为64，通道数即预测单元中进行卷积操作时的卷积核数量，卷积核大小设置为5×5。所有模型均在基于Pytorch框架上进行训练和测试，试验在NVIDIA A10 GPU上实现，输入图像的大小受硬件设备限制(如GPU显存)，本文试验中占用显存约21Gb。选择Adam优化器进行优化，其学习率设置为0.0001，而批大小设置为4。为了稳定训练过程，在CAST-LSTM中的每个卷积层之后使用层归一化。

3.1 Moving MNIST试验

为了评估性能，本文采用了两种常用的指标，包括均方误差(MSE)、结构相似性指数(SSIM)。较低的MSE及较高的SSIM表示更好的预测性能，如表 1所示。

表 1 不同方法在移动MNIST数据集(10桢→10桢)中的结果 Table 1 Results of different methods for moving MNIST datasets (10 frames → 10 frames)

本文提出的CAST-LSTM显著优于其他方法，尤其是在最后两个时间步中的预测，如图 5所示。CAST-LSTM网络很好地保留了数字的变化细节，特别是处理重叠的轨迹，保持了随时间变化的清晰度。相比较之下，ConvLSTM、PredRNN网络预测结果很快变得模糊，逐渐丢失细节信息；而其他方法虽然也能取得一定的预测结果，但在最后时间步的预测结果中CAST-LSTM可以保留更多的细节信息，在位置精度和空间外观方面更有优势。

图 5 不同方法在移动MNIST数据集中的结果 Fig. 5 Results of different methods for mobile MNIST dataset

3.2 雷达数据集试验

本试验实现以过去十个时间步的观察结果来预测未来十个时间步的结果。本文使用数据集为间隔6 min的连续雷达资料，即根据过去一小时的观察结果预测未来一小时的结果。

3.2.1 评估指标

在评估方面，本文使用临界成功指数(CSI)和HSS(heidke skill score)指标来评估结果。为此，应用以下变换将地面实况和预测回波图的像素值p转换为反射率dBz，如式(8)所示：

$ \mathrm{dBz}=p \times 95 / 255-10 $

(8)

通过设置阈值将预测回波图和地面实况图转换为二进制矩阵。若雷达回波值大于给定阈值，则将相应的值设置为1；否则设置为0。类比到气象上如表 2所示，计算真阳性预测数TP(预测=1，真值=1)、假阳性预测数FP(预测=1，真值=0)、真阴性预测数TN(预测=0，真值=0)和假阴性预测数FN(预测=0，真值=1)。

表 2 列联表 Table 2 Contingency table

CSI和HSS的具体公式如式(9)所示：

$ \mathrm{CSI}=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}+\mathrm{FP}} $

$ \begin{gathered} \mathrm{HSS}= \\ \frac{2(\mathrm{TP} \times \mathrm{TN}-\mathrm{FN} \times \mathrm{FP})}{(\mathrm{TP}+\mathrm{FN})(\mathrm{FN}+\mathrm{TN})+(\mathrm{TP}+\mathrm{FP})(\mathrm{FP}+\mathrm{TN})} \end{gathered} $

(9)

具体来说，分别选择10、20和40 dBz作为阈值。CSI和HSS是综合度量，考虑了检测概率和虚警率，可以直接反映模型的优劣。CSI和HSS越大性能越好。

3.2.2 结果与分析

表 3显示了在2019—2021年4—9月江苏省雷达数据集不同方法的对比结果。可以看到本文提出的CAST-LSTM模型在所有阈值下的CSI和HSS性能最佳，并且随着阈值的增加，模型的优势变得越来越明显。特别是，当阈值为40 dBz时，评估的CSI和HSS指标达到0.2369和0.3075，分别比PredRNN算法提高了30.5%和31.5%，比PFST-LSTM算法高9.9%和8.6%。这意味着开发的上下文融合模块和注意力模块有助于提高对强降水区域的预测效果。

表 3 2019—2021年4—9月江苏省雷达数据集不同方法的CSI和HSS评分结果 Table 3 Scoring results of CSI and HSS under different methods for dataset of Jiangsu radar from April to September of 2019-2021

为了更好地说明结果，描述了图 6所示的在2019—2021年4—9月江苏省雷达数据中检验样本集不同阈值的CSI和HSS变化曲线，以显示各种模型在不同时间步下的性能。可以看到，本文提出的模型整体上优于其他模型，在40 dBz时差距最为明显，原因是CAST-LSTM融入了上下文融合模块和注意力模块，上下文融合模块充分提取不同尺度时空信息，提高上下文相关性；注意力模块可以从更宽的感受域感知更多的时间动态，减少了信息丢失，这更好地模拟了短期和长期依赖关系。因此，CAST-LSTM可以更好地保留预测结果的细节性，在强回波区域的预测结果也表现得更出色。此外，Pred-RNN的结果总是比本文提出的模型差，尤其是在高阈值下。这是因为PredRNN存在没有充分提取上下文相关性信息和记忆单元信息丢失的问题。此外，由于伪流位置对齐模块的设计，PFST-LSTM取得了第二的性能。至于ConvLSTM模型，其性能在试验中表现最差。

图 6 2019—2021年4—9月江苏省雷达数据集中检验样本集不同阈值下的(a, c, e)CSI和(b, d, f)HSS变化曲线 Fig. 6 Variation curves of (a, c, e) CSI and (b, d, f) HSS at different thresholds for the test sample of dataset of Jiangsu radar from April to September of 2019-2021

为了更好地比较和理解结果，在图 7中可视化了2021年5月15日02：06—03：00江苏省雷达数据不同方法下的预测结果。从地面真值序列中看到，回波图像有三个主要的强回波区域，回波区域的强度变得更高，位置也随之变化，且主要回波区域向图像右侧移动。在02：18之前，各个模型之间的预测结果差异较小，且非常接近实况。然后，随着预测时间的增加，强回波开始衰减，同时预报图像的细节也开始减少。在02：36，尽管每个模型的预测结果中都丢失了一些细节，但仍可以大致预测回波的整体轮廓和变化趋势，其中CAST-LSTM的预测效果最好。随着预测时间继续增加，ConvLSTM的外推结果逐渐变得模糊，强回波区域逐渐变小甚至消失，整个预测边界区域也逐渐平滑，只能预测出回波的大致轮廓。这是因为ConvLSTM只关注时间信息而忽略了来自不同单元层之间的空间信息。Pred-RNN在最后时刻尽管保留了部分红色区域，但回波强度仍被大大低估了。同样的问题也出现在PredRNN++、E3D-LSTM和MIM的外推图像中。尽管这些方法同时关注了时空信息，但这些网络在预测过程中存在信息丢失问题，因此随时间增加强回波逐步衰减。与上述方法相比，PFST-LSTM和CAST-LSTM的外推图与观测结果更相似，但只有CAST-LSTM模型更好地保留三个强回波区域，且预测结果的细节性也较高。这是因为CAST-LSTM的时空感知注意力机制能有效改善信息丢失问题，且多尺度上下文融合模块可以更好地帮助网络在预测中保持较多的细节性。

图 7 2021年5月15日02：06—03：00江苏省雷达数据集不同方法下的预测结果注：第一行为预测时输入的2021年5月15日01：06—02：00的雷达图像，第二行为02：06—03：00的实际观测图像；其他行为不同模型下的预测结果。 Fig. 7 Prediction results under different methods for dataset of Jiangsu radar from 02:06 BT to 03:00 BT 15 May 2021

此外，为了说明模型的泛化性及在业务中的实际可用性，本文使用江苏省2022年4—9月雷达数据进行验证。在三个阈值条件下进行外推时长为1 h的试验，表 4显示了使用不同模型的试验结果。

表 4 2022年4—9月江苏省雷达数据集在不同方法下外推60分钟的CSI和HSS评分结果 Table 4 Scoring results of CSI and HSS under different methods for dataset of Jiangsu radar from April to September 2022

除了本文提出的CAST-LSTM模型之外，还采用了ConvLSTM、PredRNN、PredRNN++、MIM、E3D-LSTM和PFST-LSTM先进模型进行对比。可以看到CAST-LSTM模型在所有阈值下的CSI和HSS性能最佳，并且随着阈值的增加，模型的优势变得越来越明显。特别是，当阈值为40 dBz时，评估的CSI和HSS指标达到0.2331和0.3037，分别比PredRNN算法提高了29.3%和30.6%，比PFST-LSTM算法高8.7%和8.2%。这意味着提出的上下文融合模块和注意力模块有助于提高对强回波区域的预测效果。

为了更直观地观察外推中数据变化过程，对2022年4—9月江苏省雷达数据在不同阈值条件下CAST-LSTM模型与ConvLSTM、PredRNN等其他主流算法在10个时序(1 h)中各项指标变化进行统计，结果如图 8所示。从图中可以看出本模型整体上优于其他模型，尤其是对强回波的预测能力，特别是在最后几个时序中，CAST-LSTM模型实现了更好的预测结果。这是因为CAST-LSTM模型更关注上下文特征信息的有效提取，并且通过注意力机制有效缓解了信息传递过程中的衰减问题。

图 8 2022年4—9月江苏雷达数据集中检验样本集不同阈值下的(a, c, e)CSI和(b, d, f)HSS变化曲线 Fig. 8 Variation curves of (a, c, e) CSI and (b, d, f) HSS at different thresholds for the test sample of dataset of Jiangsu radar from April to September 2022

为了更好地展示试验结果，在图 9中可视化了2022年7月28日07：36—08：30江苏雷达数据不同方法下的预测结果。从地面真值序列中看到，随着时间推移，回波图像有两个主要的强回波区域：中下方的强回波区域向图像下方移动，且强度逐渐减弱；右侧带状强回波区域向图像右下方移动。从预测结果来看，所有模型都成功地预测了雷达回波的整体运动趋势，但外推图像在一些细节(如边界、回波强度)上仍存在差异。在07：48，各个模型之间的预测结果差异较小，且非常接近实况。在07：48以后，ConvLSTM的预测结果中强回波区域开始衰退。在08：12，ConvLSTM无法有效预测强回波区域的演变趋势，其他模型仍可以预测强回波区域的位置和雷达回波的部分细节。随着预报时间继续增加，其他模型相较于ConvLSTM保留了更多的高回波信息，其中PredRNN和E3D-LSTM在最后几个时刻中强回波区也逐渐消散，PredRNN++、MIM外推结果有所改善，但对强回波的预测仍存在偏差。只有PFST-LSTM和CAST-LSTM可以更好地预测强回波区域，其中CAST-LSTM更能预测强回波区域的强度和位置，也可以很好地预测回波变化趋势且细节效果也更好。

图 9 2022年7月28日07：36—08：30江苏省雷达数据集不同方法下的预测结果注：第一行为预测时输入的2022年7月28日06：36—07：30的雷达图像，第二行为07：36—08：30实际观测图像；其他行为不同模型下的预测结果。 Fig. 9 Prediction results under different methods for dataset of Jiangsu radar from 07:36 BT to 08:30 BT 28 July 2022

4 结论

本文提出了一种新的雷达回波外推方法，即CAST-LSTM。使用Moving MNIST数据集和2019—2021年4—9月江苏省气象雷达数据资料进行测试检验，并使用2022年4—9月江苏省雷达数据进行实际验证。通过与几种现有算法的对比分析，得出以下结论。

(1) 在Moving MNIST数据集中，CAST-LSTM算法的MSE为最低、SSIM最高，与几种现有算法相比，性能得到明显提升；在可视化实例中，CAST-LSTM算法具有更好的预测结果，很好地保留了数字的移动轨迹和变化细节。

(2) 在江苏省气象雷达数据中，CAST-LSTM算法有效提高了预测精度；在可视化实例中，CAST-LSTM算法在较长的时间内有效提高预测结果的准确性，在强回波区域的预测结果也表现得更出色。

(3) 本文提出的上下文融合模块有效提高网络单元的上下文相关性，提取多尺度特征信息；注意力模块可以从拓宽的感受域中感知更多的时间动态，减少信息丢失。通过将两个模块添加到网络模型中，可以进一步提高预报精度，特别是对于降雨量大且强度持续增加的地区。

目前深度学习算法使雷达回波外推效果得到了很大的提升，但距离真实实况仍有一定的差距。在后续的研究中，将研究如何在雷达回波外推任务中考虑更多的气象因素，探索更有效的算法进一步提高降水短时临近预报的预测能力。

参考文献

陈鹤, 蔡荣辉, 陈静静, 等, 2022. 基于深度学习方法的气温预报技术应用与评估[J]. 气象, 48(11): 1373-1383. Chen H, Cai R H, Chen J J, et al, 2022. Application and evaluation of temperature forecast based on deep learning method[J]. Meteor Mon, 48(11): 1373-1383 (in Chinese).

陈锦鹏, 冯业荣, 蒙伟光, 等, 2021. 基于卷积神经网络的逐时降水预报订正方法研究[J]. 气象, 47(1): 60-70. Chen J P, Feng Y R, Meng W G, et al, 2021. A correction method of hourly precipitation forecast based on convolutional neural network[J]. Meteor Mon, 47(1): 60-70 (in Chinese).

顾建峰, 周国兵, 刘伯骏, 等, 2020. 人工智能技术在重庆临近预报业务中的初步研究与应用[J]. 气象, 46(10): 1286-1296. Gu J F, Zhou G B, Liu B J, et al, 2020. Study on artificial intelligence technology and its application to Chongqing operational nowcasting[J]. Meteor Mon, 46(10): 1286-1296 (in Chinese).

郭瀚阳, 陈明轩, 韩雷, 等, 2019. 基于深度学习的强对流高分辨率临近预报试验[J]. 气象学报, 77(4): 715-727. Guo H Y, Chen M X, Han L, et al, 2019. High resolution nowcasting experiment of severe convections based on deep learning[J]. Acta Meteor Sin, 77(4): 715-727 (in Chinese).

黄骄文, 蔡荣辉, 姚蓉, 等, 2021. 深度学习网络在降水相态判识和预报中的应用[J]. 气象, 47(3): 317-326. Huang J W, Cai R H, Yao R, et al, 2021. Application of deep learning method to discrimination and forecasting of precipitation type[J]. Meteor Mon, 47(3): 317-326 (in Chinese).

黄兴友, 马玉蓉, 胡苏蔓, 2021. 基于深度学习的天气雷达回波序列外推及效果分析[J]. 气象学报, 79(5): 817-827. Huang X Y, Ma Y R, Hu S M, 2021. Extrapolation and effect analysis of weather radar echo sequence based on deep learning[J]. Acta Meteor Sin, 79(5): 817-827 (in Chinese).

尹麒名, 甘建红, 漆慧, 等, 2021. 一种改进的循环神经网络雷达图像外推算法[J]. 气象科技, 49(1): 18-24, 45. Yin Q M, Gan J H, Qi H, et al, 2021. An improved algorithm of radar image extrapolation based on recurrent neural network[J]. Meteor Sci Technol, 49(1): 18-24, 45 (in Chinese).

袁凯, 李武阶, 李明, 等, 2022. 四种机器深度学习算法对武汉地区雷达回波临近预报的检验和评估[J]. 气象, 48(4): 428-441. Yuan K, Li W J, Li M, et al, 2022. Examination and evaluation of four machine deep learning algorithms for radar echo nowcasting in Wuhan Region[J]. Meteor Mon, 48(4): 428-441 (in Chinese).

周康辉, 郑永光, 韩雷, 等, 2021. 机器学习在强对流监测预报中的应用进展[J]. 气象, 47(3): 274-289. Zhou K H, Zheng Y G, Han L, et al, 2021. Advances in application of machine learning to severe convective weather monitoring and forecasting[J]. Meteor Mon, 47(3): 274-289 (in Chinese).

Ayzel G, Heistermann M, Winterrath T, 2019. Optical flow models as an open benchmark for radar-based precipitation nowcasting(rainymotion v0.1)[J]. Geosci Model Dev, 12(4): 1387-1402. DOI:10.5194/gmd-12-1387-2019

Bei X Z, Yang Y C, Soatto S, 2021. Learning semantic-aware dynamics for video prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE: 902-912.

Chang Z, Zhang X F, Wang S S, et al, 2021. MAU: a motion-aware unit for video prediction and beyond[C]//35th Conference on Neural Information Processing Systems. NeurIPS: 26950-26962.

Chung K S, Yao I A, 2020. Improving radar echo Lagrangian extrapolation nowcasting by blending numerical model wind information: statistical performance of 16 typhoon cases[J]. Mon Wea Rev, 148(3): 1099-1120. DOI:10.1175/MWR-D-19-0193.1

Geng L C, Geng H T, Min J Z, et al, 2022. AF-SRNet: quantitative precipitation forecasting model based on attention fusion mechanism and residual spatiotemporal feature extraction[J]. Remote Sens, 14(20): 5106. DOI:10.3390/rs14205106

Lakshmanan V, Hondl K, Rabin R, 2009. An efficient, general-purpose technique for identifying storm cells in geospatial images[J]. J Atmos Oceanic Technol, 26(3): 523-537. DOI:10.1175/2008JTECHA1153.1

Luo C Y, Li X T, Ye Y M, 2021. PFST-LSTM: a SpatioTemporal LSTM model with pseudo-flow prediction for precipitation nowcasting[J]. IEEE J Sel Top Appl Earth Obs Remote Sens, 14: 843-857. DOI:10.1109/JSTARS.2020.3040648

Marshall J S, Palmer W M K, 1948. The distribution of raindrops with size[J]. J Meteor, 5(4): 165-166. DOI:10.1175/1520-0469(1948)005<0165:TDORWS>2.0.CO;2

Rinehart R E, Garvey E T, 1978. Three-dimensional storm motion detection by conventional weather radar[J]. Nature, 273(5660): 287-289. DOI:10.1038/273287a0

Shi X J, Chen Z R, Wang H, et al, 2015. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal: MIT Press: 802-810.

Singh S, Sarkar S, Mitra P, 2017. A deep learning based approach with adversarial regularization for Doppler weather radar ECHO prediction[C]//2017 IEEE International Geoscience and Remote Sensing Symposium(IGARSS). Fort Worth: IEEE: 5205-5208.

Tamaru R, Siritanawan P, Kotani K, 2021. Interaction aware relational representations for video prediction[C]//2021 IEEE International Conference on Systems, Man, and Cybernetics(SMC). Melbourne: IEEE: 2089-2094.

Tian C Y, Chan W K, 2021. Spatial-temporal attention wavenet: a deep learning framework for traffic prediction considering spatial-temporal dependencies[J]. IET Intell Trans Syst, 15(4): 549-561. DOI:10.1049/itr2.12044

Wang Y B, Gao Z F, Long M S, et al, 2018. PredRNN++: towards a resolution of the deep-in-time dilemma in spatiotemporal predictive learning[C]//35th International Conference on Machine Learning. Stockholmsmassan: PMLR: 5110-5119.

Wang Y B, Jiang L, Yang M H, et al, 2019a. Eidetic 3D LSTM: a model for video prediction and beyond[C]//7th International Conference on Learning Representations. New Orleans: OpenReview. net.

Wang Y B, Long M S, Wang J M, et al, 2017. PredRNN: recurrent neural networks for predictive learning using spatiotemporal LSTMs[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc. : 879-888.

Wang Y B, Zhang J J, Zhu H Y, et al, 2019b. Memory in memory: a predictive neural network for learning higher-order non-stationarity from spatiotemporal dynamics[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE: 9146-9154.

Woo W C, Wong W K, 2017. Operational application of optical flow techniques to radar-based rainfall nowcasting[J]. Atmosphere, 8(3): 48. DOI:10.3390/atmos8030048

Yang Z Y, Liu Q, Wu H, et al, 2023. CEMA-LSTM: enhancing contextual feature correlation for radar extrapolation using fine-grained echo datasets[J]. Comput Model Eng Sci, 135(1): 45-64.

Yin X Y, Wu G Z, Wei J Z, et al, 2022. Deep learning on traffic prediction: methods, analysis, and future directions[J]. IEEE Trans Intell Trans Syst, 23(6): 4927-4943. DOI:10.1109/TITS.2021.3054840

Zhao J L, Liu Z B, Sun Q X, et al, 2022. Attention-based dynamic spatial-temporal graph convolutional networks for traffic speed forecasting[J]. Expert Syst Appl, 204: 117511. DOI:10.1016/j.eswa.2022.117511

Zou H B, Wu S S, Shan J S, et al, 2019. A method of radar echo extrapolation based on TREC and Barnes filter[J]. J Atmos Ocean Technol, 36(9): 1713-1727. DOI:10.1175/JTECH-D-18-0194.1