2. 浙江省慈溪市气象局,慈溪 315300;
3. 上海台风研究所,上海 200030
2. Cixi Meteorological Office of Zhejiang Province, Cixi 315300;
3. Shanghai Typhoon Institute/CMA, Shanghai 200030
Vapnik等[1-2]提出的统计学习理论是一种专门的小样本理论,基于这一理论近年提出的支持向量机(support vector machines,SVM)方法,避免了人工神经网络等方法的网络结构难于确定、过学习和欠学习以及局部极小等问题,为解决非线性问题提供了一个新思路。SVM回归方法是依据支持向量(关键样本)来建立最终的决策函数,这一特征与基于确定因子的权重系数来明确表达各个因子的权重组合与预报对象变化的常规统计方法(如逐步回归、卡尔曼滤波和神经网络)有显著的区别。SVM方法是在大量样本数据中,将数据提到高维空间中,采用处理线性问题的方法进行分析,得到支持向量。SVM方法考究的是因子群构造的样本空间与预报对象的关系。
气象上应用SVM方法做各种要素的预报,做数值释用预报,已有了许多尝试,如温度预报、能见度预报、降水预报[3-4]等,取得了很好的效果和应用。本文利用SVM方法,做在登陆热带气旋影响下,站点风预报的一些尝试,为登陆热带气旋影响时,预报员做风的预报多提供一个工具。
另外许多数值预报的产品结果都是格点形式,预报服务过程中预报员还要进行内插,因而不够客观和直接。再加上站点地形因素对风预报的影响,更是增加了误差。本模式试图在考虑热带气旋的影响、环境场要素的影响及地形等影响的前提下,直接对站点做大风预报,结果可以直接为预报员做站点大风预报提供参考。
1 资料本文用2002—2008年的NCEP再分析场资料,来自台风年鉴的台风路径、强度资料,来自国家气象中心的MICAPS实时站点资料,经纬度分辨率达0.01°×0.01°的地形资料。其中2002—2007年资料用于建立模型,2008年8个登录热带气旋作为独立样本,检验模型的预报能力。
2 预报思路及预报因子的设计 2.1 思路根据热带气旋影响下,产生站点大风的一些机理和业务预报实践中的预报经验,从热带气旋本身强度、天气系统对站点环境场气象要素的影响及站点周围的地形情况三方面考虑[5-7],找出并设计与站点大风预报可能相关的因子,利用历史实况资料、NCEP再分析场资料和SVM径向机函数的拟合方法,建立在登陆热带气旋影响范围内站点的一天4时次正点2分钟风速拟合预报模式[8-10]。本文采用的是完全预报方法的思路。建模资料采用的是NCEP再分析场资料和台风位置实况。模式中除地形资料外的相关因子,都是与预报量相同时刻的资料。在实际应用中需要用数值预报资料代替相应的再分析场资料,台风预报位置代替实况位置,就可以实现在登陆热带气旋影响范围内站点的风的一天4时次的正点2分钟风速预报[11-12]。
由台风引起的台站大风具有一定的区域性。如果要按区域细分的话,可以给每个站点建立一个独立的预报模式,由于资料限制,每个站点的建模样本就比较稀少,而且工作量也很大。本文为了增加模式的样本数量,通过地形数据和不同地区高低空气象要素的差异来反映这些区域性,以增加预报结果的针对性。
2.2 相关因子设计和计算方法相关因子主要从三方面设计。
2.2.1 影响热带气旋从台风路径资料中可以直接获得台风中心附近的最大风速和最低气压。由于热带气旋风场分布存在不对称性结构[13-15],构造了站点到台风中心的距离和相对方位角。
假定站点的风速与到台风中心的距离和台风中心的最低气压成反比,跟台风中心附近最大风速成正比,为了反映台风本身强度和站点离台风中心的远近对站点的风所造成的影响,又构造了两个因子,一个因子是中心气压乘以距离,另一个最大风速除以距离。但是考虑实际情况中,台风中心附近的风速并不大,而且为了避免当距离趋向于零时,因子值迅速增大,对距离作了适当处理:距离小于25 km时,都作25 km计算。
2.2.2 站点地形资料站点地形资料包括站点的海拔高度、站点附近地形的粗糙度、站点离最近海岸线的远近,共3个因子。
粗糙度:读取以站点为中心,边长为0.1°矩形范围内的地形格点资料(共121个点)。粗糙度自定义为站点海拔与矩形范围内所有各点的海拔高度平均值的比值。
站点离最近海岸线的远近:站点到海岸线的最近距离除以100 km,超过100 km的作100 km处理。在大陆上的为负,在海上的为正。
这些反映的是台站周围相对大的一个地形平均状况。一定时间内,可以看作是常量。
2.2.3 根据NCEP再分析场资料构造的环境场要素(a)站点上的925、850和700 hPa上的风速。读取站点所在网格上的格点的U、V风场资料,通过距离倒数法内插到站点,然后合成计算风速(
(b) 850和700 hPa上的温度、高度;海平面上的6和24 h变温和变压。通过内插和前一时次相减获得。
(c) 850和700 hPa上的高度梯度。计算方法如图 1:NCEP资料的分辨率为1°,读取资料,内插5个点的值。高度梯度为:
(d)站点周围四个方位,即东北、东南、西南、西北四个方位,每个方位上9个网格点上的各环境场气象要素平均值因子,如图 2。
4个方位上的环境场气象要素因子有:700和850 hPa高度、温度、高度梯度和24、6 h的变温、变高,以及海平面上24和6 h的变温和变高,共72个因子。格点上高度梯度计算与站点类似。
2.3 各因子的相关性分析整理2002—2007年的所有资料,获得51397样本,这里的样本可以看作是一个向量,一个样本包含两部分内容:一是台站的观测风速,也就是要预报的量;另一部分是观测风速相对应的相关因子的值。每种相关因子与台站的观测风速都有一个对应的值,所以确切地说是每个样本有94个因子的对应值。
建模样本集包含了登陆台风影响范围内的所有台站不同时次的所有实测风速。从空间分布上看:是以台风中心为中心一定范围内的所有站点风速,时间分布上,则包括台站在台风影响期间内所有时次的风速。所以样本选取是连续的,整个样本集的数量比较多,有51397个。
计算一天中4个时次,在同一时次下,各因子与站点的正点风速(2分钟平均风速)的相关系数,并作显著性检验。取显著性水平:α=0.05,查t-分布表,计算具有显著性的最小相关系数绝对值:0.00865。
其中绝大部分因子都可以通过0.05显著性水平检验。通过对各因子相关系数进行分析,得到:
(1) 地面站点的风与高空风有着较好的直接相关性,且越低层风与地面相关越大。
(2) 站点的地理因子的相关性仅次于少数几个气象因子。说明站点的风有很大的地域特征。站点所处的地理位置对风速大小有直接的影响。所以对具体站点的风速预报,须考虑当地的地理情况。
(3) 反映台风强度的两个组合因子都比单独因子的相关性好。
(4) 气象因子中,各层的高度梯度除风速外,要明显好于其他因子。这也与大气运动方程中,气压梯度力是大气运动主要动力的观点相一致。
(5) 在4个方位因子中,东北、西北、西南的变温和变压因子的相关性要明显好于东南方向。这可能与大部分热带气旋都来自于东南面的海上,相关因子变化比较大有关。而其他三个方向的变温、变压因子,尤其是西北面的因子相关性更好一些,这也反映了冷空气等其他天气系统对站点风速的影响。
(6) 各气象要素的6和24 h变化相比较,24 h的差相关性要好一些,但相差不大,且不是主要的相关因子。但考虑实际情况,NCEP数值预报资料时间包括实况分析场和预报场,间隔6 h。如果使用24 h变量,势必要下载预报时次之前的3个时次的资料,给实际应用带来麻烦。所以在以下的拟合预报中24 h变量不作为预报相关因子。
模式最终选取的具有物理意义和统计意义的因子列于表 1。
首先运用线性逐步回归方法对样本做了拟合,部分线性回归模式的拟合效果如表 2。
从表 2中可以看到:回归方程随着所采用的相关因子数的增加,拟合效果也在提升。但是因子越多,提升效果越不明显。因子数超过20个,再增加其他相关性较差的因子,已经没有实际意义,而且只会对以后的预报起到干扰作用,降低回归方程的泛化能力。
3.2 SVM方法本文采用SVM的函数回归模式,核函数采用径向基函数,训练工具采用了台湾大学林智仁等开发的LibSVM软件中的ν-SVM回归模式。基本参数设置C:100,ν:0.04,径向基函数:exp(-0.5| U -V |2)。
根据线性逐步回归模式中的因子组合,参考各因子之间的相关性,选择了5种因子组合模式。其中模式1和4的相关因子相同,具体有:站点粗糙度、热带气旋中心到站点的距离、距离海岸线的程度、最大风速除以距离、热带气旋中心最低气压乘以中心到站点的距离、925 hPa风速、850 hPa位势高度梯度、700 hPa位势高度梯度、700 hPa位势高度、站点西北角海平面6 h变压、站点西北角850 hPa 6 h变高。但模式4把样本分成离最近海岸线小于50 km(包括海岛站)的沿海部分和内陆部分,分别做拟合训练。
模式2选取的相关因子共有14个,分别是:925 hPa风速、站点粗糙度、最大风速除以距离、热带气旋中心到站点的距离、距离海岸线程度、海平面6 h变压、站点西北角海平面6 h变压、850 hPa的风速、站点西北角850 hPa高度梯度、热带气旋中心最低气压乘以中心到站点的距离、850 hPa位势高度梯度、热带气旋最低气压、站点东南角700 hPa高度梯度、站点西北角850 hPa高度梯度。
模式3选取的相关因子共有17个,分别是:925 hPa风速、站点粗糙度、最大风速除以距离、热带气旋中心到站点的距离、距离海岸线的程度、海平面6 h变压、站点西北角海平面6 h变压、850 hPa风速、站点西北角850 hPa高度梯度、热带气旋中心最低气压乘以中心到站点的距离、850 hPa高度梯度、热带气旋最低气压、站点东南角700 hPa高度梯度、站点西北角850 hPa高度梯度、站点东北角850 hPa位势高度梯度、站点西南角850 hPa位势高度、站点东南角850 hPa高度梯度。
在拟合训练之前需要对样本数据进行预处理,把所有样本的相关因子的值进行标准化处理。
4种模式的训练结果列在表 3中。从表 3中可以看到:比较4种模式,拟合效果随着支持向量数和采用的相关因子数增加而有所改善。这种效果的改善主要是由于支持向量数增加引起的。此外随着因子数的增加,模式计算量也迅速上升。
从模式4样本拟合误差分布散点图(图 3)中可以看到:绝大部分的误差分布还是比较集中的,但实际风速较大的样本的误差偏大。
比较两种方法,显然SVM的拟合效果要比线性回归好很多。
4 独立样本检验使用2008年8个登陆热带气旋:0801、0806、0807、0808、0809、0812、0813和0814作为样本,样本数为7998个,对使用相同相关因子的SVM的4种模式和线性回归的3种模式做了检验(表 4)。实况极值为35 m·s-1。
表 4中的“检验风速极大值”是指检验样本集中预报风速最大的一个。其实大风速出现概率相对较小,单列出来是为说明模式对大风速的预报反应能力。
线性模式,有的平均效果比较好,预报极值比较差;有的极值预报效果好,平均效果又很差。线性回归中模式2的平均检验效果相对与1和3差很多,显然是模式2中多了非线性的相关因子,SVM模式就能很好地利用这些非线性因子,取得比较稳定的效果。
综合考虑拟合效果和独立样本检验情况,以SVM模式4作为以后的预报模式。预报因子由站点地理因素、台风情况和环境场要素三部分组成,且比例接近。其中西北的两个因子可以在一定程度上反映冷空气等其他系统的影响。其他几个模式中,由于所采用的NCEP再分析场的气象要素因子比例增加,而目前的数值预报精度还不能很好地反映热带气旋风场的中尺度结构,经过平滑的气象要素因子增加,使得各站点之间的风速差异变小。所以检验效果反而变差,风速极值明显减小。
从所有独立样本的检验风速误差分布图(图 4)和每个热带气旋的风速检验风速误差分布图(图 5)上看:
(1) 总体上对每个热带气旋的检验效果比较稳定。
(2) 实际风速大的样本的误差相对大一些。
(3) 热带气旋强度强的,误差相对大一些。
(4) 风速大于20 m·s-1的情况是个别现象,很少出现,出现时误差偏大。
比较2008年9月14日08时13号强台风森拉克的风速独立检验预报和实况图(图 6)。除了个别站点误差较大外,绝大多数情况下,误差值都在2~3 m·s-1以下,风速预报的结果基本可以反映同一时刻内站点实况风速的空间分布情况。
检验风速是指检验样本集中的某个站点所有时次的预报风速。是检验样本集的一个子集。
选择两个比较典型的海岛站和内陆站的检验风速和实际风速检验结果(图 7和8)对比:预报风速与实际风速随时间变化的趋势还是比较一致,但海岛站检验风速的极值比实际小一些,内陆站检验风速极值偏大一些。
本文利用格点资料做站点预报,预报站点涵盖了我国沿海地区和海上的绝大部分测站,在热带气旋登陆期间,可以做到风场由点及面的预报。在构造预报因子时,考虑了热带气旋给站点带来的影响,站点本身的地形因素,以及站点附近高低空环境场。应该说比较全面地反映了影响站点风的因子。而且直接对站点做预报,更加直观,减少了数值预报网格资料的内插和修正的环节,有利于在实际预报工作中的应用。
5.1 关于预报精度用SVM模式4的方法做受登陆热带气旋影响时,站点风速预报,风速拟合误差的标准差为1.591 m·s-1,独立样本检验,风速平均绝对值误差为1.750 m·s-1,相比其他模式、线性逐步回归等方法,预报误差既稳定又有缩小,可见是有一定的优越性,总体来说预报效果还是不错的。另外,虽然预报极值的能力不是很好,但预报风速与实际风速随时间变化的趋势还是比较一致,海岛站检验风速的极值比实际小一些,内陆站检验风速极值偏大一些。模式的预报误差,来自两方面。一是模式本身系统误差,二是数值产品对相关因子的预报误差。所以用SVM方法制作大风预报还是存在一定局限性,特别是在数值预报不稳定情况下可能产生较大误差。
5.2 关于预报结果的应用模式的预报时间间隔是6 h。由于模式采用的预报因子跟预报量都是同一时次的,因而模式的总预报时效取决于数值预报产品资料的时效和北京台风报文中台风位置的预报时效。按目前的数值预报精度,48 h的预报时效比较有实际意义,而且模式的本身计算时间很短,5 min以内就可完成。
目前的数值预报精度,更多地反映了热带气旋风场的一个平均状况,还不能很好体现地面站点阵性风的特征,所以对一些站点的风速极值预报效果较差。模式中加入了地理因素,使得模式对站点的极值风速的预报能力获得一定程度的提高。
Vapnik V, Lerner A, 1963. Pattern recognition using generalized portraits[J]. Avtomatikai Telemekhanika, 24: 774-780. |
Bretherton C S, et al, 1992. An intercomparison of methods for finding coupled patterns in climate datce[J]. Journal of Climate, 5(6): 541-560. DOI:10.1175/1520-0442(1992)005<0541:AIOMFF>2.0.CO;2 |
陈永义, 俞小鼎, 高学浩, 等, 2004. 处理非线性分类和回归问题的一种新方法(Ⅰ)——支持向量机方法简介[J]. 应用气象学报, 15(3): 345-354. |
冯汉中, 陈永义, 2004. 处理非线性分类和回归问题的一种新方法(Ⅱ)——支持向量机方法在天气预报中的应用[J]. 应用气象学报, 15(3): 355-365. |
陈联寿, 2006. 热带气旋研究和业务预报技术的发展[J]. 应用气象学报, 17(6): 672-681. DOI:10.11898/1001-7313.20060605 |
许映龙, 张玲, 高栓柱, 2010. 我国台风预报业务的现状及思考[J]. 气象, 36(7): 43-49. DOI:10.7519/j.issn.1000-0526.2010.07.009 |
余晖, 薛宗元, 2000. 若干统计方法预测影响华东地区热带气旋年频数的对比试验[J]. 大气科学研究与应用, (19): 87-93. |
杨平章, 郭英琼, 李丹, 1994. 华南沿海台站热带气旋风力预报[J]. 中山大学学报论丛, (5): 33-39. |
孙军波, 钱燕珍, 陈佩燕, 等, 2010. 登陆台风站点大风预报的人工神经网络方法[J]. 气象, 36(9): 81-86. DOI:10.7519/j.issn.1000-0526.2010.09.013 |
乐群, 董谢琼, 马开玉, 2000. 西北太平洋台风活动和中国沿海登陆台风暴雨及大风的气候特征[J]. 南京大学学报, 36(6): 741-749. |
郭其蕴, 蔡静宁, 邵雪梅, 等, 2004. 1873—2000年东亚夏季风变化的研究[J]. 大气科学, 28(2): 206-215. |
高栓柱, 孟智勇, 杨贵名, 2009. 台风麦莎渤海转向的可预报性研究[J]. 气象, 35(2): 8-14. DOI:10.7519/j.issn.1000-0526.2009.02.002 |
李佳, 余晖, 应明, 等, 2009. 2007年西北太平洋热带气旋定位和预报精度评定[J]. 气象, 35(2): 101-105. DOI:10.7519/j.issn.1000-0526.2009.02.015 |
张容焱, 张秀芝, 蔡连娃, 等, 2009. 热带气旋对中国沿海风电开发的影响[J]. 气象, 35(12): 88-95. DOI:10.7519/j.issn.1000-0526.2009.12.012 |
申松林, 江静, 2010. 西北太平洋台风频数异常的气候背景分析[J]. 气象, 36(5): 64-70. DOI:10.7519/j.issn.1000-0526.2010.05.009 |