快速检索
  气象   2007, Vol. 33 Issue (2): 15-21.  

研究论文

引用本文 [复制中英文]

朱亚平, 刘健文, 白洁, 2007. 云分类中逐个修改聚类和模糊聚类分类性能的对比研究[J]. 气象, 33(2): 15-21.
[复制中文]
Zhu Yaping, Liu Jianwen, Bai Jie, 2007. A Comparative Study on Stepwise Cluster and Fuzzy Cluster in Cloud Classification Techniques[J]. Meteorological Monthly, 33(2): 15-21.
[复制英文]

文章历史

2006年4月26日收稿
2007年1月04日收修定稿
云分类中逐个修改聚类和模糊聚类分类性能的对比研究
朱亚平 1,2, 刘健文 2, 白洁 2    
1. 解放军理工大学气象学院,南京 211101
2. 航空气象研究所
摘要:利用卫星图像对各种云型进行识别在大气科学领域具有重要意义,为了深入了解云分类过程中逐个修改聚类和模糊聚类对各种云型的识别能力,采用极轨卫星EOS/MODIS图像资料和静止卫星GMS-5图像资料,在样本采集和特征提取的基础上,选择不同的光谱或纹理特征对两种分类器的分类性能进行测试和对比分析。结果发现,不管采用哪种图像资料,提取哪些特征量,逐个修改聚类的平均分类准确率总体上略高于模糊聚类。但就两种分类器对各种云型的识别能力而言,模糊聚类对低云和高云(如层云、薄卷云、密卷云、卷层云、积云)的分类准确率明显好于逐个修改聚类,而逐个修改聚类对积雨云的分类准确率稍高于模糊聚类。从各类别间混判的情形来看,积雨云和高中低混合云、低云之间及卷云子类之间混判的情形较多,模糊聚类与逐个修改聚类相比,混判的类别增多,相对比例减少。
关键词云分类    模糊聚类    逐个修改聚类    
A Comparative Study on Stepwise Cluster and Fuzzy Cluster in Cloud Classification Techniques
Zhu Yaping1,2, Liu Jianwen2, Bai Jie2    
1. Institute of Meteorology, PLA University of Science and Technology, Nanjing 211101;
2. Beijing Institute of Aviation Meteorology
Abstract: In order to profoundly understand abilities of two classifiers—stepwise cluster and fuzzy cluster in the cloud classification techniques, both EOS/MODIS and GMS-5 data set are used, spectral or textural features are drawn from samples randomly to identify various cloud/surface. The results show that the stepwise cluster gives higher accuracies than fuzzy classifier on the whole. With regards to discriminating diverse cloud/surfaces, fuzzy cluster demonstrates its higher accuracies than stepwise cluster on the classes having similar characteristics such as stratus, cumulostratus and cumulus; while stepwise cluster has better capabilities of distinguishing cumulonimbus and surfaces. As far as misclassification of cloud/surfaces, fuzzy cluster tends to show lower accuracies in more misclassified classes.
Key words: cloud classification    fuzzy cluster    stepwise clust    
引言

云作为重要的气象要素,对大气科学的各个领域产生了巨大影响。已有研究表明[1-2],大气环流模式对云参数化非常敏感,更准确的云分型与云辐射作用的参数化同样重要,对云进行参数化时还应充分考虑云型中更细致的子类(例如卷云,密卷云,卷层云)对模式的影响。另外,云与天气气候也存在密切关系,对云进行正确的分类有助于我们对天气气候变化的理解和正确预报。因此,利用卫星图像资料进行云分类就成为一个非常重要的研究课题。

关于云分类的研究,国内外学者已探索了几十年。早期用于分析卫星云资料的自动方法是阈值法[3-4]。阈值法原理简单,计算方便,但阈值缺乏定量统一的描述。因此,大量学者采用图像处理和统计分析相结合的方法对云图进行自动识别。传统的统计方法主要有判别分析和聚类分析[5-6]。1990年代人工智能法的引入对客观云分析产生了深远的影响。有关神经网络[7-8]、最大似然估计[9]和模糊聚类[10]的人工智能方法不断涌现。

从某种意义上讲,各种云分类技术(如判别分析、聚类分析、神经网络等)都是统计模式识别技术,它们最根本的差别体现在分类器的不同。神经网络云分类的处理和分析过程比较庞杂,同时因其系统本身的一些局限性(容易陷入局部极小点;收敛速度慢)使得该方法在业务环境中存在很多困难。而聚类分析运算稳定、操作简便,在业务上更加可行。在国内以往的研究中,模糊逻辑方法仅限于台风云系的分析[11-12],用于其他云型的客观分类还较少。另外,逐个修改聚类大多是对高云、中云、低云等进行大致的分类,缺乏更为细致的子类分析;混合的多层云和卷云仍是云型客观分析中的难点。因此,本文采用不同的光谱或纹理特征向量对逐个修改聚类和模糊聚类的分类器进行对比分析,以深入了解两种分类器在识别不同云型方面的分类性能。

1 分类器

合理的分类器是正确分类的关键,也是云分类的难点。根据分类器的不同,统计模式识别的云分类技术通常可分为监督分类和非监督分类[13]。监督分类技术需要足够的先验知识,要得到合理的分类结果,必须建立所有可能出现的各种云型,样本的质量和数量成为很重要的影响因子。而非监督分类并不需要充当分类依据的“历史资料”作为分类的指导,只根据事物本身的性质来进行分类。因此,本文采用了非监督分类技术,将图像处理和统计方法相结合,建立了逐个修改聚类和模糊聚类的分类器,并根据卫星图像的光谱或纹理特征对两种分类器的分类性能进行分析。将卫星图像资料中获得的m个待分类样本组成特征向量{x1, x2, Λxm},每个样本由n个光谱或纹理特征描述xi={xi1, xi2, Λ, xin},i=1, 2, ……, m

1.1 逐个修改聚类

(1) 首先给定几个初始凝聚点作为聚类中心xi, i=1, Λ, K,计算K个凝聚点的重心(均值)Gi, i=1, Λ, K

(2) 按欧式距离公式计算初始聚类中心两两之间的距离。根据凝聚点间距离的临界值C判断各类别间性质的差异性,如果min{dGi, Gj}≥C(i, j=1,…,K),说明GiGj代表性质不同的两类,确为K个初始凝聚点;反之,若min{dGi, Gj}<C(i, j=1,…,K),则说明GiGj性质相近,将相应的两类凝聚点合并K=K-1, 用两者的重心作新凝聚点。对K-1个凝聚点重复上述计算,直至所有初始凝聚点间的最小距离均小于C为止;

(3) 将其余m-K个未作凝聚点的样本逐个进行归类,即计算样本和聚类中心的欧式距离dxj, Gi(i=1, Λ, K; j=K+1, Λ, m)。按照样本和凝聚点间的距离临界值R对样本进行归类,如果dxiGjR则此xj为新的聚类中心;反之,若dxiGjR,则xj归入与它最近的凝聚点那一类xjGi,使得分解的误差最小,同时重算这类重心,并以此重心为新凝聚点;

(4) 重新检验聚类中心间的距离,如果最小距离有小于C的用(2)合并,直至所有凝聚点间距离均大于等于C。将剩余样本重新按(3)的步骤检验归类。

由于一次归并各凝聚点可能不太稳定,还需按照初始分类的步骤,将各样本从头至尾再逐个进入,归并聚类。若聚类中某个样本进入后与原来分类不同,这两类凝聚点都要重算,当多次逐个进入与上一次分类全同时,聚类过程结束。聚类过程中,初始聚类中心的个数可以从m个样本中随机选取,聚类中心的选取只对分类过程产生影响,而对分类结果没有太大影响;凝聚点间距离的临界值以及样本和凝聚点间的距离临界值R(CR)均可以通过对训练样本的分类过程进行调整,从而获得稳定的经验值。

1.2 模糊聚类

(1) 首先假定一个初始分划矩阵U0,矩阵元素满足以下条件:0≤uij≤1;,i=1,Λ,c; j=1, Λ, n, , cuij反映第j个样本Xj对第i类的隶属关系,称为隶属度,也称置信度,其中n表示样本数,而c则对应了样本所属的类别数;

(2) 根据初始隶属矩阵计算聚类中心Vi,按欧式距离公式dij=‖xj-Vi‖=[(xjt-vit)2]1/2计算样本Xj与聚类中心Vi之间的距离;

(3) 根据uij=(‖xj-Vi2)-1重新计算分划矩阵U,如果max{|uij-uij0|}≥εε是任意给定的一个很小的整数(ε可取10-3,10-4或10-5等),回到(2)根据已得的矩阵U算出新的聚类中心,并重新计算样本和聚类中心间的距离,不断调整ViU,直到隶属矩阵满足max{|uijp+1-uijp|}<ε,则聚类过程结束,所得到的ViU即为最终聚类中心和隶属矩阵;

(4) 根据最终的隶属矩阵对样本进行归类,即将U中每一列的元素中最大者取为1,其它元素均取为0,实际上是将样本划归到从属程度最大的那一类。

从分类过程来看,模糊聚类与逐个修改聚类的迭代算法类似,它也需要给定初始聚类中心,并分配隶属等级,根据样本到聚类中心的距离最小化对聚类中心和隶属等级不断调整,从而完成对样本的分类。两者间的区别在于,模糊聚类对样本进行归类时采用了软划分,比逐个修改聚类的硬划分更加合理[14],逐个修改聚类是将样本绝对地归到某一类中,每个样本必属于一类;而模糊聚类是将每个样本看作“模糊的”,即一个样本并非绝对地属于哪一类,可能同时具有几个类别的特征,它通过样本隶属于某个类别的可能程度进行划分,更适于边界模糊的系统[10]。有关逐个修改聚类和模糊聚类的详细内容可参看文献[14-16]。

2 对比分析

为了更好地了解两种分类器的分类性能,本文利用极轨卫星EOS/MODIS图像资料和静止卫星GMS-5图像资料作了试验。随机挑选包括10种云/表面类型(见表 1表 2)在内的极轨卫星样本306个(m=306),其中,由于积雨云和层云(或雾)的样本很少,因此训练集中仅用了9个样本,其他的8种类型每类36个样本。对于静止卫星,则随机抽取了包括11种云/表面类型(见表 3表 4)在内的静止卫星样本656个(m=656),其中,由于单层高积云(或高层云)的样本很少,因此训练集中仅用了16个样本,其它的10种类型每类64个样本。由于各种云往往同时出现,形成特征明显的多层云系,为了更客观地描述各种云型的特征,引入几种混合云型作为目标集,中低云指中低混合云,高中低云指高中低混合云。另外,由于在卫星云图上很难区分出高积云和高层云,高积云就表示出现的单层中云。

表 1 采用EOS/MODIS光谱特征X1逐个修改聚类结果

表 2 用EOS/MODIS光谱特征X1模糊聚类结果

表 3 采用GMS-5光谱和一阶概率特征X3逐个修改聚类分类准确率

表 4 采用GMS-5光谱和一阶概率特征X3模糊聚类的分类结果

在样本采集的基础上提取图像的光谱或纹理特征并进行特征分析,根据特征分析结果选择有代表性的光谱或纹理特征。极轨卫星EOS/MODIS选择25个通道的亮温或反照率的最小值、最大值、标准差;16个红外通道两两之间亮温差的最小值、最大值、均值、标准差,暂不使用有关反照率比值的特征。静止卫星的光谱特征选择除水汽通道标准差以外的有关亮温或反照率的所有特征,暂不使用有关灰度级的特征;一阶概率特征[17-18]选用红外和可见光通道的能量、熵、水汽通道的逆差距以及4个通道的惯量;灰度级差矢量特征[16-17]选用红外和可见光通道的能量、熵、逆差距和惯量,暂不考虑有关水汽通道的特征量,有关内容可以参见文献[19]。将上述极轨卫星的光谱特征组成特征向量X1(n=91);静止卫星的光谱特征组成特征向量X2(n=16),光谱特征和一阶概率特征组成特征向量X3(n=27),光谱特征、一阶概率特征、灰度级差矢量特征组成特征向量X4(n=75)。将几个不同的特征向量分别带入逐个修改聚类和模糊聚类的分类器,对两种分类器的分类性能进行测试和对比分析。

本文以EOS/MODIS光谱特征X1、GMS-5光谱和一阶概率特征X3进行逐个修改聚类和模糊聚类为例(见表 1表 2表 3表 4),表中对角线上的元素表示随机样本经识别后划分到各类的样本数占该类样本总数的百分比,即为该类别的分类准确率,其它元素则表示该类样本被判为其它类别占该类样本总数的百分比,即该类别与其它类别间的混判率。

在利用EOS/MODIS样本进行对比试验的结果中(见表 1表 2),逐个修改聚类的平均分类准确率略高于模糊聚类。对于各种云/表面类型来说,逐个修改聚类对积雨云的分类准确率达到88.9%,而模糊聚类仅有80.56%;对于地表、海表,逐个修改聚类均达到了100%,而模糊聚类分别为94.44%、91.67%,对高中低混合云,逐个修改聚类达到75%,而模糊聚类仅有61.11%。对低云和高云而言,模糊聚类的分类准确率明显高于逐个修改聚类,层云、薄卷云、密卷云、卷层云、积云的分类准确率模糊聚类高出逐个修改聚类近3%,而层积云的分类准确率逐个修改聚类为77.78%,模糊聚类却达到了83.33%。

另外,从逐个修改聚类各类别间混判的情形来看,积雨云和高中低混合云、低云之间及卷云子类之间混判的情形较多;在模糊聚类中仍然存在各类别间的混判情形,但混判的类别增多,相对比例减少,尤其是高中低混合云和低云之间,这是由于模糊聚类对性质相似的类别比较敏感,而各种云类的样本总是或多或少夹杂了其它类型的像素,同时各种云本身的光谱或纹理特征存在一定的不稳定性,所以采用模糊聚类得到这样的结果是合理的。

利用GMS-5样本进行对比试验的结果(见表 3表 4)也表明,逐个修改聚类对积雨云、地表、海表的分类准确率明显高于模糊聚类,但对于积云、层云、层积云、高积云(或高层云)、中低混合云、高中低混合云等,模糊聚类的分类准确率都高于逐个修改聚类;而且,这样的结果和EOS/MODIS基本上是一致的,但对高中低混合云的分类却有不同,利用EOS/MODIS资料采用模糊聚类对高中低混合云的分类准确率很低,与逐个修改聚类差异较大,这可能和极轨卫星资料分类过程中仅采用光谱特征未引入纹理特征有关。

两种分类器的分类效果可以通过以下个例进行说明。图 1(a), (b), (c), (d)分别是6月8日03时位于29.86°—39.86°N、99.39°—115.39°E的GMS-5红外一通道、可见光通道、水汽通道及伪彩合成图像。借助静止卫星图像动画显示,2002年6月7日03时在我国西南地区上空为大范围的中低云所覆盖,其中有色调白亮的强对流云团,随着系统发展加强,逗点云系逐渐形成得到发展,6月8日03时逗点云系头部的卷云在高空呈明显的辐散形式,尾部的强对流云团也更加明显,这在伪彩合成图像上有清楚的体现,A处和B处对应了明显的高中低混合云,其中有色调更加白亮的积雨云,C处上空附近覆盖了积云和层积云组成的中低混合云,D处在红外图像上色调较暗,而可见光图像色调白亮,对应了层积云,E处附近上空覆盖了薄卷云,F处则是明显的晴空区。

图 1 2002年6月8日03时GMS-5图像 (a)红外一通道图像 (b)可见光通道图像 (c)水汽通道图像 (d)伪彩合成图像

图 2(见彩页)给出了逐个修改聚类结果和模糊聚类结果。从分类结果看,两者的分类结果大体形式比较一致,但逐个修改聚类可以较好的区分出积雨云,而模糊聚类将积雨云识别为高中低混合云,从图 1中可以看到,积雨云的色调和高中低混合云还是存在一定差异,因此,逐个修改聚类的结果好于模糊聚类;在层积云和中低混合云的识别方面,逐个修改聚类将层积云识别为中低混合云,但在图 1中红外图像上可以明显看到D处的色调较暗,模糊聚类的结果明显好于逐个聚类。在该例中,高中低混合云、卷云、晴空的识别两者的结果差别不是很大。通过该例可以较好地说明两者的分类性能存在的差异。

图 2 2002年6月8日03时GMS-5分类结果 (a)逐个修改聚类结果 (b)模糊聚类结果
红色:积雨云;洋蓝色:高中低混合云;绿色:卷云;洋红色:中低混合云;黄色:层积云;灰色:地表
3 总结

本文采用极轨卫星EOS/MODIS图像资料和静止卫星GMS-5图像资料,选择不同的光谱或纹理特征向量对逐个修改聚类和模糊聚类的分类器进行了测试和对比分析。结果表明,不管采用哪种图像资料,提取哪些特征量,逐个修改聚类的平均分类准确率总体上略高于模糊聚类。但就两种分类器对各种云型的识别能力而言,模糊聚类对低云和高云(如层云、薄卷云、密卷云、卷层云、积云)的分类准确率明显好于逐个修改聚类,而逐个修改聚类对积雨云的分类准确率稍高于模糊聚类。从各类别间混判的情形来看,积雨云和高中低混合云、低云之间及卷云子类之间混判的情形较多,模糊聚类与逐个修改聚类相比,混判的类别增多,相对比例减少。总的来说,逐个修改聚类适用于类别间差别比较明显的情况,而模糊聚类对类别间相似的情况效果更好。

参考文献
[1]
Geleyn J.A., A. Hense H.J. Preuss: A comparison of model generated radiation fields with satellite measurements[J]. Contrib. Atmos. Phys., 1982, 55: 253-286.
[2]
Welch R.M.B.A. Wielicki Stratocumulus cloud field reflected fluxes: The effect of cloud shape[J]. J. Atmos. Sci., 1984, 41: 3085-3103. DOI:10.1175/1520-0469(1984)041<3085:SCFRFT>2.0.CO;2
[3]
Koffler R., et al. A procedure for estimating cloud amount and height from satellite infrared radiation data[J]. Mon. Wea. Rev., 1973, 101: 240-243. DOI:10.1175/1520-0493(1973)101<0240:APFECA>2.3.CO;2
[4]
Shenk W.E., Holub R.T., Neff R. A. A multispectral cloud type identification method developed for tropical ocean area with Nimbus-3 MRIR measurements[J]. Mon. Wea. Rev., 1976, 104: 284-291. DOI:10.1175/1520-0493(1976)104<0284:AMCTIM>2.0.CO;2
[5]
Parikh J. A comparative study of cloud classification techniques[J]. Remo. Sens. Environ., 1977, 6: 67-81. DOI:10.1016/0034-4257(77)90007-4
[6]
Welch R.M.K.S., Kuo B.A. Wielicki Marine stratocumulus cloud fields off the coast of southern California observed using Landsat imagery. Part Ⅰ: Structural characteristics[J]. J. Appl. Meteor., 1985, 27: 341-362.
[7]
Key J. Cloud cover analysis with arctic advanced very high resolution radiometer data 2.classification with spectral and textural measures[J]. J. Geophys. Res., 1990, 95: 7661-7675. DOI:10.1029/JD095iD06p07661
[8]
Miller S.W., Emery W.J. An automated neural network cloud classifier for use over land and ocean surfaces[J]. J. Appl. Meteoro., 1997, 36: 1346-1362. DOI:10.1175/1520-0450(1997)036<1346:AANNCC>2.0.CO;2
[9]
Ebert E. Analysis of polar clouds form satellite imagery using pattern recognition and a statistical cloud analysis scheme[J]. J. Appl. Meteorol., 1989, 28: 382-399. DOI:10.1175/1520-0450(1989)028<0382:AOPCFS>2.0.CO;2
[10]
Baum, et al. Automatic cloud classification of global AVHRR data using a fuzzy logic approach[J]. J. Appl. Meteor., 1997, 36: 1519-1535. DOI:10.1175/1520-0450(1997)036<1519:ACCOGA>2.0.CO;2
[11]
李俊, 周凤仙. 气象卫星台风云图的自动识别方法及其应用[J]. 应用气象学报, 1992, 3: 402-409.
[12]
于波, 等. 模糊神经网络在台风云系图像识别中的应用[J]. 气象, 1998, 22(1).
[13]
蔡元龙. 模式识别[M]. 西安电子科技大学出版社, 1986: 1-4.
[14]
楼世博, 孙章, 陈化成. 模糊数学[M]. 北京: 科学出版社, 1983: 120-124.
[15]
屠其璞, 等. 气象应用概率统计学[M]. 北京: 气象出版社, 1984: 341-343.
[16]
朱亚平, 刘健文, 白洁. 基于EOS/MODIS图像资料的多光谱云分类技术[J]. 海洋科学进展, 2004, 22(增刊): 109-114.
[17]
Haralick R.M., Shanmugam K., Dinstein I. Textural features for image classification. IEEE Trans[J]. Syst. Man Cybern., 1973, 3: 610-621.
[18]
Welch R.M.S.K., Sengupta D.W. Chen: Cloud field classification based upon high spatial resolution textural features, Part Ⅰ, Gray level cooccurrence matrix approach[J]. J. Geophys. Res., 1988, 93: 12663-12681. DOI:10.1029/JD093iD10p12663
[19]
朱亚平, 刘健文, 白洁. 云的光谱和纹理特征统计分析[J]. 遥感技术与应用, 2006, 1: 18-24.