快速检索
  气象   2009, Vol. 35 Issue (12): 133-138.  

技术交流

引用本文 [复制中英文]

赵威, 李明皓, 唐远明, 等, 2009. 辽宁省气象网络计算应用系统的设计与实现[J]. 气象, 35(12): 133-138. DOI: .
[复制中文]
Zhao Wei, Li Minghao, Tang Yuanming, et al, 2009. Design of Liaoning Meteorological Network Computing Application System[J]. Meteorological Monthly, 35(12): 133-138. DOI: .
[复制英文]

资助项目

科技部基础条件平台国家气象网络计算应用系统建设项目(2005DKA64000)

文章历史

2008年11月03日收稿
2009年9月24日收修定稿
辽宁省气象网络计算应用系统的设计与实现
赵威 1, 李明皓 1, 唐远明 1, 王彬 2    
1. 辽宁省气象信息与技术保障中心,沈阳 110016
2. 国家气象信息中心计算机室
摘要:针对辽宁省气象部门计算资源整合、共享和管理的需求,提出了一个省级气象网络计算应用系统的设计方案。利用网格计算技术,建立一个辽宁省级高性能计算资源整合与管理平台,希望实现省级气象系统内资源充分共享,从而提高现有资源的利用率和地方预报业务的深入开展。设计方案分为用户接口、网格管理、高性能计算机本地管理等层次。对于异构计算资源的整合需要,提出了全局一致的集中式用户管理、元调度作业管理器方案,并根据业务需求,进行了系统实现。该系统为辽宁省天气数值预报业务提供了及时、有效的支持保障作用。
关键词气象计算网格    高性能计算    资源管理    计算资源统一接口    
Design of Liaoning Meteorological Network Computing Application System
Zhao Wei1, Li Minghao1, Tang Yuanming1, Wang Bin2    
1. Liaoning Provincial Meteorological Information & Technical Support Center, Shenyang 110016;
2. Computer Division, National Meteorological Information Center
Abstract: The distribution of high performance computing resources is inhomogeneous geographically. As a result, some local meteorological bureaus fail to conduct local meteorological forecast operations or researches. Thereby, funded by "National Science and Technology Infrastructure Plan", the resource integration and management are done by China Meteorological Administra-tion. It hoped to realize the sharing of resources in CMA and increase the effectiveness of resources' utilization.As a node, Liaoning Meteorological Bureau joined the national meteorological network computing application system. It is an urgent task for Liaoning Meteorological Bureau to upgrade system management from homogeneous systems to global system management across multiple heterogeneous systems.Regarding the requirements of resource integration, sharing and management by Liaoning meteorological department, a design scheme of Liaoning meteorological computing application system is proposed. The scheme utilizes computational grid as the platform building technology. The design scheme includes user interface, grid management, high performance computer local management. Regarding the integration requirement of heterogeneous computing resources, a solution is proposed consisting of globally coherent, centralized user management and meta-scheduler of job management. To build a uniform grid application support environment, schemes are proposed for typical meteorological grid applications and application interfaces respectively.In conclusion, an implementation of Liaoning meteorological network computing application system is proposed based on the requirements of meteorological services, with which immediate and efficient supports are supplied.
Key words: meteorological computational grid    high performance computing    resource management    UNICORE(UNiform Interface to COmputing REsoruces)    
引言

辽宁省气象信息与技术保障中心是辽宁省气象局信息技术业务中心,汇聚了辽宁省气象部门主要的高性能计算资源,支撑辽宁省级气象业务运行和科学研究活动。目前,辽宁省气象局高性能计算资源由三台高性能计算机组成,分别是神威新世纪48I、DELL24节点和DELL10节点高性能计算机,总体峰值速度达600GFLOPS以上。在辽宁省高性能计算机系统上投入业务运行和正在调试的模式系统有:MM5、GRAPES、WRF、区域气候模式、台风、沙尘、辽西生态模式等。

由于辽宁省高性能计算资源是由不同时期和项目构建起来的庞大异构系统,各个高性能计算机系统之间处于互不联通的孤岛状态,无法施行全局统一的管理策略和使用规划,工作负载严重不均衡。系统管理急需从单个同构集群层面提升到跨多个异构管理域的多系统整体管理上。同时,随着当地经济发展和人民生活水平的提高,政府和大众对天气预报的要求不断提高,需要气象数值预报模式的时空分辨率很高,如果考虑到省级集合预报的发展,一个共享的、功能强大的计算平台是迫切需要的。因此,在国家科技基础条件平台的支持下,针对辽宁省气象业务和科研需求,设计了辽宁省气象网络计算应用系统。

本文将首先简要介绍气象网格相关概念,分析气象网格架构和各层节点功能,并基于UNICORE(计算资源的统一接口)提出对应中间层设计方案和安全管理机制,最后给出其系统实现界面。

1 气象计算网格

网格[1]是继万维网之后出现的一种新型网络技术平台,目的是为用户提供一种全面共享各种资源的基础设施。网格是一个开放、标准的系统。开放是指网格系统面向所有的设备开放,只要遵守网格规则,任何设备都可以加入网格。标准是指网格提供的接口是标准的。网格也是一个简单、灵活的系统。就如同现在使用的电力资源一样,用户只要把网格设备接入网格“插座”,就可以使用网格资源。根据资源拥有者的意愿,资源可以随时进入和退出网格,且不影响整个网格的使用。网格允许构成它的资源被协调使用,以得到多种服务质量,满足不同使用者需求,如系统响应时间、生产能力、可用性、安全性以及多个资源联合分配来满足用户的复杂请求,这样就使得联合了多个资源的网格的能力要比其各部分的能力总和要大得多。网格计算[2]是指将多个计算机组成网格状网络。网格计算关心的是在动态的,多机构的虚拟组织中协调资源共享和协同解决问题。采用网格,可以把分散在不同地理位置的计算机组织成一台“虚拟的超级计算机”,实现计算资源、存储资源、数据资源、信息资源、通信资源等的共享。

气象计算网格应用系统[3],是国家科技部基础条件平台项目,主要依托国产高性能计算机,通过整合现有资源,采用网格计算技术与网络化远程应用技术,建设面向气象领域提供共享服务的高性能计算资源软硬件平台和网络化应用环境,即计算网格系统。“国家气象网络计算应用系统”的整体架构由位于国家级主节点和分布在全国不同地区的八个区域气象中心分节点组成。辽宁省气象局作为地区分节点加入到“国家气象网络应用计算系统”。通过全国气象宽带网络连接起来的国家气象计算网格,是一个分布式的、紧耦合的网络共享运行系统。

2 系统设计 2.1 架构设计

气象网格计算系统中辽宁分节点,由辽宁省气象信息中心的计算资源、存储资源构成。将辽宁省气象局现有的三台异构高性能计算资源,采用网格技术进行整合,形成对用户相对透明的统一的高性能计算环境,以此来共同解决大型应用的计算问题。

辽宁省网格中央节点由一台Dell服务器构成,内部硬盘通过逻辑卷管理器(LVM)的方式来管理,便于日后用户在无需停机的情况下即可对系统各个分区进行扩展。在辽宁省网格中央节点上部署配置网格接入软件UNICORE,作为辽宁省气象网络应用计算系统的网关。该网关提供单一的访问入口,即IP地址和端口号,并接收客户端的连接请求,并进行认证,拥有数字证书并认证通过的用户就被授权连接进入辽宁省气象网络应用计算系统,进而访问和使用辽宁省信息中心所有的高性能计算资源。同时,在辽宁省网格中央节点上配置了高性能计算资源监视软件,定时向国家级网格管理节点[4]汇报交互本地的计算资源信息。气象网格计算系统中,辽宁分节点的系统整体架构如图 1所示。

图 1 系统架构
2.2 资源元调度作业管理方案

辽宁省气象信息中心管理的多种型号、品牌的高性能计算机系统,使用不同的本地资源管理器,存在着较大的差异。为了方便用户使用整合后的异构计算机系统平台。元调度作业管理器[5]提供了集中的作业和资源管理,能够对多个作业管理器之间的通信进行协调,使得多个不同的作业管理器一起协同工作。元调度作业管理器屏蔽了各个计算机系统上作业提交系统的差异,提供一致、易用友好的作业提交工具,允许用户在不了解每种类型的作业管理器的情况下提交作业,使用户感觉不到平台管理机制的差异,实现了整个网格内各个计算机系统的作业提交和管理。能够基于一定的调度策略把提交的作业均匀地分配到具体的高性能计算机系统上。

2.3 UNICORE网格中间件体系结构设计

由于现在基于TCP/IP协议栈的互联网架构最初不是针对网格计算设计的,为了使网格计算和现有的结构兼容,在网格体系架构中,一般要有一个可扩展的中间件层。中间件层是指一系列工具和协议软件,其功能是屏蔽网格资源层中各种资源的分布、异构特性,向网格应用层提供透明、一致的使用接口。中间件层同时需要提供用户编程接口和相应的环境,以支持网格应用的开发。经过与气象业务需求进行比较和分析,最终确定UNICORE[6]作为气象计算网格开发工作的支撑基础平台。

UNICORE是UNiform Interface to COmputing REsources(计算资源的统一接口)的简称。UNICORE的特性包括支持单点登陆的友好的图形界面、支持复杂的多节点/多步骤的作业流引擎、通过插件支持科研和商业应用、提供作业监控功能、通过UNICORE-SSH支持交互访问和集成的数据传输功能等。UNICORE系统能够以一种抽象的方式定义作业工作流,在底层与多种资源管理系统很好地集成起来,通过插件技术扩展平台功能,可以实现与应用领域的结合。UNICORE基于C/S体系架构,包括客户端、网关(Gateway)、网络作业管理器(NJS)、目标系统接口(TSI)等主要部件。一个部署了Gatewa整模块的计算中心构成一个UNICORE Site(站点),简称Usite。

在辽宁省气象计算中心,部署构成了一个Usite(站点)。三组对应的NJS和TSI构成三个Vsite(实际站点),实现辽宁省气象局三台高性能计算机的底层作业调度。辽宁省业务用户通过UNICORE自带的客户端与Usite(站点)通讯,每个Usite(站点)包含一个网关组件,供客户端连接。用户可以通过这个客户端连接到UNICORE网关,构造作业并且监视作业的状态和运行结果。UNICORE网关是辽宁省业务用户的所有请求连接到站点的单一入口点,它从外部为所有的SSL(Secure Socket Layer)连接提供一个可访问的地址和端口号,客户端将会按照业务用户的选择,自动连接到设定的网关端口。网关要与NJS(网络作业管理器)进行必要的通讯。NJS管理所有业务用户提交的UNICORE作业,它将作业的抽象定义AJO(Abstract Job Object)转化成某个给定的目标执行系统的具体命令行序列,并将转化后的任务和作业交给TSI(目标系统接口)。NJS还保存所有的辽宁省业务用户提交的作业记录,在用户提出查询作业状态以及结果信息的请求时,响应该客户端的请求。UNICORE TSI(目标系统接口)接受NJS提交的任务,将任务分配到本地的批处理系统上执行。TSI负责调度真正的计算节点,完成批处理系统的底层状态报告和控制。图 2是辽宁省气象局部署的UNICORE系统体系结构图。经过业务化试验,UNICORE系统可用于气象业务和科研领域,作为辽宁省气象局高性能计算机系统的主要管理平台。

图 2 UNICORE体系结构
2.4 结构功能设计

辽宁省气象网络计算应用系统从结构上可划分为四个层次:资源层、管理层、应用层和接口。

资源层汇聚了辽宁省气象局可开放共享的各种资源,包括高性能计算机、气象资料库、数据、气象模式等。资源层的主要功能是把这些资源采用成熟的网络计算技术进行整合,为面向气象系统用户共享提供物质基础。

管理层是气象网络计算建设项目的核心和关键,它运用网格、安全、资源管理和数据库等多种技术,使气象网络计算平台成为一个可以运营的资源共享平台。实现气象模式有效的源代码配置管理和不同平台的编译、各种观测,加密资料的接入、特殊资料处理等。通过源代码库管理所有模式系统的程序和各种平台预编译参数,通过用户参数和系统配置功能选择生成相应平台的代码模块和编译参数,进而通过编译形成目标模块,并自动集成一个批处理作业流程。

应用层开发省级气象服务产品,建立用户接入门户,建立GRAPES等模式应用系统。采用动态可插拔方案[7]实现针对各种资料的接入,实现数据产品的分发服务,实现与MICAPS,GrADS系统接入,开发其他图形、动画和用于科研的数据产品。

接口层针对气象系统业务用户、科研用户和管理员三种不同的用户,分别提供了相应的接口,包括Web门户、数据服务、系统管理等接口[8]

3 模式应用系统设计与实现

依托辽宁省气象网络计算应用系统建立的计算网格平台,完成了典型气象模式应用系统[9]移植、开发基于网格环境下的MM5模式应用系统,实现东北区域内高分辨率运算,完成模式产品与气象信息综合处理系统(MICAPS)的对接。建立GRAPES模式应用系统,根据用户的实际预报需求,定制参数化,提高预报分辨率,增加预报产品的类型和内容。网格环境下,数值模式作业的参数设置模板如图 3所示。

图 3 参数设置模板

开发相关的应用处理程序,完成辽宁省级气象业务和科研部门所需要的气象数据的后处理、特殊产品的加工和分发。研发基于数值预报产品的应用系统,在资料应用、同化和嵌套技术[10]、地形处理、物理过程调试、扩散方案、垂直分层等方面设计符合辽宁省地理特点和气象条件的方案。最后,将生成的数值预报产品和MICAPS数据产品分发到数据服务器,并通过网站对外发布,提供给本省和东北区域范围内的气象业务和科研用户使用。

辽宁省气象网格计算应用系统还专门为省人工影响天气办公室的用户建立了基于MM5数值预报模式的本地特色行业应用服务[11],提供中尺度72小时模式预报结果,为人工增雨、防雹业务等人工影响模天气业务以及重大活动气象保障等提供定点、定时、定量的精细气象预报和服务。通过该系统,可以比较正确地判断降水天气过程人工增雨潜力,在符合增雨天气条件并需要增雨的情况下,制定人工增雨作业实施方案,取得了显著效果。解决了过去传统的人工增雨指挥和作业中的重大、关键性技术问题,提高人工增雨作业的科技含量。

4 结语

经过近1年时间的实施,辽宁省气象网络计算应用系统已经初步建成。按照系统架构、平台和气象模式应用系统等设计内容,基于网格平台软件,在辽宁省级节点平台整合了高性能计算机系统。GRAPES模式插件开发完成,建立了模式产品后处理与检验平台,东北区域气象数值预报产品已经通过网站对外发布。随着精细化预报业务进程的加快,还需要进一步完善网格环境下工作流作业的高效执行,完善资源使用和共享管理体系,充分发挥气象网络计算应用系统的效益。

参考文献
徐志伟, 冯百明, 李伟, 2005. 网格计算技术[M]. 北京: 电子工业出版社.
Ian Foster, Carl Kesselman. The Grid Blueprint for a New Computing Infrastructure[N]. 北京: 机械工业出版社, 2005. http://edu.wanfangdata.com.cn/Periodical/Detail/xxjs200709045
田浩, 宗翔, 王彬. 国家科技基础条件平台建设项目可行性研究报告—国家气象网络计算应用系统建设. "十一五"国家科技基础条件平台重点建设项目申请书, 2005, 10. http://www.cqvip.com/QK/71135X/201107/24373993.html
宗翔, 王彬, 2006. 国家级气象高性能计算机管理与应用网络平台设计[J]. 应用气象学报, 17(5): 629-634. DOI:10.11898/1001-7313.20060506
王彬, 宗翔, 魏敏, 2008. 一个精细粒度的实时计算资源管理系统[J]. 应用气象学报, 19(4): 507-512. DOI:10.11898/1001-7313.20080416
吕绍华, 龚斌, 栾峻峰, 2006. 数值天气预报在UNICORE中的实现[J]. 计算机工程与设计, 15(13): 105-112.
王彬, 魏敏, 刘桂英. 基于NMIC计算网格平台的MM5业务模式共享系统[C]. 气象通信与信息技术委员会2006年学术研讨会论文集. 2006, 8, 新疆: 145-151. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-ZGQX200608001028.htm
王彬. 国家气象网络计算应用节点门户系统的设计与实现[C]. 国家气象信息中心2005年度科技年会论文集. 北京, 2006, 2: 91-97. http://kns.cnki.net/KCMS/detail/detail.aspx?filename=qxkj2006s1001&dbname=CJFD&dbcode=CJFQ
王于静, 李伟东, 韦海亮, 等, 2006. 基于UNICORE的地震网格计算应用插件[J]. 勘探地球物理进展, 29(4): 84-92.
蔡敏, 黄艳, 朱宵峰, 等, 2009. 基于BP神经网络的地质灾害细网格预报模型[J]. 气象, 35(7): 95-100. DOI:10.7519/j.issn.1000-0526.2009.07.014
白人海, 张志秀, 高煜中, 2008. 东北区域暴雪天气分析及数值模拟[J]. 气象, 34(4): 22-29. DOI:10.7519/j.issn.1000-0526.2008.04.003