摘要:欧洲中心的预报系统对于预测南半球每周(时间尺度)热带气旋生成的能力已经过了评估并与最先进的统计模式的能力进行了比较。概率技能得分已经应用于一系列普遍的动力和统计模式的后报产品中。在积分开始的前三周,欧洲中心的后报结果相比统计模型拥有更高的相对操作特征(ROC)分数,而且在第四周印度洋上空,动力模式的表现也更好。
第二周后,欧洲中心后报产品较统计模型的布里尔分数(概率预测相对于测试样本的均方误差)更低,这可能是因为该版本的ECMWF模式较观测多生成了大约30%的TCs,因此产生了大量假警报。欧洲中心的概率预报应用了一种简单的校准方法,显著提高了它们的可靠性,但以牺牲清晰度为代价。在前三周,校准后的动力模式比统计模式有了更高的布里尔技能分数,虽然统计模式仍然是更可靠的。
校准后的动力模式预报和统计预报的多模式混合预报有助于提升欧洲中心预报的可靠性。多模式的布里尔得分超过单一模式,但清晰度比校准后的动力模式更小。该结果表明统计模式可以作为动力模式的基准也可以作为多模式混合的一个组成部分来提高动力模式的能力。潜在经济价值图证实了多模式混合预报在南半球的三周内是有用的。
结论:本文中,在前三周的预报中,欧洲中心模式在20°*15°区域内对每周发生的TCs进行预测,并与统计模式(STAT)的能力进行了比较。前三周,欧洲中心预报系统比STAT的ROC分数更高,但因为它高估了TCs的生成导致可靠性较差从而有更低的布里尔分数。在动力模式应用一个简单的校准后,其布里尔分数高于未校准的动力模式和STAT,并且有比STAT更高的分辨率和清晰度但可靠性仍不如STAT。因此最先进的数值天气预报模式可以在季节内时间尺度上有效的预测南半球的TCs,其技巧可以媲美最先进的统计模型,甚至更好。该研究的第二个结论是L和W(2008)的统计模型可作为一个有效的基准来验证动力模型。结合动力和统计模型的多模式混合预报可以取得更好的能力。
动力模式预测MJO演变的能力可达20天左右,这可能有助于提升它预测南半球TCs生成的能力。到了第四周,动力模式的预测能力似乎局限在了印度洋上空,这可能是因为该动力模式很难将一个MJO传播到海洋大陆(Vitart and Molteni 2009),这意味着在这个时间范围内,该模式预测西南太平洋MJO事件的能力低于预测南印度洋上空MJO的技能。在该版本的EC模式中,模式积分十天后,MJO的强度多模拟了20%。在IFS的最新版本已经部分的解决了这个问题,它的模拟结果没有Cy32r3那么活跃。另一个重要的问题是,模式模拟出的MJO向东传播过慢的问题,这可能会对于模式预测第四周TCs生成的能力产生负面影响。解决这些问题则需要延伸MJO的预报能力至20天以上,这应转化为EC模式在第4周及以后预测TC发生的扩展技术。另一个可以改进的方面是使用高垂直分辨率的海洋混合层模式,这可能会进一步提升动力模式预测MJO从几天到一周演变的能力,这取决于使用大气模式首先能多真实的模拟MJO强度和传播速度。
目前,欧洲中心每周运行一次月度预报。这些预报由51个模式集合积分32天得到的。目前研究表明该预报系统可以对热带气旋生成进行熟练预测。像第六段说的,这些TCs的动力预报需要进行校准来变的更可靠。校准取决于EC模式的版本。然而,像第六段所说的,一系列每周在欧洲中心运行得到的后报产品可以用于校准TC生成的周际预报。目前,ECMWF定期实时生成TCs的实验性每周预测。
本文介绍的结果还表明了对季节内TC登陆预报的潜力。实际上,一些EC模式的初步结果表明了在南半球易受TC影响的陆地可以至少两周和澳大利亚西海岸可达四周的TC登陆预报能力,但是我们仍需要进一步的研究。
引言:虽然动力模式已经成为预测短中期TC路径和季节内TC活动展望的常规手段,但使用动力模式在季节内时间尺度(10-60天)预测TCs到目前为止没有先例。直到最近,一些统计模式才发展到可以在季节内时间尺度上预测TC生成和和发展。这很大程度上是因为季节内TC可预报性的来源不能像中期或季节性预测那样确定。对中期预报而言,可预报性主要来自于大气初始条件。另一方面,TCs的季节性预报主要基于海表温度异常(SSTA)对TC活动的影响。在季节内时间尺度上SSTA也是TC可预报性的来源。例如,厄尔尼诺事件期间,中太平洋高于正常水平的TC活动也延伸到了数周的时间尺度。然而,正是MJO对TC的影响,引发了人们最近对次季节时间尺度TC预测的兴趣。MJO对TC活动的影响已经在对西北太平洋、东北太平洋、墨西哥湾、南印度洋和澳大利亚区域的观测研究中得到了证实。MJO对TC数量的调制在某些区域高达4:1,这远大于SST变率的调制。MJO也对TC登陆美国和澳大利亚的概率有着显著的影响。根据camargo09的文章,MJO对观测到TC的影响主要为中层相对湿度和低层绝对涡度。M和H(2000)表明MJO主要影响了TCs的气旋性低层相对涡度和垂直风切变。
因此L和W发展的统计模式将MJO作为了关键的预报源,该模式被用于发布南半球大范围TC活动的每周概率预报。但MJO活跃时,该统计模式的能力更强。在季节内时间尺度预测TC概率的其他统计方法,包括PR开发的经验方法,它包括了各种波形和气候信号的影响用于预报当地TC的每日概率,以及科罗拉多州立大学团队对TC活动个别月份的预测。Camargo等人(2006)对其中一些方法进行了综述。
建模研究已经模拟了局地海温和ENSO对模式TCs的影响,它解释了季节性动力模式预测TC的成功。然而,季节内预测TC的成功可能很大程度上取决于模式预报MJO事件的成功以及它们对TCs模拟的影响。S和L表明,大气环流模式(GCMs)通常很难充分表现MJO事件。TCs在模式中的表现也因为数值模式的不同而存在很大差异。然而,Vitart表示使用最新版本的EC综合预报系统进行的一组46天后报实验充分的模拟了MJO对TCs模式的影响,这表明该“月度”预报系统可能具有一些预测季节内TCs变化的能力。此外,E等的研究结果表明,ECMWF月业务预报在热带气旋组合结构(TCS08)/观测系统研究和可预报性试验(THORPEX)太平洋亚洲区域活动(T-PARC)期间提前几周为台风的成因提供了有用的指导。
本文的主要目标是评估EC月度预报系统预测南半球TC发生的技巧以及与L和W发展的统计模式在同一验证框架下进行比较。将使用与Vitart(2009)文中相同的后报检验。验证将集中在南半球,那里大多数TCs在11月至4月期间发展,这与MJO活动最强的季节相吻合。
第二段将会描述一系列使用EC模式产生的后报产品以及该模式模拟TCs和预报MJO事件的能力。第三段将会介绍L和W统计模式的主要特点,它将会用来作为衡量动力模式预报能力的基准。第四段将会讨论验证方法,第五段会评估预报的可靠性和技巧。第6段和第7段将会分别展示校准后的EC预报以及联合统计模式和校准过的动力模式的预报。(相对操作特征)ROC分数图将会在第八段,第九段将会总结本文的主要结果。
第二段:欧洲中心预报系统的周际TC预报
从2007年11月到2008年6月,每月的15日,一系列为期46天的对1989到2008年20年的后报预测将会在版本为Cy32r3的EC模式中运行。每个后报预测由一系列共15个预测组成(一个控制预报和14个扰动预报)在T399(大约50公里分辨率)分辨率下中积分十天,垂直方向拥有62层,由持续的海温异常强迫。在第十天,水平分辨率降为T255(大约80公里分辨率)并每三小时在模式中耦合一次汉堡海洋原始方程模型的海洋环流模式。在前10天内,海洋模式受到每个纯大气积分提供的通量的影响,但大气对海洋模式状态不敏感。用于强迫大气的持续SST异常产物也用于约束海洋模式的SST,以避免第10天的大气状态与底层SST之间的不一致。事实上,在预测MJO时,大气模式在前十天没有耦合海洋模式的影响,并且很可能还有其他的耦合的海气扰动。未来计划从一开始就将大气耦合到海洋模式中。
大气初始条件在ERA-40再分析资料中获得到2001年,在EC运行分析中获得2001年之后的。大气扰动使用奇异向量法产生(Buizza and Palmer 1995)并在模式积分的过程中随机扰动大气状态的趋势。在海洋数据同化过程中,通过应用一组风应力扰动产生不同的海洋初始条件。更多关于EC月度预报的细节可以在Vitart等(2008)中的文章中寻找。
使用Vitart在1997描述和2003修订的方法在后报产品中追踪TCs。类似于观测,模式TCs定义为10m最大风速超过17m/s的系统。气候态TCs模式与一般与观测一致,尽管TC活动在模式中较观测高估了(Fig. 1)。V表明这组由后向预测模拟的TC轨迹密度由MJO调制,并且与观测一致。
模式预测MJO的能力由G等人(2010)概述的方法进行评估。这包括计算Wheeler and Hendon (2004) 所有模式后报的MJO指数以及与同期ERA-interim再分析计算的指数进行比较。该指数的计算方法是将预测或分析结果投影到观测到的OLR、200和850 hPa的纬向风的两个主要组合经验正交函数上,并在15°N和15°S之间求其平均值。该指数已应用相对于1989-2008年后报预测的气候学每日异常值,以消除季节性周期的影响。此外,已减去预测日之前120天滑动平均值,以消除与ENSO有关的方差。
之前的工作已经表明模式模拟的MJO在预报到第十天之后会偏大25%并且其传播通常会比观测更慢。我们进一步通过计算二元相关性和均方根误差(RMSE)检查了它的技巧(Lin 2008)。在第19天左右,观测值与集合平均预测之间的双变量相关性降至0.6(Fig 2a),而集合平均预测的二元均方根误差在第20天左右达到气候学水平(Fig 2b)。因此,动力学模式具有长达20天的能力来预测MJO的演变,所以在预测的头几周,应该具有预测南半球TC活动的能力。
3. 周际统计预报产品
为了进行比较,我们也测试了纯统计手段方案生成后报预测的能力。该方案使用已知的周际TC活动和不同大尺度气候模式变率(包括MJO,ENSO和气候态季节循环)的统计关系。这与L和W(2008)年描述的方案相同除了两个点主要不同:
(1)将其推广到了南半球多重重叠区域网格;
(2)使用不同的TC年际变化预测因子。
最多可使用了六个潜在预报因子。两个预报因子用于MJO:W&H的多元MJO指数对;三个与热带海温年际变化有关的预报因子:Nino3.4指数、T&STrans-Nino指数和印度洋偶极子模态指数;最后一个预测因子为TC活动的气候态季节周期。
效仿L&W,统计方案基于逻辑回归并在具体区域预测TC生成或存在的可能性。然而,这些区域的规模已经缩小,我们主要关注每个区域中TC的存在(与TC的生成相反)。
使用统计方案产生的后报与动态模型提供的相同周数的后报。这些后报产品是使用交叉检验的方法生成的,即被预测的季节被排除在用于计算逻辑回归方程的数据集之外(L&W 2008)。这包括通过排除预测的季节,重新计算每一年TC活动的气候态季节周期。不同的逻辑回归模型因此每年得以发展,每个区域的不同模式和预报提前时间也得以发展。因此,为每一年建立不同的逻辑回归模型,以及为不同的地区和不同的预测提前时间建立不同的模型。像L&W,预报因子被滞后一个适当的时间,以反映它们的实时可用性。
该统计方案代表最先进的季节内统计预报。原始版本已经从2006和07年的TC季开始在法国气象局操作运行,并且改进后的版本准备在2009和10年运行,提供输出三周的预报。技巧和可靠性在06/07和07/08年独立季节的测试(在上面列出的网页中提供),显示在这些季节整体上达到了积极的技巧,在上述全部的四个区域和领先时间中拥有很好的可靠性。但是,统计模式的成功依赖于中等强度气候信号的存在(如MJO和ENSO),如2006/07年和2007/08年。
4. 验证方法
因为验证的目的,用两个模式在南半球60个相同的区域都预报了TC发生频次的可能性。每个区域包括15个纬度和20个经度,并在上面重叠有7.5个纬度和10个经度的网格。整个主要区域从0°延续到30°S以及从30°E延续到120°W,这组成了20*3的格点区域。从预报信息用户的角度看,越小的区域越好,但必须在小和每个box内可用于制定统计方案和验证模式的TC事件数量之间达到平衡。区域足够大到TC的频次不会出现极端稀少事件,这在仅仅20年的观测中是很难验证的。对于这种规模的箱子,1982-2008年11月至4月期间,所有箱子和所有星期的平均观察到的TC频次的概率为14%(见下文)。
第1-7天定义为第一周,以此类推到第五周。从1969-2006年的11月1日到4月30日的每天开始,产生一组统计模式的第1-3周的后报结果。后报在第三周停止,因为统计模式在第三周后展示出的技巧很不好。为了比较动力和统计模式的技巧,选择了统计和动力后报所共有的预报起始日期:后报在1989-2005年的11月15日和12月以及1989-2006年的1月2月3月和4月15日开始,总共代表106个开始日期。对于动力学模型,TC频次的概率预测是由15个集合成员中预测TC轨迹穿过60个域的部分计算出来的。总体而言,统计模型和动力模型系统每周发布6360份预报。接着会用JTWC发布的南半球TC观测结果验证这些结果。
5.预报的可靠性和技巧
动力模式在下文中统称为ECMWF,统计模式称为STAT. ECMWF和STAT的概率技巧得分也会与气候态得分(CLIM:每个主要区域的每个开始日期的TC频次概率为14%)和气候态时间与空间分布的概率技巧得分比较。气候态变率在下文中将表示为"Variable CLIM", 已通过交叉验证的方式计算,作为1982-2008年期间特定周(一年)和特定区域内观测到的TC频次,使用的是JTWC数据集。不同于CLIM, Variable CLIM在每个区域和每周都存在不同。
a. 统计模式
使用可靠性图表征概率预报的可靠性,它显示了预测概率与观测频率的函数关系。对一个完美可靠的预报而言,图中线条应沿着45°对角线,水平线条则表示无预报技巧。STAT第一周的预报结果是可靠的,因为它的可靠性图接近对角线(Fig3a)。
但是,该预报无法产生70%以上的可能性。STAT也很少预测0%的概率。事实上,最常见的概率箱是包含CLIM的10-20%概率箱。这表明STAT产生很可靠的预报,但伴随着很低的分辨率(预测将事件集排序或解析为具有不同频率子集的能力)。这是典型的统计模式,它通常不会预报的过高或过低的概率。在前两周(Fig3a,b)STAT预报依然是可靠的,但在第三周,它的锐度(预测偏移气候态平均值的能力)和分辨率降低了,随着TC频次概率超过30%的情况很少。
概率预报的技巧可以使用布雷尔技巧得分(BSS)衡量,本文中将使用CLIM作为预报参照。根据表一,STAT在前三周表现了正的BSS。第三周,BSS非常低,但是使用10000次自举重采样计算可得,相对于CLIM的差距依旧在统计意义上的5%显著性水平以内。
对于此处分析的预测子集,STAT的技巧与Variable CLIM没有统计上的显著差异。(0.04vs0.046)在该节,在30°E到120°W计算BSS。L和W发现在南半球的一些区域,STAT在第三周显示出比variable CLIM更好的技巧。
相对操作特征(ROC)分数已经被用来验证概率预报的技巧。对不同的概率阈值计算命中率和虚警率,给出命中率(纵轴)和虚警率(横轴)图上的多个点。在本研究中,每个概率阈值间隔为10%。ROC分数是ROC曲线下方的区域。ROC得分等于1.0为完美,没有技巧的预报,如CLIM,的ROC得分为0.5.对第一周而言,STAT的ROC图像位于对角线上方(Fig4),ROC分数为0.73(表2)。
类似于BSS,STAT前两周的ROC得分显著高于CLIM和variable CLIM的ROC得分。
这些结果与L和W的结果皆一致,他们基于大量后报结果对统计模式进行了更全面的验证。然而,L和W发现STAT的技巧在第一周和第二周之间发生了大幅度下降。本研究中下降较少可能是因为验证日期不重叠的原因。因为预报从每月的15日开始,第一周的时间为15日到21日,第二周包括22日到28日。因此,从一周到另一周的得分不能直接比较。这个预报验证时期的差异也解释了为什么variable CLIM的BSS得分在不同的预测周有所不同。
b. 未校准的ECMWF动力学模式
ECMWF后报结果已经使用与STAT同样的方式进行了验证。EC预报(图3中的红线)分别在第一、二、三周似乎有点可靠,观察到的频率随着预测概率的增加而增加。然而,EC的可靠性图比45°对角线更平坦,这表示动力模式过于自信了,因为它经常预测出过高与过低的概率,这在动力模式中是常见的。对高风险的高估是模式偏差的结果,因为在EC模式中,TC活动被高估了(图1和第2节的讨论)。在南半球的十一月到四月,模式中TC频次的数目比观测中多了30%,所以模式中的TC频次概率很可能随着显著的虚警率是虚高的。这样来看,在前三周,EC模式比STAT的可靠性更低,但是EC预报有比STAT更好分辨率和锐度(图3)。比如说,动力模式预报TC频次包括大量的0和100%的概率(图3a)以及在第3周仍产生很高的概率。
EC较STAT在前三周的预报有更高的ROC得分(表2)。这些在EC和STAT之间前三周预报ROC得分的不同是统计显著的,使用10000次自举重采样通过了95%的显著性水平。EC也比variable CLIM有显著高的ROC得分,甚至可持续到第三周。ROC得分的差异在第一周特别大。(EC:0.86,STAT:0.73)这可能可以部分解释为,第一周的动力模式预报包含初始条件了解TCs的存在,而STAT则不是这样。
这些结果表明对南半球TC频次而言,EC预报系统可以产生至少三周有用的概率预报。如果在第二周或第三周的模式技巧来源于前一周的持续性,则没必要将模式积分到第三周。要检查情况是否如此,使用第一周预报的概率来预测第三周的TCs频次。用持续第一周的概率预测第二周TC频次的ROC得分仅为0.68,显著低于第二周EC预报的ROC得分0.8(表2).类似的,用持续第二周的概率预测第三周的得很为0.66,也显著低于第三周EC预报的ROC得分(0.74)。这些结果表明,对南半球TCs的预测而言,将动力预报整合至少21天是有用的。
第一周EC预报的BSS也比STAT的BSS更高(表1)。差异在95%的显著性水平上是显著的。但是,EC的BSS在第二周和第三周比STAT更低(表1),这是由于EC预报比STAT在这些周可靠性更低,尽管分辨率更高。像之前所说的,这缺少的可靠性很可能是因为EC模式在热带过于活跃,生成了太多的TCs。
6.校准后的EC模式输出(CECMWF)
EC预报系统对于TC频次预测的可靠性可能可以通过校准来提升。作为第一步,粗略校准是指在1982-2008年气候时期(不包括预测的实际年份)未观测到TCs的区域和时期,将EC预测概率设置为0。这个校准消除模式预测的TCs离的太远到南太平洋以东这个问题,那儿没有观测到过台风(图1)。此外,预报概率乘以0.77,以使模式中出现TCs的气候态数目等于实际数目(模式产生的TCs数目比观测多30%)。这些校准过的预报将被称为CECMWF。EC预报更复杂的校准方式已经过测试,校准方式是在每年的每个区域和每个时间独立进行。但是它的结果没有比CECMWF的结果更好,可能因为在仅使用19年的数据执行依赖于时间和区域的校准时存在采样问题。
在可靠性图中(图3),校准预报(黑色曲线)比为校准的预报更加接近45°对角线,这表明校准预报比未校准预报更可靠。事实上,校准预报在前三周的每周(表1)都比未校准的EC预报有更高的BSS分数。这表示南半球对TCs的过度预测很可能因为EC模式更低的可靠性。此外,CECMWF也比STAT和variable CLIM在第二周和第三周有更高的BSS得分,虽然CECMWF的可靠性仍比这两个低。BSS差值通过95%显著性水平。然而,更好的可靠性和CECMWF的BSS分数相比EC牺牲了锐度。注意到图3中CECMWF没有产生高于80%的概率,这可能是第一周预测的问题,其中非常高的概率通常是由于初始条件下TCs的存在。对第二、三周而言,这个问题不大,因为在未校准的EC预报中很高概率的TC频次预报在这些时间段是不真实的。CECMWF和ECMWF的ROC分数没有显著的差异。
7. 多模式集合
先前研究表明不同模式的集合可以得到更好的预报。V等发现,结合多种模型可以更好的预测大多数海盆TCs的季节性变化。因此,STAT和CECMWF预报通过简单的平均两个模型产生的预测概率结合起来,每个模式的权重相同。多重模式(下文中称为MULTI)有比CECMWF更高的BSS分数(表三)。
虽然在第一周的差距并没有统计意义上的显著性,但是第二、三周的BSS分数差距在95%的显著性水平上。多重模式的集合提升了CECMWF的可靠性(图5),但代价为更小的锐度(清晰度)。MULTI的ROC分数略低于CECMWF的分数(图未展示),但是差距在统计上不显著。
其它的多重模式预报也已经过验证,即给STAT和CECMWF不同的权重,这是以交叉验证的方法计算的各个模型BSS的函数。BSS越高的模式权重越大,但是,可变权重结果与模式权重相等的结果差距不大。
经济决策中的成本/损失模型可用来解决TC频次概率预报对不同使用者的潜在收益。在该模型中,决策者根据他/她对某一特定天气事件是否会发生的判断可以有两个可选的操作,采取行动或什么都不做。无论结果如何,采取行动都会产生成本C。如果事件真的发生而没有采取行动,决策者就会产生损失L。可以方便的用“成本/损失”的比率(C/L)来考虑各种行动方案的费用。在该模型中,预报的价值V被定义为使用TC概率预报节约的价值,是在完全了解未来的情况下可能实现的潜在节约的一部分。V=0表明预报没有比气候态平均更高的价值。STAT和CECMWF三周预报的多重模式集合的潜在经济价值图6证实TCs的多重模式预报在第1到3周对大范围的C/L比率有一定的价值。
8. EC模式的ROC分数图
在之前的部分,概率技巧得分已经已经在整个南半球进行了评估。ROC分数也可以在南半球以1*1的格点计算,来得到更多关于EC模式擅长区域的细节信息。对每个格点而言,根据动力模式提供的11-4月的所有预报,计算以网格点为中心的在20°*15°区域中TC频次概率。如预期一样,这些ROC分数从第1周到第5周为下降趋势(图7)。即使在第5周,ROC得分在大多数网格点上都大于0.5,这表明动力模式比CLIM有更好的表现。在预报的前三周,EC模式比Variable CLIM有更高的ROC分数(未展现)不管在印度洋还是南太平洋。在第四周,ROC分数超过0.6的南印度洋(高于从variable CLIM中得到的ROC分数)和ROC分数普遍低于0.6的南太平洋有明显的差异(图7)。