国家铁路货运量的时间序列分析

国家铁路货运量的时间序列分析

目录

1. 引言 1

2. 统计预测模型的建立 2

2.1趋势拟合法 2

2.1.1 二次型 2

2.1.2 S曲线模型 3

2.1.3移动平均法 3

2.1.4 指数平滑法 3

2.2 ARIMA模型 4

2.2.1 ARIMA模型建模步骤 4

2.2.2 观察值的预处理 4

2.2.3 模型的识别与检验 5

3.国家铁路货运量预测分析 5

3.1.1二次型模型 6

3.1.2 S曲线型模型 7

3.1.3 移动平均法 7

3.1.5 部分小结与结论 8

3.2 ARIMA模型法 9

3.2.1 数据的处理以及模型的建立 9

3.2.2 模型的判断与选取 12

3.2.3 模型的诊断与检验 13

3.2.4 模型的预测 13

5.总体小结与结论 13

参考文献 14

摘要 本文以国家1978年至2011年中国国家铁路货运量数据为基础.以不同的方法建立不同的模型,并通过所建立的不同样式的模型来对2012至2014年国家铁路货运量进行预测.比较不同样式的模型的预测精确度,最终选择了在经过差分剔除长期趋势以及季节因素后对其残差进行检验和识别.从而建立ARIMA(0,2,1),并根据此模型对2012至2014年国家铁路货运量进行预测,拟合效果良好.

关键词 国家铁路货运量 ;预测精确度;差分;ARIMA模型

Abstract: Based on the national railway freight volume data from 1978 to 2011, this paper establishes a model with different methods, and forecasts the freight volume from 2012 to 2014 by the model. By comparing the prediction accuracy of the different models, the ARIMA function model is finally selected. According to this function model, the forecast of freight volume between 2014 and 2012 is made, and the fitting effect is good.

  1. Key Words: National railway freight volume;Prediction accuracy;Difference;ARIMA pattern function.引言

现代数学统计理论在金融学中的应用越来越明显,有关专家指出,统计学、经济理论以及数学这三个对于真正的去了解现代经济生活里蕴含的数量关系来说是很有必要的.数学给经济界带来了全新的视角、理念.如果缺乏统计基础知识要想在市场中有出色而又完美的表现是十分困难的.本文以中国的水路运输为列,通过数理方法对中国水路货运量的发展趋势进行科学性的预测与分析.

自1987改革开放以来中国经济进入了高速发展的时期,其中铁路运输作为交通运输系统的重要组成的部分,为国家GDP的提升做出了巨大贡献,承担着重要的交通运输责任,为我国的经济发展做出了良好的推动与促进作用.铁路运输按性质可以划分为国家铁路、地方铁路以及合资铁路,其主要特点是运量大、成本低、能耗少、投资低、是国内国际重要的运输方式之一,其重要性不言而喻.另外,铁路运输在国民经济发展中具有重要的作用,它将世界各地连成一片,对于经济全球化的发展具有重要的推动作用.所以研究全国的国家铁路货运量对于经济政策的调整与完善具有非常重要的作用.

如何使用科学的统计方法分析与预测国家铁路货运量,将有助于经济的快速发展,解放出大批生产力去从事其它经济建设,从而更好的推动经济的发展.

对于全国国家铁路货运量的分析与预测,更多的是以年度的数据为单位,大多采用长期趋势分析、回归分析、神经网络、灰色预测、指数平滑法等确定性的模型来分析.由于回归分析、灰色预测、长期趋势虽然能对数据进行预测,但是只能提取强劲的确定性信息,对随机信息的浪费比较严重,而且不能对其残差做进一步的分析,不能判断信息最终是否充分提取,所以模型的精度较差.

随机时序分析方法弥补了确定性因素分解方法的不足,本文采用ARIMA模型对未来进行分析与预测,其预测的精确度比之线性模型,指数模型等更好,正文部分将对几种模型的做详细比较.根据全国1978年至2011年国家铁路的货运量数据,用统计方法对数据进行的分析,发现国家铁路货运量具有显著地增涨趋势,在对数据进行二阶差分从趋势中提取出线性趋势后,差分后的序列呈现出了非常平稳的随机波动.在剔除完长期趋势因素后,用随机效应模型ARIMA对二阶差分建模,得到更高精确度的水路货运量的预测模型.

本文所有数据是全国1978年至2011年国家铁路货运量数据作为建模数据,以2012年至2014年这三年的数据作为建模的检验所用,在误差允许的范围内,拟合效果良好.

  1. 统计预测模型的建立

时间序列分析是对动态数据进行处理的一种统计方法.这种方法以随机过程理论与数理统计方法为基础,来研究随机的数据序列所遵从的统计学规律,由此来解决一些实际的问题.常用的时间序列分析法有回归分析、灰色预测、长期趋势预测、乘积季节效应模型等.

由于时间序列的变化受到趋势因素、季节因素、周期因素以及不规则变化因素的影响,预测的对象随着时间的变化而呈现出一定的变化趋势,没有非常明显的季节波动,所以这里一方面就可以采用一定的函数曲线来描述这种变化,就能够通过趋势外推法进行预测.这里将分别用二次、S曲线、移动平均法以及单指数平滑法去拟合原来的曲线,通过比较找出最优的函数拟合曲线.需要注意的是选用移动平均法时需要对它的移动平均长度做一定的判断,另一方面也可以采用ARIMA模型来对数据进行分析预测.

2.1趋势拟合法

趋势拟合法是把时间作自变量,把相应的序列观察值当做因变量,从而建立序列的值随时间的变化而变化回归模型的方法.由序列呈现的线性或非线性的特征,从而拟合的方法又可以具体的分成线性与曲线拟合.

      1. 二次型

当曲线具有显著地曲线变化时,可以尝试着用二次型曲线来作为拟合模型.模型可以写成:

.

首先令 ,则元模型变换可以写为:

.

再通过线性最小二乘法来对参数参数,,进行估计.

最小二乘法:

设观察值为 .则可令

最小值.

由微分原理有:

.

解方程即可求,,三个参数.

将各个参数值带入原方程,检验参数与方程是否显著,若方程显著而某些参数不显著,那么去掉该参数,再重新拟合新的模型,直到方程和各参数均显著为止.

      1. S曲线模型

S曲线模型又称生长曲线模型,是预测事件观察值随时间变化符合生长曲线的规律. 龚帕兹(生长)曲线是一种常用曲线,模型可写成:

参数a,b,k的求解步骤.

(1)将N个数据划分为三组(假定N=3r).

(2)求个组的对数和,即有:

, ,

(3)利用公式计算a,b,k的值

,,

2.1.3移动平均法

移动平均法是通过使用一组最近的观察值数据来预测未来以后一期或者几期内的产品需求量、产能等常常使用的方法,移动平均法它适用于短期预测,当产品变化不大且不存在季节性的因素时,它可以有效地消除预测里的随机波动.移动平均法可以划分为:简单移动平均和加权移动平均.

2.1.4 指数平滑法

考虑到时间间隔对事件的发展的影响,各期的权重随着时间间隔的增大而呈现指数衰减

.

式中,为指数平滑系数,0<<1

由于

.

.

指数平滑法它是对时间序列的过去数据全部同等使用,不考虑较远期的数据,在它进行加权平均时候给近期观察值更大的权重.

指数平滑法的优缺点:

优点: 所需数据少; 兼容了全期间的平均和移动平均的所长.

缺点:给予远期较小的比重,近期较大的比重,故只能进行短期预测.

2.2 ARIMA模型

ARIMA模型它的全称为差分自回归移动平均模型,它是由博克斯(BOX)同詹金斯(Jenkins)在70年代初期提出的序列预测方法.ARIMA模型通常是将非平稳的时间序列转变为平稳的时间序列,在此以后再将因变量仅对它的滞后值以及随机误差项的现值同滞后值进行回归分析所建立的模型.ARIMA(p,d,q)里的AR是自回归,p是回归项,d是差分次数,MA是移动平均,q是移动平均的项数.其ARIMA(p,d,q)模型可定义为:

式中的

为ARMA(p,q)的自回归系数的多项式;

为ARMA(p,q)的移动平滑系数多项式.

上述ARIMA模型式子也可简记为

,式中的{εt}是零均值的白噪声序列.

方差齐性对于ARIMA(p,d,q)模型,当d≠0时序列均值和方差都为非平稳的.

2.2.1 ARIMA模型建模步骤

首先需要获得观察值序列,对数据进行平稳性检验.若检验结果为非平稳则进行差分运算,直至数据为平稳序列.然后在对数据作白噪声检验,如果不是白噪声则说明信息提取不充分需要拟合ARMA模型直至为白噪声为止,最后在分析结果.

2.2.2 观察值的预处理

根据时间序列图来判断观察值序列是否始终在一个常数值的附近随机波动,如果是则说明该序列平稳,反之不真.假如观察值呈现出一定的趋势性或者周期性,那么我们可以判定它通常不是平稳序列,需要对其进行差分

来提取序列中隐藏的确定性信息,直至其n阶差分序列{∇ nxt}的时序图呈现一定的随机波动.

对于平稳性的检验通常有两种方法一种是通过时序图与自相关图所显示出来的特征而作出的图检验法,其带有很强的主观色彩;另一种是通过构造检验统计量来进行检验假设.

2.2.3 模型的识别与检验

一个拟合模型的好坏可以从两个方面去考察;一方面是似然函数值,另一方面是从未知参数的个数,其中Akaike(1973)的信息准则(即AIC)是适用性非常广的准则,它是拟合精度和参数个数的加权函数:

AIC=-2(模型极大似然)+2(模型中未知参数个数)

AIC值达最小的模型为最优.定义AIC准则函数为:

.

由此可以发现AIC同时体现了残差的不相关性原则和模型的简洁性原则,并排出了主观因素.由于AIC准则中拟合误差提供的信息容易受到样本容量的放大,为了弥补AIC准则它的不足之处,Schwarts提出了SBC准则:

同时使得BIC最小的模型为最优模型,其中p为最佳阶数.

一个好的拟合模型能够提取出观察值序列中几乎所有有用的样本信息,故模型的显著性检验即是残差序列的白噪声检验,原假设与备择假设分别为

检验统计量为LB(Liung—Box)

~自由度为m的卡方分布,∀m>0.

若拒绝原假设则说明拟合的模型不显著.

3.国家铁路货运量预测分析

将全国自1978—2011年的国家铁路总货运量作为样本数据,利用时间序列分析法对其建立不同模型,并对全国未来三年的货运量即2012,2013,2014年的国家铁路货运量进行预测.

表一 全国水路运输货运量

时间

货运量(吨)

时间

货运量(吨)

时间

货运量(吨)

时间

货运量(吨)

时间

货运量(吨)

1978

107500

1985

127500

1992

152300

1999

157200

2006

245500

1979

109495

1986

132219

1993

156800

2000

166100

2007

262400

1980

108600

1987

136949

1994

157300

2001

179200

2008

275200

1981

104836

1988

140555

1995

159500

2002

187600

2009

277600

1982

111048

1989

146805

1996

161800

2003

199800

2010

309541

1983

116070

1990

146200

1997

162000

2004

217800

2011

329535

1984

121215

1991

147900

1998

153400

2005

231800

数据来源:中国统计局年度数据官网

根据1978—2011年国家铁路的货运量数据作散点图,如图1所示.

图1 1978-2011国家铁路货运量增长趋势图

由该图能够很容易的看出,国家铁路货运量总体是呈增长趋势的.

通过它的增长趋势我们可以尝试使用时间序列的趋势外推法、移动平均法以及时间序列的指数平滑法来进行预测分析.

不妨以1978年为t=1,选择合适的趋势外推曲线,从图形上来看,线性趋势明显不合适,我们可以选择二次型与S曲线模型作为候选的模型.

3.1.1二次型模型

由二次曲线预测模型 来拟合该序列的发展,

通过前面二次型里介绍的公式可计算出未知参数的估计值:

.

模型的解析式为:.

检验该方程,方程以及各参数都显著.

所以可用二次型来拟合34年以来的国家铁路货运量的长期变化趋势.拟合效果如图2.

图2 二次型曲线拟合图

3.1.2 S曲线型模型

由S曲线预测模型y=k*,k>0,a<1,0<b<1.来拟合序列的发展趋势,通过前面介绍的参数求解方法可以求出相应的参数,

其对应的模型解析式为: .

拟合效果如下图图3所示

图3 S曲线拟合图

3.1.3 移动平均法

在选用移动平均法时需要对移动平均长度做一定的判断这里选取移动平均的长度为1,2作对比发现在取1时平均绝对误差(MAD)更小一点精度更高一些;

移动平均长度

平均绝对误差(MAD)

1

7569

2

10859

3.1.4单指数平滑法

在进行单指数平滑法时需要选取最佳的平滑常量,当平滑系数取0.5时这里我们可以根据国家铁路的货运量的平滑图看出平滑常量为1.63240 实际值与预测值的趋势拟合图如下图4 所示:

图4 单指数法拟合图

3.1.5 部分小结与结论

三种模型的拟合效果图如下

由上图不难看出单指数平滑模型与实际值更接近一些,单指数平滑法预测:2012年的值为:

周期

预测

下限

上限

2012

329087

316329

341846

3.2 ARIMA模型法

3.2.1 数据的处理以及模型的建立

由图1从图中我们可以看出观察值具有明显地增长趋势,故判定序列不平稳,所以要先对它进行平稳化处理.由时序图所呈现出来的变化趋势,先对其观察值序列进行一阶差分,可以粗略的看到一阶差分的时序图仍然是具有一定的上升趋势.

所以这时需要对一阶差分序列做自相关,从而对一阶差分做白噪声检验,判断它

的平稳性.

所绘制出一阶差分的自相关图,如下所示:

白噪声检验结果如下表所示:

对一阶差分后序列进行白噪声检验

延迟阶数(lag)

卡方统计量

P值

6

12

24

25.94

30.48

49.02

0.999772

0.997637

0.998117

在显著性水平α取0.05的条件下,发现1-P<α,在1-α的置信区间内不平稳,即仍有不可忽略的信息未被提取出来,则再对一阶差分做差分,时序图如下所示:

从二阶差分的时序图上我们可以粗略的看出来二阶差分序列像是随机波动的了,但是仍然需要对其做白噪声检验从而从科学计算的方面说明二阶差分是平稳的,即白噪声序列

绘制出的二阶差分的自相关图如下所示:

白噪声检验如下表所示:

对二阶差分序列进行白噪声检验

延迟阶数(log)

卡方检验统计量

P值

6

12

24

8.84

14.45

22.35

0.817222

0.727101

0.441615

在显著性水平α取0.05的条件下,发现1-P>α,在1-α的置信区间内平稳,即信息已提取充分,如果这时再作差分将变成过差分,过差分的实质就是因为过多的进行差分导致了有效信息的无所谓的浪费,从而降低了估计的精度.

故有选取的ARIMA中d=2

由上面的二阶差分的自相关图可以发现MA一阶截尾,再对二阶差分序列做偏自相关图,如下所示二阶差分的偏自相关图:

从二阶差分的偏自相关图中我们可以发现AR二阶截尾,所以有ARIMA可以选取ARIMA(0,2,1)和ARIMA(2,2,0)两种可能情况,分别对两种情况进行论证:

3.2.2 模型的判断与选取

  1. 取ARIMA(0,2,1) 时

作ARIMA(0,2,1)的综合自回归移动平均,则有

参数的最终估计值:

类型

系数

系统误差

P值

移动平均

1

0.7209

0.1338

0.000

常量

580.1

318.8

0.079

由上表可以发现因为移动平均的P值小于α (α=0.05)故可以说明参数P值显著不需要修正,该模型可行.

差值2,正规差值

观测值个数: 原始序列 34,32差值之后

残差: SS=11338359984(不包括向后预测)

MS=37794533 DF=30

由AIC公式:

可以算出

.

2) 取ARIMA(2,2,0)时

作ARIMA(2,2,0)的综合自回归移动平均,则有

参数的最终估计值:

类型

系数

系数标准误差

P值

AR

1

-0.6652

0.1687

0.000

AR

2

-0.6272

0.2457

0.016

常量

1441

1091

0.197

由上表可以发现因为移动平均的P值小于α (α=0.05)故可以说明参数P值显著不需要修正,该模型可行.

差值2,正规差值

观测值个数: 原始序列 34 ,32 差值之后

残差: SS=1133835984(不包括向后预测)

MS=1092868048 DF=29

由AIC公式:

可以算出

比较两种情况的AIC可知:

所以这里我们选取AIC1效果好一点,即选取对应的模型为ARIMA(0,2,1)来对未来三年做预测.

3.2.3 模型的诊断与检验

白噪声检验结果如下所示,当α=0.05时所有的1-P值均大于α,我们可以认为残差序列为白噪声序列.卡方检验的结果表明我们不可以拒绝残差不相关的原假设,即所建立的模型是合适的

二阶差分的残差的白噪声检验结果:

延迟期数(Lag)

卡方检验统计量

P值

6

1.29

0.0277938

12

5.64

0.0668083

24

13.43

0.0415047

3.2.4 模型的预测

对国家铁路货运量作综合自回归移动平均图有2012-2014年国家铁路货运量的预测值为:

从周期34后开始的预测

95%限制

周期

预测

下限

上限

35

348966

336914

361018

36

368978

349410

388545

37

389569

362448

416690

最后作原观察值序列和观察值序列ARIMA(0,2,1)拟合值的时序图如下:

word-image-68.png插图

因此使用ARIMA(0,2,1)更能解释序列的波动规律:拥有一个长期的递增趋势.同时它还受到诸多随机因素比如水路运输公路运输以及国家政策等的影响,导致随机波动序列具有短期相关性.

5.总体小结与结论

(1)本文选取的例子数据是年运货量,其存在明显的趋势性,不能对数据直接拿过来使用,需要对数据进行一定的处理,对其隐藏的不容忽视的信息进行提取,在对其进行时间序列分析,建立适当的模型,从而更好地进行预测.

(2)在长期的趋势下,货物运输随着改革开放经济的发展而必然呈现出一定的趋势,通过本文的建模与预测,我们可以很好的对国家铁路的货运量的趋势性变动有很好的认识,这将会为以后全国铁路货运量预测和劳动力的解放从而制定科学的经济发展策略提供了科学性的依据.

(3)铁路运输具有运输能力大,运速快,安全高,成本低,污染小,潜能大,不受天气条件的影响是其它运输方式所无法比拟的,所以预测铁路每年的货运量从而合理的安排资源的调配对于中国的经济增涨有巨大的优势.

参考文献

[1] 国家统计局统计年鉴(数据来源).

[2] 何小群,刘文卿.应用回归分析(第三版)[M].中国人民大学出版社.

[3] 王燕.应用时间序列分析(第三版)[M].中国人民大学出版社.

[4] [美]Ruey S.Tsay著.金融时间序列分析(第3版)[Analysis of Financial Time series] [M].

[5]Peter J.Brockwell and Richard A.Davis 著,田铮译.时间序列的理论与方法(第二版)[M].北京:高等教育出版社,2001.

相关新闻