Statistical and Application
Vol.04 No.04(2015), Article ID:16578,10 pages
10.12677/SA.2015.44027

Detecting Parameters Change Points in the Generalized Exponential Distribution

Aifang Qiao1*, Xijuan Niu2

1Department of Mathematics, Qinghai Normal University, Xining Qinghai

2College of Mathematics and Statistics, Northwest Normal University, Lanzhou Gansu

Received: Dec. 3rd, 2015; accepted: Dec. 20th, 2015; published: Dec. 23rd, 2015

Copyright © 2015 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

ABSTRACT

This paper proposes a likelihood ratio method and a CUSUM method to detect change points of location parameters and scale parameters in the generalized exponential distribution. A Bootstrap method is introduced to approximate the critical values of the statistics for the scale parameters change points without explicit estimation leading to the critical values of statistic not easy to calculate. Simulations show that the likelihood ratio method is better than the CUSUM method when detecting change points of location parameters, however, the likelihood ratio statistic can’t test change points of scale parameters. While the CUSUM method has the good performance testing two kinds of parameters change points. Combining the two methods can differentiate location parameters and scale parameters change points. Finally, the validity of proposed methods is demonstrated by analyzing a set of voltage data.

Keywords:Generalized Exponential Distribution, Change Point, Likelihood Ratio, CUSUM, Bootstrap

广义指数分布参数变点的检验

乔爱芳1*,牛玺娟2

1青海师范大学数学系,青海 西宁

2西北师范大学数学与统计学院,甘肃 兰州

收稿日期:2015年12月3日;录用日期:2015年12月20日;发布日期:2015年12月23日

摘 要

本文分别提出了检验广义指数分布位置参数及尺度参数变点的似然比方法和CUSUM方法,并针对尺度参数无显式估计导致检验统计量的临界值不易计算的问题,提出了用于近似统计量临界值的Bootstrap方法。模拟结果表明,似然比方法在检验位置参数变点时优于CUSUM方法,但无法检验出尺度参数变点,而CUSUM方法对两类参数变点都有较好的检验效果,结合两种方法能区分出两类参数变点。最后应用本文方法分析了一组电压数据,说明所给方法的有效性和实用性。

关键词 :广义指数分布,变点,似然比,CUSUM,Bootstrap

1. 引言

广义指数分布是由Gupta和Kundu [1] 在1999年提出的,其分布函数和密度函数分别为

, (1)

其中为尺度参数,为位置参数,将该分布记为。当时,GE分布为指数分布。广义指数分布已被广泛应用到可靠性寿命分析、物理工程、临床医学、图像处理等领域。近年来对这一分布的研究已有了一些成果,如文献 [2] 讨论了其次序统计量的矩;文献 [3] 给出了其贝叶斯统计推断;文献 [4] 在逐步增加I型截尾试验下,给出了尺度参数的近似极大似然估计;文献 [5] 给出了该分布的极大似然估计、矩估计、分位数估计、最小二乘估计和线性矩估计这五种估计,并对各类估计进行了数值模拟,得出极大似然估计均方误差最小;文献 [6] 将该分布与Gamma分布和Weibull分布分别进行比较,得出该分布在偏斜寿命数据中估计效果更好,可以替代Gamma分布和Weibull分布。

指数分布、Weibull分布、Gamma分布、双参数指数分布、广义指数分布等都是描述产品可靠性的常用分布,但由于诸多因素的影响,这些寿命分布中的参数可能在某个时刻发生改变,即产生变点。当数据中出现变点时,如果继续按照原有分布描述数据就会产生错误,因此检验这些寿命分布中的参数变点非常重要。为此,黄志坚和张志华 [7] 研究了可靠性数据在变点前后服从不同参数的指数分布产品的寿命分布,并且给出了参数的极大似然估计和贝叶斯估计。王黎明和王静龙 [8] 基于U-统计量,针对位置参数模型讨论了位置参数变点的检验问题,并将结果应用到了双参数指数分布和Weibull分布尺度参数变点的检验问题中。谭常春等 [9] 针对Gamma分布利用累积和方法介绍了检测变点位置的程序,并给出了变点的强相合估计和强收敛速度。王黎明 [10] 讨论了双参数指数分布变点的统计推断问题,给出了检验的渐近分布和变点的估计。而关于广义指数分布参数变点的检验问题尚无研究成果。

本文介绍了检验广义指数分布序列中位置参数变点和尺度参数变点的似然比方法和CUSUM方法,并针对尺度参数无显式估计导致检验统计量的临界值不易计算的问题,提出了用于近似统计量临界值的Bootstrap方法。数值模拟结果表明,似然比方法在检验位置参数变点时优于CUSUM方法,但是无法检验出尺度参数变点,而CUSUM方法对两类参数变点都有较好的检验效果,在检验时无法区分出位置参数变点和尺度参数变点,所以结合这两种方法能更好地检测广义指数分布中的两类参数变点。此外,和用渐近临界值做检验相比,利用Bootstrap方法做检验也能够较好的控制经验水平,且方便实际操作。最后应用本文方法分析了一组电压数据,说明所给方法的有效性和实用性。

2. 方法介绍

2.1. 似然比方法

2.1.1. 位置参数b的似然比检验

是来自广义指数分布(1)的一组样本,参数分别是。假定已知,不妨设,则关于参数的变点检验即是检验原假设和备择假设,其中,是变点的位置,为样本容量。在原假设下的对数似然函数为

的极大似然估计为,由于不是无偏的,修正之后得到无偏估计,因此在下的对数似然函数可化为

在备择假设下的对数似然函数为

的极大似然估计分别为

修正得到其无偏估计分别为

故而在下的对数似然函数可化为

,因此,检验的似然比统计量为

其中,

在给定显著性水平下,当(为临界值)时,拒绝原假设,认为序列中存在位置参数变点,否则,接受原假设,认为位置参数没有发生改变。

2.1.2. 尺度参数l的似然比检验

与上节类似地,关于参数的变点检验即是检验原假设和备择假设,其中,是变点的位置,为样本容量。在原假设下的对数似然函数为

求偏导数:,得出

, (2)

其中

由文献 [11] 可知式(2)存在唯一解,运用Newton-Raphson迭代法可求出其近似解。在备择假设下的对数似然函数为

分别求偏导数:

,得到

, (3)

, (4)

其中

同理,通过Newton-Raphson迭代法可以求出(3)、(4)的解。因此,检验的似然比统计量为

在给定显著性水平下,当(为临界值)时,拒绝原假设,认为序列中存在尺度参数变点,否则接受原假设,认为尺度参数没有发生改变。虽然可以通过迭代的方法来计算,但在实际应用中这种方法极为不便,为此进一步提出如下CUSUM方法。

2.2. CUSUM方法

是来自广义指数分布(1)的一组样本,变点出现在时刻,为样本容量。记,构造统计量

文献 [12] 给出了的极限分布,即

其中,的一致估计,是布朗桥。

故而得到CUSUM检验统计量

该方法对检验位置参数和尺度参数中的变点时都有效。在给定显著性水平下,当(为临界值)时,拒绝原假设,认为序列中存在变点,否则接受原假设,认为序列中的参数没有发生改变。

2.3. Bootstrap近似法

由于似然比统计量的渐近分布不易得到,故而构造Bootstrap抽样方法来确定统计量的经验临界值。Bootstrap方法已广泛应用于抽样技术中,陈占寿等 [13] 为确定监测统计量的临界值并避免估计厚尾指数,提出了Bootstrap重抽样方法。赵春辉等 [14] 提出了一种基于均值函数的核估计检验统计量,得到统计量在原假设和备择假设下的极限分布,并构造了Bootstrap方法对非参数回归模型均值函数结构变点进行检验,证明了检验和估计的一致性。

Bootstrap方法的步骤如下:

第一步,从中任意抽取个Bootstrap样本

第二步,将代入统计量,计算统计量的值。

第三步,重复第一步和第二步m次,用的经验分位数作为的临界值。

这里只给出了统计量的Bootstrap近似方法,实际上,对于统计量亦可采用类似方法计算临界值。

3. 数值模拟

本节通过数值模拟的方法,来检验上节所提方法的有限样本的性质,重点分析样本容量、参数值、变点位置等因素对上述两种检验统计量的影响。所有模拟程序均通过matlab软件生成(见附录),首先利用渐近方法模拟临界值,其方法是取样本容量为5000,令,通过10,000次循环计算出统计量的经验分位数作为其临界值。Bootstrap方法的重抽样次数

表1给出的是两种检验统计量在不同的样本容量条件下模拟所得的经验水平,循环次数为10,000 (下同),检验水平,0.05,0.01。通过观察可以发现,统计量的经验水平都比较接近于检验水平,经验水平扭曲的程度随样本容量的增大而减小。利用渐近临界值和Bootstrap方法做检验时,两种检验统计量都能较好的控制经验水平,但是实际中是未知的,需提前估计,且不同的对应不同的临界值,这给实际应用带来极大的不便,而Bootstrap方法不需要估计这些未知参数,在实际应用中更加方便。

表2给出了位置参数的取值在处由1变为2和1/2时两种检验统计量的经验势,变点位置取0.25,0.5,0.75,检验水平为0.05 (下同)。可以看出,当样本容量逐渐增大时,统计量的经验势均在增高,这说明两种统计量对位置参数的检验是一致的。但是似然比统计量明显比CUSUM统计量的检验效率高,说明似然比统计量在检验位置参数变点时优于CUSUM统计量。当变点位置靠近序列中间时,模拟所得的经验势比变点位置在两端时的经验势高,说明两种检验统计量对在序列中间位置出现的位置参数变点的检验效果更好。此外,利用渐近临界值和Bootstrap方法做检验所得的检验效率比较接近,这说明在实际应用中可以用Bootstrap方法代替渐近方法模拟临界值。

表3给出了尺度参数的取值在处由1变为2和1/2时两种检验统计量的经验势。可以看出,似然比统计量的检验效率较低,说明统计量对尺度参数的变化不敏感,无法检验出序列中的尺度参数变点。当样本容量逐渐增大时,统计量的经验势逐渐增高,当样本容量n = 200时,其经验势已非常接近1,说明CUSUM统计量对尺度参数变点的检验效果较好。当变点位置靠近序列中间时,CUSUM统计量模拟所得的经验势比变点位置在两端时的经验势高,这说明CUSUM统计量对在序列中间位置出现的尺度参数变点的检验能力较强。

综上所述,在检验位置参数变点时,两种检验统计量是一致性检验,且似然比统计量的检验效果优于CUSUM统计量,若变点恰好发生在序列的中间位置时,两种统计量的检验能力最强。在检验尺度参数变点时,似然比统计量对尺度参数的检验效果较差,无法检验出尺度参数变点,而CUSUM统计量对两类参数变点都比较敏感,在检验时无法区分出位置参数变点和尺度参数变点,所以结合这两种统计量能更好地检测广义指数分布序列中的两类参数变点。此外,利用Bootstrap方法做检验时控制经验水平的能力和用渐近临界值做检验时是一致的,且Bootstrap方法在实际操作时更为方便,所以在实际应用中可以用Bootstrap方法来代替渐近方法。总之,在实际应用时可以将似然比统计量和CUSUM统计量组合考虑来区分两类参数变点,以便得出更准确的结果。

4. 实例分析

本节通过一组家庭电力消费的数据来说明本文方法的有效性。数据包括2006年12月16日20:40~23:59家庭电力消费中电压的200个观测值,该数据集可以从UCI机器学习数据库 (http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption)中的“Individual Household Electric Power Consumption Data Set”中得到。图1是电压的原始数据图,图2的Q-Q图表明电压数据服从广义指数分布,因此,我们所选用的数据符合前文中提出的假设。

下面对数据做变点检验,按照CUSUM统计量图1数据进行计算,得到 (临界值由Bootstrap方法模拟得到),说明检验结果显著,即第97个数据处存在变点。但无法确定是位置参数还是尺度参数发生了改变。按照似然比统计量图1数据进行计算,检验结果不显著,即没有发现变点。根据上节中两种检验统计量对两类参数变点的检验能力分析可知,正是尺度参数的变化,产生了变点。

Table 1. Empirical size (percent)

表1. 经验水平(%)

Table 2. Empirical power of (percent)

表2. 参数的经验势(%)

Table 3. Empirical power of (percent)

表3. 参数的经验势(%)

Figure 1. The original voltage data changing over time

图1. 电压随时间变化的原始数据

Figure 2. Q-Q plot of generalized exponential distribution

图2. 广义指数分布的Q-Q图

综上所述,该家庭在2006年12月16日20:40~23:59期间的电压有明显的突变,变点出现在22:16时刻,自22:16~23:59电压升高,究其原因是因为这期间电器基本不运作,用电量明显减少,故而电压升高。

5. 结论

本文介绍了检验广义指数分布序列位置参数变点和尺度参数变点的似然比方法和CUSUM方法,并针对尺度参数无显式估计导致检验统计量的临界值不易计算的问题,提出了用于近似统计量临界值的Bootstrap方法。数值模拟结果表明,似然比方法在检验位置参数变点时优于CUSUM方法,但是无法检验出尺度参数变点,而CUSUM方法对两类参数变点都有较好的检验效果,在检验时无法区分出位置参数变点和尺度参数变点,所以结合这两种方法能更好地检测广义指数分布中的两类参数变点。此外,和用渐近临界值做检验相比,利用Bootstrap方法做检验也能够较好的控制经验水平,且方便实际操作。最后应用本文方法分析了一组电压数据,说明所给方法的有效性和实用性。

致谢

在此,我要感谢我的导师陈占寿老师,感谢陈老师对我在生活上的关心和学业上的精心指导。他渊博的知识、严谨求实、精益求精的治学态度和对专业前沿问题敏锐的洞察力深深地影响了我,使我不仅学到了本专业的理论知识,而且培养了我发现问题、分析问题、解决问题的能力,使我终身受益。我还要感谢国家自然科学青年基金、教育部人文社会科学基金、青海省自然科学青年基金的资助,以及所引用文献的作者对科学做出的贡献。

基金项目

国家自然科学青年基金(11301291),教育部人文社会科学基金(11XJA910001),青海省自然科学基金(2015-ZJ-717)资助。

文章引用

乔爱芳,牛玺娟. 广义指数分布参数变点的检验
Detecting Parameters Change Points in the Generalized Exponential Distribution[J]. 统计学与应用, 2015, 04(04): 242-251. http://dx.doi.org/10.12677/SA.2015.44027

参考文献 (References)

  1. 1. Gupta, R.D. and Kundu, D. (1999) Generalized Exponential Distributions. Australian and New Zealand Journal of Statistics, 41, 173-188. http://dx.doi.org/10.1111/1467-842X.00072

  2. 2. Raqab, M.Z. (2004) Generalized Exponential Distribution Moments of Order Statistics. Statistics, 38, 29-41. http://dx.doi.org/10.1080/0233188032000158781

  3. 3. Raqab, M.Z. and Madi, M.T. (2005) Bayesian Inference for the Generalized Exponential Distribution. Statistical Com- putation and Simulation, 75, 841-852. http://dx.doi.org/10.1080/00949650412331299166

  4. 4. Asgharzadeh, A. (2009) Approximate MLE for the Scaled Ge-neralized Exponential Distribution under Progressive Type- II Censoring. Journal of the Korean Statistical Society, 3, 223-229. http://dx.doi.org/10.1016/j.jkss.2008.09.004

  5. 5. Gupta, R.D. and Kundu, D. (2001) Generalized Ex-ponential Distribution: Different Methods of Estimations. Journal of Statistical Computation and Simulation, 69, 315-337. http://dx.doi.org/10.1080/00949650108812098

  6. 6. Gupta, R.D. and Kundu, D. (2001) Exponentiated Exponential Family: An Alternative to Gammaand Weibull Distributions. Biometrical Journal, 43, 117-130. http://dx.doi.org/10.1002/1521-4036(200102)43:1<117::AID-BIMJ117>3.0.CO;2-R

  7. 7. 黄志坚, 张志华. 基于指数分布数据的可靠性变点分析[J]. 武汉理工大学学报, 2008, 30(2): 157-160.

  8. 8. 王黎明, 王静龙. 位置参数变点的非参数检验及其渐近性质[J]. 数学年刊A辑(中文版), 2002(2): 229-234.

  9. 9. 谭常春, 缪柏其, 惠军. 分布参数变点的非参数统计推断[J]. 中国科学技术大学学报, 2008, 38(2): 149-156.

  10. 10. 王黎明. 双参数指数分布参数变点的统计推断[J]. 系统工程, 2004, 22(3): 106-110.

  11. 11. 苏海军, 杨煜普, 王宇嘉. 微分进化算法的研究综述[J]. 系统工程与电子技术, 2008, 30(9): 1793-1797.

  12. 12. Robbins, M., Gallagher, C., Lund, R., et al. (2011) Mean Shift Testing in Correlated Data. Journal of Time Series Analysis, 32, 498-511. http://dx.doi.org/10.1111/j.1467-9892.2010.00707.x

  13. 13. 陈占寿, 田铮. 一类厚尾随机信号平稳性的在线bootstrap监测[J]. 控制理论与应用, 2010, 27(7): 933-938.

  14. 14. 赵春辉, 田铮, 陈占寿. 非参数模型均值函数结构变点的Bootstrap检测[J]. 数理统计与管理, 2011, 30(4): 629-638.

附录

似然比统计量用渐近方法检验位置参数的经验势的matlab模拟程序

*通讯作者。

期刊菜单