Statistics and Application
Vol.05 No.02(2016), Article ID:17921,7 pages
10.12677/SA.2016.52017

Using Order Censored Data Regression Method to Infer the Normal Overall Unknown Parameter

Caiyun Sun, Mengying Chang, Qin Yue, Kunming Xie, Haiqiang Zeng

Department of Basic Subject, North China University of Science & Technology, Beijing

Received: Jun. 7th, 2016; accepted: Jun. 27th, 2016; published: Jun. 30th, 2016

Copyright © 2016 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

ABSTRACT

The characteristics such as sample data amount, good integrity, and meeting the random drawing are often required in using the method of sampling analysis for parameter estimation and inference in statistics. However, in practice we are often faced with a series of order censored data, and the parameter error obtained by the usual estimation methods may be very big. In this paper, the method of regression analysis was used to deduce the overall parameters by using the order truncation data and to do the simulation calculation. It is shown that the method is feasible by comparing the error. Finally we used the method to solve the problem about estimating the overall average score by using some sort of student achievement.

Keywords:Order Censored Data, Regression Analysis, Order Statistics

利用次序截尾数据线性回归方法推断正态总体的未知参数

孙彩云,常梦颖,岳琴,谢昆明,曾海强

华北科技学院基础部,北京

收稿日期:2016年6月7日;录用日期:2016年6月27日;发布日期:2016年6月30日

摘 要

统计学中,在采用抽样分析的方法进行参数估计与推断时,常要求样本数据数量、完整性好,且须满足随机抽取等特点。在实际应用中会遇到一系列按顺序排列的截尾样本数据,用普通的参数估计方法得到的参数估计值误差可能会较大,本文将回归分析方法推广到利用次序截尾数据推断正态总体参数中,且对所做结果进行模拟计算。通过误差比对,认为该方法是可行的,本文最后利用该方法通过部分排序的学生成绩推断了总体的平均成绩。

关键词 :次序截尾数据,回归分析,次序统计量

1. 引言

统计学中,在采用抽样分析的方法进行参数估计与推断时,常要求样本数据数量、完整性好,且须满足随机抽取等特点。然而在实际应用中常会遇到一系列按顺序排列的截尾样本数据,例如在教学活动中,经常会组织学生参加各类学科竞赛,竞赛组织方通常只公布获奖选手的成绩(可看成顺序截尾样本),而不公布所有参赛学生的成绩。这就涉及到参赛学校怎样根据获奖选手的成绩对本校所有参赛学生的整体成绩进行推断,从而评价各种教学指标的优劣。从数理统计的角度看,本问题可化为由次序截尾样本对总体参数进行统计推断的问题。

本文欲采用回归分析方法对总体参数进行推断。众所周知,传统的回归分析是一种强有力的数据处理工具,在自然科学和社会科学的各个领域都有广泛的应用,但是它只适用于来自正态分布的完全数据 [1] 。对于次序截尾数据是无法处理的。茆诗松等人提出了截尾数据的最佳线性无偏估计方法 [2] ,傅惠民等人又提出了最佳无偏整体估计方法 [3] ,本文结合这两种方法,将回归分析方法推广到利用次序截尾数据推断总体参数的问题当中,并且对所做结果进行模拟计算,通过误差比对,说明了该方法的可行性。

2. 预备知识

2.1. 次序统计量

是来自某个总体的一个样本。该样本的第个次序统计量记为,它是如下的样本函数,每当该样本得到一组观测量值时,将它们从小到大排列起来为,其中第个值就是的观测值。称为该样本的次序统计量。由文献 [4] 知,若总体的分布函数为,密度函数为,可推出次序统计量的密度及联合密度如下:

的密度函数为,其中

的联合密度函数为,其中

在这个等式中,都成立,在其他的场合

由密度函数可以计算次序统计量的期望和方差,记

,则

(1)

其中:的反函数

(2)

(3)

上面各式中,仅与有关,可通过查表和专门程序计算 [5] 得到。

2.2. 广义Gauss-Markov模型

普通线性回归模型 [5] 中,若将改为为已知正定阵,则形成所谓的广义Gauss-Markov模型,对此模型,因G > 0,存在n阶非奇异对称阵,使。令,则

由此,是一个Gauss-Markov模型,由该模型得到的最小二乘估计(LSE)为

(4)

称为的加权最小二乘估计,由文献 [6] ,知它仍是的最好线性无偏估计(BLUE)。

3. 次序截尾数据线性回归方法

是来自的一个样本,要估计 ()。设为观测到的前个次序统计量,考虑这样一类估计,它们是次序统计量的线性函数。

(5)

相当于抽自的容量为n的前个截尾样本。记

由(1)、(2)、(3)式可知只依赖于n,,而与无关,由于已知,所以当取定后,是可计算的。将(5)式化成

(6)

其中

,用矩阵表示(5)式,有

(7)

(8)

其中表示全部由元素1组成的r维列向量。这是广义Gauss-Markov模型,由(4)式可求出的BLUE为

(9)

其协方差矩阵为

(10)

该估计方法的优点在于,不论个样品中被观测到的样品个数是多少(),上述方法都可使用。这样我们就可以由小样本进行线性回归,并且推断总体的未知参数,可以改进线性回归及统计推断在应用上的一些局限性。

4. 模拟计算

为了客观说明以上估计方法的可行性,本文由计算机随机产生正态分布的15个次序随机数作为一个样本,分别截取前r个,利用次序截尾数据线性回归方法来估计正态整体的参数的值,并计算所得估计的相对误差。

产生的样本如下:

0.8621 0.8782 1.3564 1.3881 1.5075 1.8432 1.8461 1.8581

2.1582 2.2333 2.3906 2.5985 2.7109 3.1354 3.2702

所得的结果见表1

绘制对参数估计的相对误差分析图,分别见图1图2

从以上两个图可以看出当样本容量n固定的时候,随着截尾样本数r的增大,采用次序截尾数据线性回归方法来估计对正态分布整体的均值和标准差的估计值的相对误差整体基本呈下降趋势,而且相对误差控制在10%之内,符合实际应用中的估计要求。

5. 案例研究及结论

华北科技学院建工学院在2013年5月份派出22名学生参加了该校基础部组织的大学生数学建模比赛的选拔考试,赛后基础部只返回了获奖学生选手的名单及参赛成绩,而其他选手的成绩未出现,获奖名单及分数见表2

Table 1. Results of simulation

表1. 模拟计算的结果

Figure 1. Relative error analysis of μ

图1. μ的相对误差分析图

为了解学生的学习状况,现欲利用次序截尾数据线性回归分析方法估计所有参赛选手的整体平均成绩。由经验知,学生成绩服从正态分布,现参赛学生人数为n = 22,获奖学生个数为r = 8,r个学生的成绩为一组具体的次序截尾样本数据,用表示。因为数学竞赛采用的是百分制,首先对成绩进行转换,令,则有。由式(9),可计算出的BLUE为。由于的估计,将其进行转换,可得到整体成绩的均值。此成绩与后来与基础部落实的实际平均参赛成绩60.8较吻合,相对误差仅为2%。

Table 2. Competition result

表2. 竞赛成绩

Figure 2. Relative error analysis of σ

图2. σ的相对误差分析图

6. 结语

本文讨论了次序统计量的期望和方差的计算公式,结合广义Gauss-Markov模型提出了一种次序截尾数据的线性回归分析方法,将只适用于完全数据的传统回归分析推广到了常见的次序截尾数据。通过计算机模拟计算发现,该方法对整体均值和标准差的估计值的相对误差整体基本呈下降趋势,而且相对误差控制在10%之内,符合样本量越大估计越精准的事实,实际案例的应用也进一步验证了该方法的应用效果。

基金项目

国家级大学生创新创业训练计划项目(编号:201511104044);华北科技学院教育科学研究课题基金资助(编号:HKJY201439);华北科技学院应用数学重点学科资助项目(编号:HKXJZD201402)。

文章引用

孙彩云,常梦颖,岳琴,谢昆明,曾海强. 利用次序截尾数据线性回归方法推断正态总体的未知参数
Using Order Censored Data Regression Method to Infer the Normal Overall Unknown Parameter[J]. 统计学与应用, 2016, 05(02): 172-178. http://dx.doi.org/10.12677/SA.2016.52017

参考文献 (References)

  1. 1. Jeandunn, O. and Aclark, V. (1987) Applied Statistics: Analysis of Variance and Regression. John Wiley & Sons, Inc., New York.

  2. 2. Mao, S.S. and Wang, L.L. (1997) Accelerated Life Test. Science Press, Beijing. (In Chinese)

  3. 3. 傅惠民, 黄伟. 最佳线性无偏整体估计方法[J]. 机械强度, 2003, 25(3): 319-324.

  4. 4. 茆诗松, 王静龙, 濮晓松. 高等数理统计[M]. 北京: 高等教育出版社, 2006.

  5. 5. 傅惠民, 林逢春. 大样本顺序统计量均值、方差和协方差计算与验证[J]. 机械强度, 2007, 29(1): 048-052.

  6. 6. 王松桂, 史建红, 等. 线型模型引论[M]. 北京: 科学出版社, 2004.

期刊菜单