统计学中,在采用抽样分析的方法进行参数估计与推断时,常要求样本数据数量、完整性好,且须满足随机抽取等特点。在实际应用中会遇到一系列按顺序排列的截尾样本数据,用普通的参数估计方法得到的参数估计值误差可能会较大,本文将回归分析方法推广到利用次序截尾数据推断正态总体参数中,且对所做结果进行模拟计算。通过误差比对,认为该方法是可行的,本文最后利用该方法通过部分排序的学生成绩推断了总体的平均成绩。 The characteristics such as sample data amount, good integrity, and meeting the random drawing are often required in using the method of sampling analysis for parameter estimation and inference in statistics. However, in practice we are often faced with a series of order censored data, and the parameter error obtained by the usual estimation methods may be very big. In this paper, the method of regression analysis was used to deduce the overall parameters by using the order truncation data and to do the simulation calculation. It is shown that the method is feasible by comparing the error. Finally we used the method to solve the problem about estimating the overall average score by using some sort of student achievement.
孙彩云,常梦颖,岳琴,谢昆明,曾海强
华北科技学院基础部,北京
收稿日期:2016年6月7日;录用日期:2016年6月27日;发布日期:2016年6月30日
统计学中,在采用抽样分析的方法进行参数估计与推断时,常要求样本数据数量、完整性好,且须满足随机抽取等特点。在实际应用中会遇到一系列按顺序排列的截尾样本数据,用普通的参数估计方法得到的参数估计值误差可能会较大,本文将回归分析方法推广到利用次序截尾数据推断正态总体参数中,且对所做结果进行模拟计算。通过误差比对,认为该方法是可行的,本文最后利用该方法通过部分排序的学生成绩推断了总体的平均成绩。
关键词 :次序截尾数据,回归分析,次序统计量
统计学中,在采用抽样分析的方法进行参数估计与推断时,常要求样本数据数量、完整性好,且须满足随机抽取等特点。然而在实际应用中常会遇到一系列按顺序排列的截尾样本数据,例如在教学活动中,经常会组织学生参加各类学科竞赛,竞赛组织方通常只公布获奖选手的成绩(可看成顺序截尾样本),而不公布所有参赛学生的成绩。这就涉及到参赛学校怎样根据获奖选手的成绩对本校所有参赛学生的整体成绩进行推断,从而评价各种教学指标的优劣。从数理统计的角度看,本问题可化为由次序截尾样本对总体参数进行统计推断的问题。
本文欲采用回归分析方法对总体参数进行推断。众所周知,传统的回归分析是一种强有力的数据处理工具,在自然科学和社会科学的各个领域都有广泛的应用,但是它只适用于来自正态分布的完全数据 [
设
在这个等式中,
由密度函数可以计算次序统计量
其中:
上面各式中,
普通线性回归模型
由此,
称为
设
令
则
由(1)、(2)、(3)式可知
其中
记
其中
其协方差矩阵为
该估计方法的优点在于,不论
为了客观说明以上估计方法的可行性,本文由计算机随机产生正态分布
产生的样本如下:
0.8621 0.8782 1.3564 1.3881 1.5075 1.8432 1.8461 1.8581
2.1582 2.2333 2.3906 2.5985 2.7109 3.1354 3.2702
所得的结果见表1。
绘制对参数
从以上两个图可以看出当样本容量n固定的时候,随着截尾样本数r的增大,采用次序截尾数据线性回归方法来估计对正态分布整体的均值和标准差的估计值的相对误差整体基本呈下降趋势,而且相对误差控制在10%之内,符合实际应用中的估计要求。
华北科技学院建工学院在2013年5月份派出22名学生参加了该校基础部组织的大学生数学建模比赛的选拔考试,赛后基础部只返回了获奖学生选手的名单及参赛成绩,而其他选手的成绩未出现,获奖名单及分数见表2。
样本 | ||||||
---|---|---|---|---|---|---|
n = 15 r = 5 | 2 | 1.808759 | 0.09562 | 0.8 | 0.58897 | 0.263788 |
n = 15 r = 6 | 2 | 2.088105 | 0.044052 | 0.8 | 0.824554 | 0.030693 |
n = 15 r = 7 | 2 | 1.956924 | 0.021538 | 0.8 | 0.704688 | 0.11914 |
n = 15 r = 8 | 2 | 1.873929 | 0.063035 | 0.8 | 0.622486 | 0.221892 |
n = 15 r = 9 | 2 | 1.999523 | 0.000238 | 0.8 | 0.757206 | 0.053492 |
n = 15 r = 10 | 2 | 1.974166 | 0.012917 | 0.8 | 0.727117 | 0.091104 |
n = 15 r = 11 | 2 | 1.985079 | 0.00746 | 0.8 | 0.741101 | 0.073623 |
n = 15 r = 12 | 2 | 2.003595 | 0.001797 | 0.8 | 0.767312 | 0.04086 |
n = 15 r = 13 | 2 | 1.99054 | 0.00473 | 0.8 | 0.747343 | 0.065822 |
n = 15 r = 14 | 2 | 2.01821 | 0.009105 | 0.8 | 0.796099 | 0.004877 |
n = 15 r = 15 | 2 | 2.003455 | 0.001727 | 0.8 | 0.762231 | 0.047211 |
表1. 模拟计算的结果
图1. μ的相对误差分析图
为了解学生的学习状况,现欲利用次序截尾数据线性回归分析方法估计所有参赛选手的整体平均成绩。由经验知,学生成绩服从正态分布
姓名 | 性别 | 分数 |
---|---|---|
杨涛 | 男 | 86 |
邓志明 | 男 | 81 |
李倩倩 | 女 | 72 |
李冠希 | 女 | 71 |
周振波 | 男 | 69 |
赵雅琼 | 女 | 69 |
牛亚超 | 男 | 68 |
葛志伟 | 男 | 67 |
表2. 竞赛成绩
图2. σ的相对误差分析图
本文讨论了次序统计量的期望和方差的计算公式,结合广义Gauss-Markov模型提出了一种次序截尾数据的线性回归分析方法,将只适用于完全数据的传统回归分析推广到了常见的次序截尾数据。通过计算机模拟计算发现,该方法对整体均值和标准差的估计值的相对误差整体基本呈下降趋势,而且相对误差控制在10%之内,符合样本量越大估计越精准的事实,实际案例的应用也进一步验证了该方法的应用效果。
国家级大学生创新创业训练计划项目(编号:201511104044);华北科技学院教育科学研究课题基金资助(编号:HKJY201439);华北科技学院应用数学重点学科资助项目(编号:HKXJZD201402)。
孙彩云,常梦颖,岳琴,谢昆明,曾海强. 利用次序截尾数据线性回归方法推断正态总体的未知参数Using Order Censored Data Regression Method to Infer the Normal Overall Unknown Parameter[J]. 统计学与应用, 2016, 05(02): 172-178. http://dx.doi.org/10.12677/SA.2016.52017