设为首页
加入收藏
期刊导航
网站地图
首页
期刊
数学与物理
地球与环境
信息通讯
经济与管理
生命科学
工程技术
医药卫生
人文社科
化学与材料
会议
合作
新闻
我们
招聘
千人智库
我要投搞
办刊
期刊菜单
●领域
●编委
●投稿须知
●最新文章
●检索
●投稿
文章导航
●Abstract
●Full-Text PDF
●Full-Text HTML
●Full-Text ePUB
●Linked References
●How to Cite this Article
Statistics
and Application
统计学与应用
, 2016
,
5(2)
,
172-178
Published Online
June
2016
in
H
ans. http://www.hanspub.org/journal/
sa
http://dx.doi.org/10.12677/sa.2016.52017
文章引用
:
孙彩云
,
常梦颖
,
岳琴
,
谢昆明
,
曾海强
.
利用次序截尾数据线性回归方法推断正态 总体的未知参 数
[J].
统计学与应用
, 2016,
5(2): 17
2-178. http://dx.doi.org/10.12677/sa.2016.52017
Using Order Censored Data Regression
Method to Infe
r the
Normal
Overall
Unknown Parameter
Caiyun Sun, Mengying Chang,
Qin Yue, Kunming Xie, Haiqiang Zeng
Department of Basic Subject, North China University of Science & Technology, Beijing
Received
:
Jun
.
7
th
, 2016;
accepted
: Jun.
27
th
, 2016; published: Jun.
30
th
, 2016
Copyright © 2016
by authors and
Hans Publishers
Inc.
This work is licensed under the Creative Commons Attribution
International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
Abstract
The
characteristics
such as
sample data amount, good integrity, and meet
ing
the random
drawing
are
often required
i
n using the method of sampling analysis for parameter estimation and infe-
rence
in
s
tatistics. However, in practice we are often faced with a series of order
censor
ed data,
and
the parameter erro
r
obtained by the usual
estimat
ion
methods
may be very big. In this paper,
the method of regression analysis
w as
use
d to
deduce the overall parameters by using the order
truncation
data
and to do the simulation calculation
.
I
t is shown that
the method is feasible
by
comparing the
error
.
Finally we
use
d
the method to solve the problem about
estimat
ing
th
e ove
r-
all average score
by
us
ing
some sort of student achievement.
Keywords
Order Censored Data, Regression Analysis, Order Statistics
利用次序截尾数据线性回归方法推断正态总体
的未知参数
孙彩云
,
常梦颖
,岳
琴,
谢昆明
,
曾海强
华北科技学院基础部,北京
孙彩云
等
173
收稿日期:
2016
年
6
月
7
日;录用日期:
2016
年
6
月
27
日;发布日期:
2016
年
6
月
30
日
摘
要
统计学中,在采用抽样分析的方法进行参数估计与推断时,常要求样本数据数量、完整性好,且须满足
随机抽取等特点。在实际应用中会遇到一系列按顺序排列的截尾样本数据,用普通的参数估计方法得到
的参数估计值误差可能会较大,本文将回归分析方法推广到利用次序截尾数据推断正态总体参数中,且
对所做结果进行模拟计算。通过误差比对,认为该方法是可行的,本文最后利用该方法通过部分排序的
学生成绩推断了总体的平均成绩。
关键词
次序截尾数据,回归分析,次序统计量
1.
引言
统计学中,在采用抽样分析的方法进行参数估计与推断时,常要求样本数据数量、完整性好,且须
满足随机抽取等特点。然而在实际应用中常会遇到一系列按顺序排列的截尾样本数据,例如在教学活动
中,经常会组织学生参加各类学科竞赛,竞赛组织方通常只公布获奖选手的成绩
(
可看成顺序截尾样本
)
,
而不公布所有参赛学生的成绩。这就涉及到参赛学校怎样根据获奖选手的成绩对本校所有参赛学生的整
体成绩进行推断,从而评价各种教学指标的优劣。从数理统计的角度看,本问题可化为由次序截尾样本
对总体参数进行统计推断的问题。
本文欲采用回归分析方法对总体参数进行推断。众所周知,传统的回归分析是一种强有力的数据处
理工具,在自然科学和社会科学的各个领域都有广泛的应用,但是它只适用于来自正态分布的完全数据
[1]
。对于次序截尾数据是无法处理的。茆诗松等人提出了截尾数据的最佳线性无偏估计方法
[2]
,傅惠民
等人又提出了最佳无偏整体估计方法
[3]
,本文结合这两种方法,将回归分析方法推广到利用次序截尾数
据推断总体参数的问题当中,并且对所做结果进行模拟计算,通过误差比对,说明了该方法的可行性。
2.
预备知识
2.1.
次序统计量
设
12
, ,,
n
XX X
是来自某个总体的一个样本。该样本的第
i
个次序统计量记为
( )
i
X
,它是如下的样本
函数,每当该样本得到一组观测量值
12
,,,
n
xx x
时,将它们从小到大排列起来为
( )()()
12
n
xx x
≤ ≤≤
,其
中第
i
个值
( )
i
x
就是
( )
i
X
的观测值。称
(
)( )
( )
( )
12
, ,,
n
XX X
为该样本的次序统计量。由文献
[4]
知,若总体的
分布函数为
( )
Fx
,密度函数为
( )
px
,可推出次序统计量的密度及联合密度如下:
( )
i
X
的密度函数为
( )
i
gy
,其中
1
in
≤≤
。
( )
() ()
( )( )( )
1
!
1
1! !
i ni
ii ii
n
gyFyFy py
i ni
−−
= −
−−
( )
i
X
和
( )
j
X
的联合密度函数为
( )
,
ij
gyy
,其中
1
i jn
≤< ≤
。
( )
()
() ()
( )
(
)
( )
( )
( )
( )
1
1
!
,1
1!1 !!
j inj
i
ijijiji j
n
gyyFyFyFyFypypy
kj inj
−− −
−
= −−
−−− −
孙彩云
等
174
在这个等式中,
ij
yy
≤
都成立,在其他的场合
( )
,0
ij
gyy
=
。
由密度函数可以计算次序统计量
(
)
i
X
的期望和方差,记
( )
,1, ,
i
i
EXi n
µ
==
,
( )()
( )
,,1 ,
ij
ij
Cov XXvijn
= ≤≤
,则
( )
() ()
( )( )( )
() ()
( )
( )( )( )
11
-
1
1
0
!
d 1d
1! !
!
1d
1! !
in
i iii iiiii
ni
i
iii i
n
ygy yyFyFypy y
i ni
n
yFFyFy Fy
i ni
µ
+∞ +∞
−−
−∞ ∞
−
−
= =−
−−
= −
−−
∫∫
∫
(1)
其中:
( )
i
yF
为
( )
i
Fy
的反函数
() ()
( )
( )( )()
1
1
2
2
0
!
1d
1! !
i ni
iiiiii i
n
myF FyFyFy
i ni
α
−−
= −−
−−
∫
(2)
()() ()
( )
( )
( )
( )
( )
( )( )
( )
1
1
1
00
1
!
1!1! !
1 dd
i
ji
Fy
k
ijij i
nj
jiij ij
n
mFyFy Fy
ijinj
yFyFy Fy
αα
−−
−
−
−
= −
−−−−
×− −
∫∫
(3)
上面各式中,
i
µ
,
( )
1,
ij
mijr n
≤ ≤≤
仅与
n
,
i
,
j
和
( )
Fx
有关,可通过查表和专门程序计算
[5]
得到。
2.2.
广义
Gauss-
Markov
模型
普通线性回归模型
( )
2
,,
n
YX I
βσ
[5]
中,若将
(
)
2
n
Var YI
σ
=
改为
(
)
2
Var YG
σ
=
,
G
为已知正定阵,
则形成所谓的广义
Gauss
-
Markov
模型,对此模型,因
G
> 0
,存在
n
阶非奇异对称阵
2
B
,使
2
GB
=
。令
11
,
Y BYX BX
−−
= =
,则
11
EY BEY BXX
ββ
−−
= ==
( )
( )
1 12
n
Var YBVar YBI
σ
−−
= =
由此,
( )
2
,,
n
YX I
βσ
是一个
Gauss
-
Markov
模型,由该模型得到的最小二乘估计
(LSE)
为
( )
( )
1
1
11
XX XYXGX XGY
β
−
−
−−
′′′′
= =
(4)
称为
β
的加权最小二乘估计,由文献
[6]
,知它仍是
β
的最好线性无偏估计
(
BLUE
)
。
3.
次序截尾数据线性回归方法
设
12
, ,,
n
XX X
是来自
(
)
2
,
N
µσ
的一个样本,要估计
µ
和
σ
(
0
σ
>
)
。设
( )()
()
12
r
XX X
≤ ≤≤
为观
测到的前
( )
1, 2,,
rr n
=
个次序统计量,
1,
ij rn
≤ ≤≤
考虑这样一类估计,它们是次序统计量的线性函数。
令
( )( )
( )
0
,1, ,
ii
XXi r
µσ
=−=
(5)
则
( )()
00
1
r
XX
≤≤
相当于抽自
( )
x
Φ
的容量为
n
的前
r
个截尾样本。记
( )
0
,1,,
i
i
EXi r
α
==
( )()
( )
00
,,1,
ij
ii
Cov XXvijr
= ≤≤
孙彩云
等
175
由
(1)
、
(2)
、
(3)
式可知
,
i ij
v
α
只依赖于
n
,
,
ij
和
( )
x
Φ
,而与
,
µσ
无关,由于
( )
x
Φ
已知,所以当
r
取
定后,
,
i ij
v
α
是可计算的。将
(5)
式化成
( )( )
0
ii
ii
XX
µσµσα ε
=+ =++
(6)
其中
( )
( )
( )
0
1, 2,
ii
i
Xi
εσα
=−=
记
( )()
( )
1
,,
r
XXX
′
=
,
( )
1
,,
r
αα α
′
=
,用矩阵表示
(5)
式,有
( )
1,
r
EX
µ
α
σ
=
(7)
( )
( )
22
ij
rr
Var XVv
σσ
×
= =
(8)
其中
1
r
表示全部由元素
1
组成的
r
维列向量。这是广义
Gauss
-
Markov
模 型 ,由
(4)
式
可求出
µ
和
σ
的
BLUE
为
1
11
1
1
11
2
ˆ
1 11
1
ˆ
1
r rr
r
r
LX
u
VV
VX
LX
VV
α
σ
ααα
α
−
−−
−
−−
′
′′
′
=
′
′′
′
记作
(9)
其协方差矩阵为
11 12
2
12 22
ˆ
ˆ
LVL LVL
Var
LVLL VL
µ
σ
σ
′′
=
′′
(10)
该估计方法的优点在于,不论
n
个样品中被观测到的样品个数是多少
(
2
n
≥
)
,上述方法都可使用。
这样我们就可以由小样本进行线性回归,并且推断总体的未知参数,可以改进线性回归及统计推断在应
用上的一些局限性。
4.
模拟计算
为了客观说明以上估计方法的可行性,本文由计算机随机产生正态分布
( )
2,0.8
N
的
15
个次序随机
数作为一个样本
,分别截取前
r
个,利用次序截尾数据线性回归方法来估计正态整体的参数
µ
和
σ
的值,
并计算所得估计的相对误差。
产生的样本如下:
0.8621 0. 8782 1.3564 1. 3881 1.507 5 1.8432 1.84 6 1 1.8581
2.1582 2. 2333 2.3906 2. 5985 2.710 9 3.1354 3.27 0 2
所得的结果见表
1
。
绘制对参数
µ
和
σ
估计的相对误差分析
图,分别见
图
1
和图
2
。
从以上两个图可以看出当样本容量
n
固定的时候,随着截尾样本数
r
的增大,采用次序截尾数据线
性回归方法来估计对正态分布整体的均值和标准差的估计值的相对误差整体基本呈下降趋势,而且相对
误差控制在
10%
之内,符合实际应用中的估计要求。
5.
案例研究及结论
华北科技学院建工学院在
2013
年
5
月份派出
22
名学生参加了该校基础部组织的大学生数学建模比
赛的选拔考试,赛后基础部只返回了获奖学生选手的名单及参赛成绩,而其他选手的成绩未出现,获奖
名单及分数见表
2
。
孙彩云
等
176
Table 1.
Results of simulation
表
1.
模拟计算的结果
样本
µ
真值
ˆ
µ
估计值
ˆ
µµ
µ
−
σ
真值
ˆ
σ
估计值
ˆ
σσ
σ
−
n
=
15
r
= 5 2
1.808759
0.09562
0.8
0.58897
0.263788
n
= 15
r
= 6 2
2.088105
0.044052
0.8
0.824554
0.030693
n
=
15
r
= 7 2
1.956924
0.021538
0.8
0.704688
0.11914
n
= 15
r
= 8 2
1.873929
0.063035
0.8
0.622486
0.221892
n
= 15
r
= 9 2
1.999523
0.000238
0.8
0.757206
0.053492
n
= 15
r
=
10
2
1.974166
0.012917
0.8
0.727117
0.091104
n
= 15
r
=
11
2
1.985079
0.00746
0.8
0.741101
0.073623
n
= 15
r
=
12
2
2.003595
0.001797
0.8
0.767312
0.04086
n
= 15
r
=
13
2
1.99054
0.00473
0.8
0.747343
0.065822
n
= 15
r
=
14
2
2.01821
0.009105
0.8
0.796099
0.004877
n
= 15
r
=
15
2
2.003455
0.001727
0.8
0.762231
0.047211
Figure 1.
Relative error analysis of
μ
图
1.
μ
的相对误差分析图
为了解学生的学习状况,现欲利用次序截尾数据线性回归分析方法估计所有参赛选手的整体平均成
绩。由经验知,学生成绩服从正态分布
( )
2
,
N
µσ
,现参赛学生人数为
n
=
22
,获奖学生个数为
r
= 8
,
r
个学生的成绩为一组具体的次序截尾样本数据,用
12
r
yy y
≥≥≥
表示。因为数学竞赛采用的是百分制,
首先对成绩进行转换,令
100
ii
xy
= −
,
1, 2,,
ir
=
,则有
12
r
xx x
≤≤≤
。由式
(9)
,可计算出
µ
和
σ
的
BLUE
为
ˆ
62.0898
µ
=
,
ˆ
11.1909
σ
=
。
由于
ˆ
µ
是
X
的估计,将其进行转换 ,可 得到整体成绩的均值
ˆ
100 62.0898
y
µ
= −=
。此成绩与后来与基础部落实的实际平均参赛成绩
60.8
较吻合,相对误差仅为
2%
。
孙彩云
等
177
Table 2.
Competition result
表
2.
竞赛成绩
姓名
性别
分数
杨涛
男
86
邓志明
男
81
李倩倩
女
72
李冠希
女
71
周振波
男
69
赵雅琼
女
69
牛亚超
男
68
葛志伟
男
67
Figure
2.
Relative error analysis of
σ
图
2
.
σ
的相对误差分析图
6.
结语
本文讨论了次序统计量的期望和方差的计算公式,结合广义
Gauss
-
Markov
模型
提出了一种次序截尾
数据的线性回归分析方法,将只适用于完全数据的传统回归分析推广到了常见的次序截尾数据。通过计
算机模拟计算发现,该方法对整体均值和标准差的估计值的相对误差整体基本呈下降趋势,而且相对误
差控制在
10%
之内,符合样本量越大估计越精准的事实,实际案例的应用也进一步验证了该方法的应用
效果。
基金项目
国家级大学生创新创业训练计划项目
(
编号:
201511104044
)
;华北科技学院教育科学研究课题基金资
助
(
编号:
HKJY201439
)
;华北科技学院应用数学重点学科资助项目
(
编号:
HKXJZD201402)
。
孙彩云
等
178
参考文献
(References)
[1]
J
ean
dunn, O
. and
Ac
lark
, V
. (
1987) Applied
Statisti cs: Ana ly
sis of Variance and Regression
.
John Wiley
&
Sons, Inc
.,
New
York.
[2]
M
ao, S.S
. and
Wang, L.L
. (
1997)
Accelerated
Life T
est
.
S cience Press ,
Beijing.
(In Chinese)
[3]
傅惠民
,
黄伟
.
最佳线性无偏整体估计方法
[J
].
机械强度
,
2003
, 25(3):
319-324.
[4]
茆诗松
,
王静龙
,
濮晓松
.
高等数理统计
[M].
北京
:
高等教育出版社
,
2006.
[5]
傅惠民
,
林逢春
.
大样本顺序统计量均值、方差和协方差计算与验证
[J
].
机械强度
,
2007, 29(1):
048-052.
[6]
王松桂
,
史建红
,
等
.
线型模型引论
[M].
北京
:
科学出版社
,
20
04.
再次投稿您将享受以下服务:
1.
投稿前咨询服务
(QQ
、微信、邮箱皆可
)
2.
为您匹配最合适的期刊
3. 24
小时以内解答您的所有疑问
4.
友好的在线投稿界面
5.
专业的同行评审
6.
知网检索
7.
全网络覆盖式推广您的研究
投稿请点击:
http://www.hanspub.org/Submission.aspx