Statistics and Application
Vol. 08  No. 06 ( 2019 ), Article ID: 33280 , 6 pages
10.12677/SA.2019.86101

Approach to a Generalized Ratio Estimator and the Optimality

Chen Xu, Chuan He

Department of Mathematics, Northeastern University, Shenyang Liaoning

Received: Nov. 14th, 2019; accepted: Nov. 27th, 2019; published: Dec. 4th, 2019

ABSTRACT

Ratio estimation of population totals is one of the oldest uses of auxiliary information in survey sampling. A new generalized ratio estimator is proposed in this article, and the usual ratio estimator is a special case of the new generalized ratio estimator. Then this article discusses under what circumstances, the mean squared error is minimum. Also the minimum mean squared error is derived. Finally, a meaningful application is given.

Keywords:Ratio Estimator, Mean Square Error, Survey Sampling

一种广义比估计及其性质的研究

徐晨,何川

东北大学理学院数学系,辽宁 沈阳

收稿日期:2019年11月14日;录用日期:2019年11月27日;发布日期:2019年12月4日

摘 要

抽样调查中比估计是一种可以提高抽样精度的估计方法,本文在一般比估计基础之上提出一种广义比估计方法,并说明一般比估计方法只是广义比估计方法的特例。接着本文中讨论了广义比估计的最优值及其估计量的优良性,最后本文中讨论了一个实际应用实例。

关键词 :比估计,均方误差,抽样调查

Copyright © 2019 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

抽样调查中常常利用比估计来提高调查的精度,对于调查的变量Y,如果有一个与调查变量Y相关性较高的辅助变量X,并且利用已有资料知道总体中辅助变量X的总值和均值,即可考虑利用比估计来估计调查变量Y的总值或者均值 [1]。另外,如果需要调查总体中两个变量X与Y的比值,也可以利用样本比值给出总体比值的估计。因此比估计是抽样调查中常用的方法,适用面广,常用于简单随机抽样法中,也可以用于分层随机抽样法中。

首先给出利用已知的辅助变量X的信息构造比估计,可以提高调查变量Y估计值精度的介绍。简单随机抽样下的比估计定义为:总体的两个变量Y和X的总值或均值的比率为 R = Y ¯ X ¯ = Y X ,简单随机样本中两个变量Y和X的总值或者均值的比率,也就是总体比例的估计值 R ^ = y ¯ x ¯ = y x ,因此调查变量Y的均值的比估计为 Y ¯ ^ R = R ^ X ¯ = y ¯ x ¯ X ¯ ,调查变量Y的总值的估计值为 Y ^ R = R ^ X = y ¯ x ¯ X = N R ^ X ¯ ,其中辅助变量X的总值或者均值需已知 [2] [3]。

由抽样调查中的知识可知比估计有如下性质 [4] - [11]:

• 比估计和变量Y的均值估计均为有偏估计: E ( R ^ R ) = O ( 1 n ) E ( Y ¯ ^ R Y ¯ ) = O ( 1 n )

• 比估计和变量Y的均值估计的均方误差分别为:

M S E ( R ^ ) = E ( R ^ R ) 2 = 1 f n 1 N 1 1 X ¯ 2 i = 1 N ( Y i R X i ) 2 + O ( 1 n 3 / 2 ) = O ( 1 n )

M S E ( Y ¯ ^ R ) = E ( Y ¯ ^ R Y ¯ ) 2 = 1 f n 1 N 1 i = 1 N ( Y i R X i ) 2 + O ( 1 n 3 / 2 ) = 1 f n ( S Y 2 2 R ρ S X S Y + R 2 S X 2 ) + O ( 1 n 3 / 2 ) = O ( 1 n )

其中抽样比 f = n N ,相关系数 ρ = S X Y S X S Y

• 当满足 R 2 S X 2 2 R ρ S X S Y ,即 ρ C X 2 C Y 时,其中变异系数 C X = S X X ¯ C Y = S Y Y ¯ ,比估计方法均值 Y ¯ 的估计值 Y ¯ ^ R 的均方误差优于简单估值法 Y ¯ ^ = y ¯ 的均方误差。

2. 广义比估计定义以及性质

2.1. 广义比估计定义

文 [12] 中对于超总体模型提出了一种广义差估计方法,文 [13] 中对于超总体模型提出了一种广义比估计方法,并与文 [12] 中的广义差估计方法进行了比较,讨论了其优良性。本文中对于总体中的二元变量X与Y给出一个广义比估计的定义,总体的两个变量总值或均值的广义比率

R a = Y ¯ X ¯ a = Y N 1 a X a

其中a为任意实数,简单随机样本中两个变量总值或者均值的广义比,即总体广义比的估计值 R ^ a = y ¯ x ¯ a = y n 1 a x a ,因此调查变量Y的均值的广义比估计值为 Y ¯ ^ R a = R ^ a X ¯ = y ¯ x ¯ a X ¯ a ,同样调查变量Y的总值的广义比估计为 Y ^ R a = N y ¯ x ¯ a X ¯ a ,特殊的当a = 1时,调查变量Y的均值的广义比估计即为一般的比估计,广义比估计与一般比估计要求一样,需要已知辅助变量X的总值或者均值;当a = 0时,调查变量Y的均值的广义比估计即为一般的简单估计。

2.2. 广义比估计的性质

由广义比估计的定义可以推知广义比估计有如下性质:

定理1. 调查变量Y的均值的广义比估计为有偏估计。

E ( Y ¯ ^ R a Y ¯ ) = a Y ¯ ( 1 f ) C X n [ ( a + 1 2 ) C X ρ C Y ]

其中抽样比 f = n N ,相关系数 ρ = S X Y S X S Y ,变异系数 C X = S X X ¯ C Y = S Y Y ¯

证明:记 ε 0 = x ¯ X ¯ X ¯ ,即 x ¯ = ( 1 + ε 0 ) X ¯ ε 1 = y ¯ Y ¯ Y ¯ ,即 y ¯ = ( 1 + ε 1 ) Y ¯ ,则可知 E ε 0 = 0 E ε 1 = 0 E ε 0 2 = 1 f n C X 2 E ε 1 2 = 1 f n C Y 2 E ε 0 ε 1 = 1 f n ρ C X C Y

又因为

Y ¯ ^ R a = y ¯ x ¯ a X ¯ a = ( 1 + ε 1 ) Y ¯ ( 1 + ε 0 ) a X ¯ a X ¯ a = Y ¯ ( 1 + ε 1 ) ( 1 + ε 0 ) a = Y ¯ ( 1 + ε 1 ) ( 1 a ε 0 + a ( a + 1 ) 2 ε 0 2 + ) = Y ¯ ( 1 + ε 1 a ε 0 a ε 0 ε 1 + a ( a + 1 ) 2 ε 0 2 + )

Y ¯ ^ R a Y ¯ Y ¯ ( ε 1 a ε 0 a ε 0 ε 1 + a ( a + 1 ) 2 ε 0 2 )

所以

E ( Y ¯ ^ R a Y ¯ ) Y ¯ E ( ε 1 a ε 0 a ε 0 ε 1 + a ( a + 1 ) 2 ε 0 2 ) = Y ¯ ( 0 0 a 1 f n ρ C X C Y + a ( a + 1 ) 2 1 f n C X 2 ) = a Y ¯ ( 1 f ) C X n [ ( a + 1 2 ) C X ρ C Y ]

定理1得证。

定理2. 调查变量Y的均值的广义比估计的均方误差为

M E S ( Y ¯ ^ R a ) = E ( Y ¯ ^ R a Y ¯ ) 2 = Y ¯ 2 ( 1 f ) n [ C Y 2 + a 2 C X 2 2 a ρ C X C Y ]

证明: M E S ( Y ¯ ^ R a ) = E ( Y ¯ ^ R a Y ¯ ) 2 Y ¯ 2 E ( ε 1 a ε 0 a ε 0 ε 1 + a ( a + 1 ) 2 ε 0 2 ) 2 Y ¯ 2 E ( ε 1 a ε 0 a ε 0 ε 1 ) 2 = Y ¯ 2 ( 1 f ) n [ C Y 2 + a 2 C X 2 2 a ρ C X C Y ]

定理2得证。

定理3. 调查变量Y的均值的广义比估计 Y ¯ ^ R a = y ¯ x ¯ a X ¯ a ,当 a = ρ C Y C X 时,估计值 Y ¯ ^ R a 的均方误差达最小,最小值为 min { M E S ( Y ¯ ^ R a ) } = 1 f n S Y 2 ( 1 ρ 2 )

证明:由定理2可知 M E S ( Y ¯ ^ R a ) = Y ¯ 2 ( 1 f ) n [ C Y 2 + a 2 C X 2 2 a ρ C X C Y ] ,因此对a求导可得:

d ( M E S ( Y ¯ ^ R a ) ) d a = Y ¯ 2 ( 1 f ) n [ 2 a C X 2 2 ρ C X C Y ] = 0

求得 a min = ρ C Y C X ,并且 Y ¯ ^ R a 的均方误差最小值

min { M E S ( Y ¯ ^ R a ) } = Y ¯ 2 ( 1 f ) n [ C Y 2 + ( ρ C Y C X ) 2 C X 2 2 ρ C Y C X ρ C X C Y ] = 1 f n S Y 2 ( 1 ρ 2 )

定理3得证。

由此可见广义比估计方法调查变量Y的均值 Y ¯ 的估计值 Y ¯ ^ R a 的最小的均方误差优于简单估值法 Y ¯ ^ = y ¯ 的均方误差 M E S ( Y ¯ ^ ) = 1 f n S Y 2 ,并且当调查变量Y与辅助变量X相关性越高时,广义比估计方法调查变量Y的均值 Y ¯ 的估计值 Y ¯ ^ R a 的最小均方误差越小。

3. 一个应用例题

调查某一社区居民用于食物的消费的支出,若该社区有居民共300户,共1100人,现简单随机抽样调查了其中的35户居民,调查各户的月食物支出Y (单位:元)和家庭人口X,得数据:

i = 1 35 x i = 120 i = 1 35 y i = 31350 i = 1 35 x i 2 = 450 i = 1 35 y i 2 = 29692900 i = 1 35 x i y i = 114440

• 按照简单估值法,估计每户每月用于食物的平均支出的估计值为 Y ¯ ^ = y ¯ = i = 1 35 y i 35 = 31350 35 895.70 ( ) ,这一估计的均方误差的估计值为:

M E ^ S ( Y ¯ ^ ) = 1 f n s Y 2 = 1 f n 1 n 1 [ i = 1 n y i 2 1 n ( i = 1 n y i ) 2 ] 1196.77

• 按照比估计法,以每户人数X作辅助变量,记 R = Y ¯ X ¯ 其估计值为 R ^ = y ¯ x ¯ = y x = 31350 120 = 261.25 ,因此每户每月用于食物的平均支出的估计值为 Y ¯ ^ R = R ^ X ¯ = 261.25 × 1100 300 957.92 ( ) ,这一估计的均方误差的估计值为:

M E ^ S ( Y ¯ ^ R ) = 1 f n 1 n 1 i = 1 n ( y i R ^ x i ) 2 = 1 f n 1 n 1 [ i = 1 n y i 2 2 R ^ i = 1 n x i y i + R ^ 2 i = 1 n x i 2 ] 453.6942

• 按照广义比估计法,以每户人数X作辅助变量,记 R a = Y ¯ X ¯ a ,其中 a = ρ C Y C X = S X Y S X S Y S Y / Y ¯ S X / X ¯ = S X Y S X 2 X ¯ Y ¯ 0.0607 时,估计值 Y ¯ ^ R a 的均方误差达最小。因此每户每月用于食物的平均支出的估计值为 Y ¯ ^ R a = R ^ a X ¯ = y ¯ x ¯ a X ¯ a = 31350 / 35 ( 120 / 35 ) 0.0607 ( 1100 300 ) 0.0607 899.37209 ,这一估计的均方误差的估计值为: M E ^ S ( Y ¯ ^ R a ) = 1 f n S Y 2 ( 1 ρ 2 ) = 1196.77 × ( 1 0.8819 2 ) 265.98499

由此可见广义比估计法的估计值相对而言比较适中,并且其估计值的均方误差最小。

4. 总结

本文中讨论了一种广义比估计方法,显然一般比估计方法只是广义比估计方法的特例,广义比估计法中有一个参数a,可以先根据具体问题确定参数a的值使得广义比估计法的估计值的均方误差达最小,并且本文证明了广义比估计方法得到的估计值的均方误差是小于简单估值法估计的均方误差。另外,一般比估计方法要求辅助变量X与调查变量Y有强相关性,但是广义比估计法没有此要求,当然如果辅助变量X与调查变量Y有较强相关性,则广义比估计法的估计值的均方误差会更小,效果则更优。

基金项目

国家自然科学青年基金《不定度量子流形的相关问题研究》,项目批准号:NSFC 1180106。

文章引用

徐 晨,何 川. 一种广义比估计及其性质的研究
Approach to a Generalized Ratio Estimator and the Optimality[J]. 统计学与应用, 2019, 08(06): 895-900. https://doi.org/10.12677/SA.2019.86101

参考文献

  1. 1. 李金昌. 应用抽样技术[M]. 北京: 科学出版社, 2010: 98-122.

  2. 2. 冯士雍, 施锡铨. 抽样调查-理论, 方法与实践[M]. 上海: 上海科学技术出版社, 1994: 20-30.

  3. 3. 孙山泽. 抽样调查[M]. 北京: 北京大学出版社, 2004: 13-50.

  4. 4. Cochran, W.G. (1978) Contributions to Survey Sampling and Applied Statistics. Academic Press Inc., New York, 3-10. https://doi.org/10.1016/B978-0-12-204750-3.50008-3

  5. 5. Fuller, W.A. (2009) Sampling Statistics. John Wiley & Sons Inc., Hoboken, NJ, 96-110.

  6. 6. Chaudhuri, A. and Stenger, H. (2005) Survey Sampling Theory and Methods. Second Edition, Taylor & Francis Group, New York, 48-60. https://doi.org/10.1201/9781420028638

  7. 7. Foreman, E.K. (1991) Survey Sampling Principles. Marcel Dekker Inc., New York, 48-60.

  8. 8. 倪加勋(主译), 孙山泽(校译). 抽样调查[M]. 北京: 中国统计出版社, 1997: 229-242.

  9. 9. Page, C., Kreling, D. and Matsumura, E.M. (1993) Comparison of the Mean Per Unit and Ratio Estimators under a Simple Applications-Motivated Model. Statistics & Probability Letters, 17, 97-104. https://doi.org/10.1016/0167-7152(93)90003-2

  10. 10. Nassiuma, D.K. (2001) Survey Sampling: Theory and Methods. Nairobi University Press, Nairobi, 50-85.

  11. 11. Sarndal, C.-E., Bengt, S. and Jan, W. (1992) Model Assisted Survey Sampling. Springer-Verlag, New York, 31-60.

  12. 12. Cassel, C.M., Sarndal, C.E. and Wretman, J.H. (1977) Foundation of Inference in Survey Sampling. John Wiley, New York, 15-30.

  13. 13. 邹国华, 冯士雍. 广义比估计与广义差估计及其优良性[J]. 系统科学与数学, 1998, 18(3): 359-365.

期刊菜单