比率估计与回归估计是利用辅助变量信息用以提高估计精度的非常重要的抽样技术。但在文献中,还没有方便的可以用于在仅给定基本的样本数据时得出总体均值与总体总值的比率估计量与回归估计量及其标准误差和置信区间的通用的R函数(程序)。本文自编了五个通用的R函数(程序):Compute_R_ratio()、Compute_Y_bar_Y_MR()、Compute_Y_bar_Y_ratio()、Compute_Y_bar_Y_lr()及Compute_Y_bar_Y_Rs_Rc_lrs_lrc(),它们将会为需要使用比率估计及回归估计抽样技术以提高估计精度进行实际问题分析的使用者提供极大的方便。 Ratio estimation and regression estimation are very important sampling techniques to improve estimation accuracy by using auxiliary variable information. However, in the literature, there is no general R function (program) which can be used to obtain the ratio estimator, regression estimator, standard error and confidence interval of the population mean and total value given only basic sample data. In this paper, we have written five general R functions (programs): Compute_R_ratio(), Compute_Y_bar_Y_MR(), Compute_Y_bar_Y_ratio(), Compute_Y_bar_Y_lr(), and Compute_Y_bar_Y_Rs_Rc_lrs_lrc(). The R functions (programs) will provide a great convenience for the users who need to use ratio estimation and regression estimation sampling techniques to improve the estimation accuracy and analyze practical problems.
比率估计与回归估计是利用辅助变量信息用以提高估计精度的非常重要的抽样技术。但在文献中,还没有方便的可以用于在仅给定基本的样本数据时得出总体均值与总体总值的比率估计量与回归估计量及其标准误差和置信区间的通用的R函数(程序)。本文自编了五个通用的R函数(程序):Compute_R_ratio()、Compute_Y_bar_Y_MR()、Compute_Y_bar_Y_ratio()、Compute_Y_bar_Y_lr()及Compute_Y_bar_Y_Rs_Rc_lrs_lrc(),它们将会为需要使用比率估计及回归估计抽样技术以提高估计精度进行实际问题分析的使用者提供极大的方便。
比率估计,回归估计,分层估计,点估计和区间估计,R函数
Shiyang Liu1*, Yingying Zhang1,2*#
1Department of Statistics and Actuarial Science, College of Mathematics and Statistics, Chongqing University, Chongqing
2Chongqing Key Laboratory of Analytic Mathematics and Applications, Chongqing University, Chongqing
Received: Mar. 12th, 2022; accepted: Mar. 25th, 2022; published: Apr. 11th, 2022
Ratio estimation and regression estimation are very important sampling techniques to improve estimation accuracy by using auxiliary variable information. However, in the literature, there is no general R function (program) which can be used to obtain the ratio estimator, regression estimator, standard error and confidence interval of the population mean and total value given only basic sample data. In this paper, we have written five general R functions (programs): Compute_R_ratio(), Compute_Y_bar_Y_MR(), Compute_Y_bar_Y_ratio(), Compute_Y_bar_Y_lr(), and Compute_Y_bar_Y_Rs_Rc_lrs_lrc(). The R functions (programs) will provide a great convenience for the users who need to use ratio estimation and regression estimation sampling techniques to improve the estimation accuracy and analyze practical problems.
Keywords:Ratio Estimation, Regression Estimation, Stratification Estimation, Point Estimation and Interval Estimation, R Function
Copyright © 2022 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
比率估计 [
我们推荐比率估计与回归估计中五个非常实用的R函数。
R函数1:Compute_R_ratio()
对于比率估计,给定
∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i 2 , ∑ i = 1 n y i 2 , ∑ i = 1 n x i y i , n , α
得到计算总体比率R的点估计和区间估计的R函数(程序) Compute_R_ratio()。由于正文版面的限制,函数Compute_R_ratio()的内容及输入输出的解释放在了补充材料中(下载链接: https://pan.baidu.com/s/1shGvwDATk7bQmnL97JpnDA?pwd=1234,提取码:1234)。
下面我们举一个例子来说明Compute_R_ratio()的使用方法。
例1 ( [
∑ i = 1 33 x i = 123 , ∑ i = 1 33 x i 2 = 533 , ∑ i = 1 33 y i = 907.2 , ∑ i = 1 33 y i 2 = 28224 , ∑ i = 1 33 x i y i = 3595.5
试对该地区平均每人每天用于食品的支出进行估计,并求其置信度为95%的置信区间。
解:显然现在需要估计总体比率R。可以计算:
R ^ = ∑ i = 1 33 y i ∑ i = 1 33 x i = 7.37561
v 2 ( R ^ ) = n ( n − 1 ) ( ∑ i = 1 n x i ) 2 ( ∑ i = 1 n y i 2 + R ^ 2 ∑ i = 1 n x i 2 − 2 R ^ ∑ i = 1 n y i x i ) = 0.2849919
s e ( R ^ ) = v 2 ( R ^ ) = 0.5338464
L = R ^ − t ⋅ s e ( R ^ ) = 6.32929 , U = R ^ + t ⋅ s e ( R ^ ) = 8.421929
代入数据计算如下:
> rm(list = ls(all = TRUE))
> source(subfunctions.R)
> res = Compute_R_ratio(sum_x = 123, sum_y = 907.2, sum_x2 = 533, sum_y2 = 28224, sum_xy = 3595.5, n = 33, alpha = 0.05); res
R_hat v_2_R_hatse_R_hat L U
1 7.37561 0.2849919 0.5338464 6.32929 8.421929
因此,该地区人均每天食品支出7.38元,区间估计为[6.33, 8.42]元。
R函数2:Compute_Y_bar_Y_MR()
对于比率估计,给定:
X ¯ 1 , X ¯ 2 , y ¯ , x ¯ 1 , x ¯ 2 , s y 2 , s x 1 2 , s x 2 2 , s y x 1 , s y x 2 , n , N , α
得到计算一元及二元辅助变量下总体均值 Y ¯ 与总体总值Y的比率估计量及其方差、标准误差及区间估计的R函数(程序) Compute_Y_bar_Y_MR()。由于正文版面的限制,函数Compute_Y_bar_Y_MR()的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明Compute_Y_bar_Y_MR()的使用方法。
例2 ( [
f = n N = 0 .05980066 , 1 − f n = 0.052233 3 , X ¯ 2 = 40.10 / 100
y ¯ = 13.7967 , x ¯ 1 = 24.43899 , x ¯ 2 = 38.4444 / 100 , s y 2 = 35.4858
s x 1 2 = 74.6789187 , s x 2 2 = 174.9671 / 10000 , s y x 1 = 42.26167 , s y x 2 = 46.5118 / 100
解:对于一元比率估计,只使用皮棉种植面积作为辅助变量时,可得:
Y ^ R 1 = y ¯ x ¯ 1 X 1 = R ^ 1 X 1 = 4205.796
v ( Y ^ R 1 ) = N 2 ( 1 − f ) n ( s y 2 + R ^ 1 2 s x 1 2 − 2 R ^ 1 s y x 1 ) = 54751.7
s e ( Y ^ R 1 ) = v ( Y ^ R 1 ) = 233.9908
L Y R 1 = Y ^ R 1 − t ⋅ s e ( Y ^ R 1 ) = 3747.183 , U Y R 1 = Y ^ R 1 + t ⋅ s e ( Y ^ R 1 ) = 4664.41
对于一元比率估计,只使用良种比例作为辅助变量时,可得:
Y ^ R 2 = y ¯ x ¯ 2 X 2 = R ^ 2 X 2 = 4331.646
v ( Y ^ R 2 ) = N 2 ( 1 − f ) n ( s y 2 + R ^ 2 2 s x 2 2 − 2 R ^ 2 s y x 2 ) = 116587.9
s e ( Y ^ R 2 ) = v ( Y ^ R 2 ) = 341.4497
L Y R 2 = Y ^ R 2 − t ⋅ s e ( Y ^ R 2 ) = 3662.417 , U Y R 2 = Y ^ R 2 + t ⋅ s e ( Y ^ R 2 ) = 5000.876
对于二元比率估计,即同时使用皮棉种植面积及良种比例做辅助变量,可得:
Y ^ M R = W 1 Y ^ R 1 + W 2 Y ^ R 2 = − 43250.28
v ( Y ^ M R ) = N 2 ( v 11 v 22 − v 12 2 ) v 11 + v 22 − 2 v 12 = − 11588534
s e ( Y ^ M R ) = v ( Y ^ M R ) = NaN
L Y M R = Y ^ M R − t ⋅ s e ( Y ^ M R ) = NaN , U Y M R = Y ^ M R + t ⋅ s e ( Y ^ M R ) = NaN
代入本题数据进行计算得到:
> res_Y_bar_Y_MR = Compute_Y_bar_Y_MR(X1_bar = 7450 / 301, X2_bar = 40.10 / 100, y_bar = 13.7967, x1_bar = 24.43899, x2_bar = 38.4444 / 100, s2_y = 35.4858, s2_x1 = 74.6789187, s2_x2 = 174.9671 / 10000, s_y_x1 = 42.26167, s_y_x2 = 46.5118 / 100, n = 18, N = 301, alpha = 0.05); res_Y_bar_Y_MR
Warning message:
In sqrt(v_y_bar_MR) : 产生了NaNs
$df_0_MR
f t R1_hat R2_hatv_11 v_22
1 0.05980066 1.959964 0.5645364 35.88741 0.6043168 1.286828
v_12 w_1 w_2
1 0.9451204 378.0842 -377.0842
$df_Y_bar_R1
y_bar_R1 v_y_bar_R1 se_y_bar_R1 L_Y_bar_R1 U_Y_bar_R1
1 13.972750.6043168 0.7773781 12.44911 15.49638
$df_Y_R1
Y_hat_R1 v_Y_hat_R1 se_Y_hat_R1 L_Y_R1U_Y_R1
1 4205.796 54751.7 233.9908 3747.183 4664.41
$df_Y_bar_R2
y_bar_R2 v_y_bar_R2 se_y_bar_R2 L_Y_bar_R2 U_Y_bar_R2
1 14.39085 1.286828 1.134384 12.1675 16.6142
$df_Y_R2
Y_hat_R2 v_Y_hat_R2 se_Y_hat_R2 L_Y_R2 U_Y_R2
1 4331.646 116587.9 341.4497 3662.417 5000.876
$df_Y_bar_MR
y_bar_MR v_y_bar_MR se_y_bar_MR L_Y_bar_MR U_Y_bar_MR
1 -143.6886-127.9074 NaN NaN NaN
$df_Y_MR
Y_hat_MR v_Y_hat_MR se_Y_hat_MR L_Y_MR U_Y_MR
1 -43250.28-11588534 NaN NaN NaN
上述程序结果给出了使用一元及二元辅助变量下关于总体均值及总体总值的估计量及其方差、标准误差及置信区间的信息。对于本题所要研究的总体总值来看,只使用种植面积作为辅助变量时,我们得到该地区皮棉总产量 Y ^ R 1 = 4205.796 ,抽样标准误差为 s e ( Y ^ R 1 ) = 233.9908 ,且皮棉总产量的区间估计为[3747.183, 4664.41];只使用良种比例作为辅助变量时,我们得到该地区皮棉总产量为 Y ^ R 2 = 4331 .646 ,抽样标准误差为 s e ( Y ^ R 2 ) = 341.4497 ,且皮棉总产量的区间估计为[3662.417, 5000.876]。我们从分别使用种植面积及良种比例作为辅助变量做比率估计来看,使用种植面积做辅助变量情况下,总体总值的抽样标准误差较小,且具有更小的区间估计范围,估计效果优于使用良种比例作为辅助变量时的比率估计。二元比率估计情形下,我们可以看到程序结果计算得到的皮棉总产量及方差为负值,显然为不合理的结果。通过我们即将做的模拟实验得到二元比率估计下的标准误差均比一元情形下有更好的结果,这说明我们所编写的R函数Compute_Y_bar_Y_MR()为正确函数,出现本题不合理的结果的可能原因是本题输入数据可能存在一定的偏差。
现考虑对二元辅助变量下的函数进行程序模拟检验其正确性。
> y_bar = 13.7967; x1_bar = 24.43899; x2_bar = 38.4444 / 100; s2_y = 35.4858; s2_x1 = 74.6789187; s2_x2 = 174.9671 / 10000
> ## set.seed(i), i = 1, 2, 3, 4, 5结果类似。
> set.seed(5)
> y = sort(rnorm(n = 18, mean = y_bar, sd = sqrt(s2_y))); y
[
[
[
> y_bar = mean(y); y_bar
[
> s2_y = var(y); s2_y
[
> x1 = sort(rnorm(n = 18, mean = x1_bar, sd = sqrt(s2_x1))); x1
[
[
[
> x1_bar = mean(x1); x1_bar
[
> s2_x1 = var(x1); s2_x1
[
> x2 = sort(rnorm(n = 18, mean = x2_bar, sd = sqrt(s2_x2))); x2
[
[
[
> x2_bar = mean(x2); x2_bar
[
> s2_x2 = var(x2); s2_x2
[
> s_y_x1 = cov(y, x1); s_y_x1
[
> s_y_x2 = cov(y, x2); s_y_x2
[
代入模拟数据进行计算得到:
> res_Y_bar_Y_MR = Compute_Y_bar_Y_MR(X1_bar = 7450 / 301, X2_bar = 40.10 / 100, y_bar, x1_bar, x2_bar, s2_y, s2_x1, s2_x2, s_y_x1, s_y_x2, n = 18, N = 301, alpha = 0.05); res_Y_bar_Y_MR
$df_0_MR
f t R1_hat R2_hat v_11 v_22
1 0.05980066 1.959964 0.3880276 32.50203 0.6447927 0.1418217
v_12 w_1 w_2
1 0.300132 -0.8495305 1.849531
$df_Y_bar_R1
y_bar_R1 v_y_bar_R1 se_y_bar_R1 L_Y_bar_R1 U_Y_bar_R1
1 9.6040050.6447927 0.8029898 8.030174 11.17784
$df_Y_R1
Y_hat_R1 v_Y_hat_R1 se_Y_hat_R1 L_Y_R1 U_Y_R1
1 2890.805 58418.86 241.6999 2417.082 3364.529
$df_Y_bar_R2
y_bar_R2 v_y_bar_R2 se_y_bar_R2 L_Y_bar_R2 U_Y_bar_R2
1 13.033310.1418217 0.3765922 12.29521 13.77142
$df_Y_R2
Y_hat_R2 v_Y_hat_R2 se_Y_hat_R2 L_Y_R2 U_Y_R2
1 3923.028 12849.19 113.3543 3700.857 4145.198
$df_Y_bar_MR
y_bar_MRv_y_bar_MR se_y_bar_MR L_Y_bar_MR U_Y_bar_MR
1 15.94662 0.0073322760.08562871 15.77879 16.11445
$df_Y_MR
Y_hat_MR v_Y_hat_MR se_Y_hat_MR L_Y_MR U_Y_MR
1 4799.932 664.3116 25.77424 4749.415 4850.448
由以上模拟实验结果得到二元比率估计下的标准误差均比一元情形下更好,这说明我们所编写的R函数Compute_Y_bar_Y_MR()为正确函数。
R函数3:Compute_Y_bar_Y_ratio()
对于比率估计,给定
x , y , X , n , N , α
得到计算总体均值 Y ¯ 及总体总值Y的比率估计量及其方差、标准误差及区间估计的R函数(程序)Compute_Y_bar_Y_ratio(),其中 x = ( x 1 , ⋯ , x n ) 为辅助变量的数据向量, y = ( y 1 , ⋯ , y n ) 为调查变量的数据向量。由于正文版面的限制,函数Compute_Y_bar_Y_ratio()的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明Compute_Y_bar_Y_ratio()的使用方法。
例3 ( [
固定资产价值 | 工业产值 | 固定资产价值 | 工业产值 |
---|---|---|---|
35 | 32.0 | 50 | 45.5 |
43 | 40.2 | 70 | 65.0 |
50 | 47.5 | 62 | 56.0 |
40 | 41.5 | 58 | 55.0 |
55 | 51.0 | 52 | 57.0 |
58 | 53.4 | 63 | 54.2 |
38 | 33.8 | 64 | 56.5 |
45 | 42.8 | 53 | 48.2 |
47 | 45.6 | 54 | 49.8 |
42 | 40.8 | 56 | 49.2 |
表1. 企业固定资产价值及工业产值(单位:万元)
解:计算得到:
f = n N = 0 .1574803 , t = Z α / 2 = 1 .959964 , X ¯ = X N = 53 .5
x ¯ = 51 .75 , y ¯ = 48 .25 , s y 2 = 67 .74684
s x 2 = 88 .51316 , s y x = 73 .41316 , R ^ = y ¯ x ¯ = 0 .9323671
Y ^ R = N y ¯ R = N y ¯ x ¯ X ¯ = 6334.969
v ( Y ^ R ) = N 2 v ( y ¯ R ) = N 2 ( 1 − f ) n ( s y 2 + R ^ 2 s x 2 − 2 R ^ s y x ) = 5297.026
s e ( Y ^ R ) = v ( Y ^ R ) = 72.78067
L Y R = Y ^ R − t ⋅ s e ( Y ^ R ) = 6192.321 , U Y R = Y ^ R + t ⋅ s e ( Y ^ R ) = 6477.616
代入题中数据得到:
> n = 20; N = 127; alpha = 0.05; X = 6794.5
> x_vector = c(35, 43, 50, 40, 55, 58, 38, 45, 47, 42, 50, 70, 62, 58, 52, 63, 64, 53, 54, 56)
> y_vector = c(32.0, 40.2, 47.5, 41.5, 51.0, 53.4, 33.8, 42.8, 45.6, 40.8, 45.5, 65.0, 56.0, 55.0, 57.0, 54.2, 56.5, 48.2, 49.8, 49.2)
> res_Y_bar_Y_ratio = Compute_Y_bar_Y_ratio(x_vector, y_vector, X, n, N, alpha); res_Y_bar_Y_ratio
$df_0_ratio
f t X_bar x_bar y_bar s2_y s2_x s_yx
1 0.1574803 1.95996453.5 51.75 48.25 67.74684 88.51316 73.41316
R_hat
1 0.9323671
$df_Y_bar_ratio
y_bar_ratio v_y_bar_ratio se_y_bar_ratio L_Y_bar_ratio
1 49.88164 0.3284162 0.5730761 48.75843
U_Y_bar_ratio
1 51.00485
$df_Y_ratio
Y_hat_ratio v_Y_hat_ratio se_Y_hat_ratio L_Y_ratio U_Y_ratio
1 6334.969 5297.026 72.780676192.3216477.616
从上述程序结果我们可以得到工业均产值和工业总产值的比率估计量及其方差、标准误差和置信区间的信息。对于本题感兴趣的工业总产值的比率估计而言,工业总产值的比率估计量为 Y ^ R = 6334.969 万元,抽样标准误差为 s e ( Y ^ R ) = 72.78067 万元,工业总产值的比率估计的置信度为95%的区间估计为[6192.321, 6477.616] 万元。
R函数4:Compute_Y_bar_Y_lr()
对于回归估计,给定
x , y , X , n , N , α
得到计算总体均值 Y ¯ 及总体总值Y的回归估计量及其方差、标准误差和区间估计的R函数(程序)Compute_Y_bar_Y_lr(),其中 x = ( x 1 , ⋯ , x n ) 为辅助变量的数据向量, y = ( y 1 , ⋯ , y n ) 为调查变量的数据向量。由于正文版面的限制,函数Compute_Y_bar_Y_lr()的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明Compute_Y_bar_Y_lr()的使用方法。
例4 (已知信息同本文例3)试通过回归估计得到该地区规模以下工业总产值 Y ^ l r 及抽样标准误差 s e ( Y ^ l r ) 。
解:计算得到:
f = n N = 0 .1574803 , t = Z α / 2 = 1 .959964 , X ¯ = X N = 53 .5
x ¯ = 51 .75 , y ¯ = 48 .25 , s y 2 = 67 .74684
s x 2 = 88 .51316 , s y x = 73 .41316 , b = s y x s x 2 = 0.8294039
y ¯ l r = y ¯ + b ( X ¯ − x ¯ ) = y ¯ − b ( x ¯ − X ¯ ) = 49.70146
v ( y ¯ l r ) = 1 − f n ( s y 2 − s y x 2 s x 2 ) = 0.2888866 , s e ( y ¯ l r ) = v ( y ¯ l r ) = 0.5374818
L Y ¯ l r = y ¯ l r − t ⋅ s e ( y ¯ l r ) = 48.64801 , U Y ¯ l r = y ¯ l r + t ⋅ s e ( y ¯ l r ) = 50.7549
Y ^ l r = N y ¯ l r = 6312.085
v ( Y ^ l r ) = N 2 v ( y ¯ l r ) = 4659.453 , s e ( Y ^ l r ) = N ⋅ s e ( y ¯ l r ) = 68.26018
L Y l r = N L Y ¯ l r = 6178.298 , U Y l r = N U Y ¯ l r = 6445.873
代入数据计算得到:
> n = 20; N = 127; alpha = 0.05; X = 6794.5
> x_vector = c(35, 43, 50, 40, 55, 58, 38, 45, 47, 42, 50, 70, 62, 58, 52, 63, 64, 53, 54, 56)
> y_vector = c(32.0, 40.2, 47.5, 41.5, 51.0, 53.4, 33.8, 42.8, 45.6, 40.8, 45.5, 65.0, 56.0, 55.0, 57.0, 54.2, 56.5, 48.2, 49.8, 49.2)
> res_Y_bar_Y_lr = Compute_Y_bar_Y_lr(x_vector, y_vector, X, n, N, alpha); res_Y_bar_Y_lr
$df_0_lr
f t X_bar x_bar y_bar s2_y s2_x s_yx
1 0.1574803 1.95996453.5 51.75 48.25 67.74684 88.51316 73.41316
b
1 0.8294039
$df_Y_bar_lr
y_bar_lr v_y_bar_lr se_y_bar_lr L_Y_bar_lr U_Y_bar_lr
1 49.701460.2888866 0.5374818 48.64801 50.7549
$df_Y_lr
Y_hat_lr v_Y_hat_lr se_Y_hat_lr L_Y_lr U_Y_lr
1 6312.085 4659.453 68.26018 6178.298 6445.873
从上述程序结果我们可以得到工业均产值和工业总产值的回归估计量及其方差、标准误差和置信区间的信息。对于本题感兴趣的工业总产值的回归估计而言,工业总产值的回归估计量为 Y ^ l r = 6312.085 万元,抽样标准误差为 s e ( Y ^ l r ) = 68.26018 万元,工业总产值的回归估计的置信度为95%的区间估计为[6178.298, 6445.873]万元。
R函数5:Compute_Y_bar_Y_Rs_Rc_lrs_lrc()
对于分层比率估计和分层回归估计,给定
W h , n h , f h , y ¯ h , x ¯ h , X ¯ h , s y h 2 , s x h 2 , s y x h , N , α
得到计算总体均值 Y ¯ 及总体总值Y的分层比率估计量和分层回归估计量及其方差、标准误差和区间估计的R函数(程序)Compute_Y_bar_Y_Rs_Rc_lrs_lrc()。由于正文版面的限制,函数Compute_Y_bar_Y_Rs_Rc_lrs_lrc()的内容及输入输出的解释放在了补充材料中。
下面我们举一个例子来说明Compute_Y_bar_Y_Rs_Rc_lrs_lrc()的用法。
例5 ( [
类型 | N h / 个 | W h | n h / 个 | y ¯ h / 斤 | x ¯ h / 斤 | X ¯ h / 斤 | s y h 2 / 斤 2 | s x h 2 / 斤 2 | s y x h / 斤 2 |
---|---|---|---|---|---|---|---|---|---|
平原 | 99 | 0.33 | 10 | 583 | 561 | 568 | 1809 | 1503 | 1643 |
丘陵 | 138 | 0.46 | 14 | 445 | 437 | 439 | 1990 | 1937 | 1948 |
山区 | 63 | 0.21 | 6 | 290 | 274 | 271 | 1989 | 1892 | 1936 |
表2. 小麦产量调查数据
解:从上表我们可以看到,小麦产量的相邻两年数据呈较高正相关性,因而在估计小麦的今年亩产时,辅助变量选择去年的小麦产量具有一定的合理性。此处抽样比为: f 1 = f 2 = f 3 = 0.1 。
现对分别比率估计、联合比率估计、分别回归估计、联合回归估计的理论公式做出如下阐述。由于本例只涉及计算总体均值的分层估计量,因此结果部分仅显示总体均值的分层估计量及相应方差、标准误差和区间估计。
首先令
g h = W h 2 ( 1 − f h ) n h , ( g 1 , g 2 , g 3 ) = ( 0.00980100 , 0.01360286 , 0.00661500 )
可以计算得到如下结果。
1) 分别比率估计:
R ^ h = y ¯ h x ¯ h , ( R ^ 1 , R ^ 2 , R ^ 3 ) = ( 1.039216 , 1.018307 , 1.058394 )
y ¯ R s = ∑ h = 1 L W h y ¯ R h = ∑ h = 1 L W h R ^ h X ¯ h = 460.6606
v ( y ¯ R s ) = ∑ h = 1 L g h ( s y h 2 + R ^ h 2 s x h 2 − 2 R ^ h s y x h ) = 0.663121
s e ( y ¯ R s ) = v ( y ¯ R s ) = 0.8143224
L Y ¯ R s = y ¯ R s − t ⋅ s e ( y ¯ R s ) = 459.0646 , U Y ¯ R s = y ¯ R s + t ⋅ s e ( y ¯ R s ) = 462.2567
2) 联合比率估计:
y ¯ s t = ∑ h = 1 L W h y ¯ h = 457 .99 , x ¯ s t = ∑ h = 1 L W h x ¯ h = 443 .69
R ^ c = y ¯ s t x ¯ s t = 1.03223 , X ¯ = ∑ h = 1 L W h X ¯ h = 446.29
y ¯ R c = R ^ c X ¯ = y ¯ s t x ¯ s t X ¯ = 460.6738
v ( y ¯ R c ) = ∑ h = 1 L g h ( s y h 2 + R ^ c 2 s x h 2 − 2 R ^ c s y x h ) = 0.6748678
s e ( y ¯ R c ) = v ( y ¯ R c ) = 0.8215034
L Y ¯ R c = y ¯ R c − t ⋅ s e ( y ¯ R c ) = 459.0637 , U Y ¯ R c = y ¯ R c + t ⋅ s e ( y ¯ R c ) = 462.2839
3) 分别回归估计:
b h = s y x h s x h 2 , ( b 1 , b 2 , b 3 ) = ( 1.093147 , 1.005679 , 1.023256 )
y ¯ l r s = ∑ h = 1 L W h y ¯ l r h = ∑ h = 1 L W h [ y ¯ h + b h ( X ¯ h − x ¯ h ) ] = 460.7957
v ( y ¯ l r s ) = ∑ h = 1 L g h ( s y h 2 − s y x h 2 s x h 2 ) = 0.6006202
s e ( y ¯ l r s ) = v ( y ¯ l r s ) = 0.7749969
L Y ¯ l r s = y ¯ l r s − t ⋅ s e ( y ¯ l r s ) = 459.2768 , U Y ¯ l r s = y ¯ l r s + t ⋅ s e ( y ¯ l r s ) = 462.3147
4) 联合回归估计:
b c = ∑ h = 1 L g h s y x h ∑ h = 1 L g h s x h 2 = 1 .033825
y ¯ l r c = y ¯ s t + b c ( X ¯ − x ¯ s t ) = 460.6779
v ( y ¯ l r c ) = ∑ h = 1 L g h ( s y h 2 + b c 2 s x h 2 − 2 b c s y x h ) = 0.6747315
s e ( y ¯ l r c ) = v ( y ¯ l r c ) = 0.8214204
L Y ¯ l r c = y ¯ l r c − t ⋅ s e ( y ¯ l r c ) = 459.068 , U Y ¯ l r c = y ¯ l r c + t ⋅ s e ( y ¯ l r c ) = 462.2879
代入数据计算可得:
> N_h = c(99, 138, 63); N = sum(N_h);
> W_h = c(0.33, 0.46, 0.21)
> n_h = c(10, 14, 6)
> f_h = c(0.1, 0.1, 0.1)
> y_bar_h = c(583, 445, 290)
> x_bar_h = c(561, 437, 274) ## 437
> X_bar_h = c(568, 439, 271)
> s2_y_h = c(1809, 1990, 1989)
> s2_x_h = c(1503, 1937, 1892) ## 1937
> s_yx_h = c(1643, 1948, 1936)
> alpha = 0.05
> res_Y_bar_Y = Compute_Y_bar_Y_Rs_Rc_lrs_lrc(W_h, n_h, f_h, y_bar_h, x_bar_h, X_bar_h, s2_y_h, s2_x_h, s_yx_h, N, alpha); res_Y_bar_Y
$t
[
$g_h
[
$Rs
$Rs$R_hat_h
[
$Rs$df_Y_bar_Rs
y_bar_Rs v_y_bar_Rs se_y_bar_Rs L_Y_bar_Rs U_Y_bar_Rs
1 460.6606 0.663121 0.8143224 459.0646 462.2567
$Rs$df_Y_Rs
Y_hat_Rs v_Y_hat_Rs se_Y_hat_Rs L_Y_Rs U_Y_Rs
1 138198.2 59680.89 244.2967 137719.4 138677
$Rc
$Rc$df_0_Rc
y_bar_st x_bar_stRc_hatX_bar
1 457.99 443.69 1.03223 446.29
$Rc$df_Y_bar_Rc
y_bar_Rc v_y_bar_Rc se_y_bar_Rc L_Y_bar_Rc U_Y_bar_Rc
1 460.67380.6748678 0.8215034 459.0637 462.2839
$Rc$df_Y_Rc
Y_hat_Rc v_Y_hat_Rc se_Y_hat_Rc L_Y_Rc U_Y_Rc
1 138202.1 60738.1 246.451 137719.1 138685.2
$lrs
$lrs$b_h
[
$lrs$y_bar_lr_h
[
$lrs$df_Y_bar_lrs
y_bar_lrs v_y_bar_lrs se_y_bar_lrs L_Y_bar_lrs U_Y_bar_lrs
1460.7957 0.6006202 0.7749969 459.2768 462.3147
$lrs$df_Y_lrs
Y_hat_lrs v_Y_hat_lrs se_Y_hat_lrs L_Y_lrsU_Y_lrs
1138238.7 54055.82 232.4991137783 138694.4
$lrc
$lrc$df_0_lrc
y_bar_st x_bar_st bcX_bar
1 457.99 443.69 1.033825 446.29
$lrc$df_Y_bar_lrc
y_bar_lrc v_y_bar_lrc se_y_bar_lrc L_Y_bar_lrc U_Y_bar_lrc
1460.6779 0.6747315 0.8214204 459.068 462.2879
$lrc$df_Y_lrc
Y_hat_lrc v_Y_hat_lrc se_Y_hat_lrcL_Y_lrcU_Y_lrc
1138203.4 60725.83 246.4261 137720.4 138686.4
从上述程序实现结果我们可以得到分层抽样下总体均值及总体总值的各分层估计量及其方差、标准误差和置信区间的信息。对于本题感兴趣的总体均值信息而言,在进行分别比率估计的情况下,全县平均亩产为 y ¯ R s = 460.6606 斤,估计标准误差为 s e ( y ¯ R s ) = 0.8143224 斤;在进行联合比率估计的情况下,全县平均亩产为 y ¯ R c = 460.6738 斤,估计标准误差为 s e ( y ¯ R c ) = 0.8215034 斤;在进行分别回归估计的情况下,全县平均亩产为 y ¯ l r s = 460.7957 斤,估计标准误差为 s e ( y ¯ l r s ) = 0.7749969 斤;在进行联合回归估计的情况下,全县平均亩产为 y ¯ l r c = 460.6779 斤,估计标准误差为 s e ( y ¯ l r c ) = 0.8214204 斤。
四种分层估计方法的总体均值的估计值和标准误差的估计值见表3。从表中我们容易得到以下结论:对于比率估计和回归估计而言,总有分别估计量的估计精度优于联合估计量;对于分别估计和联合估计而言,总有回归估计量的估计精度优于比率估计量。
总体均值的估计值 | 标准误差的估计值 | |
---|---|---|
分别比率估计 | 460.6606 | 0.8143224 |
联合比率估计 | 460.6738 | 0.8215034 |
分别回归估计 | 460.7957 | 0.7749969 |
联合回归估计 | 460.6779 | 0.8214204 |
表3. 四种分层估计方法的总体均值的估计值和标准误差的估计值
本文对抽样技术中的比率估计及回归估计给出了自编的五个非常实用的R函数(程序):Compute_R_ratio() (用于计算总体比率R的点估计和区间估计)、Compute_Y_bar_Y_MR() (用于计算一元及二元辅助变量下总体均值 Y ¯ 与总体总值Y的比率点估计和区间估计)、Compute_Y_bar_Y_ratio() (用于计算总体均值 Y ¯ 及总体总值Y的比率点估计和区间估计)、Compute_Y_bar_Y_lr() (用于计算总体均值 Y ¯ 及总体总值Y的回归点估计和区间估计)及Compute_Y_bar_Y_Rs_Rc_lrs_lrc() (用于计算总体均值 Y ¯ 及总体总值Y的分层比率和分层回归点估计和区间估计)。这五个R函数(程序)很好地解决了在仅给定基本的样本数据时如何得出总体均值 Y ¯ 与总体总值Y的各类估计量及其标准误差和置信区间的问题,为需要使用比率估计及回归估计抽样技术进行实际问题分析的使用者提供了方便。
本研究受教育部人文社会科学研究西部和边疆地区项目(20XJC910001),国家社科基金西部项目(21XTJ001)和国家自然科学基金面上项目(72071019)支持。
刘诗洋,张应应. 比率估计与回归估计抽样技术中五个非常实用的R函数Five Very Practical R Functions in Ratio Estimation and Regression Estimation Sampling Techniques[J]. 统计学与应用, 2022, 11(02): 248-261. https://doi.org/10.12677/SA.2022.112026