多个对数正态总体共同均值的估计问题研究 Research on the Estimation of Common Mean for Multiple Log-Normal Populations

doi:10.12677/SA.2018.75060

Statistics and Application
Vol. 07 No. 05 ( 2018 ), Article ID: 27198 , 5 pages
10.12677/SA.2018.75060

Research on the Estimation of Common Mean for Multiple Log-Normal Populations

Qiuyue Wei¹, Zeyu Li², Weiyan Mu¹

●How to Cite this Article

¹School of Science, Beijing University of Civil Engineering and Architecture, Beijing

²Canvard College, Beijing Technology and Business University, Beijing

Received: Oct. 1^st, 2018; accepted: Oct. 15^th, 2018; published: Oct. 22^nd, 2018

ABSTRACT

If the random variable $X = l n Y ~ N (μ, σ^{2})$ , then the random variable $X$ follows the log-normal distribution, which is used to describe a class of positive right-skewed data and the practical application is very extensive [1] . In many cases, the source of data has different backgrounds, for a single population research [2] has been unable to meet our needs, so the main purpose of this time is to study their common parameters based on several populations. In this paper, the generalized pivot of the mean [3] is given for a single sample by means of generalized inference, and then the weighted average of the generalized pivot is given for different populations of common mean based on the sample size extracted from each population and the generalized pivot of approximate sample variance. Then the generalized confidence interval of the common mean is obtained. The probability of coverage is close to the confidence level using R.

Keywords:Log-Normal Distribution, Generalized Pivotal Quantity, Generalized Confidence Interval, Weighted Average, R

多个对数正态总体共同均值的估计问题研究

魏秋月¹，李泽妤²，牟唯嫣¹

¹北京建筑大学理学院，北京

²北京工商大学嘉华学院，北京

收稿日期：2018年10月1日；录用日期：2018年10月15日；发布日期：2018年10月22日

摘要

若随机变量 $X = l n Y ~ N (μ, σ^{2})$ 则随机变量 $X$ 服从对数正态分布，对数正态分布用来表示一类正右偏数据，实际应用非常广泛 [1] 。在很多情况下，数据的来源有不同的背景，对于单个总体的研究 [2] 已经不能满足我们的需求，此时的主要目的是基于几个总体来研究他们的共同参数问题。本文对于单个样本利用广义推断的方法给出均值 [3] 广义枢轴量，然后基于每个总体所抽取的样本量和近似样本方差的广义枢轴量给出不同总体共同均值的广义枢轴量的加权平均，得到共同均值的广义置信区间，利用R语言进行数值模拟，得到的覆盖概率接近置信水平。

关键词 :对数正态分布，广义枢轴量，广义置信区间，加权平均，R

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

当某一测量值受多种因素的随机影响时，该值常呈对数正态分布，对数正态分布在实际中有着重要的应用，例如它主要被广泛的用于描述如在金融市场的理论研究中，著名的期权定价公式以及许多实证研究都用对数正态分布来描述金融资产的价格。另外在工程、医学和生物学领域里对数正态分布也有着广泛的应用，很多研究都会用它来拟合寿命数据以及人口收入数据。往往人们会得到不同背景下的服从对数正态分布的数据，对于这些有着共同均值的不同总体，我们会充分利用他们之间的信息，来估计共同均值，这就是本文所研究的内容。

2. 广义枢轴量和广义置信区间

定义1：对数正态分布

若随机变量 $X = \ln Y ~ N (μ, σ^{2})$ ，则随机变量 $Y$ 服从两参数的对数正态分布，其密度函数为：

$f (y) = f (y) = {\begin{matrix} \frac{1}{\sqrt{2 π} σ y} e^{- {(\ln y - μ)}^{2} / 2 σ^{2}} \\ 0 \end{matrix} \begin{matrix} y > 0 \\ y \leq 0 \end{matrix}$

其均值 $E Y = \exp (μ + σ^{2} / 2)$ 。

2.1. 广义枢轴量和广义置信区间

定义2：广义枢轴量和广义置信区间

形如 $R (X; x, η)$ 的广义枢轴量是X，x和 $η$ 的参数，其中 $η = (θ, δ)$ ， $θ$ 是兴趣参数， $δ$ 是讨厌参数，并且满足以下条件：

1) 对给定的 $x$ ， $R (X; x, η)$ 的分布与未知参数 $η = (θ, δ)$ 无关；

2) 观测值 $r = R (x; x, η)$ 与讨厌参数 $δ$ 无关。

假设给定广义枢轴量 $R (X; x, η)$ 和置信系数 $γ (0 < γ < 1)$ ，寻找的样本空间的一个子集 $C_{γ}$ ，使得

$P (R (x; x, η) \in C_{γ}) = γ$

取

$Θ_{γ} = {θ | R (x; x, η) \in C_{γ}}$

则称 $Θ_{γ}$ 为参数 $θ$ 的一个置信系数为 $γ$ 的广义置信区间。

广义枢轴量法解决了传统枢轴量法无法解决的问题，即当分布含有讨厌参数时枢轴量很难或者无法构造的问题。

事实上，广义检验变量 $T$ 和广义枢轴量 $R$ 之间有如下关系：

$T + R = g (θ)$ ，其中 $g (θ)$ 为兴趣参数的函数，因此可以通过构造广义枢轴量的方法来进行假设检验，且其相应的广义 $p$ 值可以通过二者的关系计算得到。

2.2. Fiducial广义枢轴量

定义3：Fiducial广义枢轴量

设 $R (X; x, η)$ 是关于X，x和 $η$ 的参数，其中 $η = (θ, δ)$ ， $θ$ 是兴趣参数， $δ$ 是讨厌参数，并且满足以下条件：

1) 对给定的 $x$ ， $R (X; x, η)$ 的分布与未知参数 $η = (θ, δ)$ 无关；

2) 观测值 $R (x, x, η) = θ$ 。

则称 $R (X, x, η)$ 为兴趣参数 $θ$ 的Fiducial广义枢轴量。

可以看出Fiducial广义枢轴量是广义枢轴量的特殊情况，这也使得Fiducial广义枢轴量可以通过构造参数的Fiducial分布得到，且已经有了较为成熟的构造方法，下面的部分将主要通过实例来做假设检验问题。

3. 提出的方法

3.1. 广义枢轴量的构造

考虑 $k$ 个独立的有公共均值 $θ = \exp (μ + σ^{2} / 2)$ 的对数正态总体。令 $Y_{i 1}, Y_{i 2}, \dots, Y_{1 n i}$ 是从第 $i$ 个对数正态总体中抽取的随机样本，且有：

$X_{i j} = \log Y_{i j} ~ N (μ_{i}, σ_{i}^{2})$ ，因此我们有：

$θ = \exp (μ_{i} + σ_{i}^{2} / 2)$ ， $i = 1, 2, \dots, k$ 。

令 ${\bar{X}}_{i}$ 和 $S_{i}^{2}$ 分别表示从第 $i$ 个对数正态总体样本数据做对数转换后的均值与方差， $X_{i j} = \log Y_{i j} (j = 1, 2, \dots, n_{i})$ ，且令 ${\bar{x}}_{i}$ 和 $s_{i}^{2}$ 分别表示他们的观测值。由于：

$\frac{{\bar{X}}_{i} - μ_{i}}{\sqrt{σ_{i}^{2} / n}} = Z_{i} ~ N (0, 1)$

$(n_{i} - 1) S_{i}^{2} / σ_{i}^{2} = V_{i} ~ χ_{n_{i} - 1}^{2}$

其中 $Z_{i}$ 是服从标准正态分布的随机变量， $V_{i}$ 是服从自由度为 $n_{i} - 1$ 的卡方分布的随机变量，且两者相互独立。因此可以构造广义枢轴量：

$R_{σ_{i}^{2}} = \frac{(n_{i} - 1) s_{i}^{2}}{V_{i}}$ ， (1)

$R_{μ_{i}} = {\bar{x}}_{i} - \frac{Z_{i}}{\sqrt{U_{i}}} \sqrt{\frac{(n_{i} - 1) s_{i}^{2}}{n_{i}}}$ (2)

因此 $R_{θ}^{(i)} = \exp (R_{μ_{i}} + \frac{R_{σ_{i}^{2}}}{2})$ (3)

对于第 $i$ 个总体，其极大似然估计为 ${\hat{θ}}^{(i)} = \exp ({\hat{μ}}_{i} + \frac{σ_{i}^{2}}{2})$ [4] ， (4)

其中， ${\hat{σ}}_{i}^{2} = S_{i}^{2}$ 。

${\hat{θ}}^{(i)}$ 的样本方差可以近似为：

$var ({\hat{θ}}^{(i)}) = σ_{i}^{2} (1 + σ_{i}^{2} / 2) \exp (2 μ_{i} + σ_{i}^{2})$ [5] (5)

从而我们所研究的对数正态的均值 $θ$ 的广义枢轴量是基于 $k$ 个广义枢轴量 $R_{θ}^{(i)}$ 的加权平均值，具体形式如下：

$R_{θ} = \frac{\sum_{i = 1}^{k} R_{w_{i}} R_{θ}^{(i)} n_{i}}{\sum_{i = 1}^{k} R_{w_{i}} n_{i}}$ ， (6)

其中： $R_{w_{i}} = {1 / R}_{var (θ^{(i)})}$ (7)

$R_{var ({\hat{θ}}^{(i)})} = R_{σ_{i}^{2}} (1 + R_{σ_{i}^{2}} / 2) \exp (2 R_{μ_{i}} + R_{σ_{i}^{2}})$ (8)

3.2. 算法

对给定的观测值：

1) 计算 ${\bar{x}}_{i}$ 和 $s_{i}^{2}$ ， $i = 1 \dots k$ 。

2) 产生 $V_{i} ~ χ_{n_{i} - 1}^{2}$ 的实现值，然后按(1)给出的公式计算 $R_{σ_{i}^{2}}$ ， $i = 1 \dots k$ 。

3) 产生 $Z_{i} ~ N (0, 1)$ 和 $U_{i} ~ χ_{n_{i} - 1}^{2}$ 的相互独立的实现值，然后根据(2)给出的公式计算 $R_{μ_{i}}$ ， $i = 1 \dots k$ 。

4) 根据公式(3)计算 $R_{θ}^{(i)}$ ， $i = 1 \dots k$ 。

5) 重复步骤2~3共 $t$ 次，根据公式(7)和(8)计算 $R_{w_{i}}$ 。

6) 根据公式(6)计算得到 $R_{θ}$ 。

7) 重复步骤2~6共m次，得到一系列 $R_{θ}$ 。

8) 将这以系列 $R_{θ}$ 案从小到大排列。

通过得到的有序的 $R_{θ}$ 数列，取其2.5%分位点与97.5%分位点，得到 $θ$ 的置信水平为95%的置信区间。

4. 模拟研究与结论

在本次模拟实验中，取总体个数为2个，样本量分别为 $n_{1} = 20, n_{2} = 40$ ，作了对数变换后的数据的总体均值我们定，为 $μ_{1} / μ_{2} = 5 / 3$ 和 $10 / 3$ ，共同均值 $ψ = \log θ$ 的值取0.3，0.5，0.8，1.0，1.2，1.5和2.0。下面以表格的形式对比广义推断的方法与大样本方法得到的95%置信区间的覆盖率，见表1。

其中比率是两总体参数 $μ$ 的比率： $μ_{1} / μ_{2}$ 。

Table 1. Empirical coverage probabilities of 90 percent two-sided confidence bounds for the common mean

表1. 共同均值θ的置信水平为95%的双侧置信区间的主要覆盖率

从上述结果来看，当样本量较小时，广义枢轴量的方法的真实覆盖水平明显高于大样本方法，显示出其良好的估计性能。当样本量逐渐增加时，大样本的优良效果逐渐明显，广义枢轴量的方法仍具有良好的性能。

文章引用

魏秋月,李泽妤,牟唯嫣. 多个对数正态总体共同均值的估计问题研究
Research on the Estimation of Common Mean for Multiple Log-Normal Populations[J]. 统计学与应用, 2018, 07(05): 516-520. https://doi.org/10.12677/SA.2018.75060

参考文献

1. 叶林, 邓筱红. 对数正态型随机变量特征函数的性质[J]. 九江师专学报, 2002, 21(5): 1-2.

2. 黄超. 对数正态分布的参数估计[J]. 高等数学研究, 2015, 18(4): 4-20.

3. Zhou, X.H. and Gao, S.J. (1997) Confidence Intervals for the Log-Normal Mean. Statistics in Medicine, 16, 783-790. https://doi.org/10.1002/(SICI)1097-0258(19970415)16:7<783::AID-SIM488>3.0.CO;2-2

4. 于洋, 孙月静. 对数正态分布参数的最大似然估计[J]. 九江学院学报, 2007, 26(6): 55-57.

5. Ahmed, S.E. and Tomkins, R.J. (1995) Estimating Log-Normal Means under Certain Prior Information. Pakistan Journal of Statistics, 11, 67-92.

期刊菜单