本文在假定元件的寿命服从一种新型分布-ZZ分布的前提下,基于成败数据,运用频率方法和Bayes方法,分别给出了该分布参数的估计,并讨论了估计的性质,同时进行数值模拟。 In this paper, assuming that the life of the components follows a new distribution ZZ distribution, based on the success or failure data, the estimation of the distribution parameters is given by using frequency method and Bayes method, and the properties of the estimation are discussed. At the same time, numerical simulation is carried out.
本文在假定元件的寿命服从一种新型分布-ZZ分布的前提下,基于成败数据,运用频率方法和Bayes方法,分别给出了该分布参数的估计,并讨论了估计的性质,同时进行数值模拟。
ZZ分布,贝叶斯估计,成败数据样本
Jianda Chen, Ping Wang
College of Science, Harbin University of Science and Technology, Harbin Heilongjiang
Received: Jan. 23rd, 2021; accepted: Feb. 16th, 2021; published: Feb. 24th, 2021
In this paper, assuming that the life of the components follows a new distribution ZZ distribution, based on the success or failure data, the estimation of the distribution parameters is given by using frequency method and Bayes method, and the properties of the estimation are discussed. At the same time, numerical simulation is carried out.
Keywords:ZZ Distribution, Bayesian Estimation, Success or Failure Data Sample
Copyright © 2021 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
通常元件的寿命服从以下常见的几种分布:指数分布、威布尔分布、极值分布、对数正态分布等 [
事实证明,有些元件的寿命用上述四种分布来刻画是合理的;但还有一部分元件的寿命若用上述分布来刻画会与事实不符。例如,用给定的样本数据对某品牌无人机的元件寿命进行检验时,发现四种寿命分布假设都不拒绝,但对指数分布、威布尔分布、对数正态分布的平均寿命的估计却与事实相差甚远;对于极值分布,平均寿命的估计略接近实际,但也远远高于实际寿命,这说明该类元件寿命分布并不属于熟知的这四种分布。
鉴于这种情况,2019年文献 [
2020年,雷露、张国志等 [
本文将讨论成败数据下,ZZ分布参数的估计问题。
定义1 [
F ( t ) = 1 − exp { 1 − e ( t η ) m } , t > 0 ( m > 0 , η > 0 )
称X服从参数为 m , η 的ZZ分布,记为 X ~ Z Z ( m , η ) 。
引理2 [
引理3 设 B i ,则有
∫ 0 c x a − 1 ( 1 − x ) b − 1 d x = Γ ( a ) Γ ( b ) Γ ( a + b ) F ( 2 a , 2 b , b a c 1 − c )
其中 F ( 2 a , 2 b , x ) 为 F ( 2 a , 2 b ) 分布的分布函数。
证明 设 X ~ B e ( a , b ) ,
模型
假设元件的寿命 X ~ z z ( m , η ) ,即分布函数为
F ( t ) = 1 − exp { e 1 − e ( t η ) m } ≜ 1 − exp { 1 − e 1 − e t m β }
对元件做如下成败实验,时间节点为 t 1 , t 2 , ⋯ , t l 。对每个 t j 对应的试验投入 n j 个样品,到 t j 时刻有 f j 个失效。
对于上面模型,由于
ln ln ( 1 − ln ( 1 − F ( t ) ) ) = m ln t − ln β
将时间节点代入得
ln ln ( 1 − ln ( 1 − F ( t j ) ) ) = m ln t j − ln β , j = 1 , 2 , ⋯ , l
用 f j n j 来估计 P j = F ( t j ) ,如果 f j n j = 0 ,或 f j n j = 1 ,则用其修正估计替代,仍记为 f j n j ,那么有
ln ln [ 1 − ln ( 1 − f j n j ) ] = m ln t j − ln β + ε j , j = 1 , 2 , ⋯ , l
其中 ε j 为估计误差。
记
y j = ln ln [ 1 − ln ( 1 − f j n j ) ] , x j = ln t j , β 0 = − ln β , β 1 = m
则
y j = β 0 + β 1 x j + ε j , j = 1 , 2 , ⋯ , l (1)
进一步令
Y = ( y 1 , y 2 , ⋯ , y l ) T , B = ( β 0 , β 1 ) T
X = ( 1 x 1 1 x 2 ⋮ ⋮ 1 x l ) , ε = ( ε 1 ε 2 ⋮ ε l )
则(1)式变为 Y = X B + ε ,则B的简单最小二乘估计为
B ^ = ( X T X ) − 1 X T Y ≜ ( β ^ 0 , β ^ 1 ) T
那么有
β ^ = e − β ^ 0 , m ^ = β ^ 1 (2)
可以证明该估计具有渐近正态性。记 p ^ j = f j n j
由中心极限定理 [
n j ( p ^ j − p j ) → L N ( 0 , p j ( 1 − p j ) ) ; j = 1 , 2 , ⋯ , l
假设
n n j ≜ min 1 ≤ j ≤ l { n j } n j → λ j 2 ( n → ∞ )
则
n ( p ^ j − p j ) → L N ( 0 , λ j 2 p j ( 1 − p j ) )
进而有
n ( ( p ^ 1 p ^ 2 ⋮ p ^ l ) − ( p 1 p 2 ⋮ p l ) ) → L N ( 0 , Σ )
这里 Σ = d i a g ( λ 1 2 p 1 ( 1 − p 1 ) , λ 2 2 p 2 ( 1 − p 2 ) , ⋯ , λ l 2 p l ( 1 − p l ) ) 。那么有
n ( y j − ( β 0 + β 1 x j ) ) → L N ( 0 , σ j 2 )
其中
σ j 2 = ( ∂ ln ln ( 1 − ln ( 1 − x ) ) ∂ x | x = p j ) 2 λ j 2 p j ( 1 − p j ) = λ j 2 p j ( 1 − p j ) [ ( 1 − p j ) ( 1 − ln ( 1 − p j ) ) ] ln ln [ 1 − ln ( 1 − p j ) ] 2
所以
n ( ( y 1 y 2 ⋮ y l ) − ( β 0 + β 1 x 1 β 0 + β 1 x 2 ⋮ β 0 + β 1 x l ) ) → L N ( 0 , Σ ∗ )
其中
Σ ∗ = d i a g ( σ 1 2 , σ 2 2 , ⋯ , σ l 2 )
则
n ( B ^ − B ) → L N ( 0 , ( X T X ) − 1 X T Σ ∗ X ( X T X ) − 1 )
令
( m β ) = ( β 1 e − β 0 ) ≜ ( g 1 ( β 0 , β 1 ) g 0 ( β 0 , β 1 ) )
则
( ∂ g 1 ∂ β 0 ∂ g 1 ∂ β 1 ∂ g 2 ∂ β 0 ∂ g 2 ∂ β 1 ) = ( 0 1 − e − β 0 0 ) ≜ Q
故
n ( ( m ^ β ^ ) − ( m β ) ) → L N ( 0 , Q ( X T X ) − 1 X T Σ ∗ X ( X T X ) − 1 Q T )
即该估计具有渐近正态性。
在模型中,不妨设时间节点为 t 1 < t 2 < ⋯ < t l ,对每个 t j 对应的试验投入 n j 个样品,到 t j 时刻有 f j 个失效,无失效个数为
r j = n j − f j , r j ≤ n j , j = 1 , 2 , ⋯ , l
在 t j 时刻,可靠度 R ( t j ) 的估计自然可取
R ^ ( t j ) = r j n j ≜ R ^ j
当然希望 R ^ 1 ≥ R ^ 2 ≥ ⋯ ≥ R ^ l ,但由于样本的随机性,这种序关系未必成立,这种情况称为数据倒挂。采用数据倒挂的一般方法,对每个 R ^ j 进行修正,使之序关系成立。为方便起见修正后的数据依然记为 R ^ j ,此时序关系 R ^ 1 ≥ R ^ 2 ≥ ⋯ ≥ R ^ l 成立。记
Q j = [ R ^ j n j ] ( j = 1 , 2 , ⋯ , l )
符号 [ x ] 表示取x的整数部分。 Q j 表示 r j 的修正,可认为
Q j ~ B ( n j , R j ) ( j = 1 , 2 , ⋯ , l )
其中 R j = R ( t j ) 。
由于 R ^ 1 ≥ R ^ 2 ≥ ⋯ ≥ R ^ l ,一旦有 R ^ 1 = 1 (无失效数出现),若用 R ^ 1 来估计 R ( t 1 ) 显然不合适,所以借鉴处理无失效数据的办法,取
R ˜ 1 = { Q 1 + 0.5 n 1 + 1 = r 1 + 0.5 n 1 + 1 , R ^ 1 = 1 R ^ 1 , R ^ 1 < 1
由文献 [
R 2 < exp { 1 − ( 1 − ln R 1 ) t 2 t 1 }
记
R 2 * = exp { 1 − ( 1 − ln R ˜ 1 ) t 2 t 1 }
当对 R 2 没有更多信息时,那么可取 R 2 的先验分布是均匀分布 U ( 0 , R 2 * ) ,根据 Q 2 ~ B ( n 2 , R 2 ) ,可得到 R 2 的后验密度为
π ( R 2 | Q 2 ) = R 2 Q 2 ( 1 − R 2 ) n 2 − Q 2 ∫ 0 R 2 * R 2 Q 2 ( 1 − R 2 ) n 2 − Q 2 d R 2 , ( 0 < R 2 < R 2 * )
所以 R 2 的贝叶斯估计 R ˜ 2 为
R ˜ 2 = ∫ 0 R 2 * R 2 Q 2 + 1 ( 1 − R 2 ) n 2 − Q 2 d R 2 ∫ 0 R 2 * R 2 Q 2 ( 1 − R 2 ) n 2 − Q 2 d R 2
由引理3可知
∫ 0 R 2 * R 2 Q 2 + 1 ( 1 − R 2 ) n 2 − Q 2 d R 2 = Γ ( Q 2 + 2 ) Γ ( n 2 − Q 2 + 1 ) Γ ( n 2 + 3 ) F ( 2 ( Q 2 + 2 ) , 2 ( n 2 − Q 2 + 1 ) , n 2 − Q 2 + 1 Q 2 + 2 ⋅ R 2 * 1 − R 2 * )
∫ 0 R 2 * R 2 Q 2 ( 1 − R 2 ) n 2 − Q 2 d R 2 = Γ ( Q 2 + 1 ) Γ ( n 2 − Q 2 + 1 ) Γ ( n 2 + 2 ) F ( 2 ( Q 2 + 1 ) , 2 ( n 2 − Q 2 + 1 ) , n 2 − Q 2 + 1 Q 2 + 1 ⋅ R 2 * 1 − R 2 * )
所以
R ˜ 2 = Q 2 + 1 n 2 + 2 F ( 2 ( Q 2 + 2 ) , 2 ( n 2 − Q 2 + 1 ) , n 2 − Q 2 + 1 Q 2 + 1 ⋅ R 2 * 1 − R 2 * ) F ( 2 ( Q 2 + 1 ) , 2 ( n 2 − Q 2 + 1 ) , n 2 − Q 2 + 1 Q 2 + 1 ⋅ R 2 * 1 − R 2 * )
又由于
R 3 < exp { 1 − ( 1 − ln R 2 ) t 3 t 2 }
记
R 3 * = exp { 1 − ( 1 − ln R ˜ 2 ) t 3 t 2 }
那么可取 R 3 的先验分布是均匀分布 U ( 0 , R 3 * ) ,根据 Q 3 ~ B ( n 3 , R 3 ) ,同理可得到 R 3 的贝叶斯估计 R ˜ 3 为
R ˜ 3 = Q 3 + 1 n 3 + 2 F ( 2 ( Q 3 + 2 ) , 2 ( n 3 − Q 3 + 1 ) , n 3 − Q 3 + 1 Q 3 + 1 ⋅ R 3 * 1 − R 3 * ) F ( 2 ( Q 3 + 1 ) , 2 ( n 3 − Q i 3 + 1 ) , n 3 − Q 3 + 1 Q 3 + 1 ⋅ R 3 * 1 − R 3 * )
依此类推可得到 R ˜ i 4 , R ˜ i 5 , ⋯ , R ˜ i l i 的贝叶斯估计。
易知,这些贝叶斯估计满足 1 > R ˜ 1 ≥ R ˜ 2 ≥ ⋯ ≥ R ˜ l > 0 。由于元件的可靠度函数为
R ( t ) = exp { 1 − e t m β }
那么有
ln ln ( 1 − ln R ( t ) ) = − ln β + m ln t
用 R ˜ j 去估计 R ( t j ) 其误差记为 ε j ,则得到
ln ln ( 1 − ln R ˜ j ) = − ln β + m ln t j + ε j ( j = 1 , 2 , ⋯ , l ) (4)
记
Y j = ln ln ( 1 − ln R ˜ j ) , Y = ( Y 1 , Y 2 , ⋯ , Y l ) T , B = ( − ln β , m ) T
X = ( 1 ln t 1 1 ln t 2 ⋮ ⋮ 1 ln t l ) , ε = ( ε 1 ε 2 ⋮ ε l )
则(4)式可表示为 Y = X B + ε ,由此 B i 的最小二乘估计为
B ^ = ( X T X ) − 1 X T Y
记 ξ 1 = ( 1 , 0 ) T , ξ 2 = ( 0 , 1 ) T ,那么有
{ β ^ = e − ξ 1 T B ^ m ^ = ξ 2 T B ^ (5)
参数的真值和样本容量设定数如表1。
寿命分布 | ( m 真 , η 真 ) | n |
---|---|---|
Z Z ( m , η ) | ( 3 , 6 ) | 20 |
表1. 参数真值和试验样品数
由Monte-Carlo模拟法,在每个设定的时间节点分别产生样本总数为n,寿命服从ZZ分布的成败数据,如表2。
f j / n j | t 1 = 2.5 | t 2 = 3 | t 3 = 3.5 | t 4 = 4 | t 5 = 4.5 | t 6 = 5 | t 7 = 5.5 |
---|---|---|---|---|---|---|---|
频率 | 0/20 | 1/20 | 3/20 | 5/20 | 6/20 | 10/20 | 16/20 |
表2. 各时间节点失效频率表
表3基于Bayes方法,模拟列出各时间节点的 R ^ j , Q j , R ˜ j 数值。
j = 1 | j = 2 | j = 3 | j = 4 | j = 5 | j = 6 | j = 7 | |
---|---|---|---|---|---|---|---|
R ^ j | 20/20 | 19/20 | 17/20 | 15/20 | 14/20 | 10/20 | 4/20 |
Q j | 20 | 19 | 17 | 15 | 14 | 10 | 4 |
R ˜ j | 0.9762 | 0.9092 | 0.8186 | 0.7279 | 0.6806 | 0.5015 | 0.2279 |
表3. 各 R ^ j , Q j , R ˜ j 的值
由此得到参数m和 η 的估计如表4。
寿命分布 | ( m 真 , η 真 ) | ( m ^ 频 , η ^ 频 ) | ( m ^ B a y e s , η ^ B a y e s ) |
---|---|---|---|
Z Z ( m , η ) | ( 3 , 6 ) | ( 3.3364 , 5.6254 ) | ( 3.1820 , 5.6324 ) |
表4. 参数m和 η 的估计
本文在成败数据下,研究了复杂系统可靠度的估计问题,基于两种方法得到具体结果如下:
1) 基于成败数据,采用频率估计概率的方法,针对模型 ,首先利用数据的特点及回归分析方法给出了各元件寿命分布参数的估计。然后利用复杂系统可靠度解析表达式得到了该系统的可靠度估计,并证明了该估计具有渐近正态性。
2) 基于成败数据,相比前一种方法,本方法深入考虑了可靠度函数单调非增这一特点,对可能出现“数据倒挂”现象进行了预处理。然后利用Bayes方法及回归分析方法,给出了各元件寿命分布参数的估计。两种估计方法各有长处,方法一简单且估计具有渐近正态性;方法二充分利用了可靠度函数单调性的特点,估计会好一些,但估计的分布不易获得。
3) 对上述结果进行了数值模拟,结果显示两种方法可行有效。
本论文的工作是在我的老师张国志教授的悉心指导下完成的,在此向老师表示衷心的谢意。
黑龙江省自然科学基金资助项目,编号:A2018006。
陈建达,王 萍. 成败数据下ZZ分布参数的估计与性质Estimation and Properties of ZZ Distribution Parameters under Success or Failure Data[J]. 统计学与应用, 2021, 10(01): 106-114. https://doi.org/10.12677/SA.2021.101011