监控广义线性Profile数据的变样本容量动态控制图 Dynamic Control Charts with Variable Sample Size for Monitoring Generalized Linear Profile Data

doi:10.12677/aam.2024.134130

Advances in Applied Mathematics
Vol. 13 No. 04 ( 2024 ), Article ID: 84973 , 8 pages
10.12677/aam.2024.134130

监控广义线性Profile数据的变样本容量动态控制图

邹俊杰，齐德全^*

●How to Cite this Article

长春理工大学数学与统计学院，吉林长春

收稿日期：2024年3月19日；录用日期：2024年4月15日；发布日期：2024年4月22日

摘要

对于离散响应变量的profile数据，比如二元的、多项的、次序的和Poisson响应的profile，进行有效的监控越来越受到统计过程控制领域研究人员的关注。这些profile都可看作广义线性模型的特殊情况。本文提出了一种基于加权似然比检验的第二阶段的变样本容量动态控制图用来监控广义线性profile数据。不仅能增强对中小漂移的检测敏感度，还可以提高检测的速度, 降低抽样成本，提高企业统计决策的精确度和可靠度。通过平均运行长度来衡量控制图的性能表现，模拟结果表明，与静态控制图相比，所提出的控制图对于模型参数的变化有很好的监控能力。

关键词

广义线性模型，Profile数据，加权似然比检验，统计过程控制

Dynamic Control Charts with Variable Sample Size for Monitoring Generalized Linear Profile Data

Junjie Zou, Dequan Qi^*

School of Mathematics and Statistics, Changchun University of Science and Technology, Changchun Jilin

Received: Mar. 19^th, 2024; accepted: Apr. 15^th, 2024; published: Apr. 22^nd, 2024

ABSTRACT

In recent years, effective profile monitoring for discrete response variables, such as binary, multinomial, ordinal or Poisson variables, has increasingly attracted interest of researchers in the area of statistical process control. Such quality characteristics are often modeled as special cases of generalized linear models. A new control chart is developed based on the weighted likelihood ratio test with adaptive sample sizes, which is used to monitoring generalized linear profile data. It can not only enhance the sensitivity of detecting small and medium-sized shift, but it can also improve the speed of detection, reduce sampling costs, and improve the accuracy and reliability of enterprise statistical decision-making. The performance of the control chart is measured by the average running length, and the simulation results show that compared with the static control chart, the proposed control chart has good monitoring ability for changes in model parameters.

Keywords:Generalized Linear Model, Profile Data, Weighted Likelihood Ratio Test, Statistical Process Control

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

随着现代工业技术的发展，精密制造业的生产过程日趋复杂，有关产品质量的问题已不能被某个或某几个指标的均值或方差(或分布)来完全代表或解释，而是需要用profile数据对过程进行更加精细和完整地刻画。Profile数据指的是在抽样点上，我们所得到的观测值可以看作是一些回归曲线。

统计过程控制中对profile数据(连续响应变量或离散响应变量)的监控方法已非常丰富，参见文献 [1] [2] 或专著 [3] 。关于离散响应变量的profile，Yeh et al. [4] 开创性地研究了用于监控二元响应变量的profile的第二阶段(Phase II)的控制图。之后，学者们分别提出了用于监控响应变量是Poisson的、次序的和多项的profile的第二阶段的控制图 [5] [6] [7] 。这里，响应变量是二元的、Poisson的、次序的和多项的profile都可以看作是广义线性模型的特例。在广义线性模型的统一框架下，Amiri et al. [8] 和Shadman et al. [9] 建立了第一阶段(Phase I)的控制图，Qi et al. [10] 建立了第二阶段的控制图。

以上的文献都是以固定的抽样间隔抽取固定数量的样本，而一个非常直观的想法是当一个控制图的检验统计量距离控制线较近，过程失控的可能性比较大时，我们就会以一个较短的抽样间隔抽取较多数量的样本，来达到对当前过程信息更好地了解的目的；反之，当一个控制图的检验统计量距离控制线较远，过程失控的可能性比较小时，我们就可以以一个较长的抽样间隔抽取较少数量的样本，这就是动态控制图的思想 [11] 。尚云艳 [12] 建立了基于似然比的变样本容量动态控制图监控正态数据。Kazemzadeh et al. [13] 建立了变样本容量的动态控制图监控简单线性profile数据。Mohammadzadeh et al. [14] 建立了变抽样区间的动态控制图监控二元响应变量的profile数据。

综上，关于离散响应变量的profile，本文考虑在广义线性模型的统一框架下，给出变样本容量的第二阶段控制图监控模型的系数是否发生漂移。通过加权似然比检验建立监控统计量，设置报警限和警戒限，当监控统计量小于警戒限时抽取较少的样本，当监控统计量大于警戒限时抽取较多的样本，当监控统计量大于报警限时，发出过程失控的警报。通过蒙特卡洛模拟，所提出的控制图具有较好的表现。

2. 变点模型

假设在生产过程中收集到的profile数据之间是独立的，在第i时刻抽取 $n_{i}$ 个样本，随机样本简记为 $(X_{i j}, y_{i j})$ ， $i = 1, 2, \dots, t$ ， $j = 1, \dots, n_{i}$ ，其中 $X_{i j}$ 是解释变量， $y_{i j}$ 是响应变量， $n_{i}$ 为随时间变化的样本量。进一步假设数据满足以下广义线性模型：

1) 响应变量 $Y_{i} = {(y_{i 1}, \dots, y_{i n_{i}})}^{Τ}$ 是独立同分布，服从于指数分布族的随机变量，其中 $y_{i j}$ 是在时刻i的第j个样本的响应变量，响应变量 $y_{i j}$ 的概率密度函数为

$f (y_{i j}; θ_{i j}) = \exp [y_{i j} b (θ_{i j}) + c (θ_{i j}) + d (y_{i j})], i = 1, 2, \dots, t; j = 1, \dots, n_{i}$

其中 $b (θ_{i j}), c (θ_{i j}), d (y_{i j})$ 是已知函数， $l_{i}^{'} (β) = \sum_{j = 1}^{n_{i}} [y_{i j} b (θ_{i j}) + c (θ_{i j}) + d (y_{i j})] ， i = 1, ..., t$ 是自然参数。

2) 解释变量

$X_{i} = (\begin{matrix} X_{i 1}^{T} \\ ⋮ \\ X_{i n_{i}}^{T} \end{matrix}) = (\begin{matrix} x_{i 1, 1} & \dots & x_{i 1, p} \\ ⋮ & ⋮ \\ x_{i n_{i}, 1} & \dots & x_{i n_{i}, p} \end{matrix})$

为一个设定的 $n_{i} \times p$ (且 $p < n_{i}$ )维矩阵，其中 $X_{i j}^{T} = (x_{i j, 1}, \dots, x_{i j, p})$ ， $i = 1, 2, \dots, t$ ， $j = 1, \dots, n_{i}$ 。

3) 解释变量 $X_{i j}^{T}$ 与回归系数 $β$ 的一个单调链接函数如下：

$g (μ_{i j}) = η_{i j} = X_{i j}^{T} β$

其中 $μ_{i j} = E (Y_{i j})$ ，且回归系数向量 $β = {(β_{1}, \dots, β_{p})}^{T}$ ， $p < n_{i}$ ， $i = 1, 2, \dots, t$ ， $j = 1, 2, \dots, n_{i}$ 。

假设在一个未知的 $τ$ 时刻，生产过程失控，即系数 $β$ 由可控时的 $β_{I C}$ 变为失控时的 $β_{O C}$ 。于是，在每一时刻 $t = 1, 2, \dots$ 监控以下变点模型：

${\begin{cases} H_{0} : β = β_{I C} \\ H_{1} : β = β_{O C} \end{cases}$

3. 在线监控方法

首先求加权似然比监控统计量，在第t时刻的对数似然函数为

${l^{'}}_{i} (β) = \sum_{j = 1}^{n_{i}} [y_{i j} b (θ_{i j}) + c (θ_{i j}) + d (y_{i j})], i = 1, 2, \dots, t$

从而加权对数似然函数为

$w {l^{'}}_{t} (β) = \sum_{i = 0}^{t} w_{i} {l^{'}}_{i} (β) = \sum_{i = 0}^{t} w_{i} \sum_{j = 1}^{n_{i}} [y_{i j} b (θ_{i j}) + c (θ_{i j}) + d (y_{i j})]$

其中 $w_{0} = {(1 - λ)}^{t}$ ， $w_{i} = λ {(1 - λ)}^{t - i}$ ， $i = 1, 2, \dots, t$ ， $λ \in (0, 1)$ 是光滑参数。

令 $ℑ^{(m - 1)} = \sum_{i = 1}^{t} w_{i} ℑ_{i}^{(m - 1)}$ 为信息矩阵， $U^{(m - 1)} = \sum_{i = 0}^{t} w_{i} U_{i}^{(m - 1)}$ 为得分矩阵，由牛顿迭代法 [10] ，根据公式

$β^{(m)} = β^{(m - 1)} + {[ℑ^{(m - 1)}]}^{- 1} U^{(m - 1)}$

可得系数 $β$ 的加权极大似然估计 ${\overset{⌢}{β}}_{t} = \arg \max_{β} w {l^{'}}_{t} (β)$ 。

于是，构造如下变样本容量的加权似然比检验统计量(VSS-WLRT)

${W^{'}}_{t} = 2 \sum_{i = 0}^{t} w_{i} {\sum_{j = 1}^{n_{i}} [y_{i j} b ({\hat{θ}}_{i j}) + c ({\hat{θ}}_{i j}) + d (y_{i j}) / \sqrt{n_{i}}] - \sum_{j = 1}^{n_{i}} [y_{i j} b (θ_{i j}) + c (θ_{i j}) + d (y_{i j}) / \sqrt{n_{i}}]}$

然后，根据公式 $n_{1} p_{1} + n_{2} p_{2} = n_{0}$ 设置报警限h和警戒限g，其中 $p_{1} = Ρ [{W^{'}}_{t} \in (g, h)]$ ， $p_{2} = Ρ [{W^{'}}_{t} \in (0, g)]$ ， $n_{0}$ 为固定样本容量的控制图的抽取样本量， $n_{1} < n_{0} < n_{2}$ 且 $p_{1} + p_{2} = 1$ 。

在时刻t，当统计量 $g < {W^{'}}_{t} < h$ 时，在下一时刻抽取较大的容量为 $n_{2}$ 的样本；当统计量 ${W^{'}}_{t} < g$ 时，在下一时刻抽取较小的容量为 $n_{1}$ 的样本；当统计量 ${W^{'}}_{t} > h$ 时，此时控制图发出系数 $β$ 发生漂移的警报。

变样本容量动态控制图监控过程的流程图如图1所示。

Figure 1. Flow chart of dynamic control chart monitoring with variable sample size

图1. 变样本容量动态控制图监控的流程图

4. 统计模拟与示例

通过蒙特卡洛模拟将本文所提出的方法(简记为VSS-WLRT)与Qi et al. [10] 的WLRT方法进行比较。参考Qi et al. [10] 响应变量是Poisson分布的统计模拟，当过程参数可控时给定 $β_{i} = β_{I C} = {(1, 1)}^{Τ}$ ，过程参数失控时 $β_{i} = β_{I C} + Δ$ ，其中 $Δ = {(δ_{1} σ_{1}, δ_{2} σ_{2})}^{Τ}$ ， $δ_{1}, δ_{2}$ 为漂移量且不同时为0， $σ_{1} = 0.35181$ ， $σ_{2} = 0.50947$ 。参考文献 [13] ，在进行动态控制图与静态控制图比较时，应设定具有相同的平均采样率，本文设定 $p_{1} = p_{2} = 0.5$ ，此时样本容量设置为 $(n_{0}, n_{1}, n_{2}) = (5, 2, 8)$ 时，控制图记为VSS-WLRT₁；样本容量设置为 $(n_{0}, n_{1}, n_{2}) = (5, 3, 7)$ 时，控制图记为VSS-WLRT₂。通过二分法调整控制限使得不同控制图可控时的平均运行长度ARL₀接近370，然后比较失控时的平均运行长度ARL₁。失控状态下的ARL₁越小，控制图报警越早，监控效果越好。在理论上，WLRT和VSS-WLRT控制图的监控效果都受到光滑参数的影响，较大的光滑参数对大漂移较有效，较小的光滑参数对小漂移较有效。因此，在光滑参数 $λ$ 分别取0.05，0.1和0.2的情况下，进行5000次重复模拟得到各控制图的ARL₁，见表1、表2和表3。

Table 1. ARL1 the control chart of the WLRT, VSS-WLRT1, VSS-WLRT2 when λ = 0.05

表1. $λ = 0.05$ 时WLRT、VSS-WLRT₁、VSS-WLRT₂的失控ARL₁

由表1~表3可以看出，相同漂移的情况下，VSS-WLRT₁与VSS-WLRT₂两个动态控制图的ARL₁均比静态WLRT控制图的更小，从而监控效果更好。例如，在 $λ = 0.05$ ，漂移量 $(δ_{1}, δ_{2}) = (0.2, 0)$ 时，WLRT控制图的ARL₁为143.5650，VSS-WLRT₁的ARL₁为87.8400，VSS-WLRT₂的ARL₁为74.7350；漂移量 $(δ_{1}, δ_{2}) = (0.59, 0.59)$ 时，WLRT控制图的ARL₁为7.5540，而VSS-WLRT₁的ARL₁为3.2420，VSS-WLRT₂的ARL₁为3.8320。因此表明，在不同的漂移量下，变样本容量的动态控制图的报警速度均比静态控制图更快。

Table 2. ARL1 the control chart of the WLRT, VSS-WLRT1, VSS-WLRT2 when λ = 0.1

表2. $λ = 0.1$ 时WLRT、VSS-WLRT₁、VSS-WLRT₂的失控ARL₁

由表1~表3还可以看出，三个控制图的监控效果受到光滑参数的影响。 $λ = 0.2$ ，对大漂移比较有效； $λ = 0.05$ ，对小漂移比较有效。例如，当漂移量 $(δ_{1}, δ_{2}) = (0.59, 0.59)$ 时， $λ = 0.2$ 的VSS-WLRT₁控制图的ARL₁ = 1.4172， $λ = 0.05$ 的VSS-WLRT₁控制图的ARL₁ = 3.2420；当漂移量 $(δ_{1}, δ_{2}) = (0.2, 0)$ 时， $λ = 0.05$ 的VSS-WLRT₁控制图的ARL₁ = 87.8400， $λ = 0.2$ 的VSS-WLRT₁控制图的ARL₁ = 185.3000，这一结果与理论一致。整体上看，与WLRT相比，VSS-WLRT控制图对中小漂移的检测敏感度有所提高。

Table 3. ARL1 the control chart of the WLRT, VSS-WLRT1, VSS-WLRT2 when λ = 0.2

表3. $λ = 0.2$ 时WLRT、VSS-WLRT₁、VSS-WLRT₂的失控ARL₁

为了更好地理解所提出方法的应用，本文在 $λ = 0.05$ ，漂移量 $(δ_{1}, δ_{2}) = (0.5, 0)$ 时，进行一次过程监控，给出如图2的示例(WLRT控制图中n取10)。由图2可以看出，固定样本量的WLRT控制图在t = 37时发出失控警报，VSS-WLRT₁控制图在t = 23时发出失控警报，VSS-WLRT₂在t = 16时发出失控警报。于是动态控制图所需的平均样本量更少，能达到降低成本的目的。

Figure 2. WLRT, VSS-WLRT₁, VSS-WLRT₂ control chart

图2. WLRT、VSS-WLRT₁、VSS-WLRT₂控制图

为了验证所提出方法对其它模型的适用性，本文扩展了Goeman和Cessie [15] 所讨论的多项式逻辑回归模型作为一个控制图性能比较的示例。在这里，我们只考虑解释变量是分类变量的情况，考虑一个有四个类别的响应变量Y。令 $π_{1}, \dots, π_{4}$ 表示响应变量各自类别的概率，且 $π_{1} + \dots + π_{4} = 1$ 。假设有三个取值为−1，0，1的协变量 $x_{1}$ 、 $x_{2}$ 、 $x_{3}$ 满足：

${\begin{cases} \log (\frac{π_{2}}{π_{1}}) = 2 x_{1} + δ x_{1}^{2}, \\ \log (\frac{π_{3}}{π_{1}}) = 2 x_{2}, \\ \log (\frac{π_{4}}{π_{1}}) = 2 x_{3} . \end{cases}$

取 $λ = 0.1$ ， ${ARL}_{0} = 370$ ， $τ = 20$ ，可控时 $δ = 1$ ，失控时 $δ = 1.6$ 。在每个时间点t，从3个协变量值的3³=27种可能组合中随机抽取，获得25个观察数据集。VSS-WLRT₁控制图样本容量设置为 $(n_{0}, n_{1}, n_{2}) = (25, 20, 30)$ ，VSS-WLRT₂控制图样本容量设置为 $(n_{0}, n_{1}, n_{2}) = (25, 15, 35)$ ，WLRT控制图样本容量n设置为25。进行一次过程监控，绘制控制图如图3所示。

由图3可以看出，固定样本量的WLRT控制图在t = 47时发出失控警报，VSS-WLRT₁控制图在t = 28时发出失控警报，VSS-WLRT₂在t = 25时发出失控警报。变化样本量的动态控制图监测过程失控速度更快，且所需样本量更少，说明所提出方法对监控多项式逻辑回归模型也是适用的。

Figure 3. WLRT, VSS-WLRT₁, VSS-WLRT₂ control chart

图3. WLRT、VSS-WLRT₁、VSS-WLRT₂控制图

5. 结论

采用可变样本容量的方法建立动态的控制图，可以更有效地监测到生产过程失控，降低统计过程控制中的抽样成本。本文针对响应变量是离散型的profile数据，给出了在广义线性模型的统一框架下基于加权似然比检验的动态控制图。通过二分法统计模拟确定报警限和警戒限，当监控统计量小于警戒限时抽取较少的样本，当监控统计量大于警戒限时抽取较多的样本，达到降低抽样成本的目的。通过蒙特卡洛模拟得出，所提出的控制图失控时平均运行长度较小，具有较好的表现。广义线性模型是线性模型的推广，所以本文所提出的方法很容易应用于线性模型。本文的动态控制图是基于变样本容量提出，在之后的研究中还可以考虑变抽样区间对结果的影响。

基金项目

吉林省教育厅项目(JJKH20210809KJ)、国家自然科学基金面上项目(12271271)。

文章引用

邹俊杰,齐德全. 监控广义线性Profile数据的变样本容量动态控制图
Dynamic Control Charts with Variable Sample Size for Monitoring Generalized Linear Profile Data[J]. 应用数学进展, 2024, 13(04): 1391-1398. https://doi.org/10.12677/aam.2024.134130

参考文献

1. Woodall, W.H. (2007) Current Research on Profile Monitoring. Producõ, 17, 420-425. https://doi.org/10.1590/S0103-65132007000300002

2. Woodall, W.H. and Montgomery, D.C. (2014) Some Current Directions in the Theory and Application of Statistical Process Monitoring. Journal of Quality Technology, 46, 79-94. https://doi.org/10.1080/00224065.2014.11917955

3. Noorossana, R., Saghaei, A. and Amiri, A. (2011) Statistical Analysis of Profile Monitoring. John Wiley & Sons, Inc., Hoboken, NJ. https://doi.org/10.1002/9781118071984

4. Yeh, A.B., Huwang, L. and Li, Y.M. (2009) Profile Monitoring for a Binary Response. IIE Transactions, 41, 931-941. https://doi.org/10.1080/07408170902735400

5. Amiri, A., Koosha, M. and Azhdari, A. (2011) Profile Monitoring for Poisson Responses. 2011 IEEE International Conference on Industrial Engineering and Engineering Management (IEEM), Singapore, 6-9 December 2011, 1481-1484. https://doi.org/10.1109/IEEM.2011.6118163

6. Noorossana, R., Aminnayeri, M. and Izadbakhsh, H. (2013) Statistical Monitoring of Polytomous Logistic Profiles in Phase II. Scientia Iranica E, 20, 958-966.

7. Noorossana, R., Saghaei, A., Izadbakhsh, H. and Aghababaei, O. (2013) Monitoring Multinomial Logit Profiles via Log-Linear Models. International Journal of Industrial Engineering & Production Research, 24, 137-142.

8. Amiri, A., Koosha, M., Azhdari, A. and Wang, G. (2015) Phase I Monitoring of Generalized Linear Model-Based Regression Profiles. Journal of Statistical Computation and Simulation, 85, 2839-2859. https://doi.org/10.1080/00949655.2014.942864

9. Shadman, A., Mahlooji, H., Yeh, A.B. and Zou, C. (2015) A Change Point Method for Monitoring Generalized Linear Profiles in Phase I. Quality and Reliability Engineering International, 31, 1367-1381. https://doi.org/10.1002/qre.1671

10. Qi, D., Wang, Z., Zi, X. and Li, Z. (2016) Phase II Monitoring of Generalized Linear Profiles Using Weighted Likelihood Ratiocharts. Computers & Industrial Engineering, 94, 178-187. https://doi.org/10.1016/j.cie.2016.01.022

11. 王兆军. 关于动态质量控制图的设计理论[J]. 应用概率统计, 2002, 18(3): 316-333.

12. 尚云艳. 基于似然比的指数加权滑动平均动态控制图[J]. 南开大学学报(自然科学版), 2021, 54(1): 41-47.

13. Kazemzadeh, R.B., Amiri, A. and Kouhestani, B. (2016) Monitoring Simple Linear Profiles Using Variable Sample Size Schemes. Journal of Statistical Computation & Simulation, 86, 2923-2945. https://doi.org/10.1080/00949655.2016.1138115

14. Mohammadzadeh, M., Yeganeh, A. and Shadman, A. (2021) Monitoring Logistic Profiles Using Variable Sample Interval Approach. Computers & Industrial Engineering, 158, 107438. https://doi.org/10.1016/j.cie.2021.107438

15. Goeman, J.J. and Cessie, S. (2016) A Goodness-of-Fit Test for Multinomial Logistic Regression. Biometrics, 62, 980-985. https://doi.org/10.1111/j.1541-0420.2006.00581.x

期刊菜单