Advances in Applied Mathematics
Vol. 12  No. 01 ( 2023 ), Article ID: 60386 , 8 pages
10.12677/AAM.2023.121010

基于贝叶斯准则的偏态分布拟合 效果分析

徐鹏

南京邮电大学理学院,江苏 南京

收稿日期:2022年12月15日;录用日期:2023年1月8日;发布日期:2023年1月17日

摘要

正态分布、t分布、双指数分布等概率统计分布已经广泛地应用于社会的各个领域,但是由于实际数据的复杂性,上述分布对数据的拟合并不能很好地表现数据的特征,因此偏态分布逐渐引起了人们的注意。为了进一步拓展偏态分布的应用范围,借助R软件,将偏态分布应用到了台风灾害造成的经济损失数据中,并与常用的分布进行对比分析,利用贝叶斯信息准则评价分布的优劣性。通过研究发现,偏t分布对台风灾害造成的经济损失数据表现出了较好的拟合效果,能够更好的体现数据特征,这无论是对台风灾害的研究还是偏t分布的研究都具有一定的意义。

关键词

t分布,偏正态分布,贝叶斯准则,极大似然估计

Analysis of Fitting Effect of Skewed Distribution Based on Bayesian Information Criterion

Peng Xu

College of Science, Nanjing University of Posts and Telecommunications, Nanjing Jiangsu

Received: Dec. 15th, 2022; accepted: Jan. 8th, 2023; published: Jan. 17th, 2023

ABSTRACT

Probability statistical distributions such as normal distribution, t-distribution and double exponential distribution have been widely used in various fields of society. However, due to the complexity of actual data, the data fitting of the above distribution can not well represent the characteristics of the data, so the skewed distribution has gradually attracted people’s attention. In order to further expand the application scope of the skewed distribution, R software is used to apply the skewed distribution to the economic loss data caused by typhoon disasters, and the comparison analysis is made with the commonly used distribution, the advantages and disadvantages of the distribution are evaluated by the Bayesian Information Criterion. Through the study, it is found that the skew-t distribution has a better fitting effect on the economic loss data caused by typhoon disasters, which can better reflect the characteristics of the data, which has certain significance for both the study of typhoon disasters and the study of skew-t distribution.

Keywords:Skew-t Distribution, Skew Normal Distribution, Bayes Information Criterion, Maximum Likelihood Estimation

Copyright © 2023 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

随着计算机技术的发展,相关软件的出现对数据分析提供了更多便捷的方式。R是一套完整的数据处理、计算和制图软件系统 [1],其可编程的特点以及包含丰富的函数和数据集程序包,更有助于使用者灵活机动的进行数据分析。

偏正态分布和偏t分布具有优美的数学形式和易于处理的特点。偏正态分布是正态分布的扩展,偏正态分布可以显示数据的偏态特征 [2] [3],偏t分布思想是由t分布逐渐发展到广义t分布 [4],最后发展到偏t分布 [5]。近年来,偏态分布的应用越来越广泛,如地震风险建模研究 [6]、保险赔偿金评估 [7]、鲜烟叶成熟度判定 [8]、预测大豆产量 [9] 等,但是偏态分布在台风灾害损失数据拟合分析方面仍然是空白。

因此,本文借助于R编程,分析偏态分布对台风灾害造成的经济损失数据拟合效果,探究相较与常用的分布,如正态分布、威尔分布、伽马分布等,利用偏态分布对台风数据进行拟合时是否更具有优势。这里选择了偏正态分布和偏t分布两种比较经典的偏态分布进行研究,采用贝叶斯信息准则(bayes information criterion, BIC)评价拟合效果。首先使用R软件产生仿真模拟数据,针对仿真数据,采用极大似然估计生成密度函数曲线对偏态分布的拟合效果进行初步分析,继而利用BIC值对拟合效果进行更准确的分析,从而验证整体过程的可行性,在此基础上,探究偏态数据对台风造成的经济损失数据的拟合效果。

2. 仿真数据的拟合效果分析

由于偏正态分布和偏t分布是在正态分布和t分布基础上拓展而来,因此选用样本量N = 200、均值为0、方差为1的正态分布作为仿真数据,非正态数据选用自由度为5的卡方分布作为仿真数据,研究偏正态分布、偏t分布对数据的拟合效果,并与正态分布和t分布的拟合效果进行对比。

对于仿真生成的数据,其描述性统计表如表1所示。根据描述性统计表,利用极大似然估计得到正态分布、偏正态分布、t分布、偏t分布的估计值进而绘制仿真数据真实值以及各分布估计值的密度函数曲线,不同分布极大似然估计值如表2所示。

Table 1. Descriptive statistics of sample data generated

表1. 生成的仿真数据的描述性统计表

Table 2. Parameter estimation results of sample data generated under four kinds of distribution

表2. 生成的仿真数据下四种分布的参数估计结果

两种仿真数据真实值以及估计值的密度函数曲线如图1图2所示。由密度函数曲线可以直观反映出,针对正态仿真数据,四种分布的极大似然估计值密度函数曲线基本相似,针对卡方仿真数据,t分布的极大似然估计值的密度函数曲线与真实值的曲线差异最大,偏t分布的极大似然估计值的密度函数曲线与真实值的曲线最接近。

Figure 1. Density function curves of different distributions to normally distributed data

图1. 不同分布对正态分布数据的密度函数曲线

Figure 2. Density function curves of chi-square data with different distributions

图2. 不同分布对卡方分布数据的密度函数曲线

从上述对密度函数曲线的分析可以发现,对于卡方分布的仿真数据可以看出较明显的区别,但是对于正态分布的仿真数据四种分布估计值的密度函数曲线是相似的,因此采用贝叶斯信息准则来对分布的拟合效果进行更准确的判定就十分必要。表3给出了四种分布在仿真数据下的BIC值,同时借助常用来判断拟合效果的相关系数R2来进行判定结果的对比,这里BIC值越小说明拟合效果越好,R2的值越接近1说明拟合效果越好。

从上述对密度函数曲线的分析可以发现,对于卡方分布的仿真数据可以看出较明显的区别,但是对于正态分布的仿真数据四种分布估计值的密度函数曲线是相似的,因此采用贝叶斯信息准则来对分布的拟合效果进行更准确的判定就十分必要。表3给出了四种分布在仿真数据下的BIC值,同时借助常用来判断拟合效果的相关系数R2来进行判定结果的对比,这里BIC值越小说明拟合效果越好,R2的值越接近1说明拟合效果越好。

Table 3. BIC values and correlation coefficients R2 of different models under sample data generated by simulation

表3. 生成的仿真数据下不同模型的BIC值以及相关系数R2

根据BIC值可以看出,在仿真生成的正态分布数据下,正态分布模型的BIC值最小,因此相较于其他分布,正态分布模型的拟合效果最好。在仿真生成的卡方分布数据下,偏t分布模型的BIC值最小,因此相较于其他分布,偏t分布模型的拟合效果最好,这是由偏t分布的定义中涵盖了卡方分布导致的。同时,相关系数R2的结果也与BIC值的判定结果一致。

通过以上验证,可以确定整体过程是可行的并且可靠的。

3. 台风损失数据的拟合分析

选用我国东南沿海台风多发的广东省从1983年到2019年36年间台风造成的经济损失数据作为研究对象,数据来自于《中国统计年鉴》,具体数据见表4

Table 4. Data of economic losses caused by typhoons in Guangdong Province from 1983 to 2019

表4. 1983~2019年广东省台风造成经济损失的数据

根据表4数据,表5给出了数据的描述性统计表。根据描述性统计表,利用极大似然估计给得到偏正态分布、偏t分布的估计值进而绘制仿真数据真实值以及各分布估计值的密度函数曲线,表6给出了偏正态分布和偏t分布的极大似然估计值,图3给出了两种偏态分布和其他常用分布估计值的密度函数曲线和真实值曲线。

Table 5. Descriptive statistics of economic losses caused by typhoon

表5. 台风造成的经济损失数据的描述性统计表

Table 6. Parameter estimation results of skew normal distribution and skew-t distribution

表6. 偏正态分布、偏t分布的参数估计结果

Figure 3. Probability density curves of typhoon loss data with different distributions

图3. 不同分布对台风损失数据的密度函数曲线

图3密度函数曲线直观表现出了五种分布对台风损失数据的拟合效果,正态分布模型拟合效果最差,偏t分布、偏正态分布、伽玛分布和威尔分布四种分布对于台风损失数据的峰值以及尾部特征各有优劣,因而利用贝叶斯信息准则进一步评价拟合效果。表7为不同分布模型对台风损失数据的BIC值和相关系数R2值。

从BIC值可更加准确判定几种分布模型对台风损失数据的拟合效果。根据表7中BIC值结果,偏t分布模型对台风损失数据的拟合更具有优势,相较于除偏t分布以外BIC值最小的威尔分布,偏t分布的BIC值也具有22.26%的优势。同时,相关系数R2也表现出一致的结果,即偏t分布模型对台风造成的经济损失数据具有较好的拟合效果。

Table 7. BIC values and R2 values obtained by fitting the typhoon loss data with five distribution fits

表7. 五种分布模型对台风损失数据的BIC值以及相关系数R2

4. 总结

本文借助R软件中的函数以及数据集程序包,通过编程验证了贝叶斯信息准则在评价分布模型拟合效果的准确性,进而研究了偏态分布在对我国广东省台风造成经济损失数据的拟合效果,并同常用分布模型对比,发现针对我国台风损失数据,偏t分布具有最佳的拟合效果。这一结论拓展了偏态分布的应用范围,为分析台风灾害造成的经济损失提供了一个新的手段。同时,应该注意到的是,不同的数据所具备的特征不尽相同,因此在选用模型拟合数据时要根据具体情况具体分析。

基金项目

此研究由国家自然科学基金项目(31971029)资助。

文章引用

徐 鹏. 基于贝叶斯准则的偏态分布拟合效果分析
Analysis of Fitting Effect of Skewed Distribution Based on Bayesian Information Criterion[J]. 应用数学进展, 2023, 12(01): 73-80. https://doi.org/10.12677/AAM.2023.121010

参考文献

  1. 1. 吴剑, 钱进. R软件在工科概率论与数理统计教学中的应用[J]. 考试周刊, 2019(29): 29.

  2. 2. Azzalini, A. (1985) A Class of Distributions That Includes the Normal Ones. Scandinavian Journal of Statistics, 12, 171-178.

  3. 3. Gupta, A.K., Gonzalez-Farias, G. and Dominguez-Molina, J.A. (2004) A Multivariate Skew Normal Distribution. Journal of Multivariate Analysis, 89, 181-190. https://doi.org/10.1016/S0047-259X(03)00131-3

  4. 4. McDonald, J.B. and Newey, W.K. (1988) Skewed Adaptive Estimation of Regression Models via the Generalized t Distribution. Econometric Theory, 4, 428-457. https://doi.org/10.1017/S0266466600013384

  5. 5. Theodossiou, P. (1998) Financial Data and the Skewed Generalized t Distribution. Management Science, 44, 1650-1661. https://doi.org/10.1287/mnsc.44.12.1650

  6. 6. 郝军章, 翟嘉. 基于有偏分布的我国地震风险测度与保费厘定[J]. 数学的实践与认识, 2020, 50(23): 57-68.

  7. 7. 王明高, 孟生旺. 基于尺度混合偏正态分布的稳健未决赔款准备金评估方法[J]. 数理统计与管理, 2021, 40(4): 634-642.

  8. 8. 沈平, 童德文, 陈郑盟, 等. 基于叶色偏态分布模式的鲜烟叶成熟度判定[J]. 烟草科技, 2021, 54(8): 26-35.

  9. 9. 张佩, 陈郑盟, 马顺登, 尹帝, 江海东. 用冠层叶色偏态分布模式RGB模型预测大豆产量[J]. 农业工程学报, 2021, 37(9): 120-126.

期刊菜单