Advances in Applied Mathematics
Vol. 10  No. 07 ( 2021 ), Article ID: 44160 , 13 pages
10.12677/AAM.2021.107268

基于灰色预测–决策树模型下车险保费浮动的研究

肖思佳,林萍芝,张靖文,王浩华*

海南大学理学院,海南 海口

收稿日期:2021年6月23日;录用日期:2021年7月15日;发布日期:2021年7月27日

摘要

汽车保险的续保问题对于保险市场具有举足轻重的作用,如何有效的预测市场各个因素对续保率的影响并未十分清楚。通过分析保费浮动优惠等因素对续保率的影响,本文建立影响力指数的等级比较模型,通过计算其性质系数的灰色关联度,考察具有不同性质车辆的续保率。计算出有关索赔系数和使用性质系数,建立数学模型,给出了较为合理的保费浮动方案。最后,建立决策树模型,根据统计数据对不同车辆进行分类同时,通过对三个因素进行加权,得到了评价企业质量的决策树累积模型,分析各因素对续保率的影响,从而提供可行性建议。

关键词

等级比较模型,续保率,灰色预测法,保费浮动系数,决策树

Study on the Floating Premium of Car Insurance Based on Grey Prediction Method and Decision Tree

Sijia Xiao, Pingzhi Lin, Jingwen Zhang, Haohua Wang*

School of Sciences, Hainan University, Haikou Hainan

Received: Jun. 23rd, 2021; accepted: Jul. 15th, 2021; published: Jul. 27th, 2021

ABSTRACT

This paper intends to predict the floating premium of car insurance in an insurance company, use the renewal rate to measure the floating demand of premium, collect the data of relevant departments, and establish the grade comparison model of influence index by analyzing the influence of each factor on the renewal rate. Then the grey correlation degree is used to predict the influence of vehicles with different use properties on the renewal rate, and the use property coefficient is calculated. According to the model of “premium floating coefficient = claim coefficient A × use property coefficient B”, a more reasonable premium floating scheme is put forward. Finally, the decision tree is established, combined with the statistical data, the vehicles with different usage properties are weighted, and the three factors that evaluate the quality of the company are assigned weights, and the cumulative model of the decision tree is obtained. The results show that the scheme evaluation is effective.

Keywords:Grade Comparison Model, Renewal Rate, Grey Prediction Method, Premium Floating Coefficient, Decision Tree

Copyright © 2021 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

续保率一定程度上反映了保险公司业务稳定程度和对客户的保留能力,其成为汽车保险行业评估保险公司市场份额的决定性因素。实际上,续保率由保费浮动等度量,给出一套较为合理的保费浮动方案已成为保险公司提高续保率的重要依据。目前为止,已经对续保率影响因素从不同角度有了研究。陈曼发现在众多不同种类车辆中家庭自用车的续保率最低 [1] [2] [3]。刘亮利用K-means聚类算法将客户划分为某几类,并用多元回归分析得到每一类客户的主要影响因素进行了对比 [4]。王梦晨选择广义线性模型中的logistic模型为工具从多个层面分析了车险业务中影响续保率的因素 [5]。本文在此基础上,收集相关部门数据,综合考虑了各方面因素的影响,建立了影响力指数的等级比较模型,利用灰色预测法进行灰色关联度预测。进而根据“保费浮动系数 = 索赔系数A × 使用性质系数B”这一模型,提出了较为合理的保费浮动方案。最后建立决策树模型,判断方案可行性。

2. 建立等级比较模型

首先,从原始表格中提取出“承包车辆的使用性质”,“承包车辆的出现次数”、“承包车辆的年龄”和“承包车辆的新车购买价”这四个具有代表性的市场因素,使用7个月份的数据(来源:中国统计局),建立新的数据表格,进行基础数据处理后,建立图1

选取前四个月的续保率数据来进行研究,这样就避免了研究全部7个月份时由于前四个月与后三个月的数据变化较大而造成的误差。提取“承包车辆的出现次数”、“承包车辆的新车购买价”、“承包车辆的使用性质”和“承包车辆的年龄”这四个代表性因素的9、10、11、12四个月份的数据,根据方差公式

Figure 1. The effect of different factors on renewal rate in seven months

图1. 7个月份中不同因素对续保率的影响图

μ = 1 n i = 1 n ( X i X ¯ ) 2

得到各个市场因素9、10、11、12月份的四个方差,进而得到影响力评估指数 [4] [5] [6]

V = i = 9 12 μ i

将保险业市场因素对该企业续保率的影响力评估指数分为A、B、C、D、E五个等级比较模型,得到表1

Table 1. Grade comparison model of influence evaluation index

表1. 影响力评估指数的等级比较模型

将四个因素对续保率的影响力评估指标数据带入等级比较模型,获得每个因素的代表等级,得到表2

Table 2. Table of factors influence evaluation index and grade

表2. 各个因素影响力评估指数与影响力等级对应表

3. 续保率的灰色预测模型

从2016年9月至2017年3月七个月的到期车辆续保率的原始数据,得表3

Table 3. Renewal rate of family car

表3. 家庭自用车续保率

通过计算(见附录),可知GM(1,1)模型的参数 a = 0.0802 μ = 0.2244 ,即其微分方程为 [7] [8]:

d X ( 1 ) d t + a X ( 1 ) = μ , X ( 1 ) = 0.2244

GM(1,1)灰色微分方程时间响应序列为

x ^ ( 1 ) ( k + 1 ) = ( x ( 0 ) ( 1 ) μ a ) e a k + μ a = 3.0561 e 0.0802 k 2.798

其中 X ( 1 ) 的模拟值为

X ^ ( 1 ) = { x ^ ( 1 ) ( 1 ) , x ^ ( 1 ) ( 2 ) , x ^ ( 1 ) ( 3 ) , x ^ ( 1 ) ( 4 ) , x ^ ( 1 ) ( 5 ) , x ^ ( 1 ) ( 6 ) , x ^ ( 1 ) ( 7 ) } = { 0.2581 , 0.5133 , 0.7897 , 1.0892 , 1.4183 , 1.7654 , 2.1464 }

x ^ ( 0 ) ( k + 1 ) = x ^ ( 1 ) ( k + 1 ) x ^ ( 1 ) ( k ) ,还原出 X ( 0 ) 的模拟值得:

X ^ ( 0 ) = { x ^ ( 0 ) ( 1 ) , x ^ ( 0 ) ( 2 ) , x ^ ( 0 ) ( 3 ) , x ^ ( 0 ) ( 4 ) , x ^ ( 0 ) ( 5 ) , x ^ ( 0 ) ( 6 ) , x ^ ( 0 ) ( 7 ) } = { 0.2581 , 0.2552 , 0.2765 , 0.2995 , 0.3245 , 0.3516 , 0.3810 }

进而计算 X X ^ 的灰色关联度 S 以及其相对误差 ε

| S | = | k = 2 6 ( x ( k ) x ( 1 ) ) + 1 2 ( x ( 7 ) x ( 1 ) ) | = | ( 0.2653 0.2581 ) + ( 0.2648 0.2581 ) + ( 0.2705 0.2581 ) + ( 0.3568 0.2581 ) + ( 0.3681 0.2581 ) + 1 2 × ( 0.3637 0.2581 ) | = 0.6574

| S ^ | = | k = 2 6 ( x ^ ( k ) x ^ ( 1 ) ) + 1 2 ( x ^ ( 7 ) x ^ ( 1 ) ) | = 0.7084

| S ^ S | = | k = 2 6 [ ( x ( k ) x ( 1 ) ) ( x ^ ( k ) x ^ ( 1 ) ) ] + 1 2 [ ( x ( 7 ) x ( 1 ) ) ( x ^ ( 7 ) x ^ ( 1 ) ) ] | = 0.0510

ε = 1 + | S | + | S ^ | 1 + | S | + | S ^ | + | S ^ S | = 1 + 0.6574 + 0.7084 1 + 0.6574 + 0.7084 + 0.0510 = 0.9789 > 0.9

根据得到的结果对比精度检验等级参照表可知(附录),一级精度的家庭自用这一使用性质对续保率有很显著的影响。

同样的方法,分别对以下几种车应用灰色预测法进行精度检验,得到表4

Table 4. Table of grey relational degree of using properties and renewal rate

表4. 使用性质与续保率灰色关联度列表

结果表明,灰色关联度分别是党政机关客车为、企业客车为、非营业货车为、出租租赁为、营业货车为、特种车为,都大于0.9,所以它们的续保率的精度都为一级,这也即是证明车辆使用性质这一因素会明显影响公司的续保率。

4. 保费浮动方案

首先把商车险和交强险分开,分别统计两个险别中各类车的使用的投保辆数、赔付赔付款总额、出险车辆数、浮动前保费总额、总的车辆数。其中在这两种险别中,特种车很少发生事故,所占的比例小,可以不考虑。统计结果得到表5

Table 5. Statistics table of commercial and compulsory insurance

表5. 保户投保商车险和交强险的投保车辆数统计表

其中百分比是该种车辆数占商车险或交强险总投保车辆的比例,在两个险别中城市公交与特种车投保车辆都非常少,故不予以考虑。若投保客户的投保额小,但客户发生事故的次数多,那总赔付款与出险次数成正比,公司的盈利与出险次数成反比。下面根据车辆使用性质的不同,统计出两个险别的其他参数数据。得到表6表7

Table 6. The data of commercial insurance

表6. 商车险数据统计表

Table 7. The data of compulsory insurance

表7. 交强险数据统计表

由以上数据可以计算出:

A =

B =

C =

根据以上三种比例可得到三种方案(i = 1表示商车险,i = 2表示交强险):

方案一:浮动后保额 = (1 − Ai)浮动前保额

方案二:浮动后保额 = (1 − Bi)浮动前保额

方案三:浮动后保额 = (1 − Ci)浮动前保额

代入数据结果如表8

Table 8. The programme of commercial and compulsory insurance

表8. 商车险和交强险方案统计表

方案一根据出险车辆数的比例提出的,只考虑了所投保的车辆是否会发生事故,却没考虑其他因素,例如公司的保户个数、总保费、赔付款总额。该方案考虑的并不全面,所以不能广泛推广,作为辅助参考一下。

方案二的提出是根据出险车辆赔付款占浮动前保费总额比例,充分考虑了各个因素,因而具有普适性,推荐采用此方案。

方案三以保险公司的利益为基本,考虑了赔付款对投保车辆浮动前保费总额的占比,但是没有考虑到出险的车辆数。如果一个公司在这一年利益不错的情况下,但是如果处理客户出险事故的次数太多的话,就会造成人力资源在该业务倾斜从而被浪费,由此可以看出这个方案有一定的局限性。

因此方案二更可行。

根据索赔系数A与使用性质系数B,结合模型 [9] [10],得到最终的保费浮动系数方案表9

Table 9. The final programme of floating premium

表9. 最终的保费浮动方案

5. 建立决策树

决策树是一种树形结构,上面的每一个节点就代表对其属性上的一个判断,树上的每个分支就是一个判断结果的输出。用决策树方法来评价一个项目的风险,易于理解,结果更加直观,更容易解释方案是否可行 [11] [12]。根据 [13] [14]

A =

C =

D =

对使用性质不同的车辆进行以下赋权值:

同时,再对纯收入、风险投保以及拖延理赔赋权值:

经过分析得到决策树模型如图2所示。

Figure 2. The analysis chart of decision tree

图2. 决策树分析图

已知方案的期望收益就是把未来收益各种可能结果出现的概率对了解到的估计值做加权平均。分公司得分 S = p j ( p i A i 5 p i C i + p i D i ) = 75.55 ,其中A、C、D的上极限为1,将上极限值带入公式得到270,可以得到总公司对分公司的风险评估分数区间为(0, 270),根据公司评价表(见附录)可知,参考数据中的汽车保险公司一般 [15]。

6. 结束语

随着科技的发展汽车使用率只增不减,越来越多的人关注汽车保险,其在保险行业的地位与日俱增,合理的评估续保率,对于保险公司有具有重大意义。通过选取重要影响因素,本文建立影响力指数的等级比较模型,说明了各因素对续保率的影响。而后利用灰色预测法进行灰色关联度预测,计算出使用性质系数B,并得到三种使用性质系数B的方案,经分析第二种方案更加合理。最后,通过三个因子赋权值构建决策树模型,数据结果表明,该方案具有合理性,值得推广。

基金项目

海南省自然科学基金(120RC451),国家自然科学基金(11761025, 11961018, 11901114),广东省教育厅青年创新人才类(2017KQNCX081),广州市科技创新一般项目(201904010010),中山大学广东省计算科学重点实验室开放课题基金资助(2018001),海南省研究生创新科研课题项目(Hys2020-108)。

文章引用

肖思佳,林萍芝,张靖文,王浩华. 基于灰色预测–决策树模型下车险保费浮动的研究
Study on the Floating Premium of Car Insurance Based on Grey Prediction Method and Decision Tree[J]. 应用数学进展, 2021, 10(07): 2579-2591. https://doi.org/10.12677/AAM.2021.107268

参考文献

  1. 1. 倪琪, 刘骅飞, 田雪颖. 车险续保率影响因素模型[J]. 企业研究, 2011(5): 112-113.

  2. 2. 陈曼. 影响车险客户续保因素刍议[J]. 上海保险, 2012(8): 34-36.

  3. 3. 刘亮. 一种组合模型在车险续保率中的应用[J]. 数字技术与应用, 2019, 37(7): 106+108.

  4. 4. 薛恒. 商业车险费率改革对保险公司的影响及应对[J]. 保险职业学院学报, 2016, 30(5): 23-25.

  5. 5. 王梦晨. A公司车险业务续保率影响因素研究[D]: [硕士学位论文]. 长沙: 湖南大学, 2017.

  6. 6. 杨孝良, 周猛, 曾波. 灰色预测模型背景值构造的新方法[J]. 统计与决策, 2018, 34(19): 14-18.

  7. 7. 李翠凤. 灰色系统建模理论及应用[D]: [硕士学位论文]. 杭州: 浙江工商大学, 2006.

  8. 8. 张永建, 余挺. 车险续保模型的构建及实例[N]. 中国保险报, 2014-11-26(002).

  9. 9. 张永霞, 孟生旺. 我国商业车险奖惩系统研究[J]. 保险研究, 2016(10): 3-15.

  10. 10. 郑丹丹. 中小财险公司应对车险费率市场化改革对策[D]: [硕士学位论文]. 沈阳: 辽宁大学, 2017.

  11. 11. 张梅. 决策树在风险决策中的应用[J]. 高师理科学刊, 2013, 33(2): 41-43.

  12. 12. 朱建平. 经济预测与决策[M]. 厦门: 厦门大学出版社, 2012.

  13. 13. 王彧. 车险赔付风险影响因素决策树分析[J]. 价值工程, 2010, 29(5): 248-249.

  14. 14. 叶慧珍. 中小型产险公司车险索赔风险影响因素研究——以M保险公司为例[D]: [硕士学位论文]. 杭州: 浙江工商大学, 2016.

  15. 15. 曾媛媛. 基于决策树和支持向量机在公司财务风险评估中的应用[J]. 科技经济市场, 2013(9): 17-19.

附录

1:对家庭自用车对续保率的影响进行灰色预测

家庭自用车续保率表

1) 建立原始序列

由于原始数据序列 X ( 0 ) 为非负序列,则

X ( 0 ) = { X ( 0 ) ( 1 ) , X ( 0 ) ( 2 ) , , X ( 0 ) ( n ) }

其中, x ( 0 ) ( k ) 0 , k = 1 , 2 , , n

由表格可知,时间序列 X ( 0 ) 有7个观察值,即2010年9月至2011年3月,用1到7代表,则

X ( 0 ) = { X ( 0 ) ( 1 ) , X ( 0 ) ( 2 ) , , X ( 0 ) ( 7 ) } = { 25.81 % , 26.53 % , 26.48 % , 27.05 % , 35.68 % , 36.81 % , 36.37 % }

2) 对 X ( 0 ) 作1-AGO

D为 X ( 0 ) 的通过累加生成新数据序列为 X ( 1 )

X ( 1 ) = { X ( 1 ) ( 1 ) , X ( 1 ) ( 2 ) , , X ( 1 ) ( 7 ) } = { 25.81 % , 52.34 % , 78.82 % , 105.87 % , 141.55 % , 178.36 % , 214.73 % }

则GM(1, 1)模型相应的微分方程为:

d X ( 1 ) d t + a X ( 1 ) = μ

其中 a μ 是模型的参数。

3) 对 X ( 1 ) 作紧邻均值生成,令

Z ( 1 ) ( k ) = 0.5 x ( 1 ) ( k ) + 0.5 x ( 1 ) ( k 1 ) , k = 0 , 1 , 2 , , 7

Z ( 1 ) = { z ( 1 ) ( 1 ) , z ( 1 ) ( 2 ) , z ( 1 ) ( 3 ) , z ( 1 ) ( 4 ) , z ( 1 ) ( 5 ) , z ( 6 ) , z ( 7 ) } = { 25.81 % , 39.08 % , 65.58 % , 92.34 % , 123.71 % , 159.95 % , 196.54 }

于是,

B = [ z ( 1 ) ( 2 ) 1 z ( 1 ) ( 3 ) 1 z ( 1 ) ( 4 ) 1 z ( 1 ) ( 5 ) 1 z ( 1 ) ( 6 ) 1 z ( 1 ) ( 7 ) 1 ] = [ 39.08 % 1 65.58 % 1 92.34 % 1 123.71 % 1 159.95 % 1 196.54 % 1 ] , Y = [ x ( 0 ) ( 2 ) x ( 0 ) ( 3 ) x ( 0 ) ( 4 ) x ( 0 ) ( 5 ) x ( 0 ) ( 6 ) x ( 0 ) ( 7 ) ] = [ 26.53 % 26.48 % 27.05 % 35.68 % 36.81 % 36.37 % ]

B T B = [ 39.08 % 65.58 % 92.34 % 123.71 % 159.95 % 196.54 % 1 1 1 1 1 1 ] × [ 39.08 % 1 65.58 % 1 92.34 % 1 123.71 % 1 159.95 % 1 196.54 % 1 ] = [ 9.387 6.772 6.772 6 ]

( B T B ) 1 = [ 9.387 6.772 6.772 6 ] 1 = 1 9.387 × 6 6.772 2 [ 6 6.772 6.772 9.387 ] = [ 0.5736 0.6473 0.6473 0.8972 ]

α ^ 为待估参数向量, α ^ = ( a μ ) ,可利用最小二乘法求解。解得:

α ^ = ( B T B ) 1 B T Y n = [ 0.5736 0.6473 0.6473 0.8972 ] × [ 0.3908 0.6558 0.9234 1.2371 1.5995 1.9654 1 1 1 1 1 1 ] × [ 0.2653 0.2648 0.2705 0.3568 0.3681 0.3637 ] = [ 0.4231 0.2711 0.1176 0.623 0.2702 0.4801 0.6442 0.4727 0.2995 0.0964 0.1382 0.375 ] × [ 0.2653 0.2648 0.2705 0.3568 0.3681 0.3637 ] = [ 0.0802 0.2244 ]

4) 确定模型

因此,GM(1,1)模型的参数 a = 0.0802 , μ = 0.2244 ,则其微分方程为:

d X ( 1 ) d t 0.0802 , X ( 1 ) = 0.2244

GM(1,1)灰色微分方程的时间响应序列为

x ^ ( 1 ) ( k + 1 ) = ( x ( 0 ) ( 1 ) μ a ) e a k + μ a = 3.0561 e 0.0802 k 2.798

5) 求 X ( 1 ) 的模拟值

X ^ ( 1 ) = { x ^ ( 1 ) ( 1 ) , x ^ ( 1 ) ( 2 ) , x ^ ( 1 ) ( 3 ) , x ^ ( 1 ) ( 4 ) , x ^ ( 1 ) ( 5 ) , x ^ ( 1 ) ( 6 ) , x ^ ( 1 ) ( 7 ) } = { 0. 2581 , 0. 5133 , 0. 7897 , 1 .0 892 , 1 . 4183 , 1 . 7654 , 2 . 1464 }

还原出 X ( 0 ) 的模拟值,由

x ^ ( 0 ) ( k + 1 ) = x ^ ( 1 ) ( k + 1 ) x ^ ( 1 ) ( k )

X ^ ( 0 ) = { x ^ ( 0 ) ( 1 ) , x ^ ( 0 ) ( 2 ) , x ^ ( 0 ) ( 3 ) , x ^ ( 0 ) ( 4 ) , x ^ ( 0 ) ( 5 ) , x ^ ( 0 ) ( 6 ) , x ^ ( 0 ) ( 7 ) } = { 0. 2581 , 0. 2552 , 0. 2765 , 0. 2995 , 0. 3245 , 0. 3516 , 0. 381 0 }

6) 误差检验

Table A1. Table of residual test

附表A1. 残差检验表

残差平方和

s = ε Τ ε = [ ε ( 2 ) ε ( 3 ) ε ( 4 ) ε ( 5 ) ε ( 6 ) ε ( 7 ) ] * [ ε ( 2 ) ε ( 3 ) ε ( 4 ) ε ( 5 ) ε ( 6 ) ε ( 7 ) ] = [ 0.0101 0.0117 0.0290 0.0323 0.0165 0.0173 ] × [ 0.0101 0.117 0.0290 0.0323 0.0165 0.0173 ] = 0.0027

平均相对误差

Δ = 1 6 k = 1 6 Δ k = 1 6 ( 3.82 % + 4.40 % + 10.73 % + 9.04 % + 4.47 % + 4.75 % ) = 6.20 %

计算 X X ^ 的灰色关联度

| S | = | k = 2 6 ( x ( k ) x ( 1 ) ) + 1 2 ( x ( 7 ) x ( 1 ) ) | = | ( 0.2653 0.2581 ) + ( 0.2648 0.2581 ) + ( 0.2705 0.2581 ) + ( 0.3568 0.2581 ) + ( 0.3681 0.2581 ) + 1 2 × ( 0.3637 0.2581 ) | = 0.6574

| S ^ | = | k = 2 6 ( x ^ ( k ) x ^ ( 1 ) ) + 1 2 ( x ^ ( 7 ) x ^ ( 1 ) ) | = 0.7084

| S ^ S | = | k = 2 6 [ ( x ( k ) x ( 1 ) ) ( x ^ ( k ) x ^ ( 1 ) ) ] + 1 2 [ ( x ( 7 ) x ( 1 ) ) ( x ^ ( 7 ) x ^ ( 1 ) ) ] | = 0.0510

ε = 1 + | S | + | S ^ | 1 + | S | + | S ^ | + | S ^ S | = 1 + 0.6574 + 0.7084 1 + 0.6574 + 0.7084 + 0.0510 = 0.9789 > 0.9

Table A2. Referenced table of the precision test ranks

附表A2. 精度检验等级参照表

Table A3. Table of company evaluation

附表A3. 公司评价表

NOTES

*通讯作者。

期刊菜单