Advances in Applied Mathematics
Vol.07 No.05(2018), Article ID:25039,16 pages
10.12677/AAM.2018.75065

Research on Establishing Mathematical Model and Pricing System Based on MATLAB

Ruotong Wang1, Guangzheng Jing1, Juhe Sun2, Fei Zhao1

1College of Electronic Information Engineering, Shenyang Aerospace University, Shenyang Liaoning

2College of Science, Shenyang Aerospace University, Shenyang Liaoning

Received: Apr. 26th, 2018; accepted: May 12th, 2018; published: May 24th, 2018

ABSTRACT

With the development of science and technology, emerging industries have emerged. In particular, self-service under the mobile Internet model—the “photo earning” APP (Application), allows people to conduct part-time work more conveniently and quickly, while businesses can also conduct business inspections and information collection at a lower cost. This article is an analysis of the issues related to the pricing and success rate of the “photo earning” task. The conclusion is that the success of the mission is related to the price structure within the mission area and the number of premium members, which is, when the price structure is reasonable and the number of premium members is large, the success rate of the mission will be higher.

Keywords:K Value Clustering, Curve Fitting, Correlation Analysis, Linear Regression, Pricing System

基于MATLAB建立数学模型对定价系统的研究

王若桐1,景光铮1,孙菊贺2,赵飞1

1沈阳航空航天大学电子信息工程学院,辽宁 沈阳

2沈阳航空航天大学理工学院,辽宁 沈阳

收稿日期:2018年4月26日;录用日期:2018年5月12日;发布日期:2018年5月24日

摘 要

随着科技的日益发展,新兴产业应运而生,尤其是移动互联网模式下的自助服务——“拍照赚钱”APP (Application)的产生,使得人们可以更方便快捷地进行兼职,而商家也可以以较低成本进行商业检查和信息搜集,本文是对“拍照赚钱”任务定价与成功率等相关问题的分析。结论为,任务的成功与否与任务区内部的价格结构与优质会员数量有关系,即当价格结构较为合理且优质会员数量较多时,任务的成功率会更高。

关键词 :K值聚类,曲线拟合,相关性分析,线性回归,定价体系

Copyright © 2018 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

首先,应用MATLAB软件对所搜集数据进行删减,得到有效数据。利用有效数据建立起任务所在的经纬度坐标、任务标价以及任务完成情况的三维散点图,说明了价格、任务量和任务地点之间的内在关系。为了方便后续分析,运用MATLAB的K值聚类将这些散点分入A、B、C、D四个区域,建立了相应的二维散点图和各个区域的柱状图,得到价格、成功率和任务量分配之间的关系。另外,建立二维图直观分析了会员分布与成功率之间的关系,应用SPSS软件对价格、会员数、任务量进行相关性分析,得到相关系数。通过对相关系数分析可以得出定价规律,即任务总量越高、会员总数越大,任务价格定价越低。因而认为由于任务总量和会员数都大的区域的任务定价过低导致任务失败。此外,从卫星图可以看出经纬度只影响任务分布,对任务的成功与否影响不大。

其次,对上述四个区域运用层次分析法分析会员人数和区域价格(下文简称为价格)、任务量和价格、价格和任务成功率之间的关系。运用曲线拟合和待定系数法得到上述三种关系的曲线图和函数关系式。又将价格、任务总量和会员数量拟合成三维曲面图,发现曲面在各坐标平面上的投影曲线与所得的关系曲线基本吻合,从而说明了所建模型的合理性。求解模型得到成功率最高时所对应的价格,针对此价格调整任务定价方案,并将此方案应用重新分配的任务点中并与原方案进行比较,失败点明显减少。

再者,以上两个模型的基础上,运用相关性分析和线性回归的方法讨论了优质会员人数(注:日接单数超过八单成为优质会员)和任务总量的比值与成功率之间的关系,完善了数学模型。由于B区域的成功率为100%,所以将B区域的定价体系视为最优,通过统计得到B区域的优质会员人数与任务总量之比,将该数据带入A、C、D区域中计算出这三个区域中的任务总数,随机打包(每个包中的任务数 ≤ 8),然后运用修改后的数学模型对任务成功率重新进行预测,提高了任务的成功率。

最后,对任意设定新项目数据应用MATLAB软件应用K聚类划分为三个区域。应用改进的数学模型进行计算给出合理的任务定价方案,通过建立二维散点图说明了所给方案的优越性,成功率可以达到80%以上,甚至个别地区可达98%。

2. 运用K值聚类处理数据进行建模

2.1. 基于K值聚类对任务位置与成功率散点图的建立

首先本文运用MATLAB软件将收集的所有数据绘制成任务经纬度坐标、任务标价以及任务完成情况的三维散点图,如图1所示。

Figure 1. Three-dimensional scatter plot of survey task allocation area

图1. 调查任务分配区域三维散点图

分析图1,可以得出每一个区域任务点的分布情况还有价格情况,但是,对于研究价格规律与任务成功与否的关系表现得并不直观,因此为了使得图像能够更为直观地反应变量之间的关系,本文又展示出任务经纬度、任务完成情况和会员分布的二维散点图,同时为了更为条理地研究定价规律,本文用MATLAB软件利用K值聚类法将上图散点分入A、B、C、D四个区域,图像如图2所示。

由于在三维图中,可以看出价格影响成功率但并不直观,下面本文按区域给出各区域价格与成功率的关系 [1] 。

2.2. 建立各个区域价格与成功率的关系

用MATLAB绘制出柱状图,如图3~6所示。

图4比较得价格影响成功率,并且当定价为70元时,成功率最高,此时得出结论:价格是影响任务成功与否的因素。

2.3. 对会员数量与任务分布制作散点图

然后我们用MATLAB软件绘制出会员分布的散点图,如图7所示。

图7图2进行比较发现会员分布密集的位置任务分布也密集且任务失败率高,而上文中得出影响任务成功与否的因素是价格,故而本文用SPSS软件进行相关性分析,分析会员人数、任务总量与价格的相关系数,如表1所示。

表1可得出会员人数、任由表1可得出会员人数、任务总量与价格的相关系数都很大,证明会员人数和任务总数会影响价格,从而间接影响任务成功与否。同时通过对相关系数分析可以粗略地得出定价规律,即任务总量越高、会员总数越大,任务价格定价越低。因而综上所述,本文认为由于任务总量和会员数都大的区域(例如A、C区域)的任务定价过低导致任务失败。

3. 建立相关性分析和线性回归模型

会员人数和任务总量影响任务价格,而任务价格又影响任务成功率,由于定价规律的不合理导致多个区域任务失败率很高,本文对定价模型进行修改。

Figure 2. Mission completion 2D scatter plot

图2. 任务完成情况二维散点图

Figure 3. Regional A task completion

图3. 区域A任务完成情况

Table 1. Correlation coefficient between number of members, total number of tasks, and price

表1. 会员人数、任务总量与价格的相关系数

Figure 4. Area B task completion

图4. 区域B任务完成情况

Figure 5. Regional C task completion

图5. 区域C任务完成情况

Figure 6. Task completion for area D

图6. 区域D任务完成情况

Figure 7. Two-dimensional distribution of membership and mission completion

图7. 会员与任务完成情况二维分布

本文以A区域为例建立数学模型,由于B区域的成功率已经达到100%,故认为B区域可不作调整,C、D区域与A区域建模过程相同,同理可得结果在此不做赘述。首先本文分别拟合绘制A区域的会员人数和任务价格、任务量和任务价格以及价格和成功率之间关系的散点图并利用MATLAB软件运用曲线拟合和待定系数法拟合出三条曲线 [2] ,如图8~10所示。

图8所示拟合参数:R = 0.8026很接近于1,RMSE = 2.69较小,说明曲线的拟合度很好,可以使用。

由此可得出会员人数与价格的公式(1)为:

f ( x 1 ) = p 1 x 1 2 + p 2 x 1 + p 3 p 1 = 0.1039 p 2 = 0.382 p 3 = 72.99 (1)

图9曲线拟合参数为R = 0.5761较接近于1,RMSE = 3.054较小,说明曲线的拟合度较好,可以使用。

由此可得出任务总量与价格的公式 [3] (2)为:

f ( x 2 ) = a 1 e ( x 2 b 1 c 1 ) + a 2 e ( x 2 b 2 c 2 ) a 1 = 71.87 b 1 = 0.5436 c 1 = 99.6 a 2 = 17.56 b 2 = 61.65 c 2 = 15.81 (2)

图10曲线拟合参数为R = 0.8423很接近于1,说明曲线的拟合度很好,可以使用。由图9图10可知,价格会受到会员人数和任务总量的影响,二价格又影响成功率,由于图9图10中的散点均是真实有效的,故图10拟合的曲线已经包括了会员人数和任务总量对价格的影响。

由此可得出成功率与价格的公式为 [4] (4):

Figure 8. A-region price and membership curve

图8. A区域价格与会员人数拟合曲线

Figure 9. Price of region A and the total number of tasks

图9. 区域A价格与任务总量拟合曲线

Figure 10. Success rate and price in region A

图10. A区域成功率与价格拟合曲线

f ( x ) = q 1 x 6 + q 2 x 5 + q 3 x 4 + q 4 x 3 + q 5 x 2 + q 6 x + q 7 q 1 = 1.44 q 2 = 301.9 q 3 = 3.5 × 10 4 q 4 = 2.453 × 10 6 q 5 = 1.02 × 10 8 q 6 = 2.386 × 10 9 q 7 = 2.375 × 10 10 (3)

为了使上述方程的可靠性更强,本文运用MATLAB软件绘制出价格、任务总量和成功率之间的三维图,如图11所示。

图11曲线的拟合参数为R = 0.9591非常接近于1,说明曲线的拟合度非常好,可以使用。

通过上述三维坐标向各个做表面投影,与二维拟合曲线大致相等,说明之前拟合出来的方程真实可靠,可以应用于理论计算。利用上述方程可制定新的定价规律,由图10可知如果在不改变会员人数和任务总量的前提下,只调节价格,那么在价格取70.8元时成功率最高,取值为58%,无法达到接近100%的情况。同理本文建立出C、D区域的数学模型,求的其成功率最高时的价格取值,结果如表2所示。

最后本文对改变价格后任务成功与否的分布情况进行了预测,首先分区域利用成功率计算出成功任务点和失败任务点的个数,再在任务点中按数目随机抽取,利用MATLAB软件绘制改变价格之后的散点图,如图12所示。

图12我们可以看出,改价之后成功率有了明显的提升,说明新的改价方案真实可行。

对定价模型的改进

在模型的建立过程中,发现如果只改变价格,任务成功率虽有一定提升,但仍有些不足之处。对于

Figure 11. Price, total task, and number of members

图11. 价格、总任务和会员人数三维立体图

Figure 12. Two-dimensional distribution of tasks after transformation of the model

图12. 改造模型后任务二维分布图

Table 2. Comparison of success rate of old and new schemes

表2. 新旧方案成功率对照表

价格的调整不够细化,故而调整之后结果虽稍有改善却仍有优化的空间。因此,对构造的数学模型进一步改善。在观察会员与任务的散点图时,发现任务越密集会员数也越多,但是在这个密集的区域任务失败率也很高,所以,任务的密集度与会员的密集度与成功率也必然存在关系。通过SPSS研究三者的相关性,发现会员数量与任务量的比和成功率存在很好的相关性 [5] 。在分析会员的荣誉值与每天接单上限存在很高的相关性,且成正相关,所以本文只以每天接单上限为限制,规定优秀会员人数,发现当把每天接单上限为8及以上作为优秀会员时,优秀会员的数量,与成功率存在更好的相关性,相关系数可以达到0.9以上,如表3表4所示。

因为优质会员比例与已知成功率相关性非常强,本文得出价格并非影响成功率的主要因素,真正的主要因素为优质会员人数,首先统计A、B、C、D四个区域的优质会员人数、任务总量、优质会员人数与任务总量之比和成功率,统计公式如(4)、(5)、(6),统计结果如表5所示(本文公式中符号含义见附录):

N i = F ( L 0 , L 1 , L 3 , , L n ) × [ μ ( t 8 ) μ ( t 114 ) ] (4)

μ ( t ) = { 1 , t > 0 0 , t < 0 (5)

γ i = N i R i (6)

Table 3. Correlation coefficient between membership ratio and success rat

表3. 会员比例与成功率相关系数

Table 4. Correlation coefficient between quality membership rate and success rate

表4. 优质会员比例与成功率相关系数

Table 5. Quality member, task amount, success rate information table for each region

表5. 各区域优质会员、任务量、成功率信息表

对两者进行线性回归,如表6表7所示。

表6可以看出R2为0.889接近于1,所以线性回归效果很好,得到的回归方程可信度高,方程(7):

η = 3.507 × γ 0.757 (7)

在分区域讨论成功率时,因为B区域的成功率是100%,所以本文认为B区域的优秀会员量与任务量的比值和价格结构是最佳的,是不必进行调整得参考区域,首先需要统计各个区域的优质会员总数,统计方法如下:

计算出B区域的γ值,计算公式为(8):

γ B = N B R B (8)

计算结果为0.489,由于B区域为最优,本文将该值带入A、C、D三个区域分别计算另外三个区域的理想任务数和打包数(每个包中的任务数 ≤ 8),计算公式为(9)、(10)、(11):

R i = N i γ B (9)

p i = rand ( R i ) (10)

p i = R i (11)

由于实际情况的限定优质会员的数目不可能一成不变且优质会员也未必都能完成任务,所以引入扰动系数σ (σ与优质会员人数有关系,用于调节任务成功率,使得优质会员人数波动时任务成功率保持在一个商家可接受的范围内)使得包裹数更接近实际情况,计算公式为(12)、(13):

R i = R i + σ (12)

η r = 3.507 × N i R i 0.757 (13)

联立(9)、(12)、(13)方程解出结果,如表8所示。

由于上文提到B区域的价格结构最优,那么本文按照B区域价格对其他三个区域的价格结构进行调剂,首先统计B区域的价格结构,如表8所示。

计算公式为(14):

Table 6. Summary of linear regression models

表6. 线性回归模型摘要

Table 7. Coefficients of linear regression

表7. 线性回归的系数

Table 8. Simultaneous equations calculations

表8. 联立方程组计算结果

θ ¯ = i = 65 90 i × n i R B (14)

将上述数据代入公式(14)计算得:

计算得到 θ ¯ 的值为70.48元。

此时,得出定价规律将这个价格作为每一个任务的平均值,当在对任务进行打包时,一个包的价格等于任务数量乘以平均价格得到打包后的这个包的总的价格。

模型的拓展和延伸,公式为(15)、(16)、(17):

θ ¯ = i = 65 90 i × n i R B (15)

θ s = θ ¯ × R i (16)

θ l = θ s R i (17)

由于最后求得的 θ l 意思是无论这个包裹内打包了多少任务,价格均相同,这样去做,可以类似于商家的抽奖活动,一些人可以只做一个任务,却可以和做八个任务的人获得相同的报酬,可以刺激会员去的任务做任务,提高积极性,但是如果,经常在这个范围内去做任务,因为任务随机打包,包裹任务数量随机,抽取包裹随机,所以长时间内,仍然处于收支平衡的状态,每个包裹赚的钱在区域B平均值之间震荡。

最后我们用MATLAB绘制改进后的任务成功与失败情况及新任务散点图,如图13图14所示。

接着将会员分布和高级会员绘制在下图上,如图15所示。

再次利用K值聚类将会员和高级会员分为三个区域(圆圈之内),如图16所示。

假设区域内的会员可以承担区域内的所有任务,交叉部分任务按交叉域面积占自身区域面积比例均分,由于优质会员日接单上限为8单,所以8个任务打为一包,是该区域内优质会员所承受的极限,即便如此也无法将任务数缩减至理想数目,但是可以达到最低接受成功率,所以不用加入扰动系数 [6] 。

据改进的模型可得每个区域的打包数计算公式为(14):

p i = rand ( R i ) (18)

计算得出各个区域打包结果,如表9所示。

根据改进的数学模型可得每个包裹的计算如公式(19)所示:

θ s = θ ¯ × R i (19)

Figure 13. Task distribution 2D scatter plot after improved model

图13. 改进模型后任务分布二维散点图

Figure 14. Question 4 given task two-dimensional scatter plot

图14. 重新随机给定任务二维散点图

Table 9. Calculation results

表9. 计算结果

Figure 15. Scatter plot of membership, number of quality members, and mission completion

图15. 会员数量、优质会员数量、任务完成情况二维散点图

Figure 16. Scatter plot of membership, quality membership, and mission completion

图16.会员、优质会员以及任务完成情况二维散点分布图

根据公式(19)可根据抢到包裹中任务的个数计算任意一个包裹的数量。

根据表10应用MATLAB制任务完成情况散点图,如图17所示。

根据图17,可以预测的结果看出基本符合事实规律,从而可验证改进的数学模型能够灵活解决现实生活中的问题并且可靠真实。

Figure 17. Task completion for each region after a given price

图17. 给定价格后每个区域任务完成情况图

Table 10. Calculation results

表10. 计算结果

注:任务完成情况是在理想状态下。

4. 结论

优点:

模型具有良好的迁移性,不仅仅适合题目给出的数据,对于其他不同的任务分布,仍然可以大大提高任务的成功率。

模型不仅可以提高成功率,还因为加上了扰动系数,可以更加的稳定。

模型可以综合各个因素给出定价方案,这个定价方案可以大大提高任务的成功率。

模型可以成功的得到会员量,任务量,价格的相关系数,并且很好的拟合了优质会员的数量与任务量的比值和成功率的线性关系。

K值聚类,更容易研究规律。

文章引用

王若桐,景光铮,孙菊贺,赵 飞. 基于MATLAB建立数学模型对定价系统的研究
Research on Establishing Mathematical Model and Pricing System Based on MATLAB[J]. 应用数学进展, 2018, 07(05): 530-545. https://doi.org/10.12677/AAM.2018.75065

参考文献

  1. 1. 刘国钧, 陈绍业, 王凤翥. 图书馆目录[M]. 北京: 高等教育出版社, 1957: 15-18.

  2. 2. 张志涌, 杨祖樱. MATLAB教程[M]. 北京: 北京航空公航天大学出版社, 2015: 121-142.

  3. 3. 单峰, 朱丽梅. 闻良辰. 概率论与数理统计[M]. 北京: 国防工业出版社, 2016: 142-143.

  4. 4. 同济大学数学系. 高等数学[M]. 第七版. 北京: 高等教育出版, 2014: 78-80.

  5. 5. 李洪成, 姜宏华. SPSS数据分析教程[M]. 北京: 人民邮电出版社, 2012: 55-67.

  6. 6. 高峰, 等. 基于采样点聚类和切换象限划分核查小区方位角[J]. 电信科学, 2015, 33(5): 135-142.

附录

γ B :区域B优质会员数量与区域B任务总量的价格

N B :区域B内优质会员的数量

R B :区域B内任务的总数

N i :某个区域的优质会员数

R i :某区域的理想的任务总数

p i :以最大为8个任务为上限对某区域任务总数随机打包得到的包裹数

η :成功率

n i s :某区域成功的任务数

σ :扰动系数

η r :实际背景下的成功率

θ ¯ :区域B的平均价格

n i :某个价格下的任务数量

θ s :某个区域的任务所值的最优价格总和

θ l :每个包裹的平均价格

期刊菜单