本文为解决互联网家政服务业入户服务人员的专业性分类问题,基于Y互联网家政服务企业的详细入户服务人员数据库,运用心理行为的调研实验,确立入户服务人员的静态属性,进而提出了针对入户服务人员专业性的大数据分类算法的判别模型,在对入户服务人员的训练样本集进行判别模型的初步训练基础上,实现入户服务人员数据中测试样本集判别准确率的分析。研究结果显示,针对入户服务人员的心理行为,调研实验确立了研究的六个静态属性,分别是年龄、性别、籍贯、分数、婚姻、学历;基于心理行为学的大数据分类算法的判别模型对于入户服务人员的专业性分类准确率达到67.5%。 This paper is to solve the attribute selection problem of the home service personnel in the Internet home service industry. Based on the detailed database of household service personnel of Y Internet home service companies, this paper establishes the static attribute of household service personnel by means of psychological behavior research experiments. Then, the discrimination model of big data classification algorithm for professional service personnel is proposed. Based on the preliminary training of the discriminant model of the training sample set of the household service personnel, the analysis of the accuracy of the test sample set in the data of the household service personnel is realized. The findings are as follows. Based on the theory of psychology and behavior, the survey of household service personnel established six static attributes of research: age, gender, household registration, score, marriage and education. The accuracy rate of the discriminant model of big data classification based on psychological behavior for the professionalism of the household service personnel reached 67.5%.
李咏维,刘峰涛
东华大学旭日工商管理学院,上海
收稿日期:2019年12月10日;录用日期:2019年12月24日;发布日期:2019年12月31日
本文为解决互联网家政服务业入户服务人员的专业性分类问题,基于Y互联网家政服务企业的详细入户服务人员数据库,运用心理行为的调研实验,确立入户服务人员的静态属性,进而提出了针对入户服务人员专业性的大数据分类算法的判别模型,在对入户服务人员的训练样本集进行判别模型的初步训练基础上,实现入户服务人员数据中测试样本集判别准确率的分析。研究结果显示,针对入户服务人员的心理行为,调研实验确立了研究的六个静态属性,分别是年龄、性别、籍贯、分数、婚姻、学历;基于心理行为学的大数据分类算法的判别模型对于入户服务人员的专业性分类准确率达到67.5%。
关键词 :家政服务,心理与行为,静态属性,大数据分类,朴素贝叶斯算法
Copyright © 2020 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
根据商务部公布的数据,截止2018年底,家政业的市场规模突破1.5万亿元,服务人员超过2500万人 [
家政服务业的结构性不平衡问题,实则为入户服务人员的专业性分类的科学问题 [
在本文中,第1节讨论了基于心理行为学实验的入户服务员人员静态属性的确定,第2节构建了基于心理行为学的大数据分类算法的判别模型,进行实验数据库判别准确率的分析,最后验证并比较数据实验结果。
Y企业家政服务人员。
采用依据中国员工适应性量表的问卷调查,分析不同家政服务员的工作适应性、工作满意度和心理健康属性的相关关系 [
1) 抽样调查
采取整群抽样的方法,将Y企业1~4星级各星级随机抽取142、572、72、9,最终样本数为795。
2) 调查方法
适应性 [
满意度 [
应用SPSS 20.0软件对数据进行统计分析,计数资料以构成比(%)表示,以 x ¯ ± s 代表计量数据,用t检验,以率或构成比(%)为计数资料,用 χ 2 检验;计量资料相关分析采取Pearson相关系数表示;以P < 0.05为差异有统计学意义。
1) 实验一致性分析
该调查问卷在本次研究中的区分度良好,各题目校正后题总相关均大于等于0.577,全问卷内部一致性信度Cronbach α = 0.603,大于0.6,因而说明研究数据信度质量可以接受。
2) 基本信息分析
共调查795名家政服务员,其中男家政服务员118人,女家政服务员677人;1~4星级的家政服务员分别142人、572人、72人和9人;家庭户口所在地城市、城镇、农村各占7.55%、13.58%和78.87%;96.35%的家政服务员均为已婚;小学、初中、高中、大专和大学的学历占比11.45%、67.92%、17.74%、2.26%和0.63%,年龄在20岁以下、21~30岁、31~40岁、41~50岁和50岁以上的分布情况是2、118、339、313和23人。详见表1。
1) 适应性分析
家政服务员的适应性量表总平均分为3.91 ± 0.76分,其中自我适应、人际关系适应性、工作环境维度得分相对较高;情绪维度适应维度得分相对较低。见表2。
2) 满意度分析
家政服务员的满意度平均得分是3.71 ± 0.80,其中管理制度、工具设施和与顾客关系等维度满意度较高;在组织活动和服务质量等维度满意度较低。见表3。
男家政服务员的各适应性平均分为(3.95 ± 0.83),高于女家政服务员的(3.90 ± 0.75),除了工作适应和自我适应维度外,男家政服务员的适应性维度平均得分也高于女家政服务员;未婚家政服务员的适应性平均分(4.05 ± 0.72),高于已婚家政服务员的适应性(3.91 ± 0.76);20岁以下、21~30岁、31~40岁、41~50岁和50岁以上的适应性平均得分分别为(4.08 ± 0.59)、(3.89 ± 0.81)、(3.90 ± 0.75)、(3.92 ± 0.76)和(4.04 ± 0.65),除去20岁以下的家政服务员,呈现随年龄升高适应性提高的趋势;小学以下、初中、高中、大专、大学及以上的适应性平均得分分别为(3.89 ± 0.83)、(3.90 ± 0.74)、(3.94 ± 0.79)、(4.03 ± 0.84)和(3.73 ± 0.31),除去大学及以上的家政服务员,呈现随学历升高适应性降低的趋势;城市户籍的适应性好于城镇和农村户籍的适应性 [
调查内容 | 人数 | 比例 |
---|---|---|
性别 | ||
男 | 118 | 14.84% |
女 | 677 | 85.16% |
星级 | ||
1 | 142 | 17.86% |
2 | 572 | 71.95% |
3 | 72 | 9.06% |
4 | 9 | 1.13% |
户籍所在地 | ||
城市 | 60 | 7.55% |
城镇 | 108 | 13.58% |
农村 | 627 | 78.87% |
年龄 | ||
20岁以下 | 2 | 0.25% |
21~30岁 | 118 | 14.84% |
31~40岁 | 339 | 42.64% |
41~50岁 | 313 | 39.37% |
50岁以上 | 23 | 2.89% |
婚姻状况 | ||
未婚 | 29 | 3.65% |
已婚 | 766 | 96.35% |
学历 | ||
小学以下 | 91 | 11.45% |
初中 | 540 | 67.92% |
高中 | 141 | 17.74% |
大专 | 18 | 2.26% |
大学及以上 | 5 | 0.63% |
表1. 调查对象基本情况
适应性调查内容 | 得分 |
---|---|
人际关系适应 | 4.249 ± 0.731 |
技能学习适应 | 4.146 ± 0.678 |
工作适应 | 4.107 ± 0.748 |
工作环境适应 | 4.191 ± 0.698 |
情绪适应 | 2.501 ± 0.994 |
自我适应 | 4.274 ± 0.726 |
表2. 家政服务员适应性情况
满意度调查内容 | 得分 |
---|---|
管理制度 | 4.107 ± 0.803 |
工具设施 | 4.107 ± 0.829 |
组织活动 | 3.946 ± 0.849 |
专业认同 | 3.991 ± 0.752 |
与顾客关系 | 4.413 ± 0.637 |
服务质量 | 1.706 ± 0.926 |
表3. 家政服务员满意度情况
调查内容 | 人际关系适应 | 技能学习适应 | 工作适应 | 工作环境适应 | 情绪适应 | 自我适应 | 总分 |
---|---|---|---|---|---|---|---|
性别 | |||||||
男 | 4.29 ± 0.75 | 4.35 ± 0.62 | 3.97 ± 0.90 | 4.28 ± 0.73 | 2.67 ± 1.09 | 4.16 ± 0.91 | 3.95 ± 0.83 |
女 | 4.24 ± 0.73 | 4.11 ± 0.68 | 4.13 ± 0.72 | 4.18 ± 0.69 | 2.47 ± 0.98 | 4.29 ± 0.69 | 3.90 ± 0.75 |
t值 | 0.629 | 3.524 | −1.902 | 1.493 | 2.003 | −1.52 | 0.7 |
P值 | 0.030 | P < 0.001 | 0.059 | 0.006 | 0.045 | 0.001 | 0.014 |
婚姻状况 | |||||||
未婚 | 4.52 ± 0.51 | 4.34 ± 0.55 | 4.10 ± 0.86 | 4.48 ± 0.57 | 2.38 ± 1.21 | 4.48 ± 0.63 | 4.05 ± 0.72 |
已婚 | 4.24 ± 0.74 | 4.14 ± 0.68 | 4.11 ± 0.74 | 4.18 ± 0.70 | 2.51 ± 0.99 | 4.27 ± 0.73 | 3.91 ± 0.76 |
t值 | 2.016 | 1.611 | −0.025 | 2.298 | −0.555 | 1.578 | 1.15 |
P值 | 0.044 | 0.008 | 0.098 | 0.022 | 0.003 | 0.005 | 0.030 |
户籍所在地 | |||||||
城市 | 4.27 ± 0.84 | 4.33 ± 0.66 | 4.20 ± 0.73 | 4.45 ± 0.57 | 2.90 ± 1.16 | 4.33 ± 0.68 | 4.08 ± 0.77 |
城镇 | 4.18 ± 0.67 | 4.08 ± 0.64 | 4.07 ± 0.78 | 4.19 ± 0.64 | 2.39 ± 0.92 | 4.24 ± 0.75 | 3.86 ± 0.73 |
农村 | 4.26 ± 0.73 | 4.14 ± 0.68 | 4.10 ± 0.74 | 4.17 ± 0.71 | 2.48 ± 0.98 | 4.27 ± 0.73 | 3.90 ± 0.76 |
F值 | 0.627 | 2.799 | 0.574 | 4.529 | 5.704 | 0.313 | 2.42 |
P值 | 0.005 | 0.061 | 0.003 | 0.011 | 0.003 | 0.031 | 0.019 |
年龄 | |||||||
20岁以下 | 4.50 ± 0.71 | 3.50 ± 0.71 | 4.50 ± 0.71 | 3.50 ± 0.71 | 4.00 ± 0.000 | 4.50 ± 0.71 | 4.08 ± 0.59 |
21~30岁 | 4.17 ± 0.79 | 4.19 ± 0.69 | 4.03 ± 0.82 | 4.24 ± 0.72 | 2.50 ± 1.10 | 4.19 ± 0.71 | 3.89 ± 0.81 |
31~40岁 | 4.27 ± 0.71 | 4.16 ± 0.67 | 4.10 ± 0.73 | 4.15 ± 0.70 | 2.50 ± 0.96 | 4.24 ± 0.74 | 3.90 ± 0.75 |
41~50岁 | 4.23 ± 0.74 | 4.11 ± 0.68 | 4.14 ± 0.73 | 4.20 ± 0.69 | 2.52 ± 1.00 | 4.32 ± 0.72 | 3.92 ± 0.76 |
50岁以上 | 4.65 ± 0.49 | 4.35 ± 0.65 | 4.09 ± 0.79 | 4.52 ± 0.67 | 2.09 ± 0.73 | 4.61 ± 0.58 | 4.04 ± 0.65 |
F值 | 2.265 | 1.383 | 0.688 | 2.218 | 2.17 | 2.097 | 1.80 |
P值 | 0.001 | 0.038 | 0.060 | 0.045 | 0.071 | 0.009 | 0.037 |
学历 | |||||||
小学以下 | 4.13 ± 0.81 | 3.96 ± 0.73 | 4.03 ± 0.86 | 4.14 ± 0.77 | 2.76 ± 1.06 | 4.33 ± 0.75 | 3.89 ± 0.83 |
初中 | 4.24 ± 0.71 | 4.13 ± 0.65 | 4.10 ± 0.72 | 4.17 ± 0.68 | 2.50 ± 0.96 | 4.28 ± 0.71 | 3.90 ± 0.74 |
高中 | 4.33 ± 0.74 | 4.29 ± 0.71 | 4.17 ± 0.78 | 4.28 ± 0.71 | 2.34 ± 1.03 | 4.23 ± 0.78 | 3.94 ± 0.79 |
大专 | 4.39 ± 0.78 | 4.39 ± 0.70 | 4.22 ± 0.81 | 4.33 ± 0.84 | 2.67 ± 1.19 | 4.17 ± 0.71 | 4.03 ± 0.84 |
大学及以上 | 4.40 ± 0.55 | 4.00 ± 0.000 | 3.80 ± 0.45 | 4.00 ± 0.000 | 2.20 ± 0.84 | 4.00 ± 0.000 | 3.73 ± 0.31 |
F值 | 1.206 | 4.139 | 0.798 | 0.998 | 2.708 | 0.53 | 1.73 |
P值 | 0.030 | 0.003 | 0.050 | 0.041 | 0.029 | 0.113 | 0.043 |
表4. 不同特征家政服务员适应性及各维度得分情况
女家政服务员的满意度平均分为(3.72 ± 0.77),高于男家政服务员的(3.68 ± 0.92),除了专业认可和与顾客关系维度外,女家政服务员的适应性维度平均得分也高于男家政服务员;未婚家政服务员的满意度平均分(3.84 ± 0.78),高于已婚家政服务员的满意度(3.71 ± 0.80);呈现随年龄升高满意度提高的趋势;呈现随学历升高满意度降低的趋势;城市户籍的满意度高于城镇和农村户籍的满意度。以上差异均具有统计学意义(P < 0.05)。见表5。
调查内容 | 管理制度 | 工具设施 | 组织活动 | 专业认可 | 与顾客关系 | 服务质量 | 总分 |
---|---|---|---|---|---|---|---|
性别 | |||||||
男 | 4.01 ± 0.94 | 3.93 ± 1.09 | 3.88 ± 1.07 | 4.08 ± 0.84 | 4.47 ± 0.66 | 1.70 ± 0.91 | 3.68 ± 0.92 |
女 | 4.12 ± 0.78 | 4.14 ± 0.77 | 3.96 ± 0.80 | 3.97 ± 0.73 | 4.40 ± 0.63 | 1.71 ± 0.93 | 3.72 ± 0.77 |
t值 | −1.265 | −1.958 | −0.733 | 1.33 | 1.145 | −0.029 | 0.25 |
P值 | 0.008 | 0.052 | 0.065 | 0.005 | 0.003 | 0.070 | 0.034 |
婚姻状况 | |||||||
未婚 | 4.24 ± 0.79 | 4.41 ± 0.63 | 4.03 ± 0.98 | 4.21 ± 0.73 | 4.62 ± 0.49 | 1.55 ± 1.06 | 3.84 ± 0.78 |
已婚 | 4.10 ± 0.80 | 4.10 ± 0.83 | 3.94 ± 0.84 | 3.98 ± 0.75 | 4.40 ± 0.64 | 1.71 ± 0.92 | 3.71 ± 0.80 |
t值 | 0.919 | 2.034 | 0.572 | 1.575 | 2.284 | −0.912 | 1.08 |
P值 | 0.090 | 0.042 | 0.008 | 0.016 | 0.029 | 0.062 | 0.041 |
户籍所在地 | |||||||
城市 | 4.25 ± 0.79 | 4.05 ± 0.87 | 4.05 ± 0.75 | 3.95 ± 0.75 | 4.57 ± 0.62 | 2.05 ± 1.32 | 3.82 ± 0.85 |
城镇 | 4.04 ± 0.94 | 4.01 ± 0.89 | 3.88 ± 0.85 | 3.96 ± 0.81 | 4.44 ± 0.71 | 1.65 ± 0.85 | 3.66 ± 0.84 |
农村 | 4.11 ± 0.78 | 4.13 ± 0.81 | 3.95 ± 0.86 | 4.00 ± 0.74 | 4.39 ± 0.62 | 1.68 ± 0.89 | 3.71 ± 0.78 |
F值 | 1.364 | 1.117 | 0.78 | 0.209 | 2.094 | 4.59 | 1.69 |
P值 | 0.006 | 0.008 | 0.009 | 0.002 | 0.004 | 0.010 | 0.007 |
年龄 | |||||||
20岁以下 | 3.50 ± 0.71 | 4.50 ± 0.71 | 4.00 ± 0.000 | 4.50 ± 0.71 | 4.50 ± 0.71 | 1.00 ± 0.000 | 3.67 ± 0.47 |
21~30岁 | 4.05 ± 0.76 | 4.15 ± 0.74 | 3.92 ± 0.98 | 4.06 ± 0.74 | 4.34 ± 0.67 | 1.75 ± 1.04 | 3.71 ± 0.82 |
31~40岁 | 4.07 ± 0.82 | 4.05 ± 0.83 | 3.91 ± 0.83 | 4.04 ± 0.73 | 4.38 ± 0.62 | 1.68 ± 0.91 | 3.69 ± 0.79 |
41~50岁 | 4.14 ± 0.80 | 4.14 ± 0.87 | 3.97 ± 0.82 | 3.91 ± 0.79 | 4.47 ± 0.65 | 1.73 ± 0.92 | 3.73 ± 0.81 |
50岁以上 | 4.48 ± 0.67 | 4.22 ± 0.80 | 4.17 ± 0.78 | 4.09 ± 0.60 | 4.57 ± 0.51 | 1.52 ± 0.51 | 3.84 ± 0.65 |
F值 | 1.951 | 0.829 | 0.658 | 1.838 | 1.551 | 0.717 | 1.26 |
P值 | 0.100 | 0.007 | 0.021 | 0.012 | 0.018 | 0.081 | 0.040 |
学历 | |||||||
小学以下 | 4.24 ± 0.82 | 4.25 ± 0.75 | 4.10 ± 0.87 | 3.82 ± 0.93 | 4.27 ± 0.70 | 2.09 ± 1.18 | 3.80 ± 0.88 |
初中 | 4.10 ± 0.78 | 4.14 ± 0.79 | 3.94 ± 0.82 | 3.99 ± 0.73 | 4.42 ± 0.63 | 1.70 ± 0.88 | 3.72 ± 0.77 |
高中 | 4.08 ± 0.89 | 3.96 ± 0.96 | 3.94 ± 0.90 | 4.11 ± 0.72 | 4.47 ± 0.63 | 1.50 ± 0.83 | 3.68 ± 0.82 |
大专 | 3.94 ± 0.80 | 3.89 ± 1.13 | 3.72 ± 1.07 | 4.11 ± 0.68 | 4.44 ± 0.62 | 1.83 ± 1.15 | 3.66 ± 0.91 |
大学及以上 | 3.80 ± 0.45 | 3.20 ± 0.45 | 3.40 ± 0.55 | 4.00 ± 0.000 | 4.20 ± 0.45 | 1.00 ± 0.000 | 3.27 ± 0.32 |
F值 | 1.064 | 3.758 | 1.598 | 2.084 | 1.516 | 6.557 | 2.76 |
P值 | 0.003 | 0.005 | 0.073 | 0.008 | 0.096 | <0.001 | 0.031 |
表5. 不同特征家政服务员满意度及各维度得分情况
基于以上研究实验可以得出,在入户服务人员个体心理行为活动的静态属性确立为:性别、年龄、户籍、分数、婚姻和学历六个。
针对朴素贝叶斯算法特征,将入户服务人员的星级作为核心标签,从数据库样本中分出第一类数据集作为训练样本集,第二类数据集作为测试样本集进行测试。
要求出后验概率 P ( y i | X ) ,就需要分别求出在第三项中的各个条件概率,步骤是 [
1) 训练样本集为一个已知分类的待分类项集合,这个集合叫做训练样本集。
统计得到在各类别下六个特征属性的条件概率估计。即:
P ( x 1 | y 1 ) , P ( x 2 | y 1 ) , ⋯ , P ( x 6 | y 1 ) ; P ( x 1 | y 2 ) , P ( x 2 | y 2 ) , ⋯ , P ( x 6 | y 2 ) ; ⋮ P ( x 1 | y 4 ) , P ( x 2 | y 4 ) , ⋯ , P ( x 6 | y 4 ) ;
2) 在朴素贝叶斯算法中,待分类项的每个特征属性都是条件独立的,由贝叶斯公式
P ( y i | X ) = P ( X | y i ) P ( y i ) P (X)
分母相当于在第一类数据库中X存在的概率,所以对于任何一个待分类项来说 P ( X ) 都是常数固定的,只需要求后验概率 P ( y i | X ) 的时候只考虑分子即可。
3) 因为各特征值是独立的,所以有:
P ( X | y i ) P ( y i ) = P ( x 1 | y i ) P ( x 2 | y i ) P ( x 3 | y i ) ⋯ P ( x n | y i ) = P ( y i ) ∏ j = 1 n P ( x j | y j )
对于 P ( y i ) 是指在训练样本中 y i 出现的概率,可以近似的求解为:
P ( y i ) = | y i | | D |
对于先验概率 P ( x i | y i ) ,是指在类别 y i 中,特征属性 x i 出现的概率,可以求解为:
P ( x j | y i ) = | 在 训 练 样 本 为 y i 时 , x j 出 现 的 次 数 | | y i 训 练 样 本 数 |
1) 数据预处理
将Y企业原始数据进行预处理,整理出符合研究要求的属性和星级信息,最后整理出符合条件的数据有1366个总体样本,将1166个数据作为训练样本集,200个数据作为测试样本集。
具体见表6,其中年龄在20到63之间;籍贯选取身份证前两位数;性别1代表男,0代表女;分数是Y企业根据客户打分和家政服务员月薪等综合模型评定;婚姻0是代表已婚,1是代表未婚;学历1~5分别代表小学、初中、高中、大专、大学及以上;星级是1~4表示家政服务员的4个星级,其中1为最低星级,4为最高星级。详见表6。
序号 | 年龄 | 性别 | 籍贯 | 分数 | 婚姻 | 学历 | 星级 |
---|---|---|---|---|---|---|---|
01 | 31 | 1 | 41 | 5.00 | 0 | 2 | 1 |
02 | 40 | 0 | 34 | 5.00 | 1 | 2 | 1 |
03 | 28 | 0 | 34 | 5.00 | 0 | 2 | 1 |
04 | 27 | 1 | 34 | 4.89 | 0 | 1 | 2 |
05 | 35 | 0 | 41 | 4.8 | 0 | 2 | 2 |
06 | 46 | 0 | 41 | 4.97 | 0 | 3 | 2 |
07 | 46 | 0 | 34 | 5.00 | 0 | 2 | 2 |
08 | 51 | 0 | 42 | 5.00 | 0 | 3 | 2 |
09 | 24 | 1 | 36 | 4.96 | 0 | 2 | 3 |
10 | 31 | 0 | 36 | 4.70 | 0 | 2 | 3 |
11 | 26 | 1 | 34 | 4.70 | 0 | 2 | 4 |
表6. Y企业家政服务员基本属性表(部分)
2) 分类结果
根据训练样本的代码,对测试样本集进行测试,得到200个测试样本的结果如下,见表7。
判别模型 | 朴素贝叶斯模型 | 标准化 | 扩大样本量 |
---|---|---|---|
准确率 | 67.5% | 67.1% | 67% |
表7. 测试数据样本判别准确率
本文针对互联网家政服务企业的入户服务人员的数据库,在将入户服务人员分为核心标签为4个星级的基础上,运用心理行为的科学调研实验,确立影响心理行为因素的6个静态属性,建立基于心理行为的大数据分类算法判别模型,在对入户服务人员的训练样本集进行判别模型的初步训练基础上,实现入户服务人员数据中测试样本集判别准确率的分析。以下是研究的重要结论:
1) 围绕入户服务人员的心理行为调研实验,确立影响入户服务人员心理行为活动的六个静态属性为性别、年龄、户籍、分数、婚姻和学历。入户服务人员的属性确立在此之前是通过资深管理者的经验定性考量,本文研究融合个体心理行为活动的科学实验,以数理统计分析来实现入户服务人员的属性确立。
2) 在基于心理行为的朴素贝叶斯算法中,测试样本的分类达到了67.5%的分类准确率,大数据分类算法在互联网家政服务企业中具有很好的应用,准确率较高且具备分类代表性。
李咏维,刘峰涛. 基于心理行为大数据分类算法的家政服务人员的专业性研究Professionalism of Household Service Personnel Based on Psychology and Behavior Big Data Classification Algorithm[J]. 服务科学和管理, 2020, 09(01): 40-48. https://doi.org/10.12677/SSEM.2020.91005