随着在线市场的快速发展,诸如亚马逊等线上交易平台容纳了越来越多的客户反馈信息,其包含了用户对于商品的多维度评价,基于此,本文建模型并分析这些线上数据对于商品未来发展的指导意义。我们使用阳光数据中心提供的产品数据,对吹风机、微波炉、奶嘴三种商品进行多变量分析并以评论、评级、帮助等级以及时间的度量和模式四个为主要因素建立商品指标评估模型。基于以上分析,阳光公司可根据我们建模分析的过程及结论制定合理科学的产品策略并帮助其取得三种线上产品的成功。 With the rapid development of the online market, online trading platforms such as Amazon accommodate more and more customer feedback, which includes users’ multidimensional evaluation of products. Under such background, we build some models to evaluate the products and analyze the significance of these online data for the future development of products. We conduct multivariate analysis on three commodities data which are hair dryer, microwave and pacifier provided by Sunshine, and establish a commodity index evaluation model based on reviews, star ratings, helpfulness ratings and time measurements and patterns. Sunshine Company can develop a reasonable and scientific product strategy based on our modelling process and analysis conclusions so as to achieve the success of their three online products.
——以吹风机、微波炉、奶嘴为例
沈浩,艾顺毅,谢奕莅,吕平*
杭州师范大学,浙江 杭州
收稿日期:2020年6月28日;录用日期:2020年7月13日;发布日期:2020年7月20日
随着在线市场的快速发展,诸如亚马逊等线上交易平台容纳了越来越多的客户反馈信息,其包含了用户对于商品的多维度评价,基于此,本文建模型并分析这些线上数据对于商品未来发展的指导意义。我们使用阳光数据中心提供的产品数据,对吹风机、微波炉、奶嘴三种商品进行多变量分析并以评论、评级、帮助等级以及时间的度量和模式四个为主要因素建立商品指标评估模型。基于以上分析,阳光公司可根据我们建模分析的过程及结论制定合理科学的产品策略并帮助其取得三种线上产品的成功。
关键词 :LDA,模糊神经网络,在线产品声誉评估
Copyright © 2020 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
随着互联网的成熟,网络购物优点愈加突出,在电子商务时代,顾客对于商品的选择范围逐渐扩大,选择需要的成本也逐渐降低。顾客在进行商品选择的主动性进一步扩大。而在线市场为顾客所提供的广大反馈平台以及其含有的大量的商品反馈数据有利于结合实际消费者的具象化评价、需求以及整体性产品感知来获得对商品的各项内容的定性。如今已有许多研究者致力于分析在线产品的价值评估,如丁乃鹏等 [
通过分析亚马逊商城的吹风机、微波炉和奶嘴的数据,以10,915个品牌的文本评价,星级评价,帮助等级等各项与产品反馈相关的内容为主进行了本文的分析研究。其中含有部分存在误导性的信息和极大量的繁杂数据信息,不利于对数据进行组合和分析。为提取有效数据,识别主题信息以及简化内容,需采用LDA模型 [
由于数据集中的评论多为用户对所购商品的价格、质量等做出的主观评价,且用户在表达自己观点时的多样化语言以及缺少相应的规范,故而存在用户噪音。需要将评论文本中与星级评价存在逻辑冲突的噪音排除并删除无效的评论文本以保证分析的科学性与严谨性。
针对经过数据处理与指标量化分析后的评论文本数据,使用LDA模型对三种商品的评论文本进行聚类,生成其主题词分布概率,其中LDA模型中的参数 和 依据经验值设定为0.13和0.01,迭代次数为1500次。在得到概率p的基础上对文本进行聚类,列出k个主题的概率分布,如表1所示。选取前6个高频关键词(price,power,size等相关词汇)作为每种商品评论的主题信息 [
吹风机 | 微波炉 | 奶嘴 | |||
---|---|---|---|---|---|
Price | 0.378 | Great/Good | 0.379 | Love/Like | 0.479 |
Great/Good | 0.262 | Price | 0.358 | Price | 0.284 |
Quality | 0.147 | Quality | 0.056 | Great/Good | 0.107 |
Power | 0.115 | Worklife | 0.113 | Work well | 0.105 |
Work well | 0.045 | Size | 0.103 | Cute | 0.055 |
Size | 0.044 | Function | 0.067 | Quality | 0.052 |
表1. LDA模型下的p值
上表中我们使用LDA模型进行主题聚类得到了三种商品前6个高频词从而分析客户对商品的主要评价信息,但仍存在词与词之间表达信息相似的情况,且为了更好地预测商品的未来发展趋势,我们需要在LDA模型主题聚类的基础上,结合评论属性指标,对评论文本做进一步的提取分析,最终选取关键词中的价格、质量、外观以及指标中的时效性、评论长度、修饰词数量六个参数用于评论文本评价。在下文中将综合运用评论文本、星级评价来对在线产品进行声誉综合评估。
为了能分析产品的声誉在产品使用过程中的变化规律,我们通过LDE模型获取和对比评论的属性信息的相关数据,从评论文本、星级评价这二方面考虑,构建影响产品声誉(y)的七项指标,其中评论文本包括外观、质量、价格、评论长度、修饰词数量、时效性六个方面。这些指标能够有效体现产品自身声誉,构建基于模糊神经网络的产品声誉模型 [
本文利用评论指标和产品属性来量化声誉,综合前人的研究及数学模型,提取六个评论文本特征(A1~A6)和一个星级评价特征(B1),其中A1~A6分别代表外观、质量、价格、评论长度、修饰词数量、时效性。计量方式如表2所示。
特征 | 描述 |
---|---|
A1 | 评论中对产品外观的描述 |
A2 | 评论中对产品质量的描述 |
A3 | 评论中对产品价格的描述 |
A4 | 评论文本的长度 |
A5 | 评论中修饰词个数 |
A6 | 阅读和写评论的时间间隔 |
B1 | 系统中的星级评价 |
表2. 产品信誉指数的属性描述
指标量化分析是产品声誉评价有用性计算前的重要基础工作,指标量化值表示指标在多大程度上能够正确反映产品声誉的价值。指标量化分析以亚马逊网站的相关数据为实验样本,经过预处理和数据处理后得到各指标量化数据进行指标效用分析,确定指标的合理划分规则。根据样本数据分析 [
评分 | 1 | 2 | 3 | 4 | 5 | |
---|---|---|---|---|---|---|
外观 | 对产品外观的描述 | 差 | 较差 | 一般 | 较好 | 好 |
质量 | 对产品质量描述 | 差 | 较差 | 一般 | 较好 | 好 |
价格 | 对产品价格的描述 | 差 | 较差 | 一般 | 较好 | 好 |
文本长度 | 评价文本中字符个数 | 1~10 | 11~25 | 26~50 | 50~100 | >100 |
修饰词个数 | 评价文本中修饰词个数 | 0~1 | 2~3 | 4~5 | 6~8 | >8 |
时效性 | 阅读和书写评论之间的时间间隔 | >360 | 241~360 | 151~241 | 61~150 | >60 |
帮助等级值 | 评论文本可参考的价值 | 0~10 | 11~20 | 21~40 | 41~60 | >60 |
表3. 指标量化评价
产品的声誉的主要作用是给用户提供一个产品的属性从而减少其在购买决策中的不确定风险。为了能体现基于时间的度量和模式,产品声誉的变化规律,我们应用上述建立的模糊神经网络模型,对其进行进一步研究分析 [
y = ∑ k = 1 l w k e − ∑ i = 1 a ( x i − μ i j ) 2 2 σ i j 2 ∑ j = 1 l e − ∑ i = 1 a ( x i − μ i j ) 2 2 σ i j 2
其中, i = 1 , 2 , ⋯ , a , a 为输入层神经元个数, j , k = 1 , 2 , ⋯ , l , l 为规则数, w = ( w 1 , w 2 , ⋯ , w k ) 是规则化层与输出层间的连接权值。在本文中,影响因素为 7 个,因而设定 a = 7 。
我们考虑到同一种产品的牌子较多,且部分牌子的数据较少,所以我们把同一产品的所有品牌结合在一起进行分析,得到了以下三个基于时间的度量和模式对产品声誉的影响图(图1)。
图1. 基于时间测量和模式变化图的三种产品声誉
从图中我们可以发现,吹风机总体的声誉随着时间的推移在4附近波动,奶嘴、微波炉总体的声誉随着时间的推移呈上升趋势,但是微波炉在2006、2007年存在着很大的摆动,这可能与评论和星级评定相关。
为了对建立的模糊神经网络模型进行检验,我们用200组数据训练模糊神经网络,训练误差为0.0001,期望输出与实际输出如图2所示。
图2. 期望输出与实际输出对比
由图像可知,两曲线几乎重合,故我们认为建立的模糊神经网路模型是比较可靠的,运用该模型进行分析的效果是比较好的。
通过利用亚马逊商城的三个在线产品评论的数据分析,我们建立了三个产品的综合评估模型,其中就包含了产品评论对于其评估值的影响。同时其评估值也会随其他部分指标的变动而产生相应的变化。以产品声誉代表产品综合评估值,我们发现,在时间维度上,产品声誉会随着消费者所反馈的评级和评论信息的变化而变化。如从整体上看,奶嘴的声誉在2003~2015年呈上升趋势,这表明它具有更加广阔的潜在市场。然而从局部看,吹风机的声誉在2004~2006年间出现较大的波动,但在2007年之后趋于平稳。阳光公司可以根据其变化趋势,进行一定的改正,从而取得线上产品的成功。例如:奶嘴的声誉较好,商家可增加奶嘴的商品库存,吹风机声誉起伏较为平缓,可基于评论进行优点巩固以缺点纠正。微波炉的声誉总体呈现疲态,需要减少不必要的产品生产以及依据消费者反馈的评论进行产品的再设计。
沈 浩,艾顺毅,谢奕莅,吕 平. 在线产品综合价值评估及策略——以吹风机、微波炉、奶嘴为例Comprehensive Value Evaluation and Strategy of Online Products—Taking Hair Dryer, Pacifier and Microwave for Instance[J]. 应用数学进展, 2020, 09(07): 1048-1053. https://doi.org/10.12677/AAM.2020.97124