基于细粒度情感的文本挖掘及可视化分析 Text Mining and Visualization Analysis Based on Fine-Grained Sentiment

doi:10.12677/AAM.2021.101015

Advances in Applied Mathematics
Vol. 10 No. 01 ( 2021 ), Article ID: 39850 , 9 pages
10.12677/AAM.2021.101015

基于细粒度情感的文本挖掘及可视化分析

程斌，高圣国^*

●How to Cite this Article

上海工程技术大学，上海

收稿日期：2020年12月16日；录用日期：2021年1月5日；发布日期：2021年1月20日

摘要

针对当前文本挖掘情感分析缺乏系统性分析研究，建立综合评价指标，系统的分析产品间优劣势，明确改进方向。构建基于细粒度情感分析的模型，首先通过对评论文本进行预处理及分词，再运用LDA主题模型构建属性词典，运用知网情感词词库结合网络新词构建情感词典；接着建立评论有用性规则与情感打分规则，对有用短语打分，获取情感数据集；最后建立四大评价指标，对三款手机进行综合评价及可视化分析。模型数据结果表明，四大指标能够显著突出产品间优劣势，可以帮助生产者更快更准确的了解重点发展方向，也可以帮助消费者更便利的选择钟爱的产品。

关键词

细粒度情感分析，文本挖掘，在线评论，可视化分析

Text Mining and Visualization Analysis Based on Fine-Grained Sentiment

Bin Cheng, Shengguo Gao

Shanghai University of Engineering Science, Shanghai

Received: Dec. 16^th, 2020; accepted: Jan. 5^th, 2021; published: Jan. 20^th, 2021

ABSTRACT

For the current text mining sentiment analysis, there is a lack of systematic analysis and research, this paper establishes comprehensive evaluation indicators, systematically analyzes the advantages and disadvantages of products, clarifies the direction of improvement and constructs a model based on fine-grained sentiment analysis. Firstly, the comment text is preprocessed and segmented, and then the LDA topic model is used to build the attribute dictionary, and the HowNet sentiment vocabulary is used to build the sentiment dictionary with new words on the Internet; then, in order to obtain the sentiment data set, use the comment usefulness rule and sentiment score rules, scoring useful phrases; finally, four major evaluation indicators are established to conduct comprehensive evaluation and visual analysis of three mobile phones. The results of the model data show that the four indicators can significantly highlight the advantages and disadvantages of the products, which can help the producers to understand the key development direction more quickly and accurately, and also help consumers to choose the products they like more conveniently.

Keywords:Fine-Grained Sentiment Analysis, Text Mining, Online Review, Visual Analysis

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

随着20世纪的结束，电子商务在中国迅速发展，截至2019年6月，我国网络购物用户规模达6.39亿 [1]。数量庞大的网络购物用户在电商平台购买商品并对商品做出的评价后，留下了巨量的评论信息，这些评论信息就被学者们称为电商的在线评论 [2]。在线评论中的文本数据传达了消费者对于电商平台和商品等多方面的信息，这些信息不仅是其他潜在消费者决策前的重要参考，对于商品生产厂商的产品改进与研发也是十分重要。

本文通过运用LDA主题模型与完善补充产品属性及情感词典，构建细粒度情感分析模型，建立基于文本挖掘的评价指标，并通过实证，进行评价、建议与可视化分析。

2. 基于细粒度情感分析的模型构建

在线评论分析研究模型如下图1所示。

模型共包含五个步骤，分别是评论数据爬取及预处理 [3]，Jieba分词，运用隐含狄利克雷主题模型(LDA) [4] 获取产品属性及属性词 [5]，在线评论情感词典构建 [6]，有用短语及情感打分，数据分析及可视化。

3. 实证分析

3.1. 实验数据来源

智能手机品牌繁多、功能多样，也是人们生活中广泛使用的一种产品。本文就以智能手机的在线评论作为实验数据，浏览相关测评网站 [7] [8]，选取OPPO Reno 10倍变焦版、vivo X27和华为P30PRO这三种手机的在线评论为爬取对象，以下简称为OPPO、vivo和HUAWEI。京东商城作为一家较为主流的电商平台，受到不少消费者青睐，通过在京东商城网页搜索上述三款手机，编写Python爬虫程序，爬取在线评论。数据爬取时间是2018年7月22日。爬取结果：OPPO在线评论2954条，vivo在线评论3946条，HUAWEI在线评论3870条。

Figure 1. Online comment sentiment analysis model

图1. 在线评论情感分析模型

3.2. 预处理及Jieba分词

为了提高数据的有效性，对爬取的评论数据进行以下预处理工作：① 删除评论为“此用户没有填写评论!”的评论；② 删除重复评论；③ 删除明显带有广告色彩的评论 [9]。预处理后，三款手机评论数量分别为：2831条、3730条和3686条。

通过调用Python中的Jieba分词，对预处理后的数据进行分词与词性标注，每条评论分词结果按行保存到txt中。文本中包含了多种词性，如：名词、代词、动词、形容词、量词、副词、助词、连词等等，其中助词、连词等词无实际意义，影响数据处理与程序运行，因此先在Python中对评论文本进行词性标注，再通过加载停用词表将这些无用词与标点符号删除。本文采用的停用词表，是四川大学机器智能实验室停用词库、哈工大停用词表和百度停用词表汇总、去重后的得到的停用词表。

3.3. LDA确定产品属性及属性词

在Python中按行读取分词后的评论，调用第三方模块LDA包，通过设置参数，主题个数(n_topics)和迭代次数(n_iter)，训练模型，对评论文本进行产品属性及属性词提取。经过多次调试后，在n_topics = 6，n_iter = 10000时，输出每个主题中前15个词(Top-N = 15)，此时模型结果较优，得到6个产品属性，90个属性词。通过参考中关村在线的手机板块、主流手机厂商官网和其他学者关于手机属性的相关文献，对初次结果进行调整，最后得到6个产品属性和87个属性词。如表1。

3.4. 手机评论情感词典构建

正如上文中所提到的，现有的情感词典不能满足对于在线评论文本分析的要求。经过词性标注与分词后，对分词结果进行整理，筛选出特有的词汇与网络新词，并结合已有情感词典，最终得到基于手机在线评论的情感词典。如表2所示。接着，根据每个词所带代表的含义与强度，为情感词典中的词设置权重，情感词的权重取值分别是：−1和1，程度副词的权重取值分别是：0.8，1.2，1.6和2，否定词的权重为−1。

Table 1. Mobile phone attribute vocabulary

表1. 手机属性词表

Table 2. Emotional dictionary

表2. 情感词典

3.5. 有用性评论

以属性词典和手机评论情感词典作为依据，本文进一步规定，一个短句中同时包含属性词和情感词时，这个短句被认为是有用的。 [10] 如下公式：

$β_{i} = β_{i}^{s} \times β_{i}^{q}$ (1)

其中， $β_{i}^{s} = {0, 1}$ ， $β_{i}^{q} = {0, 1}$ ；当 $β_{i}^{s} = 1$ 时，表示第i个短句中包含属性词； $β_{i}^{s} = 0$ 时，表示第i个短句中不包含属性词。当 $β_{i}^{q} = 1$ 时，表示第i个短句中包含情感词； $β_{i}^{q} = 0$ 时，表示第i个短句中不包含情感词。当 $β_{i} = 1$ 时，表示第i个短句是有用的； $β_{i} = 0$ 时，表示第i个短句是无用的。

以公式(1)为基础，通过Python代码遍历每个短句、属性词和情感词，计算短句有用性，将 $β_{i}$ 值为1的短句保存为列表。

3.6. 基于有用短语的情感打分

有用短语包含属性词和对属性的情感描述，其中情感描述必定包含情感词，可能含有否定词和程度副词。基于情感词、否定词和程度副词间的不同组合，本文列举短句中情感描述的5种情况作为情感打分依据。如表3。

Table 3. Emotional scoring formula

表3. 情感打分公式

表3中， $S c o r e$ 为短句的情感分数， $S_{情感词}$ 和 $S_{程度副词}$ 分别为情感词和程度副词的权重值，在3和4两种情况下，否定词权重为−1；在第5种情况中，否定词权重取−0.2。

基于以上公式，通过Python编写的代码读取列表中所有短句并进行打分，以分值与短句一一对应的形式保存为excel文档，此时得到对于手机属性的全部情感分值，则该属性的情感分值为：

$S (N_{i}) = \sum_{j = 1}^{n} S (w_{i j})$ (2)

式中： $S (w_{i n})$ 为属性词情感分值； $S (N_{i})$ 为第i个属性的情感分值。

3.7. 基于情感打分的评价指标

为了比较三款手机属性整体情况，依据情感打分获得的数据，建立以下评价指标：满意度SA、关注度AT、待改进程度IM和方差VA。

根据公式(2)，当正向分值占比越高，则表明消费者的满意度越高，满意度SA计算公式如(3)：

$S A = \frac{S (N_{i}^{+})}{S (N_{i}^{+}) + | S (N_{i}^{-}) |}$ (3)

式中：SA为对属性的满意度； $S (N_{i}^{+})$ 为属性正向分值； $S (N_{i}^{-})$ 为属性负向分值。

消费者对于某一属性提及次数越多，则表明消费者对该属性的关注度越高。当某一属性的关注度越高，且分值为负的评价占比越高，说明该属性待改进程度越高，则关注度计算公式如(4)，待改进程度计算公式如(5)：

$A T = \frac{T_{N_{i}}}{N U M (T_{N})}$ (4)

$I M = A T \times \frac{T_{N_{i}}^{-}}{T_{N_{i}}} = \frac{T_{N_{i}}^{-}}{N U M (T_{N})}$ (5)

式中：AT为属性的关注度；IM为属性的待改进程度； $T_{N_{i}}$ 为某属性提及的次数； $T_{N_{i}}^{-}$ 为属性评价分值为负的次数； $N U M (T_{N})$ 为所有属性出现的总次数。

某个属性情感分值的方差大小，表明了消费者对该属性情感的离散程度。方差越大，离散程度越高，说明消费者对于该属性的评价分歧较大；方差越小，离散程度越低，说明消费者对于该属性评价较为一致，均值及方差公式如(6) (7)：

$M_{i} = \frac{S (N_{i})}{T_{N_{i}}}$ (6)

$V A = \sum_{i}^{n} \frac{{(S_{w_{i j}} - M_{i})}^{2}}{T_{N_{i}} - 1}$ (7)

式中： $M_{i}$ 为第i个属性的情感均值；VA为情感分值方差； $S_{w_{i j}}$ 为每个属性词的情感分值； $T_{N_{i}}$ 为第i个属性的提及次数。

依据上述公式，对情感得分进行整理，得到下表4：

Table 4. Three types of mobile phone evaluation index results

表4. 三类手机评价指标结果

3.8. 数据分析与讨论

为了直观了解消费者对三类手机产品的满意度与情感离散程度，本文依据表4中的满意度与方差数据，建立图表如图2和图3所示。

从图2整体来看，消费者对于三款手机的外形外观和摄像拍照属性都有很高的满意度，对于电池续航、屏幕显示和系统性能满意度较高，而对于体验服务的满意度整体偏低。细分看来，华为款手机在外形外观、摄像拍照、电池续航、系统性能和体验服务上，消费者满意度领先于另外两款手机，屏幕显示满意度低于vivo款手机和oppo款手机，vivo款手机屏幕显示满意度最高，而在其他方面，vivo款手机满意度都处于中间位置，oppo款手机满意度处于末尾。

结合图3情感方差，可以看出三款手机满意度越高，情感方差越小，说明消费者情感倾向越一致。总体看来，华为款手机方差最小，且满意度最高，vivo款手机次之，oppo款手机最后。三款手机体验服务属性的方差都明显高于其他属性，反映了在体验服务方面存在较大的问题，值得注意。

随着科技的快速发展和手机的广泛使用，手机越来越被当作生活中社交与娱乐的重要工具。本文依据表2数据建立关注度与待改进程度图表，如图4和图5所示。

Figure 2. Histogram of satisfaction

图2. 满意度柱状图

Figure 3. Bar chart of variance

图3. 方差条形图

从图4可以看出，消费者对于手机产品属性的关注度前三由高到低，依次是：拍照摄像、系统性能、体验服务。手机作为记录日常生活和出门旅行的重要工具，手机的拍照摄像越来越得到人们的重视，各大手机厂商也瞄准了这一潮流，向优化升级拍照摄像功能靠拢。其次就是手机的系统性能，随着电竞产业的蓬勃发展，网络游戏也逐渐从端游向手机游戏发展，这就对手机的系统性能提出了较高的要求，一个优越的系统性能能够带来完美的游戏体验，这也是各大厂商研发手机时所注重的。体验服务这一属性是综合手机其他属性，消费者使用过程中所感受到的优劣，根据图2和图3信息，三款手机在体验服务方面均获得较低的满意度，且方差较大，根据关于体验服务属性的评论文本构建词云图，如下图6。

Figure 4. Histogram of attention

图4. 关注度柱状图

Figure 5. Radar chart to be improved

图5. 待改进程度雷达图

Figure 6. Word cloud

图6. 词云图

结合图5与图6，可以看出体验服务方面属性明显急需改进提高，且消费者反馈信息中尤其指出手机的厚度、重量等方面的使用体验满意度很低。其次在系统性能属性方面，也表现出了较高的待改进程度，多体现在运行速度与游戏优化方面。

综合以上信息，提出以下建议：

1) 外形外观、摄像拍照和屏幕显示需稳中求进。总体看来，虽然三款手机在外形外观、摄像拍照和屏幕显示方面，都获得一致的高满意度，但仍然得到消费者的持续关注，分别排在第一、第四和第五。因此，在原有基础上，坚持对这些方面的研发，关注消费者消费趋势变化，增强客户粘性，维持并扩大客户群体。

2) 手机游戏产业以及娱乐类应用软件的迅速发展对手机的电池续航与系统性能提出了更高的要求。根据Niko Partners与QuestMobile发布的调查报告显示，中国2018年手机游戏行业总收入达到156.3亿美元，同比上升28.9%；中国互联网用户每天在手机上的娱乐时间平均达到4.7小时。长时间的手机使用与高负荷的游戏过程需要更持久的电池续航与强悍的系统性能。因此，在这两个方面需要更快的迭代更新，才能获得消费者青睐。

3) 用户体验是重中之重。三款手机在体验服务方面都获得最低的满意度与最大的方差，消费者反应在手机重量、厚度、散热和音质等方面使用体验很差。因此要重点把握手机尺寸大小，减轻手机重量，减小手机厚度，贴近大众使用习惯；优化散热系统设计，保证使用手感。

4. 结束语

手机产品种类繁多、更新换代快，如何不断地获取消费者多方面的反馈，并从繁杂的信息中获得有用数据，分析产品优势劣势，是手机产品正确改进的重点。本文通过对爬虫获取的手机在线评论数据进行细粒度情感分析，建立四大评价指标，进行数据可视化，直观了解消费者情感趋势与产品优劣势，并给出相关建议，指明正确的改进方向与策略。

文章引用

程斌,高圣国. 基于细粒度情感的文本挖掘及可视化分析
Text Mining and Visualization Analysis Based on Fine-Grained Sentiment[J]. 应用数学进展, 2021, 10(01): 128-136. https://doi.org/10.12677/AAM.2021.101015

参考文献

1. 中国互联网络信息中心. 第44次《中国互联网络发展状况统计报告》[EB/OL]. http://www.cac.gov.cn/2019-08/30/c_1124938750.htm, 2019-8-30.

2. 张玉峰, 朱莹. 基于Web文本挖掘的企业竞争情报获取方法研究[J]. 情报理论与实践, 2006(5): 563-566.

3. 薛为民, 陆玉昌. 文本挖掘技术研究[J]. 北京联合大学学报(自然科学版), 2005(4): 59-63.

4. 张振华, 许柏鸣. 基于在线评论文本挖掘的商业竞争情报分析模型构建及应用[J]. 情报科学, 2019, 37(2): 149-153+ 160.

5. 王克勤, 毋凤君. 面向产品设计改进的在线评论挖掘[J]. 计算机工程与应用, 2019, 55(19): 235-245+252.

6. 林崇德, 杨治良, 黄希庭. 心理学大辞典[M]. 上海: 上海教育出版社, 2003.

7. Wilson, T., Wiebe, J. and Hoffmann, P. (2005) Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis, Vancouver, British Columbia, Canada, F oct, 2005. Association for Computational Linguistics.

8. 唐晓波, 刘广超. 细粒度情感分析研究综述[J]. 图书情报工作, 2017, 61(5): 132-140.

9. 杨东红, 吴邦安, 陈天鹏, 等. 基于京东商城评价数据的在线商品好评、中评、差评比较研究[J]. 情报科学, 2019, 37(2): 125-132.

10. 杨程, 谭昆, 俞春阳. 基于评论大数据的手机产品改进[J/OL]. 计算机集成制造系统, 1-19. http://kns.cnki.net/kcms/detail/11.5946.TP.20190606.1053.008.html, 2020-10-03.

NOTES

^*通讯作者。

期刊菜单