数字化改革的浪潮促进了数字化社区的发展,从宏观上把握数字化社区建设的方向可以为其建设及管理提供指导与帮助,对于加快建设数字化社会具有重要意义。本文从各政府网站上获取我国2016~2021年期间数字化社区建设的相关政策文本,利用python3.8对政策典型文本数据进行分词及词频统计;从中抽取关键词,建立共词网络,通过k-means聚类算法对关键词进行聚类,根据结果将数字化社区建设相关政策分为社区基础建设、社区治理、社区服务、社区管理等四类方向,并通过关键词对比验证了其合理性;最后利用Gephi软件将分类结果绘制成词云图,对四个方向的建设提出了不同的建议。 The wave of digital reform has promoted the development of digital communities. Grasping the direction of digital community construction from a macro perspective can provide guidance and help for its construction and management, which is of great significance for accelerating the construction of a digital society. This paper firstly obtains the relevant policies of my country’s digital community construction from 2016 to 2021 on various government websites, uses python3.8 software to perform word segmentation and word frequency statistics on typical policy text data, and then extracts keywords from it to establish a co-word network, and through the k-means clustering algorithm clusters the keywords, and according to the results, the policies related to digital community construction are divided into four categories, namely community construction, community governance, community service, and community management, and verify its rationality through keyword comparison. Finally, Gephi software is used to draw the classification results into word cloud map, and put forward different suggestions for the construction of the four directions.
数字化改革的浪潮促进了数字化社区的发展,从宏观上把握数字化社区建设的方向可以为其建设及管理提供指导与帮助,对于加快建设数字化社会具有重要意义。本文从各政府网站上获取我国2016~2021年期间数字化社区建设的相关政策文本,利用python3.8对政策典型文本数据进行分词及词频统计;从中抽取关键词,建立共词网络,通过k-means聚类算法对关键词进行聚类,根据结果将数字化社区建设相关政策分为社区基础建设、社区治理、社区服务、社区管理等四类方向,并通过关键词对比验证了其合理性;最后利用Gephi软件将分类结果绘制成词云图,对四个方向的建设提出了不同的建议。
数字化社区,共词网络,k-means聚类算法,建设方向
Yuyang Liu1, Lina Song2*, Wenqiu Pan2, Xinyi Xuan3, Li Li2
1College of Zhuoyue Honors, Hangzhou Dianzi University, Hangzhou Zhejiang
2College of Economics, Hangzhou Dianzi University, Hangzhou Zhejiang
3School of Accounting, Hangzhou Dianzi University, Hangzhou Zhejiang
Received: Mar. 12th, 2022; accepted: Mar. 25th, 2022; published: Apr. 11th, 2022
The wave of digital reform has promoted the development of digital communities. Grasping the direction of digital community construction from a macro perspective can provide guidance and help for its construction and management, which is of great significance for accelerating the construction of a digital society. This paper firstly obtains the relevant policies of my country’s digital community construction from 2016 to 2021 on various government websites, uses python3.8 software to perform word segmentation and word frequency statistics on typical policy text data, and then extracts keywords from it to establish a co-word network, and through the k-means clustering algorithm clusters the keywords, and according to the results, the policies related to digital community construction are divided into four categories, namely community construction, community governance, community service, and community management, and verify its rationality through keyword comparison. Finally, Gephi software is used to draw the classification results into word cloud map, and put forward different suggestions for the construction of the four directions.
Keywords:Digital Communities, Co-Word Network, k-means Clustering Algorithm, Construction Direction
Copyright © 2022 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
伴随着新一轮科技革命和产业变革持续推进,数字技术正以新理念、新业态、新模式全面融入人类经济、政治、文化、社会、生态文明建设各领域和全过程,给人类生产生活带来广泛而深刻的影响,同时现代科学信息技术的迅猛发展与世界网络化进程的不断加快,使得信息化社会逐渐兴起,社区的数字化建设就成为社会信息化的重要组成部分,成为城市信息化的“细胞工程”,它使得信息技术在城市发展中得到普及和运用 [
数字化社区建设、社区的数字赋能应用是一些学者的重要研究内容。目前学界主要从数字化社区物业管理建设(金炜玲等,2021)、教育学习地图构建(于莎和刘奉越,2019)、存在的问题及相应对策(许咏华,2019)、通讯管理平台技术(彭蕾,2004)、公众满意度(黄辉庆,2013)等角度探究数字化社区的建设。与已有文献不同,本文对数字化社区建设的政策进行探究,政策是一切实际工作的依据与参考标准,只有对政策进行深度研究,才能更好地将政策付诸于实践。
本文利用文本挖掘和聚类的方法对数字化社区相关政策进行深入研究,通过挖掘国家发布的针对数字化社区的政策文本以及和数字化社区有关的新闻,分析数字化社区的应用方向,以此对我国的数字化社区建设提供一定的建议,推动数字中国的可持续性建设。结果表明,关于数字化社区建设的政策新闻可分为社区建设、社区治理、社区服务、社区管理四个方面。在社区建设方面,社区负责人应紧跟政府节奏,着力建设数字化相关设备平台;在社区治理方面,社区负责人应与相关部门一起形成数字化社区运行体系;在社区服务方面,数字化社区应向智能化、便捷化、现代化发展;在社区管理方面,数字化社区应保证社区安全,形成高效严谨的管理系统。
数字化社区自出现以来,一直备受学者关注,如何建设更好的数字化社区成为各学者的研究问题。金炜玲、李熠、李佳(2021) [
综上可知,多数学者都是探究数字化社区的建设现状、建设技术、建设问题与解决方案等,少有学者对数字化社区建设的政策进行研究,但政策是一切实际工作的依据与参考指南,是重中之重,只有对政策进行具体的、有针对性的研究,才能更好地推进数字化社区的建设。
目前对政策文本的分析最常用的方法是文本挖掘技术,1995年,Feldman等首次提出文本挖掘一词,Justicia等(2018) [
由此可见,文本挖掘技术已经较为成熟,多数应用在政治、医疗、社会治理等领域,可用于政策分析、热点研究、演变规律探究等。
对于政策主题的研究,张宝建 [
综上可知,多数学者都是采用词频统计及聚类的方法研究政策主题,并对聚类后的每一类结果进行总结定义,因此本文也利用该方法,将主题拓展至数字化社区政策,对政策主题即社区建设方向进行分析,与已有文献不同的是,本文在对聚类后的每一类结果进行定义后,又对定义的合理性进行了验证。
本文利用文本挖掘和聚类对相关政策进行深入研究,通过挖掘针对数字化社区的政府政策及与相关新闻,用分词及高频词分析的方法提取其中能反应文本特点的关键词,对诸多文本的关键词使用TF-IDF方法构建词权重,通过k-means聚类分析数字化社区的功能及应用方向,文本聚类流程图如图1所示。
由于数字化社区还未在全国普及,国家社区大多仍处于逐渐转型阶段,为了保证政策的时效性与权威性,本文对政府网站发布的法律法规政策文件以浏览、关键词查找等方式检索了近5年国家层面出台的全部与数字化社区有关的政策文件,保证数据资料全面可靠、详尽真实。同时,以全国各地区针对数字化社区的地方性政策细则为依据,以数字化社区相关新闻报道为拓展,通过源头查找和文件追溯补充政策文本遗漏数据。
图1. 文本聚类流程图
在数据收集过程中,对搜集的政策文本进行了逐条筛选和剔除,对新闻报道的篇幅较短、内容不贴近的文本进行筛选并剔除,保障了所选文本的可靠性与多样性,也使结果更加准确、更有说服力。
本文首先对文本进行分词处理,使用Python中的jieba第三方库进行分词和频数统计,在分词过程中本文使用现有的哈工大停用词库去除停用词并构建词袋空间VSM来统计词频,并根据词性去除了名词和动词以外的词语,避免了无关词语对分词结果的影响。其中,词汇出现频率的高低与词义在文本中的重要性成正比,统计出的关键词可以有效地反应该文章的中心。
本文使用关键词权重计算算法TF-IDF来对每篇政策文章进行关键词抽取。TF-IDF是一种基于词袋模型的关键词抽取方法,在文本挖掘中被广泛用于评估一个词语对文本的重要程度,从而提取其中的关键词 [
I D F ( x ) = log ( N + 1 N ( x ) + 1 ) + 1 (1)
TF-TDF ( x ) = T F ( x ) × I D F ( x ) (2)
其中,N代表语料库中文本的总数, N ( x ) 代表语料库中包含词x的文本总数, T F ( x ) 代表某一个给定的词语在该文件中出现的频率。
本文根据TF-IDF算法抽取出每篇政策文章的前十个关键词,并进行整合,对于汇总的关键词进行词频统计,结果如表1所示:
由表1可得,这些政策和相关新闻中出现频率最多的词是社区和数字化,与本文主题十分贴近,其次是服务、居民、平台、设施、智能等,由此可见,大部分政策都是针对居民旨在为其提供更好的服务,建设数字化设备使得社区更加智能化。
序号 | 词汇 | 词频 | 序号 | 词汇 | 词频 |
---|---|---|---|---|---|
1 | 社区 | 378 | 11 | 政府 | 146 |
2 | 数字化 | 359 | 12 | 便捷 | 107 |
3 | 服务 | 249 | 13 | 需求 | 118 |
4 | 居民 | 213 | 14 | 安全 | 96 |
5 | 平台 | 188 | 15 | 设备 | 192 |
6 | 设施 | 169 | 16 | 办事 | 122 |
7 | 建设 | 187 | 17 | 赋能 | 133 |
表1. 部分词汇及词频统计
在词频统计分析的基础上,为判断从国家针对数字化社区的相关政策中提取出的关键词之间关联度的强弱,本文以每对词语在同一政策文献中出现次数为根据构建共词矩阵,样例如表2所示。通过共词矩阵的构建 [
社区 | 数字化 | 服务 | 居民 | |
---|---|---|---|---|
社区 | 0 | 29 | 31 | 17 |
数字化 | 29 | 0 | 4 | 20 |
服务 | 31 | 4 | 0 | 29 |
居民 | 17 | 20 | 29 | 0 |
生活 | 30 | 30 | 10 | 19 |
设施 | 23 | 27 | 9 | 10 |
智能 | 13 | 26 | 6 | 15 |
平台 | 21 | 28 | 5 | 13 |
管理 | 26 | 17 | 9 | 2 |
建设 | 27 | 6 | 35 | 25 |
政府 | 24 | 35 | 12 | 16 |
便捷 | 9 | 11 | 14 | 10 |
需求 | 18 | 7 | 13 | 6 |
安全 | 9 | 12 | 5 | 4 |
设备 | 18 | 33 | 7 | 3 |
办事 | 27 | 3 | 32 | 15 |
赋能 | 15 | 23 | 4 | 2 |
系统 | 15 | 26 | 13 | 2 |
在线 | 14 | 10 | 5 | 2 |
创新 | 12 | 12 | 6 | 3 |
表2. 部分共词矩阵
在共词分析过程中,共词矩阵通常用来表示词语间两两共词的频数,根据共词矩阵可以构建共词网络,通过共词网络体现词与词间的关联 [
图2. 关键词共词网络图
关键词聚类能够凸显各关键词间的类别联系,聚类分析根据关键词间共词强度将关键词划分为不同类别 [
S S E = ∑ i = 1 k ∑ p ∈ C i | p − m i | 2 (3)
其中, C i 是第i个簇,p是 C i 中的样本点, m i 是 C i 中所有样本的均值, S S E 是所有样本的聚类误差,代表了聚类效果的好坏。基于政府政策数据,根据误差平方和公式可以算出k = 4时曲线有明显转折,因此本文取k值为9,即对提取的关键词通过聚类的方法分成了4类。
从整体来看,这些政策和新闻均与数字化社区紧密相连,其中出现频率最多的词是社区和数字化,与本文主题十分贴近,其次是服务、居民、平台、设施、智能等,由此可见,大部分政策都是针对居民旨在为其提供更好的服务,建设数字化设备使得社区更加智能化。
针对每一类结果,本文根据各类中的关键词对主题进行定义,如在第一类中,“建设”、“设备”、“系统”等反映社区基础建设的关键词出现频率较高,因此将该类定义为社区基础建设方向;同理,将其他三类定义为了“社区治理”、“社区服务”、“社区管理”。
四类结果绘制词云图如图3~6所示:
图3. 第一类——社区基础建设词云图
图4. 第二类——社区治理词云图
图5. 第三类——社区服务词云图
图6. 第四类——社区管理词云图
这四类的范畴和要义如表3所示。
由于对四个建设方向的定义存在主观性,因此本文通过查找有关“社区基础建设”、“社区治理”、“社区服务”、“社区管理”的具体政策,从中提取关键词,与以上四类结果进行比对,数据来源于全国各地政府网站。特定的四类相关政策分析出的关键词词频统计结果如表4所示。
类别 | 范畴 | 要义 |
---|---|---|
社区基础建设 | 基础设施、数字化平台搭建、信息共享等 | 社区建设类的政策以社区基础设施、平台搭建等硬件设备为主体,要求完善社区人文环境 |
社区治理 | 社区制度规范、社区秩序、数字运行等 | 社区治理类的政策为政府、社区组织、居民及辖区等单位解决社区存在的问题,完成特定的、具体的经济社会发展任务进行指导 |
社区服务 | 生活便民服务、政府便民服务、精神文化建设等 | 社区服务类的政策明确社区负责人和物业等组织应为社区居民提供的各类便民服务,以及完善精神文化建设 |
社区管理 | 小区安全、家庭安全、物业管理等 | 社区管理类的政策明确了社区内部机构、组织等如何进行自我管理或行政管理活动,以维护社区正常运行秩序 |
表3. 数字化社区建设政策的主题分析
社区基础建设 | 社区治理 | 社区服务 | 社区管理 | ||||
---|---|---|---|---|---|---|---|
建设 | 196 | 治理 | 231 | 居民 | 202 | 管理 | 186 |
信息 | 185 | 政府 | 175 | 服务 | 174 | 物业 | 164 |
设施 | 164 | 机构 | 165 | 办事 | 137 | 巡查 | 159 |
未来 | 138 | 活动 | 154 | 城乡 | 128 | 建立 | 143 |
数字 | 121 | 工作 | 135 | 体系 | 119 | 登记 | 127 |
发展 | 90 | 开展 | 131 | 规划 | 100 | 管家 | 99 |
生活 | 71 | 人大 | 110 | 群众 | 75 | 业主 | 84 |
打造 | 52 | 城市 | 68 | 功能 | 46 | 监控 | 72 |
目标 | 42 | 主题 | 55 | 强化 | 33 | 党员 | 56 |
城市 | 20 | 街道 | 42 | 党建 | 19 | 小区 | 38 |
表4. 特定政策词频统计
由结果可知,每一类的关键词均与本文根据聚类结果所定义的四类数字化社区建设方向的关键词存在较高的重合度,即可以认为本文所定义的四类方向是合理的。
其中针对有关社区基础建设方向的政策,如“某镇健康社区建设工作计划和实施方案”等通过词频统计得出主要的关键词有建设、信息、设施等,与第一类关键词设施、系统、信息等重合度高,联系紧密,因此将第一类定义为社区基础建设方向是合理的。
针对有关社区治理方向的政策,如“某省民政厅关于加强社会工作专业人才队伍建设加快推进社会工作发展的意见”等通过词频统计得出的关键词主要是治理、政府、机构等,与第二类关键词发展、政府、体系、机构重合度高,因此将第二类定义为社区治理方向是合理的。
针对社区服务方向的政策,如新华社发布的“更好解决人民群众操心事、烦心事、揪心事——聚焦《‘十四五’城乡社区服务体系建设规划》”等经过词频统计得出关键词主要为居民、服务、办事等,与第三类关键词教育、生活、智慧、服务、文明、养老、办事、居民重合度高,因此将第三类定义为社区服务的方向是合理的。
针对社区管理方向的政策,例如“某市以红色管家引领社区管理优化提升”等,提取后主要的关键词有物业、巡查、管理等,与第四类关键词物业、报警、设施、监控、管理、巡查、登记重合度高,联系紧密,因此将第四类定义为社区管理的方向是合理的。
通过对词云图的分析可以看出,在社区建设方面,设施、平台、系统、信息、设备等关键词十分突出,设施、设备等关键词可以说明更应该看重社区的数字化基础设施建设,平台、系统、信息等关键词说明应当尽快完善整个数字化平台与系统。只有建设好数字化平台,才能让更多的居民享受到数字化的福利,也能更好地推进国家数字化进程。当下科技发展迅速,数字化已经成为必然趋势,在社区方面,社区负责人要紧跟政府节奏,建设好数字化平台,让社区向数字化社区迈进,进而更大程度地满足居民的需求。
在社区治理方面,发展、政府、体系、机构、治理等关键词尤为突出。从政府、机构等关键词可见,数字化社区的治理离不开政府机构的参与,数字化社区的建设可以让政府高效治理社区;从发展、体系等关键词可见社区的治理是数字化形式且成体系的。加快建设数字化社区可以更有效地帮助政府治理社区,提高治理的效率。以数字化的形式可以更便捷、更全面地解决社区存在的问题。
在社区服务方面,教育、生活、智慧、服务、文明、养老、办事、居民、便捷等关键词很突出。这些关键词大多关乎到社区内的民生,和居民以及服务息息相关。这可以反映出数字化社区的建设极大地便捷了居民生活的方方面面。从儿童的教育到老人的养老再到居民日常办事,数字化平台都可以很好地帮助他们。因此,建设数字化社区对居民生活有着很大改善,不仅可以高效地解决居民生活中遇到的很多问题,还可以让社区更加智能、更加现代化、更加符合当前社会的发展趋势。
在社区管理方面,物业、报警、设施、监控、管理、巡查、登记这些关键词非常突出。报警、设施、监控等关键词体现了社区在数字化上的管理方向。物业、报警等关键词可以反映出社区的智能报警系统、智能监控系统都离不开数字化。有了数字化平台,人们还可以网上登记、网上填写资料等,方便了物业的管理,减少了人力物力的浪费。通过数字化的管理方式,可以让物业管理者和居民更加轻松。做好物业的管理,可以提高物业的声誉,提升小区的价值。当下,越来越多的公司采用数字化管理手段,社区也应该完善数字化管理,落实政府政策,符合社会发展趋势,让居民的生活从点到面都能体现方便、高效的数字化形式。
刘羽洋,宋丽娜,潘雯秋,宣欣祎,李 莉. 基于文本挖掘的数字化社区建设政策方向分析Analysis on the Policy Direction of Digital Community Construction Based on Text Mining[J]. 统计学与应用, 2022, 11(02): 262-272. https://doi.org/10.12677/SA.2022.112027