随着计算机存储能力的提升和复杂算法的发展,近年来数据量呈指数级发展。各行各业的决策正从“业务驱动”转变为“数据驱动”。我们应该利用大数据的海量处理与智能分析能力,准确抓取时代热点数据。百度贴吧为全国大多数高校所拥有,在此栏目下,贴吧数据信息量大且比较分散。当今,迫切需要一种高效率、高准确率的舆情分析系统。在此基础上本文重点分析了基于大数据环境下的高校贴吧舆情分析系统的数据流程设计和架构设计,以及设计过程中的技术线路。区别于热搜、百度指数等专职于分析用户行为数据的平台,本系统完全创新,技术性更强,专业性更高。 With the improvement of computer storage capacity and the development of complex algorithms, data volume has developed exponentially in recent years. Decision-making in all walks of life is changing from “business-driven” to “data-driven”. We should make use of the massive processing and intelligent analysis ability of large data to accurately grasp the hot data of the times. Baidu Post Bar is owned by most universities in the country. Under this column, the data of Post Bar is large and scattered. Nowadays, there is an urgent need for an efficient and accurate public opinion analysis system. On this basis, this paper focuses on the analysis of the data design and architecture design of the public opinion analysis system based on the large data environment, as well as the technical lines in the design process. Different from hot search, Baidu Index and other platforms specializing in analyzing user behavior data, this system is completely innovative, more technical and more professional.
曹汉清1,李全彬2*
1江苏师范大学科文学院,江苏 徐州
2江苏师范大学泉山校区物电学院,江苏 徐州
收稿日期:2019年6月6日;录用日期:2019年6月20日;发布日期:2019年6月28日
随着计算机存储能力的提升和复杂算法的发展,近年来数据量呈指数级发展。各行各业的决策正从“业务驱动”转变为“数据驱动”。我们应该利用大数据的海量处理与智能分析能力,准确抓取时代热点数据 [
关键词 :大数据,百度贴吧,舆情分析系统
Copyright © 2019 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
大数据背景下,热点数据抓取问题推动着经济的发展,企业、政府部门以及事业单位都需要获取与自己相关的热点信息,分析用户行为数据,进而抓住市场痛点,走向发展前沿。例如百度指数 [
本系统区别于热搜、百度指数等专职于分析用户行为数据的平台,属于一种全新的舆情分析系统,同时基于Hdoop平台和MapReduce编程框架精准定位用户需求,利于传统架构与大数据架构结合,数据抓取分析效率高,用户更便捷地获取所需要的数据信息,易于扩展,数据量高并发的情况下,具有较好的解决能力。
本系统设计五大功能模块,通过分析关键词可得到较为准确的统计结果,以下为各模块详细介绍(如图1):
图1. 各模块详细介绍
在数据分析阶段,系统利用hadoop mapreduce、IKAnalyzer技术对贴吧各高校舆论热点进行分词提取(图2),统计后输出于该模块。本模块数据应用于其他模块,更加直观的展示统计的热点信息。
图2. 高校舆论热点关键词界面图
本模块形成主题“热门TOP100”,对关键词所占比例以扇形统计图形式进行输出(图3)。通过对关键词专业的分析,有利于了解大学生就业发展方向,学校增加开设热门专业等。
图3. 高校舆论热点关键词占比分析界面图
本模块键入关键词检索,饼状图形式输出男女生对词关注热度,有利于学校进一步了解大学生男生女生之间思想动态与关注重点的差异,并进行更深层次的探索(图4)。根据实情,采取不同措施,有针对性的解决舆论热点所带来的负面影响 [
图4. 高校舆论热点关键词男女关注分析界面图
本模块键入关键词检索,中国地图形象输出词的地域分布情况(图5),系统的展现了区域文化差异对
图5. 高校舆论热点关键词区域分布热度界面图
舆论热点的影响。
本模块键入关键词检索,条形图统计输出高校对词关注热度(图6)。详细地呈现各所高校之间舆论的差异性,高校管理部门结合大学生实际情况采取针对性措施,完善高校网络思想政治教育工作,提高高校思想教育质量 [
图6. 高校舆论热点关键词高校分布界面图
系统开发分为四个阶段(图7),数据抓取和提取、数据存储、数据分析以及数据可视化。首先,利用httpclient、json、jsoup、sqoop技术抓取高校贴吧数据信息,分类写入到mysql存储,并将数据导入到hadoop空间的hdfs中存储。再利用hadoop mapreduce、IKAnalyzer进行数据分析和提取。最后利用spring mvc、mybatis、quartz、amazeui、echarts技术进行数据可视化展示。
图7. 技术线路图
系统利用Java爬虫,htmlparser与httpelient技术抓取高校贴吧数据写入到mysql存储,再利用sqoop技术将mysql数据导入hadoop空间的数据存储系统hdfs中,并利用mapreduce模型进行数据分析、提取,再将数据导入到Hadoop空间的数据存储系统hdfs中进行存储,最后利用Java提取数据写入到mysql中存储(图8)。
图8. 总体设计流程图
系统采用两套架构(图9),传统架构和大数据架构,SSM做外部抓取与展示技术专业,分布式大数据处理热点信息挖掘效率高。利用Java爬虫抓取各高校贴吧数据,分类写入Mysql存储,再利用Sqoop技术将数据导入hdfs空间中存储,并利用Mapreduce模型进行数据分析、提取,最后利用Java导入mysql中存储,通过webserver提供网上信息浏览。
图9. 架构设计图
基于大数据的高校贴吧舆情分析系统,结合传统架构与大数据架构,SSM抓取与展示更专业,热点数据挖掘效率更高。基于Hadoop MapReduce与IKAnalyzer技术实现的数据分析与统计,并采用定时分析,减少了重复劳动,对于数据量高并发的情况下,具有较好的解决能力,更精准地定位用户关注的舆情信息。基于spring mvc、mybatis、quartz、amazeui、echarts技术,通过扇形统计图、条形统计图以及饼状图等多种样式界面可视化输出,达到了直观、交互性良好的效果,可对一些有价值的数据进行深入分析与采集,有利于企业抓住市场痛点,推动经济发展。在大数据高速发展的背景下,对海量数据进行抓取分析仍然是一个重要的研究方向。
2016年江苏省教育科学“十三五”规划课题(C-a/2016/01/09);江苏省高校自然科学基金项目(BK20171166)。
曹汉清,李全彬. 基于大数据的高校贴吧舆情分析系统设计与开发Design and Development of University Post Bar Public Opinion Analysis System Based on Big Data[J]. 计算机科学与应用, 2019, 09(06): 1134-1141. https://doi.org/10.12677/CSA.2019.96128