高校网络舆情分析系统模型研究

高校网络舆情分析系统模型研究

摘要:我们国家拥有世界上数量最多的网民和最大的网络访问量,根据2020年3月中国互联网络信息中心《第45次中国互联网发展状况统计报告》,我国网民的总体规模为9.04亿,其中学生网民占比26.9%。同时,根据教育部的《中国高等教育系列质量报告》,截至2016年,我国普通高校达到2596所,各级各类高校学生规模达到约4000万。高校学生规模巨大,再加上青春期的高校学生在心理发展、价值观上尚不够成熟和固定,个人观点容易受他人影响,导致高校网络舆情具体其自身特殊性。高校网络舆情如果发生,短时间内迅速扩散影响到大学生的态度和观点是大概率事件,甚至会对他们在现实生活中的行为导致极大影响,所以,一旦发生舆情,则必须及时地采取相关措施。最基础的工作就是实施相应的舆情监控措施,制定处置预案,以期达到控制舆情进一步扩散和引导事态发展的目的。同时,有效的网络舆情分析,可以更好地了解大学生诉求和意见,对建设安全稳定、和谐积极的网络环境和高校舆论环境意义重大。

关键词:舆情分析;大数据;网络安全

1网络舆情监测研究现状

当前常用的网络舆情分析方法主要有网络调查方法、基于统计规则的模式识别方法、基于内容挖掘的主题监测方法等。目前市场上舆情监测分析系统最擅长的是爬取网页内容信息,如BBS、博客、微博、知乎、新闻跟帖等。针对高校学生特殊群体和高校舆情特殊性而言,这些系统针对该类对象捕捉舆情热点的精准度不高。此种方式挖掘出的舆情大多是社情民意等涉及面较广的社会舆情,也可针对不同地域进行检测分析,但如何从中精确区分出高校舆情信息则没有相关的应用和研究。本研究基于高效校园网计费网关系统存储的访问日志,首先利用专业的数据挖掘软件(Awstats)工具对校园网用户网络访问行为日志进行分析,挖掘访问热点站点。之后结合大数据平台对挖掘出的热点站点的文本内容进行爬取、处理、聚类分析,最后生成舆情报告,对疫情处置给出对策和建议,让决策者能够掌控舆论控制权,研判网络舆情发展趋势,为舆论方向引导提供参考,达到维护网络和信息安全、校园安全稳定的目的。

2相关理论

2.1大数据概述。大数据是指无法在可接受的时间范围内用软、硬件来采集、管理、处理的数据集合,需要新的处理模式才能使数据集合具有更强的洞察力、决策力和流程优化等能力的多样化的、海量的数据资产。大数据具有数据量巨大(Volume)、数据种类繁多(Variety)、数据增长极快(Velocity)、数据价值密度较低(Value)的4V特征。本研究对数据的处理采用Hadoop平台进行。Hadoop是一个优秀的能对大数据进行分布式处理的软件框架,具有高可扩展性、高容错性、高效性、高可靠性等特征。高可扩展性:Hadoop可以在廉价的计算机集群上稳定且高效地运行,并可以通过简单配置就能扩展到更大规模的计算机节点上。高容错性:Hadoop采用的是冗余数据存储方式,自动保存数据的多个副本,并且能够对失败的执行任务进行自动化管理,重新进行分配。高效性:作为一个并行分布式计算平台,Hadoop采用分布式处理和分布式存储两大核心技术,通过并行编程模型(MapReduce)实现并行计算,能够高效的处理PB级数据,大大提高了处理速度。高可靠性:指采用的数据存储方式为冗余式,即当某个副本发生故障时,别的副本还能保证向外提供正常的服务。

2.2网络舆情概述。网络舆情指的是流行在网络上的针对社会问题的不同看法所产生的舆论,是社会舆论的一种网络表现,是通过网络进行传播的,公众对现实生活中相关焦点、热点事件所持有的,有较强倾向性和影响力的观点、言论的总和,它以互联网为载体,以事件为核心,是网民的自我表达与彼此互动的集合。网络舆情具有广泛性、突发性、随意性、多元性、隐蔽性等特征。广泛性是指参与人员种类多、地域广。突发性是指互联网打破了时空限制,让舆情事件在互联网上成为舆论风暴中心的同时,也现实社会快速形成舆论热点。随意性体现在舆情信息带有极大的非理性因素,很多事观点是网民的情绪化表达。多元性表现在信息内容类型繁多、传播途径和表达方式多样、意识形态和观点内容多种多样三方面。网络舆情分析系统工作过程可分为四个步骤来完成,分别是信息采集、元数据预处理、舆情监测分析、生成舆情报告。其中,信息采集的实现主要基于网络爬虫技术,元数据的预处理包括但不限于网页内容的提取和过滤、文本的分词和向量化、文本的特征提炼及标识等。舆情分析主要包括文本倾向性分析、话题的识别和跟踪、文本集自动摘要、舆情热点发现等技术。

3模型设计

随着互联网的不断发展,高校学生无论在生活和学习中,都已和网络紧密相连,几乎无时无刻不在进行网络活动。针对高校的网络舆情分析系统设计应满足以下基本要求。

3.1信息抓取的精准性。高校学生群体受年龄和心理阶段特征影响,表现出对特定事物、事件的高关注度,因此信息抓取应能尽可能的精准,针对大型社交网络等开展的舆情信息抓取、分析,相对于高校学生这一群体来说不具有太大代表性。所以,及时发现高校学生关注的热点站点、热点事件显得尤为重要。

3.2信息处理的及时性。高校学生群体具有思维活跃、跳跃和不确定特征,导致高校网络舆情的发生、发展和变化速度都特别快,传统的舆情分析系统很难去处理,舆情信息自身的状态与价值也会随着时间和空间的变化而不断地发生变化。因此,如何在数据量暴发式增长的信息中快速及时地捕获舆情相关信息,对后期的舆情处置工作显得至关重要。

3.3分析结果的准确性。正确的网络舆情分析结果有利于高等学校及时发现、监控和跟踪互联网上大学生所关心的重大、敏感新闻和热门话题,能为学校相关人员提供处置舆情的智力支持,同时能及时掌握学生的负面情绪可能产生的舆情,并迅速启动相应应急预案,及时化解网络舆论危机,维护校园的稳定、安全。基于以上基本需求,该研究设计地网络舆情分析系统模型主要包括热点站点(路径)发现、信息采集及格式化预处理、舆情分析、舆情报告等功能模块组成。热点站点(路径)发现模块位于系统最底层,主要通过日志分析系统(awstats)进行聚类分析,发现学生访问路径偏好。进行聚类分析前需要对源日志文件进行相关的格式化处理。信息采集及格式化预处理模块位于第二层,主要利用网络爬虫技术从确定的热点站点进行文本信息的抓取和格式化预处理。格式化预处理包括信息去重、降噪、文本切片等。舆情分析模块是舆情系统的核心功能模块,主要完成主题词识别构建、文本倾向性分析、热点发现等功能。舆情报告模块主要基于舆情分析结果生产舆情分析报告,为管理者和决策者提供舆情处理智力支持。系统模型设计如图1所示。

4关键技术

4.1日志数据的标准化处理及热点路径聚类分析。4.1.1日志元数据的标准化处理网络日志文件中有很多不包含文本内容的访问路径和无效路径,如对图片、音视频的访问等,对这些将来无法作为信息采集源路径的日志记录应首先进行去除。随后对剩余日志记录中的制表符替换为空格,为使用Awstats进行日志分析做好样本数据准备。4.1.2热点站点(路径)聚类分析使用日志分析软件(Awstats)访问路径偏好模块,将所有学生的网络访问路径进行聚类分析,得到分类后各访问路径的访问数量、停留时长排序结果,选取学生访问次数多、停留时间长的路径作为下一步舆情监控的热点路径。

4.2信息采集和格式化预处理。采用Hadoop平台,结合Nutch框架,将Awstats聚类分析后的热点路径作为网络爬虫的URL入口,基于Nutch框架开展舆情信息的分布式爬取,将爬取结果存放到HDFS分布式文件系统。采用MapReduce框架对采集到的信息进行格式化预处理,包括分词、停用词去除、词频统计、特征词选取、文本向量化。

4.3文本聚类分析。采取相应聚类算法(如经典的K-means算法)对经过预处理得到的文本集进行聚类分析,聚类分析过程同样基于MapReduce模型来实现,提高分析速度和效率。

5结语

做好高校校园舆情的监控和引导工作,是保障高校校园安全稳定的重要方面。在高校舆情监控中应尽量提高舆情监控的精准性、及时性。以高校校园网计费网关系统用户网络访问日志分析入手,获取高校学生所关注的热点站点第一手资料后,结合大数据平台和网络爬虫、网页解析、文本聚类分析、语义分析等技术,针对热点站点开展舆情分析,是高校舆情监控的有效途径和手段。

作者:吕书林 单位:河南广播电视大学