网络舆情的采集获取和处理

网络舆情的采集获取和处理

 

1我国网络舆情发展现状及分析   据第29次中国互联网络发展状况统计显示:截至2011年12月底,中国网民规模突破5亿,达到5.13亿,全年新增网民5580万。   互联网普及率较上年底提升4个百分点,达到38.3%。中国手机网民规模达到3.56亿,占整体网民比例为69.3%,较上年底增长5285万人。家庭电脑上网宽带网民规模为3.92亿,占家庭电脑上网网民比例为98.9%。农村网民规模为1.36亿,比2010年增加1113万,占整体网民比例为26.5%。2011年,网民平均每周上网时长为18.7个小时,较2010年同期增加0.4小时。2011年中国网民即时通信使用率上升较快,增至80.9%。同时,许多传统交流沟通类应用的用户规模出现萎缩:电子邮件使用率从2010年的54.6%降至47.9%,用户量减少392万人;论坛/BBS使用率则由32.4%降至28.2%,用户量也略有减少。随着网络的应用普及,网络舆情反映已经逐渐取代了传统的舆情交互途径,成为了社会大众对现实社会的真实情感反映。在当前我国经济快速发展,社会转型的关键时期,随着经济社会文化的发展,社会利益关系更趋多样化、复杂化,人们的思想意识也更加多元化、独立化,往往一些问题一经网络讨论传播,就会立即引起广大网民的关注,继而形成网络舆情热点,并引起网民强烈的反响和激烈的讨论。   2网络内容控制的技术方向   近年来,国际上开发的网络舆情监控产品种类繁多,最为常见的是以内容分级和过滤为技术方向的产品,其作用类似“电子保安”。麻省理工学院所属W3C(WorldWideWebConsortium)推动了PICS(PlatformforInternetContentSelection)技术标准协议,完整定义了网络分级的检索方式。以PICS为核心的RSAC研发,例如RSACI(RSAContheInternet)分级系统,以网页内容中呈现出性(Sex)、暴力(Violence)、不雅言论(Language)或裸体(Nudity)表现程度等四个维度进行相应管控。作为美国过滤软件的代表CyberPatrol,用户可以对其中监控对象的名单等内容进行修改。政府部门通常也订立阻止用户访问的“互联网网址清单”,以实现不良信息的过滤和筛选。   目前,我国参照国际上网络内容控制服务和软件,形成了以下几个网络内容管控的技术方向:   1)过滤/屏蔽技术:(1)使用统一资源定位器(URL)列表的服务器端过滤;(2)使用URL列表的客户端过滤;(3)使用文本内容分析的过滤(包括服务器端和客户端)。2)标识和分级系统:(1)第一方标识/分级;(2)第三方标识/分级;(3)互联网内容选择平台(PICS),该平台结合了第三方分级和用户自行分级两种方式。3)年龄认证系统:(1)基于信用卡的年龄认证系统;(2)基于独立发出的ID(Identification)的年龄认证系统。4)新型顶级域名(TLD)/分区:(1)为对未成年人有害的内容建立的新型TLD,如.xxx或.adult,表示定位于该域名的网页上的内容(以及来自于该域名的电子邮件)是对未成年人有害的内容;(2)为无害于未成年人的内容建立新型TLD,如kids等,表示定位于该域名网页上的内容(以及来自于该域名的电子邮件)一般被视为适合所有未成年人。这两项技术虽具可行性,但目前尚未投入使用。作为一种替代性办法,可以建立一种新的次级域名(如.us.kids),这种域名不需要ICANN对现有顶级域名系统做出调整(;3)通过分配一套新的IP地址(新的IP协议——IPv6,尚未广泛应用)建立网上“安全区”,任何在该IP地址范围内的内容可视为“安全区域”或“灰色区域”内容,属于无害信息或既无益也无害于未成年人的信息。5)监控技术:(1)监督和限时技术;(2)实时内容监督/屏蔽方法,可用于不适用过滤技术的网络传播领域。6)安全空间(Greenspaces):这是一种封闭系统,只允许访问系统管理员选定的内容,不能访问系统之外的网站。相关的网络舆情监管部门及行业自律组织应该在考虑公民隐私权、网络言论自由、维护网络秩序等合理因素的基础上,在按比例、遵循相关法律法规的前提下考虑采取一种或几种技术,审核用户的真实注册信息、言论内容的合法性以确保对网络舆情的合理有序监管。   3网络舆情采集与获取技术   3.1网站定向采集   网站定向采集是实时发现互联网上新出现的信息是否包含用户关注的信息,通过周期性地发送HTTP请求,模拟用户网页浏览行为,扫描相关网站URL列表,以实现对关注站点的实时采集,通过链接签名技术和链接比对分析技术来判断所关注的网页是否已进行了信息更新,对出现更新的页面重新下载并存入页面信息库,若无更新,则设定周期进行下一轮的扫描过程。   通过页面内容分析技术对下载到的更新页面信息进行分析和处理,若该信息符合信息报警提示的条件,则进行报警提示处理。   采集周期和采集URL列表可以由用户自行设定,周期越短,扫描频率越高,对于信息的更新就越快,实时性更强。   3.2网络垂直搜索   网络垂直搜索可以实现从网络上自动收集与监控专业领域相关的Web网页数据。同时,网络垂直搜索能够更高效地收集相关信息,也能对这些信息的更新做出更及时的响应。   垂直搜索引擎仅专注于某一领域和主题,并能够对该网页的主题相关度进行准确预测,优先下载相关度高的网页,从而提高“收获比”和网络带宽利用效率。并且,可以通过聚焦爬虫和监控技术,建立一个大型的网络信息监控系统,包括对官方媒体新闻的Web站点上的新闻和代表大众民意的博客文章及在线论坛的监控,实现自动化的收集、存储、整合和处理流程,包括数据的即时可视化处理,这些均可以为开源信息数据的处理提供丰富的数据平台。   3.3网络聚焦爬虫   网络聚焦爬虫是实现全网数据自动采集的主要工具之一,主要负责从互联网上爬取和下载与主题相关的网络资源。笔者建议在原有普通爬虫基础上,对其功能进行扩充,能够及时、有效地抓取与主题相关的网络资源。聚焦爬虫从组成上可分为领域相关初始URL种子集、页面抓取模块、主题相关性分析模块以及URL与页面下载模块等。#p#分页标题#e#   领域相关初始URL种子集用于生成面向特定主题的较好的种子站点,使爬行模块在初始工作阶段保证良好的主题相关性,以提高爬取相关页面的命中率,一般可以通过采用元搜索引擎搜索出主题相关网页,从中选取质量较高的一组种子URL。   页面抓取模块主要抓取页面内容,并通过对页面链接抽取,将抽取的链接集放入缓存中,用于下一阶段的URL去重和主题相关度分析。   主题相关性分析模块是聚焦爬虫的核心模块,该模块的实现是根据主题相关性的判别结果决定页面的取舍,一般由内容相关性分析和链接分析组成,通过相关性计算,分析待下载网页是否符合关注的主题。   URL与页面下载模块是基于主题相关性分析的模块,对符合主题的链接进行,若符合下载的条件,则将页面下载到页面信息库中。   3.4需求配置采集   根据实际需求,可以设计灵活配置的WebRobot搜索策略,应用面向对象的分析方法,将Robot的核心工作任务抽象分成两类:一类为遍历工作,其根据指定的超链接,通过协议获取其页面信息;另一类为解析工作,其根据遍历所得到的Web页面信息,解析其中包含的超链接并以此链接作为起点实现递归遍历工作。为了灵活控制Robot的行为,需要设计适宜的规则扩充系统,并在任务执行之前根据用户指定的规则做出是否执行Robot各项任务的判断。笔者建议可配置的Robot系统的总体架构设计为三层:用户服务提供接口层(SPI,ServiceProviderInterface)、应用程序接口层(API,ApplicationProgrammingInterface)及核心工作层(Core)。整体框架如图2所示。   通过实现服务提供接口层中的规则和插件接口,可以灵活地扩充控制Robot工作的行为规则和事件处理机制。同时,系统的核心部分的驱动来自于可方便定义的配置文件,从而实现整个Robot工作系统的灵活配置。   3.5深度网、动态网采集   深度网、动态网的特征是在于其页面的隐蔽性,一般需要用户提交数据请求的表单才能获得返回的结果。笔者建议可以通过模拟填写表单和取回所有返回结果页面的过程来实现隐藏Web数据抓取。其工作过程可分为三步:1)分析页面,寻找表单:深度网爬虫从站点主页开始爬行表单页面,这个过程使用一组启发式规则来去除非研究表单;2)学习填写表单:爬虫从表单中抽取标签,配合领域规则知识库,尽力学习如何正确地填写表单;3)识别和取回结果页面:爬虫提交表单,然后取回结果页面识别记录。4舆情处理技术由于网络舆情数据的海量性,不同网页数据重复不可避免,必须采用有效的方式减少网页重复情况,同时采用更精准的方式采集到更多的网页数据信息。笔者建议采用异构网页信息抽取、网页、关联分析技术及跨媒体数据搜索等方式进行解决。   4.1异构网页信息抽取   异构网页信息抽取实现对异构网页的正文、标题、日期等信息的抽取,将抓取得到半结构化HTML页面数据转化成结构化的信息输出。异构网页信息抽取的过程可分两步:1)分析网页来源与网页结构等属性,如能直接得出输入网页的类型,则直接调用对应包装器实施正文信息抽取;若非指定类型网页,则根据网页属性分析结果寻找可用的包装器和信息抽取器,分别计算抽取结果;2)分析结果间差异性,进行格式对齐与数据集成,实现抽取结果的集成,获得最终结果。   4.2网页减冗   网页是在采集到的海量网页信息中自动检测出内容重复的页面信息,以节约存储资源、提高索引效率和搜索返回的结果质量、排除因存在大量重复数据对情报分析的影响。现有的算法例如I-Match,DSC(DigitalSyntacticClustering)等大都不适合用于大规模文档实时的要求。由于特征数目不容易决定基于TF-IDF进行的算法,运行的时候效率也不是很高。项目团队成员在实践中不断探索和实验,提出了一种改进的基于内容的快速网页算法。该算法既利用了基于标点符号的特征串算法的高效率,又将TF-IDF稳定的优点融入其中,以TF-IDF中TF的大小来决定该词是否被选为特征,并且将被选中特征加入特征串中参与比较,在文档数目庞大且文档特征比对计算次数较多时,可以通过预先存放文档特征库的方式来提高海量文档的比对速度。   4.3信息抽取与关联分析技术   对于信息的抽取与关联分析可以通过对主题搜索而获得主题或专业相关的网页后,分析网页结构与内容并提取专业信息。Web页面文本信息往往是半结构化的,也夹杂着结构化和自由文本,同时又表现出动态性的特点。例如,有些网页来自一些专业网站,大量的数据保存在这些网站的数据库中,可以通过动态网页组织呈现给用户,这些数据往往体现出较强的结构化特征。如何获取这些信息的关键就在于分析获得这些网站组织数据内容的格式,并基于这些格式规则来抽取网页中所需信息。   同时,可以针对公共安全领域中需要对网页情报内容中的时间、地点、人员、事件等命名实体进行识别和抽取,处理各语言实体之间的对应,实现多语言信息的关联和整合。   4.4跨媒体数据的搜索技术   由于跨媒体数据的多样性、复杂性、巨大性、分散性和不确定性等特点,为实现跨媒体搜索平台中的海量跨媒体数据处理,笔者提出一种适合海量跨媒体数据的搜索算法解决技术。首先,我们可以通过分布式爬虫服务器不间断地从Web或者各个数据库中收集跨媒体数据,形成跨媒体文档集合。基于VIPS(Vision-BasedPageSegmentation)对跨媒体文档内部链接信息进行过滤,排除网页周围的噪声链接,如广告栏和菜单条等。过滤后的文档存储到跨媒体数据库中。其次,可以通过链接分析来获取跨媒体对象之间的高层语义关联,并采用交叉参照图(CrossReferenceGraph,简称CRG)模型来描述媒体对象之间的语义相关性;结合先验知识和多媒体文档语义框架的描述来计算媒体对象之间的权重。这种权重反映了媒体对象之间语义关联的强弱;同时,我们还需要通过用户的相关反馈逐步调整、修正和完善交叉参考图。再次,针对跨媒体数据库中的媒体对象可以进行层次聚类,并基于媒体对象的质心距离计算其跨媒体索引键值,生成每个媒体对象的索引。生成的索引将存储于索引库中。最后,当用户提交一个查询对象时,可以通过对交叉参照图进行基于快速索引的定位,得到与查询对象相关的候选媒体对象。#p#分页标题#e#   5结束语网络舆情是社会舆情的反映,一定程度上反映着社会民意,其产生的原因往往是突发事件引起公众对事件的评析或散播某些虚假信息而引起公众跟风及评析等多方面因素,其中反映着一些合理的诉求,当然也有一些不合理的诉求,合理及不合理的诉求处置的正确与否直接关系到社会的稳定。   妥善引导好、监管好、处理好网络舆情问题需要信息安全技术提供有力的保障。   通过上述内容的介绍和分析,笔者认为可以通过一个系统项目的建设解决有关部门急需的互联网海量信息下掌控舆情动态的难题,提升网络舆情分析、监管水平,以便更好的为网络舆情监管部门提供智力支持服务和技术支持服务。