大数据在环境污染治理中应用

大数据在环境污染治理中应用

摘要:随着大数据技术不断发展,大数据技术在各行各业中发挥了重要作用,关于大数据在环境污染治理研究国内还处于发展阶段。文章回顾了环境污染治理大数据应用情况,主要从环境监测数据采集、分析、应用角度进行分析。接着进行大数据在环境污染治理应用进行研究,根据现有环境污染治理需求得到基于大数据的环境污染治理系统包含功能主要有:环境污染治理系统管理、环境污染治理设备管理、环境污染治理数据采集管理、环境污染治理数据预处理、环境污染治理数据分析管理、环境污染预警管理、环境污染数据统计管理、环境污染决策管理。详细研究了大数据在环境污染治理应用,从数据存储、数据预测管理角度进行分析。

关键词:大数据;环境污染治理;Hadoop

引言

环境污染治理事关国家发展,相关部门提高了环境污染监测标准、加大了对环境监测力度。然而在环境监测过程中仍然存在一些问题,比如监测数据造假、监测力度不够。这些问题直接影响了环境污染治理问题。如何解决当前环境污染治理中存在的问题,是相关部门急需解决的问题。近年来随着移动互联网的不断发展,无线传感器应用到环境监测中发挥了重要作用,马冬[1]使用大数据技术研究了中国再用车排放情况,结果表明中国再用车合格率为89.5%、中国合资与自主品牌车之间合格率差异性较高。李蔚[2]研究了大数据解析技术在环境监测中应用,使用神经网络算法进行PM2.5浓度、气象条件、交通情况、人群流动等特征分析,为环境监测提供了新思路。熊丽君[3]详细研究了大数据技术在生态环境领域的应用现状,指出当前大数据技术在环境监测管理中中国还处于发展阶段。目前大数据环境监测管理主要包括数据采集、数据处理、数据分析,数据采集主要使用地面监测、遥感监测、无线传感器监测;数据处理主要包括数据存储管理、数据预处理管理、数据深度处理管理以及数据挖掘管理;数据分析包括各种人工神经网络算法、预测算法应用。关于大数据技术在环境污染治理中的应用目前国内研究较少,本文进行详细大数据污染治理研究。

1环境保护及手段

环境保护是指人类未解决环境存在问题,协调人类与环境发展关系,保护人类生存资源以及经济可持续发展的总称。目前环境保护主要有大气污染、水污染、土壤污染等。环境保护手段主要有环境监测、环境治理,环境监测是对环境指标进行检测,根据检测结果进行环境污染情况进行评价;环境治理是采用各种技术对已污染的环境进行修复降低环境污染程度。本文重点分析环境监测在环境保护中作用。环境监测在环境保护中的作用体现在:(1)能为环境保护提供数据支撑,目前环境保护制定了国家标准、行业标准、企业标准,这些标准中规定了环境污染的指标,环境监测为环境污染指标提供数据。(2)为环境规划提供决策数据,随着国民经济不断发展,中国环境保护工作不断提升,对环境规划提出了更高要求。环境监测为环境规划提供了数据源[4]。

2系统需求分析

本文在现有的环境污染基础上进行问卷调查,得到基于大数据的环境污染治理系统包含功能主要有:环境污染治理系统管理、环境污染治理设备管理、环境污染治理数据采集管理、环境污染治理数据预处理、环境污染治理数据分析管理、环境污染预警管理、环境污染数据统计管理、环境污染决策管理。环境污染治理系统包含功能有:环境污染治理系统权限管理、环境污染治理系统人员管理、环境污染治理数据安全管理;环境污染治理设备管理包括环境设备信息添加、环境设备信息查看、环境设备信息删除、环境设备信息修改、环境设备使用添加管理、环境设备使用修改管理、环境设备使用挖掘管理;环境污染治理采集管理包括传感器采集管理、人员采集管理、大数据存储管理;环境污染数据预处理包括预处理规则设置、预处理分析;环境污染治理分析包括智能算法应用、分析结果显示;环境污染预警管理包括预警提示、预测设置;环境污染治理统计包括信息查询、信息分析;环境污染决策管理包括决策信息添加、决策信息生成。

3系统功能实现

3.1基于大数据的环境污染治理系统框架。环境污染治理中数据存储是关键技术,目前常见的开源数据存储框架为Hadoop,该框架中核心功能模块为HDFS、MapReduce,HDFS主要用于存储环境污染数据,使用非结构化数据结构;MapReduce是分布式计算,非常适合环境监测数据管理,两者结合使用提高了环境监测管理数据存储能力。图1为基于大数据的环境污染架构图。图1可知基于大数据的环境污染包括了数据采集、数据存储、数据管理、数据挖掘、数据分析等功能。数据源是将分布在各地的环境监测设备采集信息获取存储,进行分析,从而获取有价值的数据为后续数据分析提供数据源。数据采集结构包括结构数据、非结构化数据(主要有平台运行日志、设备采集日志、设备采集文字、图片等信息)。数据存储层中是构建分布式文件系统(HDFS),能实现海量的环境监测数据存储,满足非结构化存储,此外还具有强大的容量可扩展性,能够实现文件自动备份、迁移。数据计算层中使用MapReduce框架进行分布式计算,采用单元计算,最后合并结果,实现了快速计算、吞吐量大、扩展性计算强的功能。此外利用Spark技术能够降低内存读取效率,提高数据分析效率。数据服务层是进行数据挖掘功能,利用实时决策、机器学习等技术进行环境监测数据分析,为环境治理提供决策。

3.2环境监测数据存储功能设计。环境监测设备分布在各地,使用分布式管理系统非常适合,HDFS用于环境监测数据存储具有较高的容错性和可用性。HDFS系统中使用一个主控节点NameNode和多组DataNode节点,NameNode节点主要进行环境监测数据文件名管理,DataN-ode主要存储环境监测数据,图2为环境监测HDFS结构图。所设计的环境监测分布式系统提供文件操作类,可进行文件读写、文件关闭等功能。所设计的存储管理类中提供Path路径类,实现数据存储路径管理。Path类中提供参数配置变量,变量值存储于开源数据库SQLite数据库中。Path中提供文件读函数,能够进行设备检测数据读操作,为提高设备读效率本文使用Java多线程技术进行数据读操作。Path类中提供文件写操作,完成操作后使用CloseStream()方法进行数据流关闭。

3.3环境监测数据预警功能设计。所设计的环境监测数据预警系统是由权限管理、安全认证、技术层组成。技术层中主要包括环境监测场景应用、运行数据层、核心能力层以及数据采集层组成,图3为环境监测数据预测管理结构体系。环境监测场景应用主要进行数据网关管理;运行数据层主要进行数据清洗、数据建模、数据分析、数据查询;核心能力层主要包括Hadoop集群、云存储、数据库管理;数据采集层主要包括历史数据管理、监测数据管理。安全认证管理使用iPaas认证管理技术。权限管理采用权限管理机制进行管理。环境监测数据异常数据方法可使用文献[5]中提供样本数据处理公式进行处理。假设存在n个环境监测数据属性值,用符号m表示环境监测数据维度,用符号S(t0)表示设备tk时刻采集数据的样本。根据设备性能,得到剔除异常数据方法可使用公式1所示方法。(1)式中:SC(t-1)表示-1时刻设备运行数据;r(SC(t-1))表示设备采集数据结果。结语大数据应用以环境污染治理为目的。环境污染治理中应根据国家、人民需求进行大数据应用方法制定,从而实现环境污染治理信息传播、交流。综合各地环境因素、经济指标等进为环境污染治理提供准确的治理信息。

作者:李志华 单位:甘肃省定西生态环境监测中心