大数据的网络入侵数据智能化检测系统

大数据的网络入侵数据智能化检测系统

摘要:随着网络复杂度增加,目前的安全技术无法检测到复杂网络的攻击,因此数据安全正面临着严峻的挑战。以前的网络攻击以简单的黑客攻击和破坏系统动机为主,而如今,已从攻击系统或网络变为大规模数据攻击。当前针对网络攻击的安全技术以模式匹配方法为主,而这种方法非常有限。因此,在面对新的和未知的攻击的情况下,检测率变得非常低。因此,设计了一套复杂网络入侵数据智能化检测系统,该系统基于大数据的新模型来检测未知攻击,结果证明该系统可作为未来高级持久威胁(APT)检测和预防系统实施的基础。

关键词:复杂网络;数据安全;模式匹配法;智能化检测

1引言

复杂的黑客攻击在网络空间中不断增加,目前针对特定系统并长时间分析该系统的漏洞得攻击模式被应用——APT(高级持久威胁)。因此,传统的安全检测手段,很难预防和检测APT,迄今为止,用于防御网络攻击的检测和保护系统包括防火墙、入侵检测系统、入侵防御系统、防病毒解决方案、数据库加密等[1-2]。本文提出了一种基于大数据分析技术的新模型来预防和检测未知的攻击,此外,使用了用于管理系统日志的集成监视技术。这些安全解决方案是基于签名和黑名单开发的,列出了可以收集的各种来源及其详细信息,并解释了应用大数据技术(例如分类,文本挖掘,聚类和关联规则)获得的攻击预测。APT是一种资源丰富、功能强大的黑客团体,一方面大多数黑客是无视目标,也不是坚持特定目标,而是将注意力集中在易受攻击的目标。另一方面,杀伤人员不仅拥有充足的资源和能力,而且还秘密地企图从他们选择的目标中获取敏感信息,例如知识产权,谈判策略等。APT使用“zeroday”漏洞来针对计算机程序或操作系统中未公开的漏洞。通常,只有资源丰富的黑客才能开发此类漏洞利用程序,“zeroday”漏洞利用会在使用时被暴露出来,如果被发现,则在以后的攻击中可能会失效[3-4]。APT攻击通常分为四个步骤:入侵、搜索、收集和攻击,如图1描述了ATP攻击过程。在入侵阶段,黑客搜索有关目标系统的信息并准备攻击。为了获得对系统的访问权限,攻击者将搜索具有较高访问权限的用户(例如管理员),并使用各种攻击技术(例如网络钓鱼,欺骗等)。在黑客获得对系统的访问权限之后,便进入搜索阶段。黑客会分析系统日志等系统数据中的宝贵信息,并寻找安全漏洞,这些漏洞可能无法被利用来进一步进行恶意行为[1,5]。在收集阶段,黑客在系统中获取了有价值的信息后,安装诸如Trojanhorse、陷阱门和后门之类的恶意软件,以收集系统数据并维护系统的访问权限。在最后一步,黑客使用获得的信息泄漏数据破坏目标系统。

2系统设计

2.1现有安全技术介绍

业界设计了各种网络安全技术来保护系统免受威胁和攻击,以下是一些维护网络安全的技术:(1)防火墙技术防火墙是一种基于硬件或软件的网络安全系统,它根据一组规则控制传入和传出的网络流量。充当可信网络和其他不受信任的网络之间的屏障,防火墙通过以下方式控制对网络资源的访问阳性对照模型,形成防火墙策略中定义的进入网络的唯一流量。(2)入侵检测系统入侵检测系统(IntrusionDetectionSystem,IDS)是一种设备或软件应用程序,用于监视网络或系统活动中是否存在恶意活动或违反策略并向管理站生成报告。入侵检测系统(IDS)会检查所有入站和出站网络活动,并识别可疑模式,这些可疑模式可能表明有人企图闯入或破坏系统而对网络或系统发起了攻击。有几种方法可以对IDS进行分类:

1、滥用检测与异常检测:在滥用检测中,IDS分析收集到的信息,并将其与攻击特征码的大型数据库进行比较。本质上,IDS查找已经记录的特定攻击。就像病毒检测系统一样,滥用检测软件仅与用来比较数据包的攻击特征库一样好。在异常检测中,系统管理员定义网络流量负载,故障,协议和典型数据包大小的基线或正常状态。异常检测器监视网络段,以将其状态与正常基准进行比较并查找异常。

2、基于网络的系统与基于主机的系统:在基于网络的系统或NIDS中,将分析流经网络的各个数据包。NIDS可以检测旨在被防火墙简单过滤规则忽略的恶意数据包。在基于主机的系统中,IDS在每台单独的计算机或主机上检查活动。

3、被动系统与反应式系统:在被动系统中,IDS检测到潜在的安全漏洞,记录信息并发出警报。在反应式系统中,IDS通过注销用户或对防火墙进行重新编程以阻止来自可疑恶意源的网络流量,从而对可疑活动做出响应。尽管IDS和防火墙都与网络安全有关,但是IDS与防火墙的不同之处在于,防火墙会监视入侵,以阻止入侵的发生。防火墙限制了网络之间的访问,以防止入侵,并且不会发出来自网络内部的攻击信号。一旦发生可疑入侵,IDS就会对其进行评估并发出警报,同时IDS还监视源自系统内部的攻击[6-8]。

2.2入侵数据智能化检测系统设计

诸如APT之类的以前未知的攻击正在发展以绕过现有的安全措施,使用当前技术无法检测或阻止这些攻击。因此,使用最新的攻击技术会不断发生安全事件,需要采取新的安全措施来应对这些攻击,新范式要求将大数据分析技术作为防御技术,中央安全管理和事件预测技术的核心。本文提出了一种系统模型,该模型使用大数据分析技术从各种来源提取数据,以应对先前未知的攻击。大数据是无法使用传统计算技术处理的大型数据集的集合,它不是单一的技术或工具,而是涉及许多业务和技术领域。因此,大数据包括海量,高速和可扩展的各种数据,其中的数据将分为三种类型。结构化数据:关系数据。半结构化数据:XML数据。非结构化数据:Word,PDF,文本,媒体日志。大数据分析使用各种现有的分析技术,例如机器学习,人工智能,数据挖掘等,如图2所示为基于复杂网络入整个系统实现分为4个步骤。

1、数据收集:数据收集步骤从防火墙收集事件数据,并从防病毒,数据库,网络设备和网络收集日志,行为,状态信息(日期,时间,入站/出站数据包,守护程序日志,用户行为,进程信息等)。收集的数据保存在大数据设备中。

2、数据处理:此步骤验证收集的数据是否满足某些要求。然后使用No-SQL,Hadoop和Mapreduce等创建和分类键值对。

3、数据分析:使用预测、分类、关联分析和非结构化数据分析来分析来自上一步的预处理数据,以确定用户行为,系统状态,数据包完整性以及文件或系统的滥用。

4、结果:如果检测到攻击或异常行为,它将警告管理员并终止。此外,通过可视化界面实现监控结果实时展示,并向管理人员预警。本系统基于Hadoop架构进行设计实现,Hadoop具有两个核心组件:HDFS和MapReduce,其中HDFS用于存储海量数据集,而MapReduce用于处理这些海量数据集。系统搭建在Hadoop群集中,安全监控数据被分发存在数据的群集的所有节点上,Hadoop使用MapReduce算法运行应用程序,其中数据与其他数据并行处理,简而言之,通过Hadoop开发可以对大量数据执行完整统计分析的系统程序。MapReduce是一个并行编程模型,用于编写处理复杂网络入侵数据,以便以可靠、容错的方式在商品硬件的大型群集(数千个节点)上高效处理大量数据(多TB数据集)。由于文件分布在群集中的不同节点上,因此Ha-doop可以最大程度地减少处理时间,并且这些节点可以并行工作,从而可以缩短处理时间并提高性能。本系统主要尝试增强安全平台,提高软件发现高级威胁的能力,做出相应的反应,并为未来制定预防措施。未来将提高安全系统的质量和可靠性,一些研究人员计划使用机器学习技术进行数据收集,预处理,集成,MapReduce和分析。

2.3系统应用分析

在实际应用中,需要将某些已知的攻击模式及其相应的记录首先标记为系统历史行为数据库中的相应类型,然后可以训练高维数据的数据集合。这样,可以确保基于大数据的入侵检测具有一定的有效判断未知攻击的能力,以及提高学习能力的自我学习和自我开发能力。例如,在训练模块中,基于数据挖掘,建立了高维数据挖掘引擎来获取和学习知识,攻击行为特征是从大量攻击数据中提取的,训练步骤如下:1)训练文本集是矢量量化并获得特征集。2)使用特征子集提取算法,从特征集中提取最佳特征子集(评估算法用于确定“最佳”子集)。3)根据分类器对特征子集表示的训练文本进行分类,并对分类特征子集的性能进行评估。4)在分类模块中,用最优特征子集表示测试文本,然后使用分类器进行分类,并采用后验概率最高的类。表1所示的实验结果是在经过约10MB的数据训练后,通过分析其检测结果而获得的。在此表中,通过对比经过大数据分析检测的安全分析和未经过大数据分析检测的安全分析。通过对表1中的实验数据进行分析,可以发现,在基于大数据的高维数据挖掘中,可以减少报告假冒攻击和合法用户攻击的失败次数,分别从55次和43次减少达到41次和18次。同时,检测入侵攻击的准确性分别从72.5%和78.5%提高到79.5%和91.0。因此,实验结果证明,基于大数据的入侵数据智能化检测在安全检测中的实际应用可以提高入侵检测的准确性,增加入侵的积极影响。

3结束语

本文使用大数据分析技术来开发用于检测未知攻击的入侵检测系统,讨论了基于Hadoop的框架,该框架可使用大数据安全分析来处理目标攻击。通过管理大量企业数据的大数据特征,解决未知攻击通过使用加密和混淆功能轻松绕过现有的安全问题。

作者:赵卫 方诚 单位:咸阳师范学院信息化建设办公室