大数据时代下信息安全论文

大数据时代下信息安全论文

1“大数据”的内涵

1.1“大数据”定义

所谓大数据(bigdata),或称巨量资料,通常情况下,是指涉及的资料规模庞大,在现有的技术条件的基础上,难以通过主流软件,在合理时间内对其进行撷取、管理、处理。对于“大数据”来说,其特征主要表现为:一是数据量(volumes)大,在实际应用中,把多个数据集放在一起,形成PB级的数据量。根据IDC(国际数据公司)的监测统计,2011年全球数据总量已经达到1.8ZB;二是数据类别(variety)大,数据来自多个数据源,无论是种类,还是格式,数据日趋丰富,以前所限定的结构化数据范畴等,已经被冲破,半结构化和非结构化数据早已囊括其中;三是数据处理速度(Velocity)快,在数据量非常庞大的情况下,能够对数据进行实时的处理;四是数据具有较高的真实性(Veracity),随着社交数据、物联计算、交易与应用数据等新数据源的兴起,冲破了传统数据源的局限,在这种情况下需要有效的技术,进一步确保数据的真实性、安全性。

1.2“大数据”技术

“大数据”的价值不只在于其数据量之大,更大的意义在于通过数据采集、处理、分析、挖掘等技术对“大数据”的属性,包括数量、速度、多样性等等进行分析,能获取很多智能的、深入的、有价值的信息。而这些信息提取过程可大致分为以下三个阶段。

1.2.1数据输入

将分布的、异构数据源中的关系数据、平面数据等数据进行采集抽取,然后对其进行清洗、转换、集成等,最后将数据加载到数据仓中,进而为数据联机分析、挖掘等处理奠定基础。其特点主要表现为并发数高,因为成千上万的用户有可能同时访问、操作数据,比较典型的就是火车票售票网站、淘宝等,在峰值时,它们并发的访问量能达到上百万,在这种情况下,在采集端需要部署大量数据库。

1.2.2数据处理

“大数据”技术核心就是数据挖掘算法,基于不同的数据类型和格式的各种数据挖掘的算法深入数据内部,快速地挖掘出公认的价值,科学地呈现出数据本身具备的特点。并根据用户的统计需求,对存储于其内的海量数据利用分布式数据库或分布式计算集群进行普通的分析和分类汇总等。其特点主要表现为用于挖掘的算法比较复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

1.2.3数据输出

从“大数据”中挖掘出特点,科学的建立模型,通过导入数据,以得到用户需要的结果。这已在能源、医疗、通信、零售等行业有了广泛应用。

2“大数据”安全隐患

“大数据”时代,数据量是非线性增长的,随着数据价值的不断提高,黑客对于数据的觊觎已经由原来的破坏转变成窃取和利用,病毒或黑客绕过传统的防火墙、杀毒软件、预警系统等防护设备直接进入数据层,一些高级持续性攻击已经难以用传统安全防御措施检测防护。“大数据”的安全风险主要可以分为以下两个方面。

2.1从基础技术角度看

NoSQL(非关系型数据库)是“大数据”依托的基础技术。当前,应用较为广泛的SQL(关系型数据库)技术,经过长期的改进和完善,通过设置严格的访问控制和隐私管理工具,进一步维护数据安全。在NoSQL技术中,没有这样的要求。而且,对于“大数据”来说,无论是来源,还是承载方式都比较丰富,例如物联网、移动互联网、车联网,以及遍布各个角落的传感器等,通常情况下,数据都是处于分散存在的状态,难以对这些数据进行定位,同时难以对所有的机密信息进行保护。

2.2从核心价值角度来看

“大数据”技术关键在于数据分析和利用,但数据分析技术的发展,对用户隐私产生极大的威胁。在“大数据”时代,已经无法保证个人信息不被其他组织挖掘利用。目前,各网站均不同程度地开放其用户所产生的实时数据,一些监测数据的市场分析机构可通过人们在社交网站中写入的信息、智能手机显示的位置信息等多种数据组合,高精度锁定个人,挖掘出个人信息体系,用户隐私安全问题堪忧。

3“大数据”安全防范

由于“大数据”的安全机制是一个非常庞大而复杂的课题,几乎没有机构能一手包揽所有细节,因此业界也缺乏一个统一的思路来指导安全建设。在传统安全防御技术的基础上,通过对“大数据”攻击事件模式、时间空间特征等进行提炼和总结,从网络安全、数据安全、应用安全、终端安全等各个管理角度加强防范,建设适应“大数据”时代的安全防御方案,可以从一定程度上提高“大数据”环境的可靠度。

3.1网络安全

网络是输送“大数据”资源的主要途径,强化网络基础设施安全保障,一是通过访问控制,以用户身份认证为前提,实施各种策略来控制和规范用户在系统中的行为,从而达到维护系统安全和保护网络资源的目的;二是通过链路加密,建立虚拟专用网络,隔离公用网络上的其他数据,防止数据被截取;三是通过隔离技术,对数据中心内、外网络区域之间的数据流量进行分析、检测、管理和控制,从而保护目标数据源免受外部非法用户的侵入访问;四是通过网络审计,监听捕获并分析网络数据包,准确记录网络访问的关键信息;通过统一的策略设置的规则,智能地判断出网络异常行为,并对异常行为进行记录、报警和阻断,保护业务的正常运行。

3.2虚拟化安全

虚拟机技术是大数据概念的一个基础组成部分,它加强了基础设施、软件平台、业务系统的扩展能力,同时也使得传统物理安全边界逐渐缺失。加强虚拟环境中的安全机制与传统物理环境中的安全措施,才能更好地保障在其之上提供的各类应用和服务。一是在虚拟化软件层面建立必要的安全控制措施,限制对虚拟化软件的物理和逻辑访问控制;二是在虚拟化硬件方面建立基于虚拟主机的专业的防火墙系统、杀毒软件、日志系统和恢复系统,同时对于每台虚拟化服务器设置独立的硬盘分区,用以系统和日常数据的备份。

3.3数据安全

基于数据层的保护最直接的安全技术,数据安全防护技术包括:一是数据加密,深入数据层保护数据安全,针对不同的数据采用不同的加密算法,实施不同等级的加密控制策略,有效地杜绝机密信息泄漏和窃取事件;二是数据备份,将系统中的数据进行复制,当数据存储系统由于系统崩溃、黑客人侵以及管理员的误操作等导致数据丢失和损坏时,能够方便且及时地恢复系统中的有效数据,以保证系统正常运行。

3.4应用安全

由于大数据环境的灵活性、开放性以及公众可用性等特性,部署应用程序时应提高安全意识,充分考虑可能引发的安全风险。加强各类程序接口在功能设计、开发、测试、上线等覆盖生命周期过程的安全实践,广泛采用更加全面的安全测试用例。在处理敏感数据的应用程序与服务器之间通信时采用加密技术,以确保其机密性。

3.5终端安全

随着云计算、移动互联网等技术的发展,用户终端种类不断增加,很多应用程序被攻击者利用收集隐私和重要数据。用户终端上应部署安全软件,包括反恶意软件、防病毒、个人防火墙以及IPS类型的软件,并及时完成应用安全更新。同时注重自身账号密码的安全保护,尽量不在陌生的计算机终端上使用公共服务。同时还应采用屏蔽、抗干扰等技术为防止电磁泄漏,可从一定程度上降低数据失窃的风险。

4“大数据”安全展望

“大数据”时代的信息安全已经成为不可阻挡的趋势,如何采用更加主动的安全防御手段,更好地保护“大数据”资源将是一个广泛而持久的研究课题。

4.1重视“大数据”及建设信息安全体系

在对“大数据”发展进行规划的同时,在“大数据”发展过程中,需要明确信息安全的重要性,对“大数据”安全形式加大宣传的力度,对“大数据”的重点保障对象进行明确,对敏感、重要数据加大监管力度,研究开发面向“大数据”的信息安全技术,引进“大数据”安全的人才,建立“大数据”信息安全体系。

4.2对重点领域重要数据加强监管

海量数据的汇集在一定程度上可能会暴露隐私信息,广泛使用“大数据”增加了信息泄露的风险。政府层面,需要对重点领域数据范围进行明确,制定完善的管理制度和操作制度,对重点领域数据库加大日常监管力度。用户层面,加强内部管理,建立和完善使用规程,对“大数据”的使用流程和使用权限等进行规范化处理。

4.3加快研发“大数据”安全技术

传统信息安全技术不能完全适用于新兴的“大数据”领域,云计算、物联网、移动互联网等新技术的快速发展,对“大数据”的收集、处理和应用提出了新的安全挑战。加大“大数据”安全技术研发的资金投入,提高“大数据”安全技术产品水平,推动基于“大数据”的安全技术研发,将有利于“大数据”更好地推动国家和社会发展。

作者:乔书芳 赵巍 单位:河北出入境检验检疫局