大数据时代下的隐私保护范例6篇

大数据时代下的隐私保护

大数据时代下的隐私保护范文1

论文关键词 大数据 隐私 刑法体系

随着“可佩带”智能设备的出现,我们每一个人的位置、行为都可被记录分析,随之而来的便是大数据时代的来临。而源自1890年沃伦和布兰代斯提出的隐私权内涵也不断地扩张,逐渐成为一项基本权利。大数据和隐私权,两者随着各自边界的延伸而交织在一起,其相互争夺自身发展权利的场景将是我们这个时代最为重要的事件之一。

一、大数据和网络隐私权涵义辨析

(一)大数据的内涵

正如诸多新兴事物一样,大数据至今还没有统一的定义。在维基百科中,大数据是这样被定义的“大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”可以说这并不是一个精确的定义,因为定义中采用了“无法通过人工”这样的否定句式,而“合理时间”亦是一个模糊的范围。IDC(International Data Corporation)则如此定义“大数据一般会涉及2种或2种以上数据形式。它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。”这个定义虽然给出了明确的量化标准,但是只强调了大数据数量大、增长快的特征,并没有把握住其实质内涵。实际上,大数据所蕴含的是一种数据处理理念,即放弃样本分析而采用所有数据的方法。

(二)网络隐私权的定义

在诸多论著中,都将网络隐私权当做一般隐私权在网络环境下的延伸来对待。而实际上,基于现代网络海量数据的特性,网络隐私权已经超出一般隐私权的范畴,正如1988年哥伦比亚广播公司诉司法部一案中9名大法官指出的一样,“在一个有组织的社会里,几乎每一则信息都在不同的时候以不同的方式公开过。但是,就个人隐私而言,不同时期零散地公开和一次性完整地公开,即使内容相同,也有本质的区别。”

网络隐私权应当包含以下内容:

信息使用权。权利人对其个人信息享有按自己的意志使用的权利。

信息控制权。权利人有权决定是否允许他人访问或使用自己的个人信息。

知情权。权利人应当有权知道服务提供者掌握的个人信息以及信息的分享范围。

大数据时代下的隐私保护范文2

关键词:大数据时代;个人数据隐私权;法律保护

1890年,美国著名法律学者布兰戴斯和沃伦在《哈佛法学评论》上发表了《论隐私权》一文,首次提出隐私权的概念。此后近百年的时间里,隐私权作为公民人格权利的重要内容逐渐得到法律上的确认。然而,近几年随着大数据时代的到来,传统隐私权范畴逐渐扩展,个人数据的隐私权受到冲击,强调个人数据隐私权的保护已成为国际社会的当务之急。

一、大数据时代的挑战与个人数据隐私权概述

1.大数据时代对个人数据隐私权的挑战

“大数据”是一股新的技术浪潮,具体指随着信息存储量的增多,人类在实践中逐步认识到,通过数据的开放、整合和分析,能发现新的知识、创造新的价值,从而为社会带来“大科技”、“大利润”和“大发展”等新的机遇。随着云计算大数据时代的降临,人类拥有了处理大量数字化信息的技术。对大量信息的分析与处理在世界范围内对商业、教育、休闲乃至社会生活的各个方面的飞速发展起到迅猛的推动作用。“信息是一个国家最重要的经济资源”。 在市场与竞争日益商品化的今天,拥有制作、操控和管理信息的技术对任何一个国家都至关重要。信息技术的飞速发展,无疑给个人数据隐私权的保护带来了前所未有的巨大威胁。美国计算机专家John Diebold说:“在信息时代,计算机内的每一个数据,每一片字节,都是构成一个人隐私的血肉。信息加总和数据整合,对隐私的穿透力不仅仅是‘1+1=2’的,很多时候,是大于2的”。

具体来说,大数据时代个人数据隐私权的冲击主要表现在:在大数据时代背景下,个人数据能够更容易获取和更广泛传播,而侵犯隐私权的行为却难以察觉,侵犯后果愈加严重。大数据时代的主要特点之一在于数据的膨胀、开放以及高速传播。借助强大的搜索引擎,许多希望被各种利益团体得到的信息,当然包括个人信息,都可以在虚拟的网络世界轻易获取。可是,与获得和传播个人隐私的“易”相比,若想在海量的信息中主动觉察到个人数据隐私权受到侵犯的蛛丝马迹,可谓“难”。近年来曝光的中国人寿80万个人保单信息泄漏事件,社交网站Facebook用户信息泄密事件以及韩国Nate网站信息泄漏事件无不凸显出个人数据隐私权深受侵害之现状。

2.个人数据隐私权概述

隐私权作为一种基本的人格权利,是指公民“享有的私人生活安宁与私人信息已受到保护,不被他人侵扰、知悉、搜集、利用和公开的一种人格权。而且权利主体对他人在何种程度上可以介入自己的私生活,对自己是否向他人公开隐私以及公开的范围和程度等具有决定权”。隐私权是公民人格权利中最基本、最重要的内容之一,伴随着人类对自身尊严、权利与价值的认识而产生。

随着社会经济的发展,隐私权的客体内容不断扩展。在大数据时代,传统隐私权逐渐向数据隐私权过渡。与传统隐私权相比,数据隐私权具有显著特点。传统社会对于公民隐私权的侵犯一般出于行为人个人的主观恶意,对权利人造成的损害主要体现在精神方面,很少涉及财产内容。由于精神痛苦是一种主观感受,难以明确界定,给隐私权保护以及侵权行为的惩处带来一定困难。但在大数据时代,个人隐私内容具有经济价值,侵权者侵权的动因一般都是从营利目的出发。

二、大数据时代个人数据隐私权保护的比较法研究

针对信息网络的发展对个人隐私带来的巨大威胁,各国在加强个人数据隐私的法律保护方面已取得共识。例如欧洲共同市场理事会1995年10月通过了《自动处理个人资料保护公约》、美国1986年制定《电子通讯隐私法案》以及德国制定的《电信服务资料保护法》都是值得我们借鉴的。基于“任何对互联网的规制不应阻碍其发展”这一基本原则,各国因对规范网上个人数据资料的收集使用等行为可能对电子商务和网络发展造成的影响的估计不同,对网个人数据隐私权进行法律保护和救济的模式与侧重点也不同。大体上可以分为立法规制与行业自律类,分别以欧盟和美国为代表。

1.以立法规制为主导的欧盟模式

欧盟采取严格的立法规制保护公民个人数据隐私权具有鲜明的历史背景。二战时期,欧洲许多国家深受纳粹独裁监视与控制之苦,所以欧洲人对于个人隐私的保护极为重视。随着网络的发展,当个人数据在网络上传播之时,欧洲人便意识到个人数据隐私权保护的重要性,并采取相应的法律手段对用户个人数据隐私权加以保护。其做法是通过政府立法的方法,从法律上确立个人数据保护的各项基本原则与各项具体的制度,在这种模式之下,由法律对所有数据控制者在网上的各种收集、传播和利用用户数据信息的行为进行限制,使网上用户的个人数据隐私更容易得到保护。欧盟不遗余力地制定保护个人数据隐私权的标准,要求各成员国的私营组织和公共机构都遵守统一的原则,而且还努力将其制定的规则提升为国际标准。

1995年10月欧盟部长会议通过了《欧盟数据保护指令》。该指令是在1968年联合国人权国际会议对于个人数据保护与隐私权的问题进行讨论之后,并在经济合作组织有关指令的基础之上通过的。《欧盟数据保护指令》明确规定其制定的目的为:(1)保障个人的自由及基本人权,尤其是隐私权; (2)确保个人数据在欧盟会员国内自由流通。个人数据保护由此从“经济议题扩大到政治事项”,在区域性国际组织的规范性文件中作了专门的规定。指令严格规范了数据收集者在保护个人数据信息方面的地位与作用,并对侵权者制定了严格的惩罚措施,由此有效地保护了欧盟各成员国公民个人数据信息。

2.以行业自律为主导分散立法的美国模式

民主、法治与人权是美国社会的三大基石,从1890首次提出隐私权以来,隐私权作为公民的一项基本权利深受重视。因此,美国隐私权保护所采取的措施走在了世界的前列。就个人数据隐私权保护而言,美国更加重视行业自律。其主要考虑在于随着社会的发展,隐私权客体范围在不断扩展,而以“一种尺度便能试用所有情形”为原则的立法方法不够精细。此外,统观全局,过于严格的立法势必影响信息产业的发展,采取行业自律模式能够激发相关企业积极性。基于此,美国社会具有深远影响的产业联盟—在线隐私联盟于1998年公布了一份旨在保护个人数据隐私权的指南。该指南要求联盟各成员机构必须合法收集个人数据信息、使用个人数据信息时必须征得主体同意以及保障个人数据信息完整、安全。在此背景下,著名的隐私认证组织TRUSTe应运而生。至今,TRUSTe已取得巨大成功,包括微软在内的许多著名互联网企业成为其成员。

尽管美国行业自律模式已取得巨大成功,其存在的缺陷也逐渐显露。美国在线隐私联盟公布的指南毕竟只是一个范本,其本身并不能直接监督企业,也无法对企业违反指南的行为进行制裁。此种情况加上来自欧盟的压力,美国开始构建自己的法律框架。2000年,第一部关于网上信息隐私权的联邦法律《儿童网上隐私保护法》生效。根据该法规定,网站收集13岁以下儿童个人信息之前必须征得其父母同意,并允许父母保留将来阻止网站使用此信息的权利。1999年底,美国通过《个人隐私权与国家信息基础设施》白皮书,阐述了在信息活动中对公民个人隐私进行保护的政策倾向。作为判例法国家,美国也通过一系列判例确立了个人数据隐私权保护的相关原则,例如:(1)要求个人数据信息搜集者在收集个人数据信息时必须向当事人发出通知;(2)允许用户合理选择信息并自由使用信息;(3)允许用户查询自己的信息以及确认自己信息的真实性等。如此,在行业自律与立法规范相互弥补的框架下,美国个人数据隐私权保护模式初步形成。

三、我国个人数据隐私权立法模式选择与完善

我国有着不同于世界其他国家的独特文化背景与历史背景。因此,在个人数据隐私权保护模式的选择上,应该结合我国基本国情,吸取世界上先进国家的立法经验,平衡各方利益,在保护公民的数据隐私权的同时,促进信息产业的平稳发展,同时,还要重视与国际保护标准的衔接。

如前文所述,当前国际社会对个人数据隐私权的保护主要有以美国为代表的行业自律模式和以欧盟为代表的法律规制模式。笔者认为,美国采取行业自律模式的原因,不仅是基于大数据时代对发展网络经济的优先考虑,也是基于美国对隐私权理论研究的扎实基础。而我国,长期以来受传统法律文化的影响,对隐私权的保护重视不够。要实现意识上的转变,必然要经历循序渐进的过程。因此,我国个人数据隐私权的保护模式不宜单纯采用美国式的行业自律。同时,我们也不能照搬欧盟的法律规制模式。因为我国信息行业起步较晚,近年来虽然呈爆发态势,但总体上还稍显稚嫩。推进和普及大数据发展,让更多企业分享大数据时代的果实仍是当前及今后一段时期的重要任务。如果单纯参照欧盟的法律规制模式,以严格立法的形式对个人数据隐私权进行保护,则很可能会打击了相关行业发展的积极性,使其受到严格限制,失去发展良机,这将对我国经济发展的长远利益产生不利影响。

那么应该选择怎样的保护模式,使我国网络隐私权保护的立法能够在我国国家利益、网络使用者及消费者隐私利益和行业利益之间做出合理有效的平衡呢?笔者认为,我国应当采取以立法保护为主、行业自律为辅的综合保护模式。

1.我国应建立个人数据隐私权保护的法律体系

一直以来,我国民事法律并未承认隐私权的独立人格权地位,而是将隐私权归入一般人格权范畴,对其实施间接法律保护。这不仅在理论体系上不够严谨,而且在司法实践中亦难以对公民的隐私权实施有效保护。因此,建立个人数据隐私权保护的法律体系前提是在民法中赋予隐私权独立的人格权地位,使隐私权在法律上具有直接、明确的依据。在此基础上,鉴于个人数据隐私权独有的性质,按照国际通行做法,应当对个人数据隐私权进行单独立法,制定专门的《个人数据保护法》及相关特别法。此外,在诉讼程序中,对个人数据隐私权案件的审理程序作出专门规定,尤其是对案件的管辖、立案标准、举证责任、审理方式等进行具体规定。

2.应当加强非法律规范领域的隐私权保护

鉴于个人数据开放性、高速传播性等独有特点,为了更好地对个人数据隐私权进行保护,在完善相关法律规范基础上,还应当充分调动个人数据使用者的积极性,建立起行业自律机制,对相关企业经营行为进行规范,发挥企业在保护数据信息方面的自主性,增强企业内部员工保护信息数据的自觉性。此外,国家还可以召集具有专业素养的法律、经济界人事,建立个人数据隐私权保护的第三方监督机制。接受公民投诉,处理数据隐私权纠纷,责令数据隐私权侵权者停止侵害、赔偿损失、消除影响,协助公检法机关调查取证。完善侵权行为的事后救济。

华盛顿电子隐私信息中心主任Rotenberg曾在《纽约时代》杂志上撰文指出“隐私之于下世纪的信息经济,如同消费者保护问题和环境问题之于20世纪的工业社会”。在大数据时代,如何平衡个人数据隐私权保护与信息产业的飞速发展已经成为全世界关注的热点问题。我国作为世界上最大的发展中国家以及网络用户最多的国家,更应该突破以往法律观念的束缚,借鉴国际上先进理念与经验加快推进个人数据隐私权保护的立法工作与非法律规范领域的保护工作,采取个人数据隐私权保护以立法保护为主、行业自律为辅的综合保护模式。全面遏制个人数据隐私权侵犯,充分保证公民的合法权益,树立良好的国际形象,促进我国信息产业和网络经济持续、健康发展。

参考文献:

[1]王泽鉴:《法律思维与民法实例》,北京:中国政法大学出版社,2002年版.

[2]王利明:《人格权法研究》,北京:中国人民大学出版社,2005年版.

[3][美]理查德.A.斯皮内各《世纪道德—信息技术的伦理方面》.刘钢译。北京。中央编译出版社.1999.

[4][英]阿尔文.托夫勒《第三次浪潮》.

[5][英]维克托 迈尔 舍恩伯格《大数据时代》盛阳燕等译 浙江人民出版社 2012.

[6][美]阿尔塔 L艾伦:《美国隐私法:学说、判例与立法》,冯建妹等译,北京:中国民主法治出版社,2004年版.

[7]梁慧星:《隐私的本质与隐私权的概念》,《人民司法》,2003年第四期.

[8]王全弟 赵丽梅:《论网络隐私权的法律保护》,《复旦学报》,2002年1期.

大数据时代下的隐私保护范文3

【关键词】大数据 安全 隐私保护

在信息化和网络化的时代里,信息呈现出爆炸性的增长趋势,当下,大数据已成为继云计算之后信息技术领域的另一个信息产业增长点,大数据具有海量的数据规模、快速的数据流转、多样的数据类型以及低价值密度的特点,大数据的出现有效地推动了社会的快速发展。而在大数据飞速发展的同时,大数据安全与隐私保护问题也引起了高度重视,在网络化飞速发展的时代里,大数据在存储、传输、处理等过程中面临着诸多安全风险,一旦大数据出现安全风险,就会给用户造成巨大的利益损失。

1 大数据的概述

大数据的出现是现代社会发展的必然结果,它是需要新处理模式才能具有更强的决策了、洞察发现李和流程优化能力来适应海量、高增长和多样化的信息资产。通俗的讲,大数据就是数据集,而这种数据集是很难用常规的数据存储和管理工具对其进行分类和处理。在网络时代里,大数据呈现出爆炸性的增长,人们依托网络来进行信息传输,如文件、图片、视频等,而要想保证大数据的安全,就必须采用先进的技术对其进行存储和处理。

2 大数据安全与隐私保护的必要性

大数据是依托互联网平台而产生的数据集,具有规模大、数据阐述速度快、多样化的特点。而在网络时代里,人们依托互联网进行各种活动的行为也越来越频繁,在互联网活动中产生的数据也越来越多。作为以互联网为依托的大数据,它将面临着网络带来的各种安全风险,威胁到大数据的安全,给用户造成利益损失。2014年12月阿里云称遭遇全球最大规模DDoS攻击,2015年初一家亚洲网络运营商的数据中心遭遇334Gbps的垃圾数据流攻击。同时,侵犯数据安全的恶意应用、木马等日益增多,对用户隐私和财产安全构成极大隐患。2014全年,安全企业监测到的Android用户感染恶意程序达3.19亿人次,平均每天恶意程序感染量达到了87.5万人次。另外,新型网络威胁的技术复杂性和隐蔽性越来越高,危害范围不断扩大。2014年心脏出血漏洞威胁全球约2/3的网络服务器内存储的用户名、密码以及服务器证书、私钥等敏感数据安全;同年索尼公司遭遇ATP攻击,大量员工信息及影视拷贝遭泄露。在这样的背景下,大数据安全与隐私保护十分必要,只有加大大数据安全技术的研究,才能确保大数据安全,保护用户的隐私,保证人们在使用互联网过程中数据信息传输的安全性和稳定性,避免给用户带来利益损失,从而活跃市场,推动社会的稳定发展。

3 大数据安全与隐私保护措施

3.1 加大大数据安全技术的研究与应用

大数据安全问题的产生与大数据安全技术之间有着必然的关联性,由于大数据安全技术的不合理、不先进,就容易造成大数据安全问题发生,难以保护用户的隐私。对于大数据而言,大数据安全保护技术是大数据安全与隐私保护的直接载体,能够确保数据信息在数据库领域范围的得到有效的处理。为了确保大数据安全,就应当加强大数据安全技术的研究和应用,以先进的大数据安全保护技术为依托来为大数据信息的存储、运输、处理提供安全保护。如身份认证技术,在大数据环境下,通过身份认证技术,用户在使用大数据的时候都需要通过身份认证来获得数据信息的使用权,在身份认证技术的保护下,可以实现最大化的保护用户隐私的目的,避免给用户带来经济损。

3.2 加强社交网络中数据信息的监督

社交网络作为人们进行信息交流和沟通的纽带,在大数据时代里,越来越多的人活跃在社会媒体上,而作为社会的一部分,都会涉及到个人信息的部分泄露,对用户的人身安全及财产安全造成威胁。为了避免安全问题的发生,防止用户隐私的泄露,加强社会网络中数据信息的监管十分必要。对匿名的社交媒体信息,要利用信息技术对其进行社会网络匿名保护,确保个人信息安全,避免用户信息泄露而带来巨大的利益损失。同时,在社会网络信息传播过程中,要加强信息的全面监管,保护社会网络用户在交流过程中传输的信息的安全性,避免被他人恶意利用,保护用户的人身安全及财产安全。

3.3 做好大数据安全的宣传与隐私保护的宣传工作

人们的安全意识的高低是引起大数据安全问题的一个重要因素。随着互联网的普及,人们利用互联网来进行各种互动,而在以利益为核心价值观的世界例,用户容易受到利益的趋势,而许多不法份子正是利用了用户的这种心理,在互联网页面上参插一些能够吸引用户的小广告,而这些小广告大多待木马病毒,一旦用户点开,就会受到病毒入侵,从而威胁到用户系统安全。为了确保大数据安全,保护用户的隐私,就必须加大大数据安全的宣传,将一些常见的大数据安全风险向广大群众普及,提高他们的认识,同时向用户普及一些大数据安全技术,让用户掌握一些基本的隐私保护技术,从而更好地满足用户的需要,保证用户安全的进行大数据信息传输、处理、存储,避免安全风险的发生。

4 结语

大数据是随着社会的发展而不断发展,尤其是在互联网普及的时代里,大数据呈现出爆炸性的增长趋势,大数据的出现给用户带来了巨大的便利,推动了社会的发展。而大数据与互联网密切相连,在大数据带来便利的同时,也给大数据安全以及用户的隐私带来了威胁。针对大数据安全风险,就必须加大大数据安全技术的应用,以技术为依托,确保大数据信息在存储、处理、传输过程的安全性,保护用户的隐私,从而避免因大数据安全问题而给用户的利益造成损失,从而发挥大数据的作用,推动社会的更好发展。

参考文献

[1]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014(01):246-258.

[2]陈科有.混合云计算数据安全与隐私保护问题研究[D].南昌:江西师范大学,2013.

[3]吕欣,韩晓露.大数据安全和隐私保护技术架构研究[J].信息安全研究,2016(03):244-250.

[4]崔洪刚,唐浩,汪永超.试论大数据安全与隐私保护[J].科技风,2016(07):92-93.

作者简介

高翔,男,北京市人。现为北京金万维科技有限公司运营总监。研究方向为互联网、云计算、大数据、B2B。

大数据时代下的隐私保护范文4

>> 大数据安全与隐私保护研究 基于Android的隐私数据安全保护系统研究与实现 谁来保护用户隐私 射频识别的安全性与隐私 概念\协议及系统结构 关于移动社交网络用户隐私安全保护相关建议 物联网信息安全与隐私保护研究 大数据时代信息安全与隐私保护研究 关于物联网信息安全与隐私保护的研究 物联网信息安全与隐私保护研究综述 用户兴趣模型中隐私保护技术的探讨与研究 隐私安全与强制信息对移动服务用户行为的影响机制研究 大数据环境下用户隐私保护研究 新媒体时代用户隐私的保护策略研究 新媒体环境下用户隐私保护策略研究 保护患者隐私与数据安全 大数据安全挑战与隐私保护 大数据安全与隐私保护 信息安全与隐私保护设计 大数据安全与隐私保护探究 物联网安全与隐私保护探究 常见问题解答 当前所在位置:l.

[2] 惠越超.低成本射频识别系统安全研究[D].苏州:苏州大学,2010.

[3] JIN Hong-ying,TIAN Min.Research on Security Issues of RFID Technology in IOT[C].CITCS2012: Lanzhou, Gansu,China,2012.

[4] 王良民,茅冬梅,梁军.基于RFID系统的隐私保护技术[J].江苏大学学报:自然科学版,2012,33(6).

[5] 廖志鹏,黄俊,雷杏.基于RFID超低功耗射频标签的研究与实现[J].压电与声光,2012,34(6).

[6] 高飞,薛艳明,王爱华.物联网核心技术——RFID原理与应用[M].北京:人民邮电出版社,2010.

[7] 米志强,杨署.RFID安全策略分析[J].物流工程与管理,2009,33(5).

[8] 周晓光,王晓华.射频识别(RFID)技术原理与应用实例[M].北京:人民邮电出版社,2006.

[9] 赵军辉.射频识别技术与应用[M].北京:机械工业出版社,2008.

[10] 高超.RFID通信软件设计[D].南京:南京理工大学,2009.

[11] 李洪旭,刘宇红.DES算法在RFID安全中的应用[J].通信技术,2012(12).

[12] 胡婕.RFID安全认证的研究与应用[D].南京:南京邮电大学,2011.

大数据时代下的隐私保护范文5

【关键词】隐私保护;分类挖掘

中图分类号: TP393 文献标识码: A 文章编号:

一、前言

互联网的快速发展让社会成为了一个信息爆炸的社会,在这个信息漫步的社会里,人与人之间的信息传播变得更加的简便,但是,信息传递更加便捷和方便的同时,其缺点也暴露出来,那就是信息的安全问题和隐私的保护问题。

二、隐私概念

简单地说,隐私就是个人、 机构等实体不愿意被外部世界知晓的信息。在具体应用中,隐私即为数据所有者不愿意被披露的敏感信息,包括敏感数据以及数据所表征的特性。通常我们所说的隐私都指敏感数据,如个人的薪资、病人的患病记录、公司的财务信息等。但当针对不同的数据以及数据所有者时,隐私的定义也会存在差别的。例如保守的病人会视疾病信息为隐私,而开放的病人却不视之为隐私。 一般地,从隐私所有者的角度而言,隐私可以分为两类: 个人隐私和共同隐私。

三、隐私保护分类挖掘算法

1 相关定义

(一)熵(Entropy):刻画任意样本集的纯度.设S是n个数据样本的集合,将样本集划分为c个不同的类Ci(i=1,2,⋯ ,c),每个类C 含有的样本数目为n ,则划分为c个类信息的熵为:

其中,Pi为S中的样本属于第 类c 的概率,即P =n/n.

(二)信息增益Gain(S,A)定义为:其中Gain(S,A)=E(S)一E(S,A),其中

Values(A)为属性/4的所有不同值的集合,s ,是s中属性 的值为'/3的样本子集,S是5中属性A值为V的样本集.

2 建立决策树

分类挖掘中最为典型的分类方法是基于决策树的分类方法,决策树(Decision Tree)是一个类似于流程图的树结构.每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,而树的叶节点代表类或类分布.最顶端的节点是根节点.本文采用自上而下递归的方式构造决策树.

建立决策树的关键是在每个分支对应的数据集上找信息增益最大的属性作为分支节点.通过转变后的数据集和多属性联合扰动矩阵求属性信息增益的方法如下:

设定一个数据集.s,.s的属性集为{A,,A ,⋯,A },其中A 为标签属性.

(一)求根节点最大信息增益的属性.

(1)求根节点最大信息增益的属性.

通过公式T(A ) P(A )=D(A )可以算出标

签属性A 的熵E(S).

通过公式T(A,A ) P(A,A )=D(A,A )可以

算出每个属性的熵E(S,A).通过公式Gain(S,A)=E(S)一E(.S,A)求出该属性的信息增益.

(2)已知,根节点为A1,属性A 1值为a1的数据集为s1 ,求a1 分支上分裂节点最大信息增益的属性.

通过公式表示属性的值为A1,可以算出在数据集S1标签属性A 的熵E(S1).通过公式可以算出在数据集S1上每个属性的熵E(S1 )。可以算出在数据集S1上每个属性的熵E(S1,A)。通过公式Gain(S1 ,A)=E(S1 )- E(S1 ,A)求出该属性的信息增益.

(3)求下层节点同理.直到生成的数据集中所有记录的标签属性都相同或所有属性都被分裂过才结束.

3 决策树剪枝

当决策树创建时,由于数据中的噪声和孤立点,许多分支反映的是训练数据中的异常.剪枝方法处理这种过分适应问题.通常,这种方法使用统计度量,剪去最不可靠的分支,从而提高分类的速度和准确度.通常有两种剪枝方法:

(一)前剪枝算法是在树的生长过程完成前就进行剪枝.如Friedman提出的限制最小节点大小的方

当决策树创建时,由于数据中的噪声和孤立点,许多分支反映的是训练数据中的异常.剪枝方法处理这种过分适应问题.通常,这种方法使用统计度量,剪去最不可靠的分支,从而提高分类的速度和准确度.

通常有两种剪枝方法:

(1)前剪枝算法是在树的生长过程完成前就进行剪枝.如Friedman提出的限制最小节点大小的方法,是当节点处的实例数目小于阈值k时,就停止生

长该节点.

(2)后剪枝算法是当决策树的生长过程完成后再进行剪枝,它允许决策树过度生长,然后根据一定的规则,减去决策树中那些不具有一般代表性的叶节点或分支.本文采用后剪技的方法.

4 由决策树提取分类规则

决策树所表示的分类知识可以被抽取出来并以IF—THEN形式的分类规则表示.从决策树的根节点到任何一个叶节点所形成的路径就构成了一条分类规则,沿着决策树的一条路径所形成的属性值的合取项就构成了分类规则的前件(“IF”部分).叶节点所标记的类别就构成了分类规则的后件(“THEN”部分).

图1 训练数据集生成的决策树

四、基于隐私保护的SVM分类挖掘算法步骤

在分布式环境中,各节点均为数据持有者,所以各节点在向数据中心汇总数据前必须确保自身数据的私有性,同时在进行分布节点的协作计算时,各节点间也要防止相互间的信息泄漏。因此,从数据流向来看,各持有者在数据流出前,必须采用有效手段确保数据隐私。

目前新的一种隐私保护算法,其算法步骤如下:

1.主节点1产生一个和本地矩阵大小相同的随机矩阵。

2.主节点把这个随机矩阵和本来矩阵相加,并把和发给下一个从节点。

3.每个从节点都接收到干扰矩阵,并把该矩阵和本地矩阵相加,然后发给下一个从节点(最后一个从节点把数据发回到主节点)。

五、实验详解隐私保护的分类挖掘算法

实验

(一)实验方法

我们开发了一个启发式的参数发生器来自动生成单属性转移概率矩阵的值;实验采用了数据库记录结构(包括布尔类型、分类类型和数字类型),及5组分类函数(Fn1~Fn5)来给标签属性赋值,以测试不同情况下分类算法的精度;实验同样采用了以上介绍的方法来生成均匀分布的原始样本数据,在此基础上再对数据进行调整以生成非均匀分布的数据;实验采用第3.3节中介绍的方法进行隐私保护数据变换,为了真正做到保护隐私,实验对任何属性(包括标签属性)都进行了变换;剪枝方法采用介绍的最小描述长度原则.

(二)实验结果分析

实验的环境为赛扬2.8GHz,2GB内存的PC机,操作系统为SCO OpenServer(TM)Release 5.07,数据库平台为Informix Online Dynamic Server 7.23.5.2.1PPCART,CART和ByClass算法的比较图1显示的是原始样本数据为100000条记录、测试数据为5000条记录、原始样本数据均匀分布条件下,采用CART原始算法、PPCART算法及性能较强的ByClass算法①在不同的相对隐私保护程度条件下5组分类函数的平均分类精度,实验结果表明,PPCART的算法精度略优于ByClass算法,但是PPCART算法解决了算法的不足,其意义远非精度可比在隐私保护程度相当高(相对隐私保护程度等于100%)的情况下,PPCART的算法精度虽然落后于CART原始算法5个百分点,但平均分类精度仍然高达90%,保持了较高分辨精度.

六、结束语

作为当今一种较为新型的隐私保护的分类挖掘的算法,它能够更好的服务于当今隐私保护事业,但是,作为一种新型的算法,还需要对其进行深入的分析和研究,优化其性能。

参考文献

大数据时代下的隐私保护范文6

纵观国内外,近年来围绕着互联网隐私权保护的争论和行动也从未停止。作为我国互联网主管的政府部门,工信部于今年年初了《互联网信息服务市场秩序监督管理暂行办法(征求意见稿)》(以下简称《征求意见稿》),在保护用户隐私方面提出明确要求:互联网企业应尊重用户隐私,维护个人信息安全,规范个人信息处理行为。未经法律法规的明确授权或用户的明示同意,互联网企业不得擅自收集和处理用户的个人信息。可以肯定的是,《征求意见稿》中对于保护用户隐私的要求将会对今后的践行产生震慑,一场关乎网络隐私权的保卫战即将打响。

3Q大战再度引发网络安全争议

在众所周知的3Q大战中,事件以“隐私保护”为导火索引爆。2010年,360推出一款名为“360隐私保护器”的个人隐私保护工具,针对的就是腾讯旗下即时通信软件有偷窥用户隐私的可能,并称“能将那些窥视用户隐私的行为实时曝光。”于是,在双方一系列戏剧性的争执之后,引发了广大用户对自己电脑里的隐私文件是否安全、是否存在不经意间外泄的关注。

其实,早在2008年腾讯就曾做过一项关于网络隐私的调查,报告显示65.36%网民认为隐私问题处理不当将阻碍互联网发展。全国人大代表王明雯(四川凉山彝族自治州西昌学院教师)在2008年3月“两会”期间也曾提出相同观点。当时,王明雯认为,网络隐私被侵犯,既扰乱了网络的秩序,也危害了现实生活的秩序。如果网络隐私保护不力,造成网民人人自危,将成为制约网络发展的瓶颈。

无独有偶,作为深圳市人大代表,马化腾在今年春节前夕联合其他代表提交议案――关于制定《网络信息安全保护条例》。该议案的提出,不禁让人联想到发生在2010年底的3Q大战,“网络信息安全”这一关键词更是夺人眼目,在公众的视线之中被再次放大。该议案建议立法增加对网络安全本身的保护,规定任何组织和个人不得实施非法破坏其他人的网络的行为,包括:破坏网络设备,导致无法正常通信的;破坏网络的安全防护,使网络处于不安全状态的;制作、传播病毒等破坏性程序,攻击网络的。

回想已被写人中国互联网史册的“3Q大战”,恐怕更是新时代网络隐私保护的前奏和序曲,而之后的百度文库则成为隐私问题的“延伸段”。有人将百度文库形容为个人信息的“批发市场”,而出现大量泄露各地用户信息的文档,全国各地老板、大小业主的手机号、家庭地址等隐私,这又让受众不得不为互联网时代的网络隐私安全而再度焦虑惶恐。

上世纪90年代时,一句名言曾风行一时,即“在互联网上,没人知道你是一只狗”,而今伴随科技的迅猛发展,我们不得不说,如果网络隐私不被保护,甚至有人会知道“你是一只有着什么喜好的狗”。据《华尔街日报》一项针对网络隐私的调查发现,某些数据中间商所掌握的分析技术正在改变互联网的面貌,“人们在网络上除了姓名不公开,其它隐私一概暴露无遗。”对方可以通过各种追踪技术悄悄收集信息,利用记录人们上网行为的庞大数据库,在进行信息交叉比对和汇集后,甚至可以推测出上网用户的个人喜好。

近年来,不少国际知名网络公司为追求商业利益而陷入出卖网民隐私牟利的泥潭,从谷歌、微软,再到大型社交网站“脸谱”,利用其庞大的网络受众群优势收集相关数据信息,而这些个人数据很可能成为广告商的受众目标。2010年5月底,“脸谱”的CEO马克・扎克伯格在回应知名科技“博主”罗伯特・斯科布的质疑时,首次承认“脸谱”在涉及保护个人隐私的问题上“犯了许多错误”。同样,在2009年10月至2010年5月期间,谷歌“街景”曾非法收集韩国无线网络用户的电子邮件和其他个人隐私信息。谷歌随后也承认,其街景摄像车在无意中收集了30多个国家无线网络用户的个人信息,如电子邮件、IP地址和登录密码等。此事在引发轩然大波的同时,国内外对于隐私话题的思考与争论也在不断升级。互联网新技术的应用,已经在向网络隐私保护提出了一个个棘手的挑战,科技进步在为人们带来生活便利的同时,也极大地剥夺着本该拥有的自由和权利。

网络新技术让隐私无处可藏?

网络隐私是集社会、法律、技术为一体的综合性概念,它实质上是隐私权在网络环境下的延伸。因此,法律和技术的保障是解决隐私侵权的有力支持。几年前,“人肉搜索”开始流行于网络,之后多次被指侵犯他人的网络隐私权。2008年,“反人肉搜索第一案”使“人肉搜索”由网络现象正式上升为法律问题,当事人以侵犯名誉权为由将多家网站告上法庭。在网络时代,肆意可能影响当事人正常生活的个人信息,将是侵犯隐私和构成犯罪的行为。在现实生活中,“人肉搜索”一旦超过合理的范围,就会形成暴力漩涡,无情践踏当事人的隐私。因此,网民要提高防范意识和积累网络知识,在必要的时候要学会使用法律武器保护自身合法权益。

值得注意的是,互联网各种技术日新月异,对于保护网络隐私的技术与方法同样如此。反观隐私泄露的缘由,不难发现很多是被互联网服务商收集和分析数据信息用以实现经济回报。有分析人士指出,未来的互联网行业需要从信息的自由流动中获利,而这些信息中大部分都是由个人提供,或是在他们浏览网站时产生的。显然,网络时代的用户越来越需要有效保护网络隐私的工具和方法,这涉及到计算机网络、用户行为和用户观念。例如,目前国外正在进行相关的项目研究,一款实时提醒软件能够在你发送的信息可能泄漏隐私时显示简短的提醒信息。

同样,网络安全意识也是隐私保护的重要途径,用户与互联网公司的安全意识薄弱都会成为信息泄露的可能。当前,在缺乏知情权的情况下,很多网民对互联网企业的相关应用和软件依赖度高,因此彼此之间的信任关系会变得脆弱。企业在很多时候不会和网民加以说明,这也导致了用户和互联网公司之间在安全方面的信任关系难以建立。

因而,《征求意见稿》的出台,也正是基于以上网络安全因素综合考虑产生的。《征求意见稿》中明确提到,互联网信息服务提供者对用户信息依法承担保密义务,应加强系统安全保护,实施严格的保密措施。除法律另有规定外,任何组织或个人不得以任何理由对用户信息内容进行检查。互联网信息服务提供者应确保用户数据内容(如文字、图片、音视频等)的安全性,保障用户对自行提供数据的修改、删 除等权利。

从以上规范可以解读出政府相关部门对于保护用户隐私权的力度与决心,而纵观国外,针对网络侵犯个人隐私的行为很多国家都在实施防控。如加拿大成立联邦隐私办公室,专门打击侵犯个人隐私的行为;美国联邦贸易委员会2000年制定了美国第一部网络隐私法――《儿童在线隐私保护法》;欧盟在1995年制定了《欧盟隐私保护指令》,对网络环境下的隐私保护做了较为全面、系统的规定;早在20世纪80年代,日本成立“私生活保护研究会”,对网络隐私权保护问题进行研究。2005年,日本还开始实施保护个人隐私的《个人情报保护法》;韩国政府对保护个人隐私十分重视,有《个人信息保护法》和《私生活保护法》等法律来保护个人信息和隐私。

然而,防控与信息泄露之间好似始终如影随形,一方面是因为网络技术发展太快,相关法律规范滞后,无法同步于信息技术前进的速度;另一方面,政府部门和用户个人还没有产生对网络信息安全的足够重视。因为,网友虽然对人肉搜索感到恐惧,也对网友隐私被泄露感到担心,但对于可能在隐私保护方面产生效果的网络实名制却并非多数赞成。如在2008年腾讯网所做的关于网络隐私的调查中,近半网友(43.81%)仍然不赞成网络实名制,他们的观点是“觉得别扭”。或许,网民的上述判断主要是出于对网上行为被监控的担心。

2010年5月,国新办首次公开确认我国正在积极探索及推动论坛、BBS等的普通用户实名制,首次透露已在重点新闻网站和主要商业网站取消新闻跟帖“匿名发言”功能。这是我国在探索网络实名制道路上的积极尝试,也是对网络信息安全的初步践行。但网络世界如江湖,要治理网络隐私这一世界“顽疾”,恐怕还是要通观全局、统筹兼顾、综合调控。其中,法律利器更是不可或缺,对于网络隐私的立法保护,有相关专家认为,应在考虑本国国情基础上,形成我国网络隐私权立法的一般方式和原则。

隐私权保护,路漫漫其修远兮

针对网络隐私权保护的法律法规滞后,这已成学界和业界的共识。据了解,目前我国关于互联网管理相关的法规包括((互联网电子公告服务管理规定》、《互联网信息服务管理办法》、《全国人大常委会关于维护互联网安全的决定》等。有专家称,首先应从法律上明确隐私权作为一项独立的民事权利的地位,进而尽快制定隐私权保护法,加强对传统隐私权的法律保护;另外,还应重视对信息时代网络隐私权的调整,尽快制定保护网络隐私权的专门法规,建立一套完整的网络隐私权保护的法律法规体系,进一步加强个人网络隐私权的法律保护,为网络产业的发展开辟一条更为坦荡的道路。

然而,与赞成单独立法相反,也有专家建议“将现行法律执行到位才是当务之急”。在2009年4月10日,工信部《软件产品管理办法》开始施行,其中明确规定,任何单位和个人不得开发、生产、销售、进出口“可能危害计算机系统安全”或者“含有法律、行政法规等禁止的内容的”软件产品。因此有专家认为,网络隐私侵权问题在一些现行法中完全可以进一步规范。