医疗大数据及隐私泄露研究

医疗大数据及隐私泄露研究

摘要:大数据中的医疗大数据与人类的健康生活息息相关,随着大数据的发展、信息化的加快,医疗卫生信息平台、数字化的医疗设备与仪器迅速普及,导致医疗领域内的数据呈爆炸式增长,且类型繁多、关系复杂。敏感的医疗数据安全问题同样备受关注。医疗数据在为人类的健康提供帮助的同时,保护相关联的敏感数据越来越成为学者、从业者和普通大众所关注的热点。本文从大数据的基本概念入手,通过对现阶段隐私泄露及医疗大数据的相关研究进行分析,结合大数据领域的相关研究对当前隐私泄露行为、保护技术等问题进行分类阐述,希望能为本领域学者的进一步研究有所启示和帮助。

关键词:大数据;医疗;隐私泄露;隐私保护

0引言

在我国,近30年来信息化工作不断地进行着改革与探索。医疗信息化的普及不仅限于大型医院,包括小型社区卫生服务中心等很多医疗机构已经构建了业务信息系统,随之而来的是医疗数据爆炸式增长,医疗数据的潜在利益让隐私数据安全问题面临着极大的挑战。特别是近年来云服务的出现,大量的个人隐私数据都存放于网络空间,增加了隐私数据泄露的风险。例如,2017年TheDarkOverlord通过3次非法侵入,盗取并公布了18万份患者病历,其中包括3400余份纽约地区牙科美容诊所AestheticDentistry的病历,3.41万份加州的牙科护理诊所OCGastro-care的病历,以及14.2万份佛罗里达州坦帕湾地区TampaBaySurgeryCenter的病历;同年HealthNowNetworks泄露事件,HealthNowNetworks的软件开发员在互联网上上传了资料库备份后,超过91.8万份老年人的个人健康数据被泄露。这些重大的隐私数据泄露事件,特别是和健康息息相关的医疗领域的隐私泄露,严重影响了人们的生活。本文基于以上背景,针对移动互联网大环境下的用户行为等进行阐述,希望可以发掘隐私泄露的途径及规律,通过结合大数据隐私保护技术的发展方向和趋势,对未来医疗大数据隐私保护有所启示和帮助。

1医疗大数据概念及来源

医疗大数据是大数据的一种,且在大数据中处于极其重要的地位,一般认为与人体健康活动相关而产生的数据统称为医疗大数据。医疗大数据较多的是使用若干基本特征去认识它。通常,把大数据的特征概括为4个“V”应用于医疗领域中,即:1)规模(Vol-ume)———全体住院患者、全息数据(患者的全过程数据);2)快速(Velocity)———快速、实时收集患者信息;3)多样(Variety)———多类型、多种格式、多来源、多时间、多空间、多渠道等的数据;4)价值(Val-ue)———真实数据通过深入的大数据可视化分析挖掘,发现问题,总结和预测发病、治病规律,提高患者、医院及政府的有价值应用[1-2]。除此之外,医疗大数据的时间性(例如病人的发病以及医学检测的波形、图像信号等都具有时效性,属于时间函数)[3]、多态性、隐私性(医疗数据当中不可避免会涉及患者的隐私信息,这些信息的泄露会对患者的生活造成不良的影响)[4]、冗余性也是目前讨论的医疗大数据的特点。药物研发所产生的数据是相当密集的,即便对于中小型的企业也在TB级以上。临床和实验室数据整合在一起,使得医疗机构面临的数据增长非常快,一张普通CT图像含大约150MB的数据,一个标准的病理图则接近5GB。医疗费用是患者就医过程中产生的费用信息、报销信息、新农合基金使用情况等。在以上数据来源中个人隐私数据占有相当大的比例,如临床数据、费用等。

2隐私泄露分析

隐私泄露行为可概括为随着信息化的发展,个体通过PC、移动终端等连接互联网所留下的数据信息,例如就诊时所提供的姓名、性别、出生年月、就诊日期、电话、婚姻、疾病等病历信息在采集、传输、存储及应用过程中都有泄露的风险,即使是一些常规加密的病历信息,例如隐藏了姓名、年龄、住所等隐私信息的个人病历,在大数据条件下,隐私信息窃取者经过广度、深度的搜索,结合已有的公开数据,完全有可能将被隐藏了的个人信息还原出来。这些数据如被第三方利用都会给用户自身带来极大的隐患。在隐私泄露分类当中,可将隐私泄露分为直接隐私泄露与间接隐私泄露,但以大数据生命周期对隐私泄露进行分类是现阶段研究者的主要方式。

2.1信息采集、传输过程中的隐私泄露

在医疗领域,信息采集传输隐私泄露行为主要集中在网络传输过程中,比如匿名攻击者利用一些软件工具截取医院发送的患者信息。张丞[6]分析认为隐私泄露主要由接入环境、传输网络等存在漏洞所引起,如利用ARP协议漏洞欺骗网关、终端或进行ARP畸形包攻击、DDOS攻击。此外攻击者通过篡改数据定向、钓鱼攻击等方式可在信息采集过程中就获取采集到的数据。如在WIFI环境下,医疗信息采集方对采集到的数据进行上传时攻击者可利用欺骗方式篡改上传服务器地址,从而导致医疗信息直接传输到攻击者指定的服务器。

2.2信息存储过程中的隐私泄露

在存储过程中,攻击者通过截取传输过程中的加密信息(一般的医疗数据都会对用户的姓名等敏感数据进行匿名化的加密)对数据进行解密分析,追溯存储服务器地址,获取属性数据。通过对比用户的特征数据如用户位置信息、浏览记录、通信录等与服务器数据进行对照,最终获得隐私信息。李威[7]阐述了移动互联网环境下用户行为分析面临用户信息更加明确、信息量低密度等新特点,并依此将用户行为分析分成数据?集、数据预处理、行为分析模型建立及用户行为特征分析4个阶段。其中在行为分析模型中,攻击者截获信息后,对有用信息如身高、体重、问诊记录、位置服务等进行分析对比,可造成用户隐私数据的二次泄露。例如,攻击者在获取到用户的基本信息后,可将用户与其位置服务进行连接,得到相应的运动轨迹[8],通过用户的轨迹可能推测出用户的行为习惯,如了解到其工作地点、家庭住址、个人习惯等,严重威胁用户的隐私。

2.3信息应用过程中的隐私泄露

李响[9]指出用户的隐私泄露方式有应用之间的泄露、应用中的泄露、网络数据在传输过程中产生的泄露、传感器引起的泄露等。应用中的泄露如人们平时在移动终端上的各种活动都会留下痕迹,医疗健康类终端应用开发商会收集患者信息以提供更好的服务,攻击者可以利用此途径获取对自己有利的信息。例如现阶段,微信、支付宝当中的城市服务、医院在线挂号系统多由第三方服务商提供,患者在进行在线挂号时,用户会将自己的身份信息如姓名、年龄、所挂号的科室等上传至服务商的服务器进行验证,攻击者可在数据传输过程中直接截获患者的隐私信息。

3主要隐私保护方法

在大数据广泛应用,隐私泄露不断经受考验的情况下,研究者提出了大量的隐私保护技术。吴小同[10]将当前的隐私保护技术简单地分为语法隐私保护技术和语义隐私保护技术。语法隐私保护技术要求的数据集中的每条记录都无法被攻击者从其他的一定数量的相似记录中区分开来,从而对攻击者的攻击造成干扰。语义隐私保护技术中,数据集中的单一记录的增加或者删除对于攻击者来说都是不敏感的,是无法察觉的。孟小峰等。

3.1匿名化方法

在语法隐私保护技术中,匿名化技术是重要的研究手段,主要包括k-Anonymity、l-Diversity、t-Closeness等。Sweeney[12]提出k-Anonymity的方法,通过对半标识属性进行泛化(指的是用更一般的值来代替原始值)和抑制(指的是将属性值全部或者部分删除)以增加等价类来减少数据被重新识别的概率,从而对数据进行隐私保护。在此基础上,通过增加敏感属性值衍生出了l-Diversity方法。Li等[13-14]在2010年提出了基于以上技术的新的隐私保护方法t-Closeness,该方法通过保证敏感属性值与全局分布一致来阻止攻击者从中获取更多的隐私信息。这些方法通常是在统计数据库中进行操作,数据通常是以表格的形式,一般分为标识、半标识、敏感属性和非敏感属性这4种类型。保护方法是在数据之前将标识类型剔除或者用随机符号或数字代替。但这些方法并不能完全保护个体隐私,攻击者可通过半标识等其他属性组合识别隐私数据。

3.2差分隐私方法

Dwork等[15]提出的差分隐私技术通过具体参数量化隐私保护的程度,可以确保在某个数据集中增加或者删除一条记录时不会影响计算机的输出结果。其特点是在语义上提供隐私保护,限定攻击者获取有限的敏感信息,除此之外,在差分隐私技术上还有其衍生版本如Pufferfish、Bayesian差分隐私、non-ID数据集下的相互关联的差分隐私等。主要思路是使用一种随机模糊算法来评估数据的隐私保护程度。语义数据保护技术相比于语法保护技术,不是在数据之前对原始数据进行修改,而是在数据的查询结果中加入噪音,模糊处理,从而对数据进行保护。

3.3访问控制保护方法

Sandhu等[16]所介绍的自主访问控制是根据主体身份以及主体所属组别来对主体进行访问的一种访问控制防范。强制访问控制是一种多级安全机制,所有主体和客体都标记有安全级别,只有主体的安全级别不低于客体的安全密级时,主体才可以读客体;只有主体的安全级别不高于客体的安全密级时,主体才可以写客体。Ray等[17]在基于角色的访问控制方法(Role-BasedAccessControl,RBAC)基础之上引入位置信息来确定用户是否具有访问数据的权限,提出了LARB(Location-AwareRole-Based)访问控制模型;通过将各类属性,包括用户属性、资源属性、环境属性等组合起来用于用户访问权限的设定基于属性的访问控制方法(Attribute-BasedAccessControl,ABAC)等。苏晴等[18]在原有角色访问控制方法基础上对基本模型进行改进,提出二级角色定义,根据用户对不同访问者设置的角色来设置相应的访问位置信息的权限,有利于保护实时上传的位置信息,能有效防止非法攻击者对用户位置信息的收集和利用。

3.4数据加密技术

于光许[19]介绍了数据加密技术的一种分类方法———对称加密和非对称加密,一般有置换表算法、改进的置换表算法、循环冗余校验算法、循环移位和XOR操作算法。对称加密是针对一组加密信息,信息接收者与传输者采取的加密、解密方式是相同的,这种方法在密钥交换过程中容易因存在安全问题而造成密钥泄露。非对称加密技术一般采用EIGamal、Diffie-Helltnan、椭圆曲线以及RSA等算法,信息接收者和传输者所采取的解密和加密的密钥各不相同,公开密钥和私有密钥共同组成了密钥,分别用于加密和解密,这相比于对称加密增强了其安全性。Lin等[20]研究提出了一种混合加密技术,将对称加密和非对称加密结合,先通过非对称加密对内容进行加密,然后使用对称加密方法对用于加密该文件内容的密钥进行加密,并将结果存储于该数据的头文件中,以此提供对密钥的有效管理。除此之外,针对云存储的数据加密方法,如Aten-iese等[21]在大数据审计技术中提出的PDP模型可以针对云服务提供商篡改、丢弃数据行为,利用纠错码和消息认证来保证数据的可靠性。

3.5区块链隐私保护

区块链的去中心化、去信任在隐私保护方面有着独特的优势,其具有难窃听、匿名化、去中心化等特性,能够有效避免服务器被攻击而导致的数据泄露风险。黄永刚[22]根据区块链技术提出了基于区块链去中心化、去中介化特质的健康数据存储方式,通过医院、卫生部门的公钥及个人用户的私钥的访问权限设置,有效提升了隐私保护的可靠性。

3.6多维度隐私泄露保护

针对大数据不同的隐私泄露行为,在现有主流的隐私保护的基础上,研究者提出了大量的隐私泄露量化模型。李涛等[23]认为现有的研究工作大多基于一种检测方法开展,孤立地使用静态检测或者动态检测都无法避免其固有的局限性,其对此提出了多维度的隐私泄露评估模型,通过静态分析应用的结构及调用信息解决动态执行的缺陷,将动态分析和静态分析结合,先进行静态分析,寻找可能发生敏感信息调用的路径,为随后的动态执行提供指导,提高检测效率和覆盖率。邢月秀等[24-25]在其多维度iOS隐私泄露评估模型研究中指出应用程序主要是由代码、行为和数据3个维度组成,其模型也分为静态分析、动态分析和网络数据分析3个维度。静态分析速度快、效率高,动态分析能够有效解决程序加壳、隐藏API调用,网络数据分析可解决应用程序是否通过网络途径泄露隐私数据的问题。他们将这些优点组合在一起,相辅相成,有效地弥补了单一分析方法自身的局限性。在针对应用软件中直接的隐私泄露检测是有效的方法,上述研究者都是在单一的检测方法的基础之上,结合动态分析、静态分析等方法的各自优点设计出了多维度的隐私泄露评估模型。但以上研究适用范围较广,单独针对医疗行业的移动终端隐私泄露模型研究较少,这也是今后的重要研究方向之一。

3.7区域互换的位置隐私保护

陈细平[26]认为目前大多数的位置隐私保护技术都是通过扩大匿名区域的思想来实现对位置隐私的保护。但随着匿名区域的扩大,巨大的查询处理开销以及之后伴随的通信开销成为一大瓶颈,因此提出了一种基于区域互换的隐私保护模型,通过用户间的区域互换方式来保障用户的隐私需求值。其通过仿真实验分析出在用户数量可变、网格划分可变、匿名需求可变条件下,具有良好的可扩展性和鲁棒性,相对匿名度提高5倍。

3.8基于细粒度着色权限机制的隐私保护

在移动终端应用的隐私保护中,戴威[27]为了弥补Android自身的隐私安全缺陷,设计了CrossDroid隐私数据访问控制安全模型。通过细粒度权限设置模块能够有效地对程序的隐私权限进行配置,实现对单体程序的隐私数据保护。孙庆庆[28]在其研究中提出了一种权限粒度可控的LVPDroid隐私保护模型,通过在系统上建立多个虚拟环境,然后将应用数据进行隔离,同时利用每个虚拟环境中关联的一套访问规则来约束应用数据的访问,从而实现了对隐私数据细粒度的保护。医疗设备的信息化使得现在大型医院配备了许多的医疗移动终端,但在直接隐私泄露行为的应用中泄露模型的研究还少有学者提及。这也是今后医疗大数据领域隐私保护的重要研究方向。

3.9其它相关隐私保护方法

除以上方法外,现阶段的隐私保护技术还包括:Wang等[29]基于重签名的思想,设计了一个可以有效地保护群组用户的身份隐私的大数据加密存储方法,同时他们[30]在对数据的审计过程中利用环形签名来对数据完整性进行验证,用于云中共享数据进行审计的隐私保护的大数据审计方法;关联规则的隐私保护方法;分类结果的隐私保护方法;聚类结果的隐私保护方法。数据分析应用过程中关联规则、分类结果保护、聚类等也是重要的保护方法,如Aggarwal等[31]在2013年提出的关联规则的隐私保护方法中将其分类为变换、隐藏,分别对敏感数据规则进行修改或隐藏。Vaidya等[32]则在2003年提出一种分布式K-means聚类算法,在聚类过程中不会获取目标信息之外的相关信息,既保证聚类的准确又在整个过程中保障数据隐私。但现阶段很少有专门针对医疗大数据的隐私保护技术,这也是今后医疗大数据隐私保护的一个重要的研究方向。

4结束语

信息化之后如何在庞大的数据资源中快速获取信息且尽可能地保护敏感隐私数据,是医疗大数据未来重要的研究领域。首先需要对隐私泄露的行为加以分析,在此基础上需要通过对原有隐私算法的改进以适应新环境下对隐私数据保护的要求。在对数据本身进行保护研究的同时,也应高度重视数据共享保护问题。在本领域的众多研究中,隐私保护算法主要集中在匿名化和差分隐私技术领域。在衍生出来的众多隐私保护模型的研究当中,大多是针对整个领域通用的模型,而专门针对医疗大数据领域的隐私泄露模型相对较少,特别是现阶段医疗信息化的加快,医院医疗应用终端的普及、互联网医疗的发展使得患者隐私信息泄露更加多元化,希望通过本文对大数据相关领域隐私泄露行为及保护方法等分类阐述,能对大数据及医疗领域研究者有所启发和帮助。

作者:尚靖伟 姜茸 胡潇涵 施明月 单位:云南财经大学信息学院 云南省高校服务计算与安全管理重点实验室