关于敏感数据脱敏策略技术的探索

关于敏感数据脱敏策略技术的探索

摘要:随着互联网、云计算、大数据等信息技术与通信技术的迅猛发展,社会逐步进入了数据时代,数据在进行采集、传输、交换和共享的过程中如果不采用必要的手段防止数据泄露,数据安全将无法得到保障。本论文从数据安全的角度出发,研究了敏感数据的识别扫描方式,同时研究了敏感数据脱敏技术的处理过程和脱敏方式。

关键词:敏感数据;数据脱敏

1引言

信息化时代,海量数据在各种信息系统上被存储和处理,其中包含大量有价值的敏感数据。不管企业还是政府单位,每天都在有意无意地收集、存储、共享数据,且规模越来越大。这些数据中包含了大量客户的敏感信息和企业自身隐私数据,这些数据已然成为企业发展的生命线,一旦出现数据泄露,不但影响企业的形象,还会造成不同程度的经济损失,甚至有些可能会承担法律责任。数据在流转过程中的安全性保证,已经越来越受到企业的重视,对敏感数据脱敏处理可有效保证数据的安全。

2敏感数据识别扫描

通常情况下,根据梳理出的数据资产,进⾏敏感数据的⾃动探测,通过特征探测定位敏感数据分布在哪些数据资产中;针对敏感的数据资产进⾏分级分类标记,分类出敏感数据所有者(部门、系统、管理⼈员等);根据已分类的数据资产由业务部门进⾏敏感分级,将分类的数据资产划分公开、内部、敏感等不同的敏感级别。数据分级分类按照下述原则进行:1)数据分类依据数据的来源、内容和⽤途对数据进⾏分类;2)数据分级按照数据的价值、内容敏感程度、影响和分发范围不同对数据进⾏敏感级别划分。基于分类分级策略,参考公司企业标准数据安全分级标准的要求,并根据用户自身的数据特点进行优化调整,针对不同类别、不同级别的敏感数据,采用不同脱敏策略。

2.1敏感字段标注

通常情况下,根据敏感数据构成特征来设定,一般包含两类,一类是个人隐私数据,一类是企业经营类数据。个人隐私敏感数据标签包括:身份证、手机号、银行卡号、地址、邮箱等;企业经营类敏感数据标签在各行业之间,区别较大,除统⼀社会信⽤代码,营业执照号码,税务登记证号码,组织机构代码,车辆识别代码等,可根据实际业务情况进行合理定义。

2.2敏感字段识别

敏感字段识别主要有正则匹配,关键字,算法三种⽅式。通常情况下,银⾏卡号、证件号、⼿机号,有明确的规则,可以根据正则表达式和算法匹配;姓名、特殊字段,没有明确信息,可能是任意字符串,可以通过配置关键字来进⾏匹配;营业执照、地址、图⽚等,没有明确规则,可以通过⾃然语⾔算法来识别,使⽤开源算法库。人工梳理敏感数据信息工作量繁重,为了提高效率,我们需要实现自动发现功能,例如敏感数据探测引擎,对数据库中的数据进行抽样查询,使用探测规则与查询出的数据进行匹配,当满足一定匹配百分比时,将数据确定为疑似敏感数据,记录数据库中并在敏感数据分布结果中进行展示。抽样数据量以及探测结果匹配率可以通过实际情况进行设定。获取抽样数据实现方案是,对表按照一定数据单位进行等分,并从每个单位中随机抽取数据,然后根据随机抽取的数据内容进行正则匹配。例如:某表数据库量是2000,需要抽样20条数据,按500条数据量进行等分,即2000条数据,分成4份,从每份500条数据中,随机抽样5条数据进行规则匹配。这种方式最大限度的保证了探测速度,并且保持了随机性,探测结果相对更加准确。对用户现有数据源数据的敏感数据扫描,通过配置待扫描数据源列表,确定具体扫描任务的覆盖范围,逐一适配待扫描列表中的数据源类型,连接数据源,对数据源中的数据进行抽取和抽检;通过配置扫描任务的待检测敏感信息正则表达式,确定扫描任务检测的内容,当系统发现符合项时,将其记录下来保存到数据库,形成可视化的扫描报告。

3敏感数据脱敏

数据脱敏是指对敏感信息通过脱敏规则进行数据变形,实现敏感隐私数据的可靠保护。数据脱敏也叫数据的去隐私化,在我们给定脱敏规则和策略的情况下,对敏感数据⽐如⼿机号、银⾏卡号等信息,进⾏转换或者修改的⼀种技术⼿段,防⽌敏感数据直接在不可靠的环境下使⽤。像政府、医疗⾏业、⾦融机构、移动运营商是⽐较早开始应⽤数据脱敏的,因为他们所掌握的都是⽤户最核⼼的私密数据,如果泄露后果是不可估量的。数据脱敏可以使数据本身的安全等级降级,这样就可以在开发、测试和其它非生产环境以及外包或其它计算环境中安全地使用脱敏后的数据集。数据脱敏的应⽤在⽣活中也是⽐较常见的,⽐如我们在淘宝买东西订单详情中,商家账户信息会被⽤*遮挡,保障了商户隐私不泄露,这就是⼀种数据脱敏⽅式。

3.1数据脱敏分类

数据脱敏⼜分为静态数据脱敏和动态数据脱敏:1)静态数据脱敏静态数据脱敏:适⽤于将数据抽取出⽣产环境脱敏后分发⾄测试、开发、培训、数据分析等场景。有时我们可能需要将⽣产环境的数据复制到测试、开发库中,以此来排查问题或进⾏数据分析,但出于安全考虑⼜不能将敏感数据存储于⾮⽣产环境,此时就要把敏感数据从⽣产环境脱敏完毕之后再在⾮⽣产环境使⽤。这样脱敏后的数据与⽣产环境隔离,满⾜业务需要的同时⼜保障了⽣产数据的安全。2)动态数据脱敏动态数据脱敏:⼀般⽤在⽣产环境,访问敏感数据时实时进⾏脱敏,因为有时在不同情况下对于同⼀敏感数据的读取,需要做不同级别的脱敏处理,例如:不同⾓⾊、不同权限所执⾏的脱敏⽅案会不同。在抹去数据中的敏感内容同时,也需要保持原有的数据特征、业务规则和数据关联性,保证我们在开发、测试以及数据分析类业务不会受到脱敏的影响,使脱敏前后的数据⼀致性和有效性。⽆论是静态脱敏还是动态脱敏,其最终都是为了防⽌组织内部对隐私数据的滥⽤,防⽌隐私数据在未经脱敏的情况下从组织流出。

3.2数据脱敏技术处理过程

数据脱敏技术对数据的处理基本经过5个过程,分别是元数据识别、脱敏数据识别、数据脱敏方案制定、任务执行及效果比对。数据脱敏技术处理过程如图1所示:1)元数据识别数据脱敏平台将脱敏文本读入,脱敏平台可设置读入数据的行数,默认为文本格式,用户可自行设置间隔符号;同时若文本文件中默认不包含元数据头文件,用户可自行设置元数据名称与格式。2)脱敏数据识别经过元数据识别或设置后,文本脱敏的敏感数据识别与数据库敏感数据识别是相同的,均按照元数据描述及抽样数据本身特点,使用系统的敏感数据扫描可识别出疑似敏感数据。3)定义脱敏方案在疑似敏感数据基础上,用户根据实际需求对需要脱敏的数据、脱敏规则进行设置,形成文本文件的脱敏方案。4)脱敏执行设置脱敏后数据的目标(需支持到文件、到库),脱敏执行过程将数据抽取、处理、装载一次性完成。5)脱敏后对比脱敏后数据用户需在界面可见脱敏前后对比,对比的内容包括:脱敏前数据条数、脱敏后数据条数等。

3.3数据脱敏⽅式

数据脱敏技术的目的是通过一定方法消除原始环境数据中的敏感信息,数据脱敏的数据处理方法是通过对指定的敏感数据进行编辑,使得敏感数据不再含有敏感内容,从而达到使人或机器无法获取敏感数据的敏感意义的目的。数据脱敏的⽅式主要有如下六种方式。1)仿真仿真是根据敏感数据的原始内容生成符合原始数据编码和校验规则的新数据,使用相同含义的数据替换原有的敏感数据,例如姓名脱敏后仍然为有意义的姓名,住址脱敏后仍然为住址。仿真算法能够保证脱敏后数据的业务属性和关联关系,从而具备较好的可用性。2)数据替换数据替换用某种规律字符对敏感内容进行替换,从而破坏数据的可读性,并不保留原有语义和格式,例如特殊字符、随机字符、固定值字符等。例如,采⽤特殊字符*代替真值,这种隐藏敏感数据的⽅法简单,但缺点是⽤户⽆法得知原数据的格式,如果想要获取完整信息,要让⽤户授权查询,⽐如我们将⾝份证号⽤*替换真实数字就变成了"220724******3523"。3)加密通过加密算法进行加密。例如Hash(密码算法)算法是指对于完整的数据进行Hash加密,使数据不可读,或如对称加密,是⼀种特殊的可逆脱敏⽅法,通过加密密钥和算法对敏感数据进⾏加密,密⽂格式与原始数据在逻辑规则上⼀致,通过密钥解密可以恢复原始数据,要注意的就是密钥的安全性。4)数据混淆混淆算法是将敏感数据的内容进行无规则打乱,从而在隐藏敏感数据的同时能够保持原始数据的组成方式。例如,使用随机值替换,字母变为随机字母,数字变为随机数字,⽂字随机替换⽂字的⽅式来改变敏感数据,这种⽅案的优点在于可以在⼀定程度上保留原有数据的格式,往往这种⽅法⽤户不易察觉的。5)数据偏移和取整这种⽅式通过随机移位改变数字数据,偏移取整在保持了数据的安全性的同时保证了范围的⼤致真实性,⽐之前⼏种⽅案更接近真实数据,在⼤数据分析场景中意义⽐较⼤。⽐如下边的⽇期字段create_time中2021-11-0816:15:25变为2018-02-0315:00:00。取整,数据脱敏规则在实际应⽤中往往都是多种⽅案配合使⽤,以此来达到更⾼的安全级别。

4结论

为深入评估客户敏感信息在创建、存储、使用、传输和销毁等过程中的安全风险,综合运用多因素认证、访问控制、边界防护、泄密检测、密码算法和技术、数据脱敏和安全审计等手段,切实提高客户身份认证和验证强度,防范敏感数据泄露、篡改、丢失和非授权访问等风险,越来越多的行业将采集数据,利用大数据技术提高产业效率,从而推动产业升级。数据量将进一步汇聚,规模将以指数级增长,数据脱敏技术的应用场景将扩展到国民经济的各个领域,随着需求的增长和多样化,数据脱敏技术也将得到长足的发展。

参考文献

[1]刘隽良王月兵谭锦端等.数据安全实践指南[M].机械工业出版社.2022

[2]张莉.数据治理与数据安全[M].人民邮电出版社.2019

作者:宗芸 单位:中国联合网络有限公司天津市分公司