医疗健康大数据分类及问题

医疗健康大数据分类及问题

[摘要]%根据数据来源将医疗健康大数据分为四类:临床大数据、健康大数据、生物大数据和运营大数据。总结其内容与特点,提出医疗健康大数据研究需要在开发集成和分析工具、整合个人健康记录与电子健康档案、平衡隐私保护与信息共享之间的矛盾、完善医疗卫生信息标准体系等方面予以提升和改进。

[关键词]%医疗健康大数据;电子健康档案;个人健康记录;生物医学信息

医疗健康大数据面向健康人群、患者、医生、医疗机构、政府、药械企业、保险公司等主体,以需求为导向,在临床科研、公共卫生、行业治理、管理决策、惠民服务、产业发展等方面影响着整个医疗行业的变革。医疗健康大数据促进了医疗数据挖掘和知识发现的研究,不同来源的异构数据量巨大,语义和数据集成已经成为医疗数据分析研究中不可避免的问题,需对各类数据进行多方面的整合,如社会经济、生活方式、行为、临床、生理、细胞学以及疾病机制等数据;同时,需要将生物医学研究部门的研究数据向社会透明公开,消除数据隐私和监管限制。医疗健康大数据研究涉及计算机科学、数据科学、系统工程、机械工程、电子工程、人文因素、社会科学、医学和其他健康服务学科,需要研究人员跨界合作。

1医疗健康大数据分类

医疗健康大数据是人类与医疗及生命健康相关的活动过程中产生的数据集合。根据健康活动的来源,医疗健康大数据可以分为:临床大数据、健康大数据、生物大数据、运营大数据。

1.1临床大数据

临床医疗的主要目标是关注个人身体健康状况,临床数据主要包含电子健康档案、生物医学影像和信号、自发性报告系统等数据。电子健康档案(electronichealthrecords)是在一定时期内健康服务人员用来管理、存储、共享医院门诊和住院处、精神卫生中心、基层医疗机构、药物处方等异构医疗数据,并进行分析的个人终身健康档案。电子健康档案涵盖了与患者相关的所有关键临床信息,如人口统计学信息、以往病史、进展说明、问题、药物、生命体征、实验室数据、免疫接种、放射学报告、医师观察、收费信息和保险信息等。电子病历是指以信息化为媒介,用电子化方式来保存、管理、输出、传送患者医疗记录和健康信息的方式,是建立电子健康档案的基础和重要组成部分[1]。电子病历可以满足多个医生同一时间查看患者病历,可以作为参考资料,将循证指南并入日常的临床实践中。电子健康档案可以让医生更好地了解患者按ICD、HL7-CDA等标准分类的结构化数据或text、pdf等格式的非结构化数据,同时可以记录和跟踪患者健康数据并对其加密,从而确保数据的隐私和安全。生物医学影像和信号提供由皮肤、骨骼以及生物活动产生的电信号或磁信号,产出解剖结构的高质量图像,包括磁共振成像、计算机断层扫描、正电子发射断层扫描、超声波、心电图、脑电图、神经电图、肌电图、胃电图、心音图等。生物医学影像和信号属于非结构化临床数据,数据库利用信号处理技术自动按病理分类,弥补了人工分类的局限性[2]。自发性报告系统通常用于上市后的药物安全性监测。目前一些研究使用了FDA不良反应报告系统的数据来监测药物不良反应,效果良好。然而不良反应报告生成需要耗费较大的工作量,且自发性报告系统在报告不足的情况下反馈较差,许多健康群体不了解或不具备足够的信息来提供报告,因此可能无法及时发现很多药物的不良反应[3]。

1.2健康大数据

健康大数据包括对个人健康产生影响的生活方式、环境和行为等方面的数据。当前创新型数字化健康设备和应用不断进步,提供了个人健康数据用于个人医护的独特环境:一方面健康大数据使患者在自我健康管理中扮演更积极的角色;另一方面极大地增强了医生对患者生活的临床洞察力。健康大数据主要可以分为个人健康记录、社交媒体健康数据和潜在的健康数据。个人健康记录(PersonalHealthRecords,PHRs)主要包括个人自我追踪设备、可穿戴设备等采集的连续的健康数据。个人健康记录可以用来跟踪正在进行的治疗或监测,了解个体通过专业健康服务人员开展的健康状况管理情况;同时还包含病人自我管理的健康数据,如食物追踪、日常活动、血压检测等。个人健康记录设备能捕捉到较长时间范围内多个临床数据点,改善临床设置的限制,是临床个人健康数据的有力补充,医生可依据健康监测数据及时验证和调整诊疗方案。在远程医疗中,身体活动数据等自我追踪数据在识别潜在患者等研究中具有开发潜力[4]。社交媒体数据是健康群体提供的在其它任何来源中都无法获得的健康数据,包括电子邮件、社交工具、短信等沟通工具产生的健康数据。除传统社交媒体外,越来越多特定的医疗健康类社交媒体网站为健康群体提供接收信息和情感支持的平台。近年来,许多研究工作都利用这些数据来提取药物不良反应监测等信息,一些研究也开始利用社交媒体平台来开展健康干预。潜在的健康数据主要包括与个人健康相关的社会经济学、依从性、环境、生活方式的风险因素等信息[5],如亲属关系、购买行为数据、第三方支付数据等。潜在的个人健康信息与系统导向的生物医学研究联系起来,可以为生物医学研究和个体医疗之间提供持续、跨领域的沟通[6]。

1.3生物大数据

生物大数据是指从生物医学实验室、临床领域和公共卫生领域获得的基因组、转录组学、实验胚胎学、代谢组学等研究数据,有助于理解遗传标记与疾病之间的因果关系,将传统的“一刀切”治疗方法转变为基于基因组数据的定制治疗,已成为一种新兴的疾病预防和治疗手段。近年来,用于高通量分子分析的整合、管理和探索工具在临床背景下蓬勃发展[7],与电子健康档案、健康大数据的互相整合,使开发动态个人健康预测模型成为可能,通过考虑个人生物学背景,有助于实现真正的个性化与精准化医疗,促进临床实践与生物医学专业研究之间的相互作用。

1.4运营大数据

运营大数据是指各类医疗机构、社保中心、商业医疗保险机构、药企、药店等运营产生的数据,包括不同病种治疗成本与报销数据,成本核算数据,医药、耗材、器械采购与管理数据,药品研发数据、产品流通数据等[8]。运营大数据可以有效降低医疗费用,有助于医院精细化运营及成本有效控制,支持保险精确定价;在管理决策方面,可以使决策者多角度掌握医疗机构运营情况,为科学管理提供有力支持。

2问题与展望

2.1开发健康数据集成和分析工具

当前从临床、健康和生物大数据固有模式中移出数据的成本较高。不同的医院类型,如教学医院、社区医院的临床环境不同,由于医学领域本身复杂,设计各类医疗机构信息系统的障碍在于如何得出适用于复杂环境的一致、高效的流程。医药行业变量数据过多且因病人而异,信息系统需足够灵活以适用不同的需求。而不同的系统供应商数据模型不同,数据库极其复杂、内含许多嵌入式逻辑,供应商一般不会公开自身数据模型,因而移出不同系统的数据具有较大挑战,相关研究工作多限于特定健康服务提供者提供的数据。因此,需融合云计算、大数据、物联网、移动互联网、虚拟现实等信息技术,开发健康数据集成和分析工具,将不同系统数据安全移出专有的数据模型,并高度集成以患者为基础的数据模型。目前,一些机构应用新的技术和软件提高健康数据的实用性,并实现了实时的数据结构化与集成分析。如OHDSI提供了通用数据模型以标准化来自不同机构的医疗数据,并开发了系列软件进行病人队列筛选、分析变量提取、数据质量分析和统计模型分析,已在多个研究方面证明了基于通用数据模型的共享数据参与临床大数据分析的可行性[9]。

2.2整合个人健康记录与电子健康档案

目前,许多移动健康应用程序和产品都是独立的,不能整合在一起。PHRs的主要问题是如何使这些数据进入临床应用环境,将其并入患者电子健康档案中。为了将自我追踪等设备得到的个人健康数据真正融入患者治疗中,电子健康档案系统需更具互操作性。目前马约诊所通过第三方,如苹果的HealthKit授权患者将手机的健康数据发送给医生。在此过程中,应确保以事实为基础的健康服务应用程序克服限制,不完全受市场主体利益的影响,通过参考政策和建立平台来支持健康应用和个人健康记录/电子健康档案的整合;由专门机构审核应用程序设备,保证其数据的合理性和可靠性。

2.3平衡隐私保护与信息共享之间的矛盾

生物大数据可提供可靠的个人遗传学依据,但个人基因组测序等技术面临一系列法律与伦理困扰,特别是隐私问题。临床、健康大数据也会涉及个人健康状况、诊疗方法、使用药物等敏感信息,保护隐私仍是医疗健康大数据时代数据共享的核心问题。美国《健康保险转接及责任法案》对隐私登记事务予以控制,欧盟出台《一般数据保护条例》对健康数据、许可和科学研究进行了精准阐述,但多数与健康相关的规定,如需要最终知情授权,潜在阻碍了健康数据的收集和分享。随着对数据需求的不断增加,健康大数据时代需平衡隐私保护与信息共享之间的矛盾,既要保护个人隐私,也应有开放数据和数据共享模式的集体思维。需要用创新的方法来保护个人隐私与数据,鼓励信息原作者共享信息,并允许研究人员在个人知情和同意的情况下获得隐私数据。同时,设计和调整隐私政策,目前国内涉及数据共享的法规尚未形成体系,应建立相关法律保障,明确数据存储、共享的范围和边界,以及要承担的责任。

2.4完善医疗卫生信息标准体系

ICD、DICOM、SNOMED、HL7等卫生信息标准侧重于保证信息标准化和互操作性,没有考虑数据质量以及如何跨数据源管理患者身份信息[10],其中手术操作的术语集标准化程度最低,会导致重复记录。另外,随着医疗机构内部分歧的增多,上述标准的一致性与互融性亟需改进,如LOINC与SNOMED之间缺乏互补;许多组织都认识到通用标准术语的必要性,开发了自身术语与基准,却导致医疗组织之间数据不能相互融合、难以集成。应在完善补充现有标准的基础上,尽快建立健康信息标准规范体系,强化标准规范的应用管理。为了能无歧义地使用和解释信息,在数据标准化过程中,需关注数据的概念、代码、值域等属性的标准化。在信息内容标准化过程中,需解决识别和定义临床概念的问题,如采用相同的方法收集、传送关于血压或不良反应的数据。

作者:杨朝晖 王心 徐香兰