医学基因组学大数据与数据库的发展

医学基因组学大数据与数据库的发展

【摘要】在高通量基因检测和信息技术的加持下,医学基因组学的大数据构成了精准医学的基础工程,推动了人类在分子层面上深入认识疾病和健康的进程。通过分析医学基因组学的大数据及其数据库的功能、作用和特点,阐述其对医疗及健康产生的重大影响及以安全、规范、有益的方式推进和使用的必要性。

【关键词】基因组学;医学;数据库;大数据

基因组学在21世纪获得了快速的发展,主要是依赖于基因测序技术的发展和信息技术的加持。由于生物技术和信息技术的互相渗透和协同,在计算机科学的算法、算力及软件的支持下,基因组学技术的成本正在以超过摩尔定律的速度下降。过去完成一个全基因组测序分析需要几天,现在只需几个小时就可完成。由于成本及速度的极大改善,基因组大数据正在以PB(1PB=1024TB)到EB(1EB=1024PB)的数量级累进,而目前全球每年产生的基因组学数据已接近EB级别。

一、医学基因组学大数据现状

基因组学是一门研究基因组的科学,其作为生命科学及其他学科的基础已经成为发展最快、最活跃的一个领域,也是21世纪生命科学发展的前沿和方向[1]。基因组学通过基因测序和分析研究基因的结构与功能,解释更多基因与生物体之间的关系,其与转录组学、蛋白组学、代谢组学共同构成了系统生物学中组学研究的基础[2]。基因组学及其相关产业能迎来快速发展的时期是始于人类基因组计划(humangenomeproject,HGP),由美国率先发起,英国、法国、德国、日本和我国科学家共同参与的一项规模宏大、跨多学科、跨多国家的科学探索工程[3]。HGP于1990年启动,历时13年于2003年4月25日完成,其中2001年“人类基因组序列草图”的发表被认为是HGP成功的里程碑。自从HGP完成以来,对科学发展和社会各界都产生了非常深远的影响,极大的推动了生物医学的研究,也为更多科学问题的探索提供了新路径[4]。医学基因组学大数据正是在这种背景下产生和发展,是指生物医学中的组学数据,包括基因型、表型数据等,通过生物信息分析,能为健康和疾病提供决策依据的数据[5-6]。这些数据具有大数据的特点,体量大、汇总杂、分析难,其加工处理对科技人员的素质要求也非常高,需要具备基因组学、分子生物学、生物化学、药理学、分子遗传学、生物信息学、统计学、线性代数、数据挖掘、分布式计算、软件工程、数据库、网络工程、信息安全、数据加密等复合知识和能力。因此,这远非个体所能完成,而是需要通过团体的力量去完成的系统工程[7]。医学基因组学的大数据是需要用特殊的软件工具进行捕捉、管理和处理的数据集合,是用新处理模式才能实现具有更强的决策力和洞察力的数据信息源,是具有海量、高增长性和多样化的信息资产。基因组数据量越大,越能细分人群特征,越能聚类发现未知问题。这对于复杂疾病的病因探索、疾病预防和健康管理具有重要价值。医学基因组学大数据非常复杂,人类基因组是由30亿对碱基构成,随着不同地域、人种、时空等因素不断发生变化,首先要从中找出碱基对的异同,然后根据异同还要对应到表型的一致性改变来进行关联分析。显然,仅依靠人类的头脑来计算是无法实现的,而计算机助力了这些应用,也决定了这项工作的效率、成本、准确度[8]。同时,大数据资源也可以用于交换,未来像商品一样流通。农耕时代土地是资源,工业革命时代矿产是资源,互联网时代信息是资源,人工智能时代大数据就是资源。通过大数据分析可以指导医疗健康活动,如发现特别的基因位点,用于药物的研究等。大数据分析需要高素质的复合性人才,还要算法、算力和软件的辅助,需要政府、医疗机构和科技公司团队的协作和共同努力。如无创产前基因检测[9]、耳聋基因检测[10]、病原微生物基因检测[11],大规模人群筛查检测项目形成了重要的公共卫生大数据的原始积累。

二、国内外基因组学大数据及数据库研究中心

随着新的生物学技术方法的出现和基因测序成本的降低,生物医学数据和信息进入了快速增长的阶段,更多生命科学的研究已经开始向临床医学转化方向发展。在国际上,各国已经陆续开展了很多大规模的基因组测序计划。基因测序目标不仅是人类还包括许多动物、植物和微生物,如千人基因组计划[12-13]、水稻参考基因组项目[14]、地球生物基因组计划[15]。随着基因组测序计划的启动加速了复杂和多样化的组学数据的积累,而处理这些庞大且具有科研价值的数据,需要安全存储、开放共享、集中管理和应用转化的平台。

(一)美国国立生物技术信息中心

美国国立生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI),创建于1988年。当时由于计算机信息化处理生物医学数据的需求越来越大,为了提供一个可以存储、分析和管理的平台,促进生物医学的进一步研究和发展,美国创立了NCBI。目前该平台包含众多数据库和数据检索分析工具,其中GenBank核酸序列数据库汇集并注释了所有公开的核酸序列,并与欧洲核酸序列数据库和日本的DNA数据库中心达成国际核酸序列数据库共享数据的合作[16]。

(二)欧洲生物信息研究所

欧洲生物信息研究所(EuropeanMolecularBiologyLaboratory-EuropeanBioinformaticsInstitute,EMBL-EBI)成立于1994年,是一个可以向全世界科学家提供免费生物信息资源的研究机构。该机构建立了覆盖多组学的大型生物信息公共数据库,包括跨基因组学、转录组学、蛋白质组学、化学信息学等,其中欧洲核酸序列数据库(EuropeanNucleotideArchive,ENA)广为世界各国的生物医学科学家所熟知[17]。

(三)日本DNA数据库中心

日本DNA数据库中心(DNADataBankofJapan,DDBJ),创立于1984年。DDBJ开发了用于搜索碱基和氨基酸序列的SQmateh工具,并搭建了操作更加简易的SOAP(simpleobjectaccessprotoco1)服务器,并且与NCBI的GenBank和EMBL-EBI已经建立了紧密的合作关系,实现了数据共享和实时更新。此外,该中心还运营功能基因组学、代谢组学以及人类遗传和表型等数据库[18]。

(四)中国国家基因库生命大数据平台

中国国家基因库生命大数据平台(ChinaNationalGeneBankDataBase,CNGBdb),是深圳国家基因库的核心功能,是“三库两平台”中生物信息数据库的对外服务平台。CNGBdb的主要功能是存储人类健康及生物多样性相关的数字化遗传资源;同时平台也搭建了生物数据库及数据分析平台,实现数据存储和分析,为生物医学科研及产业的转化应用提供大数据的基础支撑[19]。秉持共有、共为、共享的原则,CNGBdb面向全球科研工作者提供生物大数据共享和应用服务,并有计划的和美国的NCBI、欧洲的EMBL-EBI、日本的DDBJ展开合作,整合全球公开生命数据,实现数据资源共享,形成融合多研究领域、多数据类型、多分析维度的超大型科研数据系统,集归档存储、知识搜索、分析计算、管理授权于一体,推动中国生物遗传数据与生命科学数据的规范管理和应用。

三、医学基因组学大数据和数据库发展困难与挑战

在医学基因组学的数据库中,有根据其作用、功能、使用场景而进行分类,如全基因组测序、全外显子组测序等的数据库;也有根据疾病类别,如地中海贫血症、唐氏综合征等疾病而进行分类的数据库。数据库的建立是个复杂工程,有明确的开发目标、专业人才、专门的分析工具,需要进行论证、可行性分析等。数据的完整性和准确性、数据的规范化和结构化,合理的数据结构,优化算法的效果,数据之间的正确关联关系,都与数据库的质量息息相关[20]。

(一)更多基因与疾病之间的关系还在探索中

基因型和表型之间的关联度以及基因和更多疾病之间的关系还在不断探索中。如微生物检测方向宏基因组测序技术对一些耐药菌抗生素应用的指导尚有不足,一方面是检测方法的成本较高对耐药相关基因覆盖度有限,灵敏度不高;另一方面是公布的耐药基因型和表型之间的关联度有差异。相对单基因遗传性疾病的发展速度和研究成果,遗传疾病的应用还有一些发展较慢的研究方向,包括多基因遗传、表观基因遗传和线粒体遗传等。

(二)数据个体差异问题

无论如何,建立来源于不同族群和不同遗传背景的数据,都只能是尽最大能力满足精准的需要。而个体的数据差异具有唯一性,没有完全的重复。大数据或数据库是达到和个体的最大公约数,数据量越大准确性、权威性越高。所以,数据的质量和数量的大小决定了在精准医学领域的话语权。

(三)数据算法和算力有待提高

随着庞大而繁杂的医学基因组学数据快速增长,对数据处理的算法和算力提出了更高的要求。海量的数据快速增加并且需跨越不同维度的数据处理,传统的统计学数据处理算法已经不能够满足要求,需要结合人工智能等新算法寻求突破。在保障数据安全的情况下,需要不断研发针对医学基因数据处理的新技术,提升算力效率。

(四)高素质专业人才不足

数据分析和解读对专业人员的要求越来越高。随着新技术的发展和海量多维度的数据累积,未来需要更多跨多学科的人才支撑行业发展;信息技术、医学和生命科学结合更加紧密,高校需要加大对多学科复合型人才的培养力度,以应对更多医疗健康领域的复杂问题

(五)政策法规尚未完善

由于网络具有共享和开放的属性,医学基因组学大数据在使用和传输的过程中涉及到的数据安全和个人隐私问题不可忽视[21]。因为基因大数据对生物医学和其他健康领域的发展意义重大,所以数据的安全和隐私保护需要完善的机制、适应发展的政策法规和创新性安全保护的技术手段。

四、医学基因组学大数据和数据库发展趋势

(一)数据库向专业化发展

医学基因组学的大数据及数据库,正推动着精准医学的发展。随着数据的精细化分析能力提高和人工智能技术取得突破,数据库将向更专业、更智能、更普遍的方向发展,根据不同工作或专业建立数据库。如肺癌数据库、肝癌数据库等单个疾病的数据库,可以查到患者个体疾病的特征、疾病转归、以及个性化用药的选择等,服务于各专科临床医师[22]。

(二)成为医务工作者的工具

随着更多专业化的数据库产生、新技术的快速更新与应用将对生命结构和疾病发生出现新的解读,甚至影响疾病的诊疗流程。在疾病的预防、诊断、治疗以及个体化用药等各个方面都需要与时俱进。对医师的要求不仅需要掌握基本的医学知识,也需要熟练使用专业的医学基因组学的数据库。

(三)标准化和规范化

在大数据时代的背景下,医学基因组学大数据的发展和使用也将越来越规范化,相应的行业标准和体系共识也在不断完善中。国家对大数据监管也会越来越精细化,政策法规既要严格守住安全底线,也要为大数据和数据库的健康发展奠基铺路。

(四)坚持人文伦理的引导

科学技术的快速发展是需要人文伦理框架的引导和规范。伦理框架是为了更好的开展前沿技术的前提。医学基因组学大数据和数据库的发展都应建立在善待生命、尊重生命的基础上才有利于人类的进步与发展[23]。医学基因组学大数据和数据库技术需要全流程的安全、规范、有益使用,在合法合规的基础上,推动科学发现和技术发明就显得尤其重要[24-26]。

参考文献

[1]杨焕明.基因组学[M].北京:科学出版社,2016:3-5.

[2]Francis,RichardC.Epigenetics:theultimatemysteryofinheritance[M].NewYork:WWNorton,2011:17-22.

[3]杨焕明.科学与科普——从人类基因组计划谈起[J].科普研究,2017,12(3):5-7,104.

[4]GreenED,WatsonJD,CollinsFS.HumanGenomeProject:Twenty-fiveyearsofbigbiology[J].Nature,2015,526(7571):29-31.

[5]刘相兰,孙志福.多组学大数据在精准医学中的地位及应用[J].精准医学杂志,2020,35(1):1-5,10.

[6]CirilloD,ValenciaA.Bigdataanalyticsforpersonalizedmedicine[J].CurrOpinBiotechnol.2019,58:161-167.

[7]RehmanA,NazS,RazzakI.Leveragingbigdataanalyticsinhealthcareenhancement:trends,challengesandopportunities[J].MultimediaSystems,2022,28:1339-1371.

[8]RashidHU,HussainF,MASOODK.ApplicationofBigDatainHealthCare[J].IJCBS,2018,13:1-5.

[9]刘静,何思捷,唐龙妹,等.河北省无创产前基因筛查模式的理论和实践[J].中国妇幼保健,2022,37(22):4105-4110.

[10]WangQ,XiangJ,SunJY,etal.NationwidepopulationgeneticscreeningimprovesoutcomesofnewbornscreeningforhearinglossinChina[J].GenetMed,2019,21(10):2231-2238.

[11]ChenM,ZuoX,TanY,etal.SixaminoacidsofVP1switchalongwithpandemicofCV-A6-associatedHFMDinGuangxi,southernChina,2010-2017[J].JournalofInfection,2019,78(4):323-337.

[12]PennisiE.Genomics1000GenomesProjectgivesnewmapofgeneticdiversity[J].Science,2010,330(6004):574-575.

[13]NayanahS.1000Genomesproject[J].NatureBiotechnology,2008,26(3):256.

[14]InternationalRiceGenomeSequencingProject.Themap-basedsequenceofthericegenome[J].Nature,2005,436(7052):793-800.

[15]文乐乐.地球生物基因组计划雄心勃勃[N].中国科学报,2022-01-20(001).

[16]SayersEricW,BoltonEvanE,Brister.DatabaseresourcesoftheNationalCenterforBiotechnologyInformationin2023[J].NucleicAcidsRes,2023,51(D1):D29-D38.

[17]KulikovaT,AkhtarR,AldebertP,etal.EMBLNucleotideSequenceDatabasein2006[J].NucleicAcidsRes,2007,35(Databaseissue):D16-D20.

[18]TanizawaY,FujisawaT,KodamaY,etal.DNADataBankofJapan(DDBJ)updatereport2022[J].NucleicAcidsRes,2023,51(D1):D101-D105.

[19]陈凤珍,游丽金,杨帆,等.CNGBdb:国家基因库生命大数据平台[J].遗传,2020,42(8):799-809.

[20]PramanikPKD,MukhopadhyayM,PALS.Bigdataclassification:applicationsandchallenges[M/OL].Singapore:Springer,2021:53-84.

[21]武奥申,刘小娜,刘昀赫,等.二代基因测序数据管理和大数据平台在精准医学中的应用[J].中国生物工程杂志,2019,39(2):101-111.

[22]孙可欣,詹思延,胡永华.医学大数据在药物基因组学领域中的应用与发展[J].药物流行病学杂志,2017,26(1):68-73.

[23]PriceWN,CohenIG.Privacyintheageofmedicalbigdata[J].NatMed,2019,25:37-43.

[24]中华人民共和国网络安全法[J].中华人民共和国全国人民代表大会常务委员会公报,2016,(6):899-907.

[25]中华人民共和国数据安全法[J].中华人民共和国全国人民代表大会常务委员会公报,2021,(5):951-956.

[26]中华人民共和国个人信息保护法[J].中华人民共和国全国人民代表大会常务委员会公报,2021,(6):1117-1125.

作者:许四虎 李敬宇 潘荣 晋向前 肖棉文 李雪香 单位:深圳市基于基因组学大数据的医学分析工程技术研究中心