临床医学名词同义词词表检索探究

临床医学名词同义词词表检索探究

医学名词标准化要求一直伴随着医学的发展,统一、规范的医学名词是准确传递信息的基本保证。采用现代信息技术获取、存储、管理和分析临床数据,需要标准化医学语言。然而,临床中使用非规范医学名词的现象十分普遍,突出表现在使用大量医学名词的同义词。由于医学名词同义词多,用一个或部分同义词检索会丢失与检索词高度相关的大量信息。为提高医疗信息检索的查全率,编制一个高质量的临床医学名词同义词词表就显得格外重要。同义词词表的扩展是语义资源开发和应用的基础问题,是自然语言处理领域的重要研究方向。目前,医疗数据库检索系统自身不具备同义词词表系统的管理运用功能,故而,在医疗信息检索服务系统中,真正运用同义词词表提供联机查找服务的并不多见。本文对基于非关系型数据库的临床医学名词同义词词表检索进行了深入研究。

一、资料与方法

1.资料来源。诊疗数据来源于某市2017—2019年3年间99家医疗卫生机构的2480941份住院病案首页数据,住院病案首页字段248个。临床医学名词来源于2018年版《常用临床医学名词》、ICD-10对应的疾病名称、某医院初筛的医学诊断名词。临床医学名词包括中文正名、英文名、中文又称、曾称、简称、习惯用语。临床医学名词同义词词表包括主题词、同义词和说明。说明内容可以是主题词的定义、提示、解释等,也可以是ICD代码,如心脏扩大的ICD代码为I51.709。临床医学名词同义词词表(摘录)参见表1。

2.方法。(1)临床医学名词同义词词表数据库。建立临床医学名词同义词词表数据库,用于存储临床医学名词的主题词、同义词和说明。临床医学名词同义词词表数据库采用TRIP非关系型数据库,该数据库由记录组成,记录由字段组成,字段类型包括phrase字段和text字段,phrase字段类型相当于SQL的char字段类型,翻译为字符串字段,text(文本)字段用于存储自由文本中的句子和段落,能够存储任意数量的段落、任意数量和任意长度的句子,存储的词汇数量无限制。临床医学名词同义词词表数据库基本的字段编号和字段名称如表2所示,可以追加字段。CT字段是字符串字段,存放主题词。UF字段是字符串字段,存放主题词的同义或准同义词,同义词的数量无限制。SN字段是文本字段,存放主题词的说明内容或其他相关的内容。(2)临床医学名词同义词词表数据库的检索字段组配和检索词。临床医学名词同义词词表数据库的检索字段组配有3种,每种组配的检索词不同,如表3所示。根据检索的实际情况,选择不同的字段组配。词的片段是词的一部分,如:“非过敏性哮喘”的片段可以是“非过敏性”“哮喘”。(3)临床医学名词同义词词表检索方法。TRIP词表数据库的检索功能与数据库检索系统无缝结合。TRIP数据库检索系统包括同义词词表数据库检索和目标数据库检索。临床医学名词同义词词表检索方法是借助临床医学名词同义词词表数据库(作为源库)对目标数据库进行间接检索,用临床医学名词同义词词表数据库检索所获得的结果作为检索词,对目标数据库进行检索。(4)目标数据库目标数据库采用TRIP非关系型数据库,字段类型包括:字符串字段、数值字段、日期字段、时间字段、文本字段。本文的目标数据库是住院病案首页数据库。

二、分析研究

1.临床医学名词同义词词表检索。临床医学名词同义词词表检索需要选择目标数据库、目标数据库检索范围、临床医学名词同义词词表数据库、临床医学名词同义词词表数据库的检索字段组配。检索方式有主题词检索、同义词检索、说明内容检索。检索结果显示检索命中的目标数据库的记录数和目标数据库的详细信息。还可以查看临床医学名词同义词词表检索的主题词、同义词和说明内容。(1)目标数据库检索范围。目标数据库的检索范围可以选择所有字段串和文本字段、所有字段串字段、所有文本字段、一个字段串字段、一个文本字段。住院病案首页数据库的字符串字段包括主要诊断、其他诊断、门(急)诊诊断、入院病情、病理诊断、手术及操作名称,等等。(2)检索词为主题词字段中的词。设定目标数据库检索范围,输入主题词或主题词片段,通过临床医学名词同义词词表数据库启动主题词在目标数据库进行检索。例如,输入主题词片段“脓毒血”,通过临床医学名词同义词词表数据库启动主题词“脓毒血症”在住院病案首页数据库的主要诊断字段进行检索,获得住院病案首页数据931例。(3)检索词为主题词和同义词字段中的词。设定目标数据库检索范围,输入主题词或同义词或二者词的片段,通过临床医学名词同义词词表数据库启动主题词和所有同义词在目标数据库进行检索。例如,输入同义词“脓毒症”,通过临床医学名词同义词词表数据库启动主题词“脓毒血症”、同义词“脓毒症”和“败血症”在住院病案首页数据库的主要诊断字段进行检索,获得住院病案首页数据4473例。(4)检索词为主题词、同义词字段中的词和说明字段中的内容设定目标数据库检索范围,输入主题词或同义词(也可以是二者词的片段)或说明字段中的内容,通过临床医学名词同义词词表数据库启动主题词和所有同义词在目标数据库进行检索。例如,输入说明内容“由感染引起的全身炎症反应综合征”,通过临床医学名词同义词词表数据库启动主题词“脓毒血症”、同义词“脓毒症”和“败血症”在住院病案首页数据库的主要诊断字段进行检索,获得住院病案首页数据4473例。

2.传统检索方法。(1)同义词逐个检索。设定目标数据库检索范围,分别用主题词和同义词逐一进行检索。例如,分别用主题词“脓毒血症”、同义词“脓毒症”和“败血症”在住院病案首页数据库的主要诊断字段进行检索,用“脓毒血症”检索获得931例,用“脓毒症”检索获得824例,用“败血症”检索获得2718例,3个词检索共获得住院病案首页数据4473例。(2)逻辑检索式检索。设定目标数据库检索范围,采用逻辑“或”检索式进行检索。例如,用“脓毒血症或脓毒症或败血症”检索式在住院病案首页数据库的主要诊断字段进行检索,获得住院病案首页数据4473例。

三、讨论

住院病案首页的主要诊断是病种质量管理、临床路径管理的数据基础,选择主要诊断的正确率是评估诊疗措施适宜性的重要指标,因此,临床诊断名词应采用规范词汇,尽可能使用中文正名。由于临床诊断名词的同义词可作为检索词使用,因此,在病种检索和统计分析时,应包括所有的同义词。例如,分别用“脓毒血症”“脓毒症”“败血症”这3个同义词在住院病案首页数据库的主要诊断字段进行检索,分别获得931例、824例、2718例。用逻辑“或”检索式进行检索扩大了检索范围,提高了查全率,防止漏检。例如,用“脓毒血症或脓毒症或败血症”检索式进行检索获得的检索结果是4473例。利用临床医学名词同义词词表数据库,输入“脓毒血症”“脓毒症”“败血症”中的任何一个词,都可以启动所有同义词在住院病案首页数据库进行检索,获得的检索结果同样也是4473例。为了提高临床医学名词同义词词表中的词汇与临床诊断用词的重合度,选入具有较高使用频次的简称、自由词和习惯用语,以降低临床医学名词同义词词表应用中对组配的要求。大量收录自由词,增加检索入口词,建立检索入口词与主题词之间的联系,增大入口率,引入高频复合词,这些特征使词表能更好地适应词表自动化应用的需要。临床医学名词同义词词表数据库的说明字段是文本字段,可以容纳临床医学名词的定义、提示、解释等,将自然语言放入词表数据库,增加了检索入口词,通过临床医学名词同义词词表数据库建立检索入口词与主题词和同义词之间的联系,输入说明字段中的自由词、词组和句子,便可以启动临床医学名词同义词词表中规范的主题词和同义词进行检索,极大方便用户使用临床医学名词同义词词表数据库进行检索。该功能优于传统检索。临床医学名词同义词词表检索网络化,通过词表中的主题词、同义词、自由词等可检索并链接获取住院病案首页数据库的诊疗信息、患者信息、住院信息等;临床医学名词同义词词表的词间关系可以帮助用户实现语义缩检、扩检和关联检索;同义词中的英文可以实现跨语言检索。几乎所有的临床医学名词都有同义词,且还在不断产生新的临床医学名词及同义词。在编制词表的过程中,尽管对现有临床医学名词及其同义词做了较多考虑,但依然未能穷尽。临床医学名词同义词词表编制周期过长会使词表发展难以与临床医学名词发展的速度相匹配。利用TRIP非关系型数据库的数据分析功能,采集和筛选临床医学名词的同义词,可以提高临床医学名词同义词词表的质量,减少工作量,缩短临床医学名词同义词词表编制周期,建立临床医学名词同义词词表更新维护的快速响应机制。

四、结论

鉴于临床医学的特点及临床信息的复杂性,临床医学名词同义词的标准化工作非常艰巨。为了推进临床医学信息化技术的应用,国家投入了大量资源,研究解决临床医学名词的标准化问题,临床医学名词和医学主题词表的编制和维护取得了显著成效。但目前存在的瓶颈是缺乏将临床医学名词词表应用于临床医学信息化的运用平台。本文研究的临床医学名词同义词词表检索系统,着眼于临床医疗信息检索的实际应用,在临床医学名词同义词词表编制、用户使用和网络服务3个方面适应临床医疗信息环境和技术环境的发展,使临床医学名词同义词词表处于活跃状态。采用临床医学名词同义词词表检索,不仅高效、便捷地提高了查全率,还与当前临床医疗信息增长水平相适应。临床医学名词同义词词表网络化和服务能使医疗卫生管理机构、医院、医保管理机构了解临床医学名词同义词词表的作用,方便地使用临床医学名词同义词词表检索功能,助力三医联动,满足临床医疗、教学科研、疾病统计、医疗卫生管理信息化等各方面的应用需求。

作者:聂曼影 陶光毅 单位:国家档案局科研所 中国纺织服装教育学会