航天企业外部知识管理系统研究

航天企业外部知识管理系统研究

中国运载火箭技术研究院外部知识管理系统的总体建设目标是建设面向全院服务的外部知识管理系统,实现跨知识库检索;按照研究院专业技术树自动采集外部知识,形成专业专题外部知识库;向全院技术人员提供外部知识资源的动态监测和更新、深度挖掘和分析,以及个性化知识推送等服务,推动外部知识资源的深度应用和智能化应用。研究院外部知识管理系统一期建设工作已完成,其改变了传统手动的外部知识采集、加工和入库模式,解决了采集效率低、数据规范性差、数据结构不统一、标引深度不足等问题,实现了对互联网资源、期刊论文、科技报告和专利标准等外部知识资源的采集、入库等一系列工作的自动化。同时,系统将采集入库后的知识资源按照研究院专业技术或重点关注机构等分类建成相对应的专题库,以引导技术人员按照分类导航快速查找、定位所需文献资源,使技术人员能够从多渠道获取外部知识,拓宽知识获取途径,进而为科研生产提供更好、更有效的知识服务。研究院在系统一期的基础上重点梳理外部知识资源类型和体系,基于航天科研领域知识体系和专业叙词表的建设开展知识标引、知识挖掘和相应的管理应用,以优化现有系统的功能和性能,形成初步满足全院对外部知识、数字资源个性化的应用需求。

一、知识标引

1.自动标引

知识标引是对采集的数据进行自动加工、处理的核心。以专业词典(如NASA叙词表等)、清华同方或万方数据库文献中的关键词和外部知识采集时检索表达式中包含的检索词作为基础主题词表,将专利和非专利文献通过特征词识别算法抽取能够代表某篇文献的主题词,以实现对知识库中文献进行自动标引。标引采用的是自动抽词标引法,由系统直接从数据中自动抽取能表达该主题的受控词作为标引词。通过主题特征的提取揭示最主要的知识对象,将特征项的来源位置、出现频率和用户的检索频度等作为依据,设置特征项权重。系统自动标引采用TF-IDF模型,主要评估一个字词对于一个文件集或语料库中的其中一份文件的重要程度。

2.手动标引

标引人员可对预标引数据的主题、副主题、特征词及文献类型等内容进行添加、删除、修改、审核等操作。在整个文件标引、审核工作完成后,系统自动提示标引人员进行合法性检查。系统采用批处理和实时处理2种方式来实现人工审核后对标引数据的合法性检查,对于词形、全角/半角等简单的形式错误,则可采用实时处理的方式及时向标引人员提供提示信息。系统还提供各种对照表的维护入口,标引人员在标引审核过程中可将未建立对应关系的关键词加入系统,以真正实现对嵌入系统的各种对照词表的动态维护。此外,系统具备对新加入的词语进行的功能,若其已在词表中,则拒绝添加。

3.建立叙词表

叙词表可管理本领域内的专业和科技词汇,能够覆盖本领域研究和应用的知识点,并建立这些知识点之间的关系。专业词汇是本领域科技术语与概念,其通过对术语、概念规范定义及之间语义规范和语义关系的建立构建领域词表,用于领域资源的标引发现。科技词汇则反映领域科技活动主体及对象之间的关系,如研究人员、研究机构、研究成果、研讨会议等各种对象属性及其相互之间的本质联系。因此,在知识标引的基础上,研究院初步实现了叙词表的建立与管理功能,基于研究院内部知识管理系统已有的NASA叙词本体库或清华同方/万方数据库的词表本体库进行探索性建设。此工作是进行知识挖掘的基础,在功能实现初期,标引准确性可能会较低,需要人工补充新词和较为专业的词语,但经过一段时间的积累将能产生很好的效果。

二、知识挖掘

所有分析挖掘功能在开发时都要具备对当前集的域值设定功能,以保证在当前集数据量庞大时,系统执行分析挖掘的响应时间不会太长。域值包括时间、专业(即当前集所覆盖的技术点名称)、机构(如中国运载火箭技术研究院)、知识类型(如科技期刊)和语言。

1.按技术生命周期统计

将专利和非专利统一作为分析样本,利用系统自动将分析样本中专利文献的“申请时间”和非专利文献的“发表时间”字段自动抽取,按照时间进行文献量的统计,并自动生成技术生命周期趋势图。此时,在数据库中根据检索条件对文献进行检索,可查询到按年度进行数量统计的结果。

2.按主题词词频统计

基于知识标引功能将标引的主题词出现的频率进行排名统计,系统自动生成主题词词频统计图表,通过其可了解到某一技术领域具体有哪些研发热点。另外,将排名靠前的高频主题词按照年代进行统计,可形成年代趋势列表和年代趋势图。

3.按机构公开文献量统计

系统自动将分析样本中专利文献的申请人、发明人和非专利文献的作者、机构进行抽取,统计其公开文献量,由此可确定同领域技术或产品的竞争对手有哪些机构。基于作者、机构、专利人等信息的计量分析,采用的技术实现与文献计量方法是类似的,但人名、机构名称具有一定的特殊性,对统计分析结果精度的要求越高,就越需要做好数据基础工作,此时需要人工参与,以实现人物与机构名称的“归一”处理。所谓“归一”处理就是将同一个机构的不同名称映射为同一个名称,以实现统计分析的精确性,如“中国航天某院”和“中国航天科技集团某院”在不同发文中出现的称谓可能不相同,但分析的结果都为同一单位。此外,按照文献中的“机构”字段(非专利文献中的“作者机构”或“发文机构”、专利文献的“申请人”)统计各机构的公开文献量,并结合“年度”字段形成各机构在各年度的公开文献量的趋势图,可用于竞争对手研究、机构关注热点研究方面的分析。与机构年度公开文献量统计分析类似,可提取非专利“作者”、专利“发明人”的字段信息形成作者年度公开文献量统计图。

4.技术热点聚类

以系统中主题词表为基础,以当前集中出现的主题词共现强度为聚类阈值进行聚类挖掘,生成主题词聚类岛图,表示某个时刻的数据聚类结果,每个亮点都是系统自动聚类出的知识热点。点与点的距离越近,表明2个聚类主体之间的关联性越高,以达到发现当前集中的技术热点及其关联性的目的。

5.相似索引

当用户浏览某篇文献时,系统通过对比文献所含主题词与知识库中文献所含主题词的相似度,自动提取相似度较高的前10篇文献进行推送。在计算与当前浏览文献相似度阈值的同时,还可根据用户的浏览记录、收藏记录等进行综合分析,进而形成基于用户行为分析的相似推送,并以图片或文字题目等多种方式在用户个人中心或浏览具体文献的详细页面进行推送。

三、性能优化

由于系统一期首页设计的展示模块众多,且随着资源整合数据量越来越大,系统的整体性能和页面访问受到了影响,在大量用户访问的情况下整体效果也有所下降。因此,系统二期建设可以页面静态化功能开发和分布式架构负载部署2种方式进行优化。

1.静态化

对系统首页性能优化采用FreeMarker技术进行静态页面。静态页面相对于动态页面不需要经过服务器后端运算,尤其是当页面模块较多需要调用数据时,动态页面每个用户访问都需要运算较长时间,而静态页面无论多少用户访问都可立刻返回一个无需运算的结果页面,理论上可达到毫秒级响应。系统首页数据是对平台中各个模块数据的综合展示,数据变动相对不频繁,因此可进行静态化。系统数据管理后台本身支持静态化功能,需要针对首页各个模块和页面布局编写模板文件并配置各模块参数,确定静态机制,即可实现首页静态化功能。

2.分布式架构

系统一期架构部署采用单个WebLogic方式提供服务,底层检索引擎也基于Solr单引擎服务,单服务部署承载的负载能力有限,当大用户同时使用时必然从性能上难以支撑。系统二期在检索引擎方面采用SolrCloud技术,基于Solr和Zookeeper的分布式部署搜索,主要是使用Zookeeper作为集群的配置信息中心,将负载自动分布到多个核心上,理论上增加一个核心,性能提升一倍,且任何一个核心宕机对总体服务没有影响,从容错性来说也是很好的方式。系统二期Web应用服务方面采用硬件或软件负载均衡的方式,可将单个WebLogic扩展到多个服务,提升整个网站访问性能,也可采用VM或Docker技术作为分布式部署载体实现多服务扩展,还可选择硬件设备F5实现自动的负载均衡。知识标引、知识挖掘、性能优化等技术的应用,将使中国运载火箭技术研究院外部知识管理系统功能完善化、结构完整化、内容综合化、集成模块化,能够实现外部知识资源的搜集、整合、和组织管理外部知识资源内容的挖掘、分析,以及航天领域知识发展方向的跟踪、预测等功能。研究院外部知识管理系统全部建设完成后将实现“三个创新转变”,即对外部知识存储由分散、隔离型向集中统一型转变,跟踪由不定期检索查阅向实时监测挖掘转变,服务由传统文献服务型向现代个性化服务型转变。

作者:李悦 才华 任湘 孙巍 单位:北京航天长征科技信息研究所