城建档案领域知识图谱构建方法探究

城建档案领域知识图谱构建方法探究

摘要:领域知识图谱构建是实现城建档案资源深度关联,提升资源建设与服务效能的重要方法。城建档案领域知识图谱构建应完善实施条件,明确实施原则。在构建流程上,城建档案领域知识图谱构建流程包括数据获取、本体构建、知识抽取、知识融合、知识更新与存储应用。

关键词:知识图谱;本体;城建档案;档案资源建设;档案服务

1引言

当前,知识图谱前沿技术和领域实践快速发展,网络本体描述语言(OntologyWebLanguage,OWL)、资源描述框架(ResourceDescriptionFramework,RDF)、图数据库(GraphDatabase)等应用基础不断丰富,《信息与文献文化遗产信息交换的参考本体》(GB/T37965)和《知识管理第7部分:知识分类通用要求》(GB/T23703.7)等相关标准陆续,在名人档案、科研档案和文化遗产档案等领域的知识图谱研究逐渐增多。本文围绕知识图谱在城建档案领域的通用应用路径,探讨了城建档案领域知识图谱构建准备与实施方法,以期为相关研究提供借鉴。

2城建档案领域知识图谱构建准备

2.1完善实施条件。第一,组织保障。完善城建档案管理协作机制,促进城建档案领域知识图谱构建的对象、价值、技术和业务认同,建立具备“矩阵式协作联盟结构”[1]的组织体系,凝聚共识,健全组织保障。第二,标准规范。以现有城建档案采集、描述和存储规则为基础,加强相关数据规则的衔接、定制和城乡建设标准化术语、编码引用,形成有包容性的相对统一的标准规范体系。第三,其他条件。准备必要的资金,做好知识产权管理和档案开放鉴定,建立具有相关知识处理经验、技术能力的业务和专家团队,并配备相关软硬件设施设备,加强安全防控等。

2.2明确实施原则。第一,项目建设原则。一是问题导向、应用牵引。在规划阶段应聚焦城建档案资源特色优势和发展瓶颈,挖掘应用场景,明确技术需求,同时从档案机构技术能力和现有数字档案馆平台条件出发,适配应用需求。二是资源整合、集成管控。在实施过程中,既应做好多源异构档案资源的规范化整合,消弭机构内外部“信息孤岛”,还应注意城建档案管理与趋势性知识管理的差异及协同策略,明确以“卷/件”和以“知识”为单元的组织利用在效率提升、合规审计、互操作权限上的优势与风险,建立科学的集成管理模式。三是循序渐进、人机协同。在实施过程中,既要秉承循序渐进原则,加强成熟度评价,根据先易后难、由点及面、由粗到细的思路分步建设,又要在机器自动处理、知识计算和人工概念分类、标准设置、样本标注、反馈控制等方面,加强数据驱动和人为干预的协同。第二,本体构建原则。形成领域本体是城建档案领域知识图谱构建的中心工作,根据学界对本体构建原则的一般认识,[2]城建档案领域知识本体构建应遵循以下原则:一是明确性原则,即在构建知识本体时,应尽可能使用领域专业术语,对所获取档案数据中的概念及概念关系给出明确定义和描述。二是完整性原则,即提升本体构建过程中城建档案资源对象来源、数量和种类的丰度,提升知识关联关系的多样性。三是一致性原则,指在领域知识本体构建过程中要保证其定义与本体推理结果的一致。四是可扩展性原则,即向领域知识本体中添加通用或专用的术语时,可适当丰富和扩展,而不需要修改其已有的内容。五是最小编码偏好原则,即本体的概念体系应建立在知识层面,而不过于依赖符号层面的处理。六是最小本体承诺原则,即本体构建过程中尽可能减少约束声明,允许各方相对自由地根据需要专门化和实例化本体,方便未来跨领域、跨专业共享。七是可管理性,即对构建的本体应建立知识产权、使用权限等必要的管理机制。

3城建档案领域知识图谱构建实施

根据知识图谱构建通用方法,城建档案领域知识图谱构建流程包括数据获取、本体构建、知识抽取、知识融合、知 识更新与存储应用。

3.1城建档案领域数据获取。城建档案领域知识图谱构建包括数字档案馆系统数据,工程审批、国土空间规划、地理信息、建筑市场监管等外部平台数据,知识样本较多的维基百科、百度百科等外部知识库、网络动态数据,以及城乡政策法规、实景信息、口述史料、研究资料等数据源。在具体管理中,一是做好数据源调查研究,摸清资源特色内容、利用情况、开放程度和使用权限,掌握资源结构化、半结构化、非结构化等数据特点及存储媒介、数据格式等;二是应以PDCA循环思路,边获取边检查边调整,把握数据源的数据特征和时空分布,不断调整来源范围,提升数据获取质量。在数据获取过程中,应根据不同数据源,选择针对性数据采集方法。一是通过API接口、中间数据库等方式获取数字档案馆系统数据及外部相关平台数据;二是通过python爬虫等技术工具采集外部知识库、网络动态数据;三是通过三维扫描、多媒体采集、模型轻量化等方式获取城市实景信息、口述史料、声像档案及BIM、CIM模型数据。此外,数据采集时还应注重数据预设的知识结构、处理规则等获取,在真实性、一致性、可靠性、可用性和知识产权等方面做好交叉验证和合规审查,并丰富接下来本体构建的思路。

3.2城建档案领域本体构建。领域本体是指以基本词汇表对领域现象的形式化表达,是知识图谱模式层构建的主要对象。城建档案种类繁多,所涉领域方向和专业类别较为复杂,城建档案管理机构也有服务工程建设维护、城乡数智治理、文化保护传承等多元任务。因此,在本体构建思路上,应按照循序渐进、人机协同的原则,运用“骨架法”“七步法”等方法,对本体来源和范围进行分析处理,揭示、定义城建档案领域实体、实体属性及相互关系,优化知识结构,建立侧重档案凭证价值描述的档案本体,及偏向档案情报价值描述的学科本体,并在知识融合阶段形成完整的城建档案领域本体。在档案本体设计上,应以城建档案有关术语和资源描述规范为基础,梳理知识要素,建立术语概念和编码集合,形成城建档案本体模型。以城建档案的核心组成建设工程档案为例,以《城市建设档案著录规范》(GB/T50323)、《建设工程档案信息数据采集标准》(T/CECS707)、《建设电子档案元数据标准》(CJJ/T187)、《建设电子文件与电子档案管理规范》(CJJ/T117)、《建设工程文件归档整理规范》(GB/T50328)为依据,形成包含文件实体、业务实体、责任者实体和关系实体的4类档案实体,拥有联合、包含、控制、建立、拥有和前后等实体关系及相关元数据项的建设工程档案本体模型。在学科本体设计上,应根据《中国档案主题词表》《城建档案主题词表》及《建筑和设施管理部门元数据的应用》(ISO82045-5)和《基础地理信息本体模型》(GB/T40765)等城建领域术语编码和知识规范,结合外部知识库,建立城建学科本体。在具体建设中,可根据任务目标,调整细化学科本体内容。以郑州国棉三厂历史文化街区改造项目为例,可根据项目内容和工程特点,借鉴《信息与文献文化遗产信息交换的参考本体》(GB/T37965)和《智慧城市领域知识模型核心概念模型》(GB/T36332),通过网络数据检索和关键词分析,结合自顶向下和自底向上两种方式,建立城建项目、地理位置、相关机构、相关人员或团体、重大事件等领域实体概念,明确实体属性和关系,最后使用Protégé编辑器形成该领域学科本体模型,如图1和图2所示。

3.3城建档案领域知识抽取。知识抽取指根据领域本体,抽取数据源的实体、关系和属性,并将其存储于城建档案领域知识库。实体抽取强调综合人工提取和命名实体识别技术,识别数据源特定实体。如抽取历史文化街区改造项目中的项目、地理、机构和人物名称等。关系抽取是识别两个或多个实体之间的语义关系,如“机构-参与-项目改造”,针对自然语言的歧义性和模糊性,关系抽取通常先由人工预先设置一定的实体关系类型作为训练集,再使用监督、半监督等机器学习方法提升召回率。属性抽取指采集特定实体的属性信息,如人物的性别、职业等,可采用基于规则或启发式算法等属性抽取方法实现。[3]针对城建档案中大量存在的照片、声像等非结构化数据,可应用文字识别、图像特征提取、音视(下转62页))频词汇提取等识别技术,进行格式转换、机器识读、人工校正及人机协同标引,将其转化为结构化数据,再实施知识抽取。此外,还应关注隐性知识抽取,如以结构化知识模板记录对历史文化街区居民的访谈,并提炼RDF三元组元素。

3.4城建档案领域知识融合。根据城建档案领域本体构建思路,本体匹配是两类方法的结合,即将从不同数据源、兴趣点而来的各类档案本体、学科本体充分集成,并建立映射关系,形成一个更趋完整的城建档案领域本体模型。实例匹配包括实例链接和消歧等任务,如规范“工程策划、筹备文件”对多个实例的链接,消歧同一个地理坐标对两个不同工程项目的标识,将相同解释的“工程文件”“项目文件”进行对齐。实例匹配主要通过基于相似度计算、基于规则或学习的匹配方法及人工抽检实现。

3.5城建档案领域知识更新与存储应用。模式层更新指城建档案本体更新,通过删减、增加或重新定义有关概念及概念关系实现。如根据工程审批制度改革对档案验收程序的调整,重新定义档案验收,增加联合验收、容缺验收定义。数据层更新指调整城建档案领域本体所存储的实体、关系和属性值。如根据机构改革结果,更新某个城建档案管理机构的隶属关系;为响应历史文化街区改造项目的工业文化遗产内涵,新增某个城建档案管理机构的服务属性区间。在知识更新中,应使用准确率、精确率、召回率等指标对已构建的知识图谱进行评价,调整更新策略。最后阶段是进行存储和应用,城建档案领域知识图谱的可选存储手段包括面向RDF的三元组数据库,及Neo4j、JanusGraph等图数据库。在应用上,根据不同任务目标的构建成果,知识图谱可被用于城建档案利用服务中的智能搜索、个性化推荐和知识问答,也可借助页面级、数据级的关联发现,实现城建档案质量要素的智能合规检查,支撑可视化业务指导和验收移交。

作者:高大伟 韩瑞雪 单位:郑州航空工业管理学院