国外专利全文图像数据质量管理思考

国外专利全文图像数据质量管理思考

摘要:专利数据质量管理是专利信息服务的首要问题。本文根据国外专利全文图像专利数据的特点,从数据质量评价和质量改进两方面探讨专利全文图像数据的质量管理,给出质量维度评估方法,并基于该质量评价提出了质量改进策略。

关键词:全文图像;专利数据;质量评价;质量改进

0引言

为了专利文献信息资源的建设与传播,有效提高专利信息服务工作水平,满足公众对专利文献的需求,除了提供专利文摘数据和全文数据,高质量的专利图像数据更是必不可少[1]。通过不同途径收录的专利图像数据缺乏高效、规范的质量管理,影响图像数据资源的有效利用。对数据生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、改进等一系列数据质量管理,其目的在于保障数据的质量。专利全文图像数据质量管理主要包括数据质量评价和数据质量改进两个方面。通过定期执行质量评价,促进数据质量的持续改进。

1国外专利全文图像数据的特点

来源于不同的国家、地区或组织的专利全文图像数据格式丰富,数据组织形式各异,数据内容不一,且很多没有提供文献基本信息或文献内容标注信息,需要通过标准化数据加工对数据进行统一规范。另外,国外专利全文图像数据时间跨度长,获取周期不稳定,其数据源的不断扩展,数据总量的不断增加,可能带来数据重复和数据缺失等质量问题,因此,周期持续地数据质量评价和改进是非常必要的。

2数据质量的评价方法

数据质量评价的功能在于基于评价方法,对数据有全面的了解和认知,基于评价结果,发现潜藏的数据质量问题,依据国外专利全文图像数据的特点,专利全文图像数据的质量评价遵守独立性原则、可操作性原则、定性与定量相结合原则,主要从数据的准确性、完整性、唯一性三个维度及主观客观两个角度展开。

(1)三个维度

数据的质量是一个复杂的、多维度的概念。专利全文图像数据质量的评价指标,依据自身特点和质量评价原则划分为三个维度,分别是:准确性、完整性、唯一性。

①准确性

数据的规范性和差错率的结合。数据规范性的评价基准为经标准化加工的全文图像数据是否符合《专利文献数据规范》[2],满足用户对标准化专利全文图像数据的要求。数据规范性主要涵盖文件格式规范、标注内容规范和文献信息规范等内容;差错率是指文献信息或标签信息与图像数据不一致的比率。数据的差错率可从定量角度评估,量化为某国家指定时间范围内差错数据的量与数据总量的比值。

②完整性

完整性可定义为全文图像数据产品库收录的某一国家、地区或组织的专利全文图像数据与该国家、地区或组织的权威文档或者官方公布专利文献数据比对的一致性。数据完整性通常用数据完整度来衡量。为全文图像数据库收录的某一国家、地区或组织的专利全文图像数据与其权威文档或者官方公布专利文献数据一一对应的量和其权威文献或官方公布量的比值。

③唯一性

数据唯一性是指全文图像数据产品库不得含有重复数据,专利文献信息与全文图像一一对应。评估方法为按时间范围抽取一定比例数据,统计库中的记录文献信息的数据量和图像实体的量,其比值可表现唯一性。

(2)两个角度

①主观角度

主观角度是基于定性的概念,主观角度的数据质量评价主要是从专利全文图像数据的收集者、管理者和使用者的视角来考查数据的质量问题[3],通过数据的收集者、管理者对全文图像数据的直接处理,以及设立用户沟通和交流机制,定期收集用户对数据准确性、唯一性及完整性的反馈,综合表现为满意度评价。

②客观角度

基于客观角度的评价主要方法如下:选取全文图像数据产品某国家、地区或组织某时间范围对应的数据集,给不同维度赋予相应的权值,并依据各维度的评估方法给出具体的量值,由此计算出数据质量。

3数据质量的改进策略

基于上述数据质量评价,对存在的质量问题可从数据清理、数据补全、数据纠错等方面进行改进。针对可能出现的问题提出预防措施,不断提升全文图像数据产品的整体质量。

(1)准确性改进

依据《专利文献数据规范》,对全文图像数据进行文件格式标准化、标签标准化和文献信息标准化,在此基础上通过程序控制、机器全量质检和人工抽检的方式对标准化数据进行质检,质检内容为图像实体与文献信息是否相符,标签标注是否与图像一致,并对质检结果进行状态标识,对质检反馈的问题进行分析,并以该状态触发数据修正流程,启动二次加工,有效地控制不合格数据的输出,提高数据的准确性。

(2)完整性改进

为了查明数据缺失情况,全文图像数据产品应与其他国家、地区或组织官方公布的专利文献清单或其他类型专利数据进行比对。数据缺失情况归为三类,一为文献信息完整情况下的图像实体的缺失,二为图像实体完整情况下的文献信息的缺失,三为文献信息与图像实体都缺失,缺失原因可归结为源数据的缺失和加工过程带来的数据缺失。加工过程带来的数据缺失定义为源数据存在,经加工过程的一系列流程未输出标准化的图像产品数据而导致的数据缺失,通过对缺失数据的类比分析结合数据的状态值,启动相应的补救措施,如完善和补充加工规则,对相关的辅助工具和处理流程进行优化升级等。源数据缺失定义以下两种情况,一是源数据库存在该数据,则可能是在入库过程中由于数据解压失败、传输中断等原因引起,需要对该部分数据重新加工,若源数据中不存在该数据,则从其他数据源寻求补录的可能性,并对可补录的数据进行标准化加工。

(3)唯一性改进

①加入状态标识

数据源多样,数据量大造成的数据重复冗余,表现为同一文献信息对应多条实体文件,通过加入状态标识,当出现文献信息重复时,状态触发数据修正流程,对已有的图像实体进行更正,从而建立文献信息与实体一一映射,保证其唯一性。

②建立清洗规则

通过对数据源的约束和规划以改进数据的唯一性,多个数据源的数据集成导致几个独立维护的数据源经常提供相互重叠的数据内容,出现不一致的数据,建立数据清洗规则,通过检测及合并不同数据源中的重复集,补充不完整或遗漏的数据集,达到消除重复、数据增强的目的。

4结语

通过对国外专利全文图像数据质量的评价,可以及时发现数据的质量问题,并针对性改进,保障数据质量,使其更好地为专利信息服务。

参考文献:

[1]郭威.国外全文图像专利数据的标准化研究[J].数字与缩微影像,2017.

[2]曲晓光.专利文献数据规范概述[J].标准科学,2012.

[3]谷斌.信息系统建设中的数据质量管理体系研究[J].情报杂志,2007.

作者:廖雅静 单位:中国专利信息中心