全媒体档案信息资源语义组织与服务

全媒体档案信息资源语义组织与服务

摘要:本文针对数据化时代档案信息资源深层次组织、管理与服务问题,提出了全媒体档案信息资源语义组织与服务的一般思路,并针对元数据语义转换、档案数据语义分析与表述、语义组织与存储、语义检索与服务以及系统实现等相关问题进行初步探讨。

关键词:全媒体;大数据;档案资源;语义组织;语义服务

1引言

数字化与数据化的过程中,档案信息资源的载体形态和载体类型越来越丰富,各类文本、图形、图像、音频、视频、动画以及各种类型的三维建模数据不断涌现,大数据和人工智能技术在信息化进程中的不断普及和应用也带来了档案工作新的机遇和挑战。档案工作仅仅处于科学保管和有效利用档案信息资源层面上,已经不能满足人们对信息的个性化、便捷化和人性化等方面的更高需求。人们对档案信息资源的需求不局限于浏览档案的原件,更多的是档案信息内容,档案信息资源的语义组织就显得极为重要。传统的档案信息资源组织过程,一般是根据档案信息资源载体类型的不同分别进行加工和处理。在这种情况下,各类信息资源在语义上的相关度往往是通过链接的形式进行描述和处理的,语义上的聚合度不是很高,基于内容的档案信息资源深层次组织、管理与服务难以开展。对于图形、图像等异构的档案全媒体载体形态,单纯使用元数据描述方式不能满足档案信息资源库语义组织的要求,需要运用模式识别和语义标注等手段,通过智能工具和方法,将这类信息进行语义组织和存储,共同纳入档案信息资源语义知识库体系[1]。这需要对全媒体档案信息资源进行语义组织与服务,本文拟在这方面初步研讨。

2语义组织与服务基本思路

全媒体档案信息资源语义组织与服务的实现,需要在图形、图像、动画、音频和视频类数据的文本化处理和元数据组织基础上进行。非文本数据的文本化处理可通过模式识别技术和深度学习算法实现,元数据组织通过分词技术和自动著录与标引技术实现。本文重点分析元数据语义转换、语义识别、标注、表示、描述、存储、检索和提供利用等方面的内容,即全媒体档案信息资源语义组织与服务的基本流程包括元数据语义转换、档案数据语义分析与表述、语义组织与存储、语义检索与服务等四个方面。元数据语义转换,即利用语义知识库组织档案信息的内容,运用档案语义词典进行档案元数据语义转换。语义分析与表述,即运用词法分析技术进行信息内容的分词、词性标注、句法标注、语义和语境标注。语义组织与存储,即通过存储节点控制使档案信息内容按语义关系进行链接,按语义关联关系进行组织和存储,形成规范化的档案信息内容语义网络知识体系。语义检索与服务,即按一定的技术方法与手段形成档案信息语义知识管理服务体系,提供档案信息资源语义检索和智能服务。

3语义组织与服务一般框架

3.1元数据语义转换策略。元数据语义转换策略是在自动著录和解析的基础上通过档案语义词典生成档案信息语义集合的策略。元数据著录标引。档案著录标引是按照档案著录规则、中国档案主题词表、中国档案分类表进行的,其中档案元数据主要包括题名、档号、档案馆(室)代号、分类号、主题词、关键词、提要、文件号、责任者、载体类型、载体形态、保管期限、密级、文种、稿本、形成时间、附件、链接地址、正文等。元数据著录标引在现有的档案管理信息系统中已经具有一定的积累,是生成档案信息语义集合的数据基础。档案语义词典的建立。档案语义词典可参照国家档案局颁布的关于档案元数据和档案基本数据规范[2],资源基础是档案原生数据及其元数据集合。《中国档案主题词表》的基本结构分为主表、附表和辅助索引三大部分,包含字顺表、范畴索引、词族索引、主题词索引等。字顺表作为主题词表的主体,可以通过词性分析,进行语义关联规范化组织,建立档案信息语义分析系统的基本词汇控制数据集合,为档案信息资源的语义组织和分析提供语义结构标准化和系统化控制基础[3]。语义集合的生成。在语义词典确定的基础上,通过模式识别等技术对全媒体信息源进行文本化处理,利用分词技术实现词汇的提取,进而进行语义关联分析并生成语义信息集合。档案信息内容的文本语义抽取。从档案的原生数据源之中识别和标注相关信息,并按照一定的标准和规范对这些信息进行语义化描述,形成语义信息集合。在此基础上,对档案信息资源的内容、背景、时空环境、载体形态等进行内外多维度语义属性、特征、句法依存等关联分析,形成档案信息资源语义词表和句法关联信息集合[4]。

3.2语义分析与表述方法。语义分析是运用语义区分量表对信息内容进行表述的方法。相对于关键词和元数据,语义分析对于信息内容涉及概念表述更加全面和准确,所产生的歧义更小,词语和句法的关联度更强。一般来讲,语义关联关系是基于上下文的语义之间的同一性、隶属性、相关性、间接性、直接性等关系[5]。通用的语义关联分析方法是档案信息资源语义分析的重要参考。档案信息资源是各类社会职能活动中所产生的原始记录,每一份档案材料内容都与人们所从事的社会实践活动密切相关,都有其相应的立档单位特点、组织和活动风格、产生的时代背景、工作性质、社会环境等,有其特定的语境,以及语义和语境的关联关系。档案信息资源与其他数字资源一样可以运用字串语义、文本语义、图片语义、音频语义、视频语义、语义索引、语义匹配等语义关联分析方法进行处理。语义分析与表述的基本方法。首先,通过语义特征分析,进行概念标注与描述,以明确所涉及的信息内容相关概念以及概念的属性和相互之间的关系,通过对档案信息资源多种媒体元素的内容属性分析与标注,揭示相互之间的语义关联性;其次,进行语义相关度分析和语义描述,针对各类词语在档案信息资源内容上下文之间的关系,通过一定的模型和算法确定相互之间的语义关联度和相似度并形成档案信息内容语义元素关联网络集合[6]。

3.3语义组织与存储技术。档案信息内容的语义组织包括档案信息资源内容体系和知识体系的语义关系组织、词汇体系与元数据体系的映射关系组织等各个方面[7]。全媒体档案信息语义组织可以运用本体工具对档案信息内容所涉及的概念以及概念之间的关系进行加工处理,据此完成档案信息资源的内容、需求的语义组织以及建立两者之间的语义链接。语义描述和组织一般使用融合自然语言处理的语义网技术进行标注、表示、描述、组织和存储。目前所使用的语义网技术包括资源描述框架RDF(ResourceDescriptionFramework)、网络本体语言OWL(WebOntologyLanguage)。RDF使用SPO(SubjectPredicateObject)三元组定义语义模型,并通过类、属性以及关系形成语义网络模型。OWL使用本体(Ontology)定义的语义模型进行描述。在此基础上可以实现语义抽取、语义表示、语义融合、语义推理、语义检索等操作。利用Java工具箱Jana,可以支撑RDF与OWL语义网应用并利用ApacheJenaFuseki服务器完成语义网数据的存储与服务。

3.4语义检索与服务系统。全媒体档案信息资源语义组织与服务系统的基本结构有语义组织层、语义关联层、语义应用层等三个层次。语义组织层,对档案信息资源的内容进行语义分析并形成档案信息资源语义本体结合;语义关联层,将档案信息的内容进行语义化组织并进行语义化关联,形成语义关联网络数据集合;语义应用层,按照应用层的服务需求,根据语义关联的档案信息内容,提供语义检索服务[8]。语义检索与服务系统的三层结构包含档案信息本体数据库管理机制、语义本体推理机制、语义知识检索机制、语义应用控制机制等,通过系统集成共同构成人机交互的全媒体档案信息资源语义组织与服务体系。

作者:任妍 庞宇飞 荆欣 单位:武汉大学信息管理学院 郑州航空工业管理学院