语义网下的动态知识管理论文

语义网下的动态知识管理论文

1本体在解决动态知识管理时的不足

1.1问题描述

动态知识指的是随时间或情境的延续或变化,用于揭示知识内涵的特征属性的状态,以及这些特征属性之间的关系都会随之演化的知识。动态知识广泛存在于各个领域。例如,对于电子政务领域中的电子档案来说,它往往是动态变化的:由于国内外形势的变化,各种政策的创建、修改甚至否定都非常普遍,如对于“住房问题”,中央曾经在2001年一个政策文件,湖北省针对这个政策文件在2002年制定了自己适合本省情况的省一级别的政策,其中包括对中央政策的贯彻,以及一些省一级的地方情况条款。2003年,湖北省又颁布了2002年政策的“增修条款”。这是一种动态知识。在数字图书馆服务领域,不同用户的位置、兴趣、爱好都会随着时间的变化而变化,最典型的是用户位置的变化,导致IP地址脱离原有机构的合法IP段,超出资源使用权限范围,需使用服务器或VPN的方式使用资源。这里,随着位置的变化,用户使用资源的方式不同,也是一种动态知识。实际上,随着语义网和本体技术研究的不断深入,已经在很多领域产生了应用,可以说语义网已经深入到了人类知识的方方面面。现在已经很难找到哪个领域可以宣称与语义网没有关系。如在生命科学领域(如大规模基因本体库)、出版领域(如DubinCore标准和知识分类本体库)、医疗保健领域(如癌症本体库)和文化传承领域(如博物馆与艺术家本体库等),就连在冷僻的领域如石油勘探与开采、红学研究、政治学分析等方面都有人在开发本体产品。这些领域同时也存在着大量的动态知识,动态知识无处不在,那么如何对动态知识进行有效的管理,从而为用户建立一个全新的个性化、专业化和智能化的服务机制是当前亟待解决的重要课题。

1.2语义网中的本体层功能定位

万维网之父TimBerners-Lee在1998年首次提出了语义网(SemanticWeb)的概念及其技术线路,2001年2月,W3C正式成立“SemanticWebActivity”来指导和推动语义Web的研究和发展,语义Web的地位得以正式确立,其后有大量研究人员和业界伙伴的参与。语义网是现有网络的延伸,在这样的网络中,信息都被赋予了明确的含义,使机器能够理解和自动处理网上可用信息,以便给用户提供更有针对性的网络信息,而不仅仅是显示数据而已。语义网的研究是一步步地推进的,每一步都要在前一层之上搭建新的一层,一般情况下,会有多个团队沿着不同方向研究同一个问题,由此产生的不同想法之间的竞争是科学发展的主要驱动力。对于语义网的体系结构,TimBerners-Lee用蛋糕层(TheSemanticWebLayerCake,该蛋糕图是2007年新给出的语义网层次图)的方式形象的作了解释:语义网中的层次关系是以XML和RDF/RDFS为基础,并在此之上构建本体和逻辑推理规则,以完成基于语义的知识表示和推理,从而能够为计算机所理解和处理。在这个层次结构图中,位于较高一层的能够解释和使用低层的信息,即向下可兼容性。例如,掌握OWL语义的具备足够的能力,可以充分利用由RDF和RDFSchema描述的信息;而且位于较低一层的能够部分的使用更高层的信息,即向上部分可理解性。例如,一个只掌握RDF和RDFSchema语义的可部分地解释用OWL表达的知识,而无视RDF和RDFSchema之上的其他成分。我们自下向上来看看每一层的功能:URI/IRI:URI(统一资源标识符)保证网上资源的惟一。IRI(国际化资源标识符)作为URI的泛化形式,提供的是对语义网资源加以惟一标识的手段。为了能够在顶部层面之中实现对于资源的可验证的操作处理,语义网需要惟一性标识机制。XML:语法层。XML解决基本语法(commonsyntax)问题,使每个人可以创造自己的标签来标注网页或网页的部分文本。XML允许用户为他们的文档添加结构信息,但并没有说明这些结构的含义。只有标签名并不能提供语义,所以在语义网结构中XML只是作为语法层,来为语义网的建立提供语法基础。RDF/RDFS:数据层。RDF利用三元组的方式定义和描述网络资源和元数据。RDFS在RDF基础之上为RDF提供基本词表,包括类结构定义、属性定义和属性约束等,它是一种原始的本体定义框架。OWL,Ontology:语义层(本体层)。OWL是RDFS的扩展,允许声明额外的约束,如基数、取值的限制,或者可传递性之类有关属性的特征。OWL建立在描述逻辑的基础之上,因而为语义网带来了推理能力。SPARQL:SPARQL可用于查询任何基于RDF的数据(也就是说,包括那些涉及到RDFS和OWL的声明)。要从语义网应用程序那里检索信息,查询语言是不可或缺的要素。UnifyingLogic:逻辑层。提供了基于本体层上的智能推理规则和方法,进而得到有用的语义信息。即对于没有显式定义的知识进行推理。Proof:提供逻辑验证。它跟踪逻辑推理过程,对逻辑推理结果的正确性进行验证。Trust,Crypto。对下层所有的内容进行数字签名,使得用户信任语义Web处理的结果和质量。主要包括:资源来源跟踪(Provenance),资源是谁定义的在哪里定义的;资源权威度认证(Certification,Authentication),资源是否是权威机构的(如果是则可信度高);资源权限隐私控制(Privacy,AccessControl)。UserInterface&Application:作为最后的层面,使人类用户能够使用语义网应用程序。从这个框架可以看出本体和语义网的关系:本体是语义网体系结构中的一个层次,语义网利用本体层来解决知识描述和与语义问题。通常我们所说的本体层,指的是OWL层,而RDF/RDFS也能够在一定程度上表达语义,因此也可以说RDF/RDFS属于本体层。对于语义网体系结构中的本体层来说,它只解决它这一层所能解决的问题,而其他关于逻辑和信任的问题都交给本体层的上层来解决。W3C联盟在制定本体描述语言RDF和OWL的时候,定位很明确,就是利用XML语法定义一种能够描述资源和资源之间关系的基本框架,从而达到知识的重用和共享。RDF/OWL很好的完成了本层的任务,并为上层提供了实现的基础。然而,RDF/OWL当初并没有考虑到动态知识和相对知识这些复杂知识形式的问题。这是本体不能很好的解决动态知识管理问题的原因之一。

1.3RDF对动态知识描述的不足

资源描述框架(ResourceDescriptionFramework,简称RDF)是一个用于表达关于万维网(WorldWideWeb)上的资源的信息的语言。RDF基本概念是资源、属性、陈述(statement)。其中资源是用Web标识符(称作统一资源标识符,UniformResourceIdentifiers或URIs)来标识的,属性是一类特殊的资源,用来描述资源之间的关系,也是用URI标识的,陈述用于描述资源所具有的属性,1个陈述是1个“对象———属性———值”三元组,由1个资源、1个属性和1个值组成,值可以是资源,也可以是文字(lit-eral)。在三元组表示法中,每个陈述都是由主体(sub-ject)、谓词(predicate)、客体(object)组成的,确切地说,关于事物的陈述中用于识别事物的那部分就叫做主体,而用于区分陈述对象主语的各个不同属性(譬如:作者,创建日期,语种等等)的那部分就叫做谓词,陈述中用于区分各个属性的值的那部分叫做客体。而且每一个三元组均对应于图中的一条弧,且这个弧的起始节点和终止节点分别是陈述中的主体和客体。由以上描述可知,RDF在设计时,就存在着先天不足。RDF是基于主语、谓语、宾语这样的三元组的方式来描述一个二元关系,RDFS和OWL都是基于RDF之上的扩展,通过使用一组描述逻辑词表,建立了分类、约束等推理机制,在知识描述能力上仍然等同于基于RDF的三元组描述。这种数据结构清晰简单,非常容易理解和使用,但是却不太适合描述复杂的动态知识。例如,对于历史领域“政治信仰”问题,对于建立的“eg:政治信仰”的这个属性,“eg:”(主语)的“eg:政治信仰”(谓语)是“eg:中国共产党”(宾语),“eg:”(主语)的“eg:政治信仰”(谓语)是“eg:中国国民党”(宾语),这些都没有什么问题,因为在任何时候,这两个人的政治信仰都是不变的,也就是说这些知识都是静态知识,适合使用RDF来描述。但是对于“叶挺”这个人物来说,他在“1919年”加入了“中国国民党”,又于“1924年”加入“中国共产党”。对于这种随时间而变化的动态知识,RDF无法直接描述。因为RDF三元组的主语、谓语和宾语已经用来描述“叶挺”的“政治信仰”了,没有办法对于“1919年”和“1924年”这两个时间进行进一步的直接的描述了。如果权宜去掉这两个时间约束,那么使用RDF建立的知识就是不完整的。由此可见,动态知识相对复杂的特点与语义网本体简单的知识描述模型产生了矛盾。这也是本体不能很好地解决动态知识管理问题的原因之二。

2国内外动态知识管理相关研究

2.1国外动态知识管理相关研究

根据语义Web顶级国际会议论文ISWC、ESWC以及ISKO国际会议论文的调查,国外研究起步于2003/2004年,已经有不少初步的成果和解决方案。但是这些方法的思路和实现各有千秋,目前并没有统一标准,也没有公认的具有决定性优势的解决方案。W3C在制定RDF/OWL规范的时候,也考虑到某些复杂知识描述的情况,动态知识就是其中重要的一种。因此,W3C也提出基于现有语义网框架的解决方案。比较典型的有2个:一是由W3C语义网活动小组之一的语义网最佳实现和部署工作组(SemanticWebBestPracticesandDe-ploymentWorkingGroup)针对语义网语言,如RDF和OWL中,1个属性是1个二元关系:它是用来连接2个个体或1个个体和1个值,而某些情况下,自然和方便的表示一定概念的方法是利用关系来连接1个个体和多个个体或值,提出了N元关系(N-aryRelations)的本体设计模式。用来指导本体库建设者如何在RDF/OWL框架下解决动态知识描述问题。其中主要有两种设计模式:关系类引入模式(Pattern1:Introducinganewclassforarelation)和关系参数列表模式(Pattern2:Usinglistsforargumentsinarela-tion)。这些本体设计模式并没有提出新的模型从根本上解决问题,只是针对动态知识的设计提出指导性建议。另一个是由W3C联盟语义网兴趣工作组(SemanticWebInterestGroup)于2004年提出的具名图(NamedGraphs)技术方案,将多个RDF图归并到单一的文件/库中,并且用URIs命名以达到RDF推荐之上的附加功能。具名图由1个RDF三元组和1个具有清晰的语法和语义属性的第四元组成。W3C联盟在2005年制定的本体检索语言SPARQL就支持这种“具名图”检索。DepartmentofCSEE,UniversityofMaryland和Knowl-edgeSystemsLaboratory,StanfordUniversity提出了“RDF分子”(RDFmolecule)的概念。RDF分子本质是本体三元组的扩展:如果三元组不包含匿名结点,那么这个三元组就是RDF分子;如果三元组包含匿名结点,必须把含有相同匿名本体的多个三元组组合起来形成RDF分子。他是“最小的无缺失的语义单元”。通过把本体文档拆分成“RDF分子”的集合,来追踪本体知识的出处,能够解决匿名本体的语义缺失问题。但是它的粒度还是太细,不太适合粗粒度本体知识管理。美国斯坦福大学知识系统实验室和IBM研究院,提出“上下文参数”(ContextArguments)的概念,通过对三元组添加第四个参数形成“四元组”(Quads)的方式表达上下文相关的相对知识。Franz的著名本体服务器AllegroGraph甚至引入了第五元结点来扩展三元组的逻辑结构。AllegroGraphRDFS-tore是一个现代化、高性能、持久RDF图数据库。Allegro-Graph使用基于磁盘的存储,使之扩展到可以存储数十亿的三元组,同时保持卓越的性能。除了上述应用项目外,国外也有部分论文对动态知识管理的相关问题进行了研究和探讨。OleksiyKhriyenkoandVaganTerziyan在RDF基础之上做了扩展,增加了“TrueInContext”组件,提出“语义背景描述框架ContextDescriptionFramework(CDF)”来描述动态知识和相对知识;OlenaKaykova,OleksiyKhriyenko等人也是在RDF基础之上做扩展,利用上层本体来描述动态知识或者是上下文条件的变化,提出“资源状态/条件描述框架”Re-sourceState/ConditionDescriptionFramework(RscDF);其后SergiyNikitin,VaganTerziyan等人还专门撰文,用RscDF来描述Web资源状态的变化及条件的变化,进而探讨了一种新的存储和管理动态知识的办法,从而达到查询动态知识的目的。PaoloBouquet、FaustoGiunchiglia等人在OWL语言的语法和语义规则基础上做了扩展,提出ContextOWL(C-OWL)丰富了OWL语言的语义,用来描述动态知识和相对知识。OlivierCorby在2007年也提出了RDF/SPARQL情境元数据设计(RDF/SPARQLDesignPatternforContextualMetadata)来解决动态知识元的问题。PieterDeLeenheer,AldodeMoor提出了DOGMA框架和方法来支持复杂的动态知识的管理,其中DOGMA框架不受限于任何一种特定语言,采用二层架构,即theLex-onBase(conceptualisation)和theCommitmentLayer(axi-omatisation),该框架中对于LexonBase的描述也使用了类似五元组的结构来表示动态知识。JacopoUrbani,Ales-sandroMargara等人针对网络上的内容极具动态性,如在线报纸、博客、社交网络等,都要经常变化,过时的内容要被移除,并用新的数据来替换,开发了一个原型系统Dy-namiTE,用以有效的计算当三元组增加或删除时,知识库中的实体变化过程。从上述研究可见,有的研究如CDF、RscDF、C-OWL等都是通过不同的方式扩展RDF或OWL词表来表示动态知识,有的研究是针对现有本体存储系统扩展第四元或是更多元设计来存储动态知识。不管是哪种理论或技术,都只是部分解决语义网下的动态知识问题,且只能解决某一方面的问题。目前仍然缺乏一个全面的、统一的、深入的动态知识解决方案。

2.2国内动态知识管理相关研究

国内对动态知识管理的研究起步比较晚,目前大多停留在理论探索及实验原型系统阶段,深入研究乃至真正投入应用的成果并不多。研究的目光主要集中在本体层和推理Logic层,也就是对于RDF/OWL标准本身的实现的研究,以及在此之上的本体推理机的应用研究。而关注推理层之上的Trust信任层则非常少。清华大学计算机系知识工程研究室,吴刚发表过1篇论文《细粒度语义网检索的研究》,主要讨论以本体元素为知识单元的细粒度知识检索模式和检索排序机制;廖良才、秦伟等人发表过《基于本体的动态知识管理系统》,针对现有知识管理系统知识组织的动态性不足以及知识结构缺少灵活性等问题:知识库组织形式单一固定,层次结构不明晰,知识的存储和检索都是静态的,无法在工作实践中根据新情况扩展知识类别及属性,动态参与性、交互性差;系统架构固定不可变,无法根据企业应用的实际情况灵活地配置系统、无法对知识结构内容进行自由扩充,适应性不强。提出了一个基于本体的动态知识管理(Ontology-basedDynamicKnowledgeManagement,ODKM)系统框架。李广建等人通过调研分析当前数据库出版商与收录在线电子期刊的情况,以此设计基于情景的知识库,通过设计网络蜘蛛抓取数据,自动构建知识库,并实现知识库的实时更新,最后给出基于情景知识库的工作原理及工作流程。李书宁根据数字图书馆的实践特殊需要确定用户情景敏感服务所要描述的情景类,利用OWL对这些情景进行本体建模,并提出用户情景敏感数字图书馆中间件系统框架。陆泉等人认为基于情感的图像检索研究是基于语义的图像检索中的最高层语义研究领域,他们全面梳理了基于情感的图像检索领域的已有研究工作,总结了基于情感的图像检索的关键性问题,并归纳比较了已有的图像情感标注方法,简要介绍了基于情感的图像检索系统框架,进而指出基于情感的图像检索研究的发展方向。武汉大学董慧、王菲等人,重点探讨了数字图书馆内的动态知识描述、动态知识演化过程的可视化显示等内容。

3结语

从国内外动态知识管理研究现状来看,主要呈现出3个不同的思路:一是在现有的语义网框架内来解决动态知识管理问题,但是在知识表达能力和知识推理功能上比较欠缺;二是通过引入新的类和属性来描述动态知识,但同时带来了很多的冗余数据,虽然知识描述的问题解决了,却给知识存储带来了困难,也为之后的知识检索服务造成了性能上的障碍;三是通过扩展三元组的物理结构,即引入第四元、第五元节点来接解决动态知识问题,但始终满足不了更为复杂的动态知识管理问题。当然现有的研究成果也有很多可以借鉴的地方,如在动态知识表示方面可采用扩展OWL词表的方式,在动态知识存储方面可选择既支持RDF三元组结构存储又提供扩展字段的服务器等等。语义网下的动态知识管理问题是当前语义实践的现实需求,鉴于本体不足以很好地解决动态知识管理问题,且语义网中目前尚缺少一个全面的、统一的动态知识管理问题解决方案。因此有必要深入分析语义网下动态知识的特点,结合现有语义网技术,提出一个更好的动态知识管理解决方案。

作者:周义刚 单位:北京大学图书馆