地理信息数字化描述方法范例6篇

地理信息数字化描述方法

地理信息数字化描述方法范文1

【摘  要  题】信息服务

[分类号]G255.54

数字化信息环境下的数字化参考咨询服务,不仅可以体现文献信息服务的专业化,自动化、智能化和知识化程度,同时能够更有效地帮助用户充分、高效地利用文献信息资源与服务。

随着数字化参考咨询服务和协作咨询服务网络的发展,需要研究和制订咨询系统和参考服务管理标准,以保证服务质量和系统的互操作。目前国内外很多网上参考咨询服务系统日益重视咨询服务及其管理的标准化问题,正在研究和制订一系列相关标准规范。

1 数字参考咨询标准研究概况

目前国内外数字参考咨询系统及其服务标准研究及其规范工作,主要集中在三个方面:

(1)专家或成员信息描述标准。用于识别咨询(学科)专家(馆员)或协作成员。

(2)知识库标准。主要用于收集、描述、加工、存储和共享问题和答案的知识库建设。

(3)问题传输协议。主要解决参考咨询服务机构之间的信息交换。

目前通常采用Web表单或者电子信箱等工具来处理这个问题。这意味着大量的数据的流动,包括从数据库或电子信箱中导出或导入。创建一种信息交互的无缝方式能够使信息共享更加容易,更加经济。

2 参考咨询标准内容研究

2.1 咨询数据库格式与标准

知识库的数据格式提供了广泛的问答知识的组织框架,以获取咨询业务中的知识层面的信息,定义参考咨询业务流程、管理和问答知识组织、描述、存取数据。知识库格式把参考咨询交互转换经过编目,并且能够妥善保存、便于编辑修改的可靠、严格的知识数据。制定知识库格式的基本原则是:必须能处理咨询业务中浓缩的信息比特内容;在形成对信息来源的选择和评价过程中,必须能将图书馆员的知识具体化。

目前,知识库标准主要包括知识内容、数据元素/元数据、过程维护和功能报告。内容包括一个问/答过程完成后的问题、答案、匹配和指示/链接。数据和元数据元素包括信息描述、问答记录、个人信息、权力管理、费用信息和回答者及资源的确认/证明。过程维护包括记录的更新、增加、删除和记录之间的相互参见。功能报告包括知识库记录的趋势、统计和分析。知识库标准可以与资源描述、质量、权限管理、隐私、版权、统计、鉴定和存档等方面的标准进行整合和协调。此外,需进一步研究与语言和文化、隐私、版权、行政权限以及文化、法律和政治敏感性等相关的标准。

专家与成员馆描述标准须考虑提问者的描述元素和答者的描述元素,以及二者的有机结合。可参考的模型有CPEX(Customer  Profile  Exchange)和CDRS.CPEX中划分类别包括/参与者/执行者(如统一标识符,国籍、角色)、联系方式、参与人数统计、交易对象参考、管理、交互历史、优先信息/约束以及司法和隐私限定。

交换协议包括描述过程模型,消息和功能,内容描述包。目前有许多现存的标准或推荐标准可以参考借鉴,或者可以与之整合、协调。如ILL、SOAP、QuIF、ISO2146、N-CIP、Z39.50等。需要研究和试验的内容包括:问/答交换模式的应用、元素和元数据交换性测试、参考咨询软件包之间的测试。协议标准的发展过程中对一些涉及国际性的问题比较敏感,如语言、时区和司法问题。

知识库格式与标准需要进一步解决的主要问题包括:版权、问题和答案的所有者、语言、文化、主题分类法的选择、采用受控词表还是自然语言等,知识库中提问信息之间的平衡、数据元素、权重、值是否正确及其表单设计等。另外,作为协作式参考咨询,需要解决合作型知识库系统、问题交换标准、资源共享、标准化的度量和计费系统。

数字参考咨询标准研究主要针对数字参考咨询过程中获取的数据进行描述、共享和存储说明。目前,美国ABC公司(AnswerBase  Corporation)和OCLC分别联合研究型图书馆和数字图书馆联盟(Digital  Library  Federation)研究提出了2个标准:KnowBit(KBIT)和QuIP。

(1)KBIT  数据库格式

KnowBit是一种管理咨询信息交互的标准数据格式。该格式为集成、可升级、链接和可扩展的数据标准,能够将各种信息成分组合到一个简单的格式中。它既包括对叙词表或分类词表的选择,还包括与MARC及其它标准有关字段的连接。KnowBit格式区分了问题的类型:原始问题,咨询过程问题和正式问题,并通过提问目的和所问问题类型来识别问题。描述字段可以对问题的地理范围,语种,版权状态和可获得状态进行识别。除此以外,采用主题分类,关键词术语,数据条目,著者和来源评价、数据频率等途径可以进行分类、评价和统计分析,为获取、识别、分类问题答案库中的信息提出了有效手段。KBIT数据格式具有多种特点。

(2)QuIP数据标准

QuIP是针对基于网络的数字化参考咨询服务的问题和答案内容描述的一个交换协议。以分布式协作型为基础,为Internet不同域的用户设计。QuIP是一种基于元数据的线程化的数据格式,能以统一的格式维护、跟踪、存储咨询服务的问题和答案。其核心是一个问答流。数字咨询交换是多个问题/答案的交互。这种交换可能是多个交互,包括问题主题和咨询人员或用户的变化或变更。QuIP是面向过程的。QuIP支持基于多个服务器的问题和答案序列的知识共享的发展,辅助平衡服务器之间的问题负载。QuIP有三个主要概念:元数据模式,语法绑定,协议集。QuIP可分为两个部分:

①元数据。确定数据存储、交换的结构和格式。

②协议。协议能够实现计算机到计算机的事务处理(如处理问题)和其它服务(如提问状态)。

3 问答知识元数据研究

3.1 数据元素特征

知识库格式和标准建有数据元素、字段或者数据词典,力图使问答过程的描述和数据库的存储格式化、标准化。

咨询问答过程(交互)中通常有若干个属性。每个属性可能会有子元素,或子属性。

以QuIP数据标准为例,可以得出知识库数据元素一般具备以下特征:

(1)数据元素是可强制、有条件或可选择的。

(2)数据元素可重复或不可重复。

(3)可预定元素值。

(4)元素和属性可扩展。

(5)建立一些控制元素。

(6)建立唯一识别符,一般分为“注册识别符”和“本地识别符”两种。

(7)建立注册信息元素。

3.2 数据元素设置

知识库格式一般由数据字段(即元素属性)和数据元素(即属性子元素)组成。根据目前已有的几个数字参考咨询数据库格式内容,通常数据字段分四个部分:问题字段、答案字段、成员描述字段和描述字段。

问题字段和答案字段十分相似,都有提问/回答跟踪、成员馆、控制、内容等几个部分。提问/回答跟踪字段有提问/回答代码、时间和日期标识等元素。成员馆字段主要有代码、电子信箱、网址,馆藏实力、馆员实力、回答范围、回答数量、份额、技术环境等元素。控制字段包括对问题难度、教育层次、提问/拒绝原因、词表、分类表,已查资源、时间限制的说明性元素。内容字段则包括具体问题/答案的内容、提问关键词、答案引文等元素。另外,问题字段还包括一个最终用户手段,对个体用户的说明。咨询服务(方)描述字段主要有名称、地址、电子信箱、网址、实力等元素。

目前OCLC提出的QP(Question  Point)元素和虚拟咨询台(VRD)研究的QuIP数据元素如下:

(1)QP  数据元素设置

OCLC的QP(Question  Point)数据库格式以及数据元素主要包括五个部分:

①用户、users/agents;

②成员档案数据库member  profile  database;

③提问管理器request  manager;

④知识库knowledge  base;

⑤服务水平协议service  level  agreement.其成员馆描述分为几个层次:没有或最少信息型、基本信息型、指导支持型、研究型、全面型。

QP也设置了问题字段和答案字段,分别对问题和答案的具体描述。问题字段包括问题内容、机构、提问文件、提问来源、教育水平、关键词、提问日期、主题、地理代号、机构代号、代号、提问原因、提问语言、已查资源等元素(或子元素)。答案字段包括答案内容、机构名称、答案状态、关键词、机构代号、回答日期、格式、答案语言、当前问答状态等元素(或子元素)。

(2)QuIP数据元素设置

虚拟咨询台(VRD)使用的QuIP数据元素按其间关系可以形成一个等级树状表。QuIP线程位于最上层,包括QUID标识号和问答交互(interchange)。QUID又分为注册号和本地号,交互流则包括次序、发起者、日期、状态,交互控制,主题、内容等几个部分。其中,发起者是对提问/回答的组织或个人情况的描述,有名称、地址、电子信箱、电话号码以及在问答过程中的角色(回答者的资格或资历、专业水平)等几方面。内容是对问答具体内容的描述,包括格式、语种、描述、信息正文四个方面。

2002年QuIP推出了2.0版的草案,对QuIP元素作了较大修改和精简。Interchanges用event代替,date用temporal  indicator代替,text用body代替。调整后的元素等级表更为简明清晰,主要由两个一类对象Profile和Event组成,把问答发起者、的描述和问答流的描述区分开来,这与CDRS的元素结构更接近了。Profile包括代码(PID)和描述内容(P_  Content)两部分;Event包括状态(State)、次序(Sequence)、内容(Content)、主题(Subject)、发起者(Actor)、时间标识(temporal  indicator)、控制(Restriction)等几个部分。其中,内容依旧由格式、语种、正文几方面组成。

3.3 数据元素与DC元数据的映射关系

DC(Dublin  Core)正在成为元数据的通用语言,因此在问答知识库元素与DC元数据间实现映射有一定的意义。VRD在制定知识库标准时就注意其QuIP元素与DC元数据的对应和映射。DC是对文件对象进行最基本的描述,而知识库是将一次问答交互等同于一个文件,对问答数据交互进行描述,所以二者之间不能进行简单的映射。另外,问答交互文件是动态的,在用户和服务器,服务器和服务器之间进行数据交换时,是不断变化的。DC元数据的特征之一就是可以根据特定的团体和应用需求进行扩展。因此,知识库的许多元素可以从DC中扩展而来,当然也有DC中不存在的元素。

3.4 问答数据的XML描述

问答数据可以用多种方式进行描述,并能基于不同协议进行传输。例如,具有自己的DTD文件,能与XML语言进行绑定。以QuIP为例:

QuIP的DTD片断:

<!——The  root  of  a  QuIP  threaded  interchange.——>

<!ELEMENT  QuIPThread(QUIP,Interchange+)>

<!——A  unique  identifier  of  thread.——>

<!ELEMENT  QUIP(QUIP_Registry_ID.Local_ID)>

<!——Basic  repeating  element  of  a  thread.——>

<!ELEMENT  Interchange

(Sequence,Instigator,Dates+,State?,Restriction  *,  Subject,Content+>

<!ELEMENT  QuIP_Registry_ID(#PCDATA)>

<!ELEMENT  Local  ID(#PCDATA)>

4 分布式参考咨询服务标准研究与设计

“分布式参考咨询服务系统”是中国科学数字图书馆研究项目。在考察了国内外分布式数字参考咨询系统的基础之上,针对我院文献情报系统网络文献信息服务的需要与发展,研究和设计了一个基于网络环境下的“分布式参考咨询服务系统。

系统建于通用性网络平台之上,整个参考咨询系统采用“咨询控制中心+成员馆”的模式。主要包括单馆式和实时参考咨询。系统集成二种参考咨询方式:脱机模式(Offline  interaction),实时联机(Real  time  interaction)。系统由读者服务系统和管理系统组成,读者服务系统能够提供:读者注册、我的问题、表单咨询、E-mail咨询、实时咨询、网站内容、咨询专家推介、问题征解,最新问题/答案列表、Q/A检索、FAQ、服务声明、系统帮助等功能。管理系统功能主要包括系统的服务与管理以及11个子系统的运行管理。

4.1 数据模型研究与设计

根据分布式数字参考咨询服务实际环境设计和建立系统数据标准。以元数据设计为基础,通过对分布式数字参考咨询过程、管理对象、对象与过程间关系、管理过程以及知识组织与利用进行分析和分解,建立了系统服务标准设计逻辑功能,并在此基础上构建了分布式数字参考咨询服务系统标准数据模型,基于这个数据模型,设计并建立了分布式数字参考咨询服务的整个业务流程管理、咨询专家(成员馆管理)调用、咨询质量控制与评价和知识信息组织与利用描述元数据标准与规范。分布式数字参考咨询服务及系统数据模型如图1:

附图

图1

4.2 数据库格式与标准研究与设计

为了保存和共享丰富、有价值的信息和学科专业知识以及专家资源,提高系统的自动化和智能化管理程度,提供更多、更便捷的信息和专业知识导航,系统按照上述数据模型,分析提出了实现业务流程、专家管理、质量控制、问答知识组织与利用等各个环节、过程的数据元素,形成了系统的数据文件模型,并在此基础上提出并建立了系统数据库格式与标准。

分布式参考咨询系统数据库格式和数据标准是基于元数据设计制定的数据格式与标准。数据标准结构主要包括答案表、问题分配表、分类表、专家表、问题征询表、成员馆表、读者表、问题请求表、主题词表等9个数据表。

(1)答案表的元素设计主要有:回答、请求、次序、专家、成员、回答类型、答案内容、语言、格式、版权、时间、参考资源、质量评价等。

(2)问题分配表数据员主要有:问题分配、请求、专家、分配时间、响应时间、完成时间、答复结果。

(3)分类表的数据元素主要包括:分类号,类别名称、类别等级等。

(4)专家表数据元素有:专家识别号、专家注册、密码、角色、专家姓名、成员、教育程度等。

(5)问题征询表元素主要包括:请求识别号、次序、出处,发起者、主题、全文等。

(6)成员馆表的数据元素有:成员馆识别号、成员馆名称、成员馆服务时间、成员馆数字参考URL、成员馆地址、电话等。

(7)读者表数据元素主要包括:读者识别号E-mail、密码、姓名、国别、地址、邮编、电话等。

(8)问题请求表数据元素有:请求识别号、读者识别号,成员识别号、分类号、问题主题、词汇、问题深度、问题难度,响应时间、处理状态、发表确认、问题IP地址等。

(9)主题词表数据元素主要包括:词表识别号、分类号、主题词。

在设计分布式参考咨询服务与管理数据标准时充分注意采用元数据标准和开放描述语言(例如DC元数据、XML、DTD)并保持与之直接对应关系,以增进系统数据标准的开放性和规范性。

4.3 咨询服务与管理数据元素著录规范

咨询服务与管理标准化工作将提高系统的流程管理与信息管理效率,增加网络参考咨询务工作中各个不同成员之间、不同平台与环境之间信息的互操作能力,提高参考咨询服务质量,保证问答知识库的数据质量,提高知识库的利用率和准确率,分布式参考咨询服务系统准备进一步研究和制定有关数据著录规范。

(1)知识库数据著录规范

问答知识库是由若干组经过核实、标引、编辑的问答记录所组成的可供检索的数据库。知识库可为读者和咨询专家提供答案检索服务,根据知识库的数据格式与标准要求,知识库的数据收入范围规定设计为:

①凡有保留价值的问题/答案须编辑处理、标引加工,存入知识库;

②凡属常见、常识性问题/答案应编辑处理、标引加工,存入知识库;

③凡属一般性科技知识类问题/答案应编辑处理、标引加工,存入知识库;

地理信息数字化描述方法范文2

[关键词]CDWA 《宋画全集》 元数据

[分类号]G254.364

随着数字化时代的到来,应用技术进步的成果使历史上的经典文献获得更大规模的传播成为一种趋势。无论是最初的古登堡数字图书馆,还是当前数字博物馆的兴起,都是以保存和共享人类文明成果为出发点的。除了文本文献之外,经典绘画作品也是重要的文化遗产。通过数字化保存,这些经典绘画作品可以被更多的学者研究,被更多的民众接受。

对经典绘画作品的数字化,信息技术的支持必不可少。但要达到对数字绘画作品高效检索的目的,使用户能从不同角度发现作品,拓宽研究视野,还必须准确描述、全方位揭示这些绘画作品。因而需要为此类数字图书馆选用合适的元数据标准,最好是成熟的业内标准。

如今,著录标引数字资源的元数据标准多样,最常见的如Dublin Core,MODS、RDA等均可以用于描述绘画作品的基本信息。但要达到深入揭示绘画作品、能为艺术研究服务的程度,还是需要CDWA和VRA Core这样专门用于描述艺术作品的元数据标准。在以宋代绘画作品为例、探索数字绘画作品组织的过程中,类目详尽的CDWA优势明显,再根据宋画特点加以选择,非常适合数字宋画作品研究级别的描述。

1. CDWA元数据标准概况

CDWA的全称是“艺术作品描述类目”(Categoriesfor the Description of Works of Art),它由盖迪基金会(J.Paul Getty Trust)及College Art Association联合资助的艺术信息工作组AITF(the Art Information TaskForce)制定。成立于20世纪90年代的AITF由提供和使用艺术信息的各团体代表组成,旨在促进艺术历史学家、艺术馆和信息提供者之间的交流。CDWA用于满足学术研究者等人员记录、保存、检索艺术信息的需求。它确定了能够兼容各种信息系统的内容描述框架,有利于保持数据的完整性,也便于长期保存和数据迁移。同时CDWA还制定了与其他元数据标准(Dub―lin Core、MARC/AACR、VRA等)的映射表,为实现数据的交换和共享奠定了基础,有助于CDWA的应用推广。

在CDWA的实体关系模型中,“对象/作品记录”实体与四个规范档实体(个人/团体规范档、地点/位置规范档、种属概念规范档、主题规范档)以及两个相关文献实体(相关影像文献、相关文本文献)关联,并且对象/作品与其他对象/作品也是有联系的。联系的广泛存在使得记录高度系统化,便于研究的引申。

CDWA将信息分为展示信息和检索信息两种。展示信息采用自由文本,旨在帮助终端用户阅读与理解艺术信息。而关键信息格式化后成为索引字段,便于检索。由编目员使用受控词汇来标引“索引字段”。受控词汇包括分类法、规范档等受控词表以及规范格式(如日期格式)。

CDWA类目和子类目的总数为532个,涉及艺术作品研究的各个方面。一小部分类目为核心类目,代表唯一识别和描述一个作品所需的最少信息。但这些核心类目在实际应用时可以根据具体任务的需求做出调整。

2. 应用CDWA标准描述数字宋画作品的主要原则

本项研究旨在为《宋画全集》丛书设计对应的图片数据库的资源描述方法。所描述的对象,是该丛书所收录的宋代绘画作品的数字化扫描图像。标引内容不仅包括原作,也包括图像本身;不仅描述原作本身可见的内容,还要揭示与之相关的作品、引用、收藏等其他信息。作为标引依据的宋画作品图像以及相关图版说明文字来源于《宋画全集》。

本研究制订的宋画元数据应用规范采用CDWA的实体关系模型,为作品、相关文献和规范档分别设置类目。由于CDWA类目众多琐细,在实际应用时不可避免地需要有所选择,在内容全面性和编目成本控制中寻求平衡。若类目过少,则不能达到深入揭示艺术作品、服务研究的目的;若类目过多,则编目成本过高,实际可操作性降低。根据《宋画全集》作品及图版说明所涉及的要素,在CDWA类目的基础上加以选择,最终确定宋画元数据应用规范的各级类目。

3. 宋画元数据应用规范

宋画元数据应用规范的类目分为三类:作品类目、相关文献类目、规范档类目。其中13个类目用于描述作品实体。每个类目使用子类目来描述对象,有些是核心类目,必须著录;有些是可选类目,依情况而定,但鼓励著录完整信息。大部分类目都有一个使用自由文本描述的子类目,用于概述与本类目相关的作品信息,展示给终端用户;同时提取其中的关键信息作为子类目,使用规范词汇控制,便于检索。所有类目下都有一个可选的“备注(Remarks)”子类目用于补充说明,以及“引用(citations)”子类目用于指明当前类目所记录信息的参考来源。以下主要列出与作品本身相关的描述性类目。所有实例均来源于《宋画全集》收录的作品。

3.1 作品类目

3.1.1 作品(Work)①目录级别(Catalog Level):指明当前记录的目录级别,由作品的物理形态或内容决定。核心类目,受控词汇。如:单件、集丛(其组成数量标识于“尺寸”类目)。②作品类型(Work Type):宋画的类型全部为“国画”。核心类目。

3.1.2 分类(Classification)类名(ClassificationTerm):作品所在类别的名称。核心类目。根据《宋画全集》的分卷原则,将作品分为七个类别:故宫博物院藏品、上海博物馆藏品、辽宁省博物馆藏品、博物院藏品、中国其他文化机构藏品、欧美国家藏品、日本藏品。

3.1.3 题名(Titles or Names)①题名文本(TitleText):所描述作品的名称。核心类目,自由文本。②题名类型(Tide Type):指明题名的类型。包括:叙述性题名、翻译题名、常用名、共同题名等。可选类目,受控词汇。③优先级(Preference):表明所著录名称是否为主要题名。可选类目。有两个选项:主要题名、交替题名。主要题名依据《宋画全集》各作品的标目名称。交替题名以书中出现的翻译题名和常用名等为准。④题名语种(Title Language):指明题名的语种。包括:中文、英文、日文等。可选类目,受控词汇。

示例:

题名:潇湘卧游图 优先级:主要题名 题名类型:叙述性题名 题名语种:中文

题名:Dreamed Journey over the Xiao and Xiang Riv―ers优先级:交替题名题名类型:翻译题名题名语种:英文

3.1.4 创作(Creation)

・创作者描述(Creator Description):对作品绘制及改动负责的个人或团体名称、简介及角色。核心类目,自由文本。它包括以下三个子类目:①创作者修饰词(Creator Qualifier):当作品创作归属不明确或有争议、存在多位创作者、需要解释时使用。如:仿、传。可选类目,受控词汇。②创作者标识(Creator Identity):将“创作者描述”中的每一位创作者索引化。核心类目,使用“个人/团体规范档”控制。当创作者不确定时,可以著录为:宋佚名、金佚名等(朝代+佚名)。③创作者角色(Creator Role):创作者在作品构思设计完成中的角色。核心类目,使用“种属概念规范档”进行控制。如:画者、委托人。

・创作时间(Creation Date):作品创作的时间。在《宋画全集》中主要表现为作品创作时所处的朝代名称,包括:五代、宋、辽、金。核心类目。

・创作地点(Creation Place/Original Location):作品创作时的所在地名称。可选类目,受控词汇。历史地名需要参照“地点/位置规范档”,与现地名对应起来。如:庆元府(现浙江宁波)

示例:

创作者描述:林椿(钱塘人,南宋淳熙(1174-1189)年间画院待诏)

角色:画者标识:林椿

创作时间:宋

3.1.5 风格/派别(Styles/Groups)①风格索引词(styles Indexing Terms):作品所体现的风格和派别。可选类目,使用“种属概念规范档”进行控制。如:江南画派、写实风格。对作品风格派别的详细讨论可在“附注”类目中进行。

3.1.6 尺寸(Measurements)①空间描述(Dimen-sions Description):作品的大小、形状等空间信息,包括作品的组成数量、高度和宽度。核心类目,自由文本。②空间类型(Dimensions Type):指明尺寸的种类,如:高度、宽度、数量等。可选类目,受控词汇。③空间值(Dimensions Value):指明尺寸的数值,便于进行数学处理。使用整数或小数,可选类目。④空间单位(Di―mensions Unit):指明尺寸的单位,通常是cm(厘米)。可选类目。⑤空间范围(Dimensions Extent):解释被度量的是作品的哪一部分。如:整体、各部。可选类目,使用“种属概念规范档”中的词汇进行控制。⑥形状(shape):描述作品的非规则形状。可选类目,受控词汇。如:团扇。

示例:

空间描述:10幅;各116.5×49.8 cm

范围:组成部分值:10 类型:数量|范围:各部值:116.5单位:cm类型:高度|值:49.8单位:cm类型:宽度

3.1.7 材料/技法(Materials/Techniques)①材料/技法描述(Materials/Techniques Description):组成作品的物理材料以及这些材料在创作中如何被使用的技法。材料包括媒介(墨或色)和支撑材质(绢或纸)。技法多体现为着色用墨方法,如渲染、晕染、没骨等,也包括界画等特殊的作画方法。核心类目,自由文本。②材料/技法标识(Materials/Techniques Flag):标明所描述的是材料还是技法。可选类目。有两个选项:材料、技法。③材料角色(Materials Role):标明所描述的是媒介还是支撑材质。可选类目。有两个选项:媒介、支撑材质。④材料/技法名称(Materials/TechniquesName):用于索引检索的作品材料及技法名称。可选类目,使用“种属概念规范档”进行控制。

示例:

材料/技法描述:设色绢本,建筑以工笔界画绘出

标识:材料 角色:媒介 名称:设色

标识:材料 角色:支撑材质 名称:绢本

标识:技法 名称:工笔界画

3.1.8印记(Inscriptions/Marks)①印记描述(In-scription Transcription 0r Description):作品的题跋、款识、鉴藏印记等附加标记的精确文本或解释描述。印记在作品创作时或之后由画家或收藏者等施加,对于作品鉴定具有重要意义。在此类目下可描述印记的内容、作者、材料、形状及位置等。可选类目,自由文本。②印记类型(Inscription Type):指明印记的类型。如:题跋、款识、鉴藏印记等。可选类目,受控词汇。③印记作者(Inscription Author):对作品印记负责的人名。可选类目,使用“个人/团体规范档”进行控制。④印记位置(Inscription Location):指明印记的位置。如:左下、中上、右、卷尾等。如有必要,可指明与主题事物的相对位置。可选类目,受控词汇。⑤印记语种(In-scription Language):指明印记的语种。如:八思巴。可选类目,受控词汇。⑥字体(Typeface/Letterform):指明印记的字体。字体具有美学意义并有助于印记的鉴定。如:瘦金书。可选类目,受控词汇。⑦印记标识(Mark Identification):用于索引检索的印记名称。可选类目,受控词汇。

示例:

印记文本或描述:图左竹叶下钤“绍勋”朱文葫芦印;图右钤“于腾之印”白文方印

类型:鉴藏印记 作者:史弥远(南宋) 位置:左竹叶下 标识:绍勋

类型:鉴藏印记作者:于腾(山东人,清)位置:右标识:于腾之印

3.1.9 主题(subject Matter)①概要主题词(Generalsubject Terms):作品所描绘事物的类别。如:山水、花鸟、人物、历史传说、宗教等。受控词汇,核心类目。②详细主题词(Specific subject Terms):作品所描绘的具体事物。如:人名、地名、物名、事件名等。可选类目,使用所有规范档进行控制。

示例:

概要主题词:花鸟

详细主题词:竹|梅|雀

3.1.10 附注(Descriptive Note)①附注内容(De-seriptive Note Text):阐述作品具有争议性的归属等历史问题、概述作品的主题内容及表现方法、探讨作品相对同一时期/派别其他作品的意义、讨论创作者的风格技巧及作品的代表性等等。所有不能在其他类目中详细说明的细节都可以著录在此类目中。可选类目,自由文本。如有引用,需在“附注”项的子类目“引用”中列出参考文献。

示例:

附注内容:此图以笔法考劲,色调淡雅见长,和其另一种细腻精丽的没骨法(如《果熟来禽图》画法不

同,说明林椿兼工两种画法。

引用:傅熹年,南宋时期的绘画艺术

3.1.11 相关作品(Related Works)①相关作品标识(Related Work Label/Identification):描述与当前作品相关的其他作品的概要信息。主要包括相关作品的题名、创作者、创作时间、现藏地。可选类目。此类目信息由系统提取相关作品记录的相应字段,无记录则采用自由文本。②作品关系类型(Work RelationshiPType):在当前作品及其相关作品的记录中著录它们之间对应的关系类型。如:当前作品的关系类型为“仿”,则相关作品的关系类型为“被仿”。若当前作品是组画、藏品集等总集的一部分时,当前作品的关系类型为“从属于”,而集丛作品的关系类型为“包含”。可选类目,受控词汇。

示例:

[当前作品为“出山释迦图”]

相关作品标识:雪景山水图;梁楷;宋;东京国立博物馆

作品关系类型:同组藏品

3.1.12 现藏地(Current Location)①现藏地(Cur-rent Repository/Geographic Location):目前拥有或控制作品的机构或个人名称,以及作品的地理位置。核心类目,使用“个人/团体规范档”及“地点/位置规范档”进行控制。如:纳尔逊一阿特金斯艺术博物馆(堪萨斯城,密苏里州,美国)、私人收藏(日本)

3.1.13 收藏历史(Ownership/Collecting History)①藏史描述(Provenance Description):作品自创作之时起至今的所有收藏者的历史。依时间序列排列,从作品已知的最早所有者直到现在。包括每一位的名称、收藏时间、地点及方式。可选类目,自由文本。②收藏者(Owner):某一时期持有作品的个人或团体名称。可选类目,使用“个人/团体规范档”进行控制,匿名私人收藏著录为“私人收藏”。

示例:

藏史描述:14世纪中叶,足利将军家(日本)。之后,若州酒井家(日本)。之后,日野原家(日本)。1991,日本文化厅从个人收藏家手中收购;1997,转给东京国立博物馆保管

收藏者:足利将军家|收藏者:若州酒井家|收藏者:目野原家|收藏者:日本文化厅|收藏者:东京国立博物馆

3.2 相关文献类目

相关文献包括相关文本文献和相关影像文献。“相关文本文献”为核心类目,任何对于了解作品具有重要参考价值或在著录作品时被参考的文本文献都可以记录于此,包括参考文献的类型及详细书目信息。图版说明在《宋画全集》中的卷次页码亦著录于此。而“相关影像文献”为可选类目。主要描述作品在《宋画全集》中所对应的图片信息,包括摄影者及图片所在的卷次页码。

3.3 规范档类目

规范档用于对作品记录及其他规范档进行词汇控制,包括个人/团体规范档、地点/位置规范档、种属概念规范档、主题规范档四种类型。它通过统一词汇名称,将具有不同名称的同一事物联系起来,同时与同名异类事物相区别。建立单独规范档的优点在于信息只需录入一次,就能被所有相关记录调用。规范档的所有信息来源于权威工具文献。规范词汇间一般具有等级关系或相关关系。

4. 结论

应用CDWA元数据标准来描述艺术作品及相关文献,并建立规范档,是为了在统一标准的背景下利用数字技术更好地服务于艺术研究。用户可以通过特定字段将具有类似特征的作品联系起来。例如,具有同样印鉴的作品;具有同样风格的作品;同一主题的作品;特定尺寸的作品;被同一收藏家收藏过的作品……

宋画元数据应用规范需要在实践中根据作品情况不断地予以补充修改,规范档记录也需要实践积累。本文作为初步探索,希望今后能有更多的研究来关注数字绘画作品的描述问题。

参考文献:

地理信息数字化描述方法范文3

论文关键词:心理预期;信息传播;图片;文字

1引言

心理预期也可以称为预期推理,即建立在背景知识基础上的对可能发生事件的内隐期望,是受众根据当前正在加工的信息来预测未来的事件”。对预期的研究对于理解人类的决策规律具有重要意义,因为决策的前提就是对被决策的事物形成一个预期,任何决策都是在一定的预期之下进行的,预期在个体的决策机制中担负着重要的角色,可以说它是影响受众做出决策的关键因素。

预期是基于信息的推理,影响心理预期的因素可分为信息因素和被试因素两个方面。信息因素包括信息的含量、信息的传递及呈现形式等;被试因素包括被试的背景知识、阅读技能,甚至被试的年龄焦虑状态等。本文关注的是信息的不同呈现方式对心理预期的影响。

长期以来,有关文字的阅读研究一直是心理学专家最为重视、投入精力最多的一个课题,而有关图形的研究却相对较少。近年来,人们开始对图形的研究进行了一定关注。沈德立等(2001)认为,与文字相比图片具有双重编码,而字词只是单一编码,因而图片便于记忆,更有优势效应。图片之所以具有优势效应是因为图片的视觉特征区分度较大。图形材料作为一种信息或对文字信息的诠释,具有直观、鲜明、生动的特点,更能被受众认知与把握。特别是在新闻报道中,新闻摄影以其独特的报道方式与强烈的视觉冲击,达到“一图胜千言”的效果。最近一项调查表明,当今我们对社会信息的获得,60-70%的方式是图像的方式。

本研究探讨的主要问题就是图片、文字这两种不同的信息传播方式对预期结果的影响有何不同。

预期结果包括很多方面,本研究将重点放在了预期结果的一致性、感受等个方面,即:群体对某一特定信息做出预期的一致程度是否因信息传播方式的不同而产生差异(一致性);不同的信息传播方式对受众心理预期的刺激强度是否也会不同(感受性)。在本研究中,因为预期的结果在本研究中通过问卷的答案体现,研究者通过观察两组答案的分布特点(一致性)、数量值上的差异(感受性),来观察不同的信息传播方式对预期的影响。具体为两个问题:两者对预期结果的一致性存在什么样的影响;两者对预期结果的感受性存在什么样的影响。

2研究方法

2.1被试

本研究采用整群抽样,被试共79名,均为男性,年龄在l8到24岁之间。参加填写问卷的个体必须符合以下要求:初中以上文化水平,视力或矫正视力正常。被试随机分配到图片组或文字组,经检验,两组被试在年龄和文化水平方面不存在显著差异。

2.2研究工具

本研究采用自编问卷材料。问卷分为两套,一套为图片问卷,共15题。每题都是一张描述特定场景的图片,然后是与这张图片相关的一个问题及七个选项。另一套为文字问卷,与图片问卷不同之处就在于它不是用图片描述特定场景,而是用一段描述性的文字代替图片描述特定场景。

两套问卷除了场景的描述方式不同,一个用图片说明一个用文字描述,其余全部相同。为了排除答题倾向的干扰,问卷中半数的问题选项逆序排列,两套问卷逆序排列的题号及排列顺序一致。

2.3程序

2.3.1问卷的编制

本次研究以自编问卷为主。具体过程如下:

首先,选择图片材料并生成相应的文字描述。对入选图片的基本要求是:有一定情节(独立性),可以用简单语言进行描述,有较明显的预期感受性。以基本要求为标准,共选定33张图片作为初步人选图片。然后,由6名大学生对图片进行描述,如果大多数人对图片的描述基本一致,则符合研究目的,反之则不符合。结果33幅图片中有5幅不符合要求,l幅与研究者假设方向相反,所以有6幅图片被淘汰。由3名大学生对选定图片进行描述。(指导语为:“请你对每张图片进行描述,在描述过程中将你观察到的全部信息尽可能详细的记录下来。可以用词语、短句,尽可能不用长句,不要使用否定句和疑问句。”)为避免研究者的主观性,将3名学生的描述结果交由另一名没有参加过前两次实验的大学生进行汇总,汇总要求是:将3名学生的描述结果相同的合并、不同的接受,不要漏掉任何有关信息。这样做是因为每名学生的描述都是客观上用于判断的图片信息的真子集,如果将他们的描述中相同的合并、不同的接受,那么这个并集会越来越接近全集,即文字问卷中每题的信息含量最大限度地接近图片问卷中每题图片给予的信息(有关图片问卷和文字问卷信息量对等的问题在第五部分综合讨论中会详细阐述)。在此基础上删去描述不清楚的图片,结果有9张图片无法准确描述被删去,最终确定15张图片做题目,3张备用。

然后,编订问卷的问题及选项。问卷问题由研究者根据最初选定图片时对图片预期的假设而编订的,并根据每个问题编制十余个备择选项。而后选取6名大学生(没有参加过以前任何试验),让他们看图对问题进行选择,目的是选定选择项的量程范围,缩小选择项之问的尺度跨度,使之更精确。在确定选择项的数量值范围之后,对于选择项为数字的那部分题目,将其在这个范围内按对数关系计算出五个数据点,加上已确定的最大值及最小值,共七个数据点,设为七个选项;选择项为文字的那部分题目,将其在数量值范围内按程度从低到高划分为七个等级,设定为七个选项。

2.3.2实施调查

对79名青年男性进行了调查施测,采用团体施测方式,分两次进行,每名被试随机分入图片组或文字组。测试指导语均为书面形式,具体如下:“请你根据以下陈述的事件(给予的图片),对相关问题进行一个推测,在1—7个选项中选出一个与你的推测最相近的答案。注意:根据上文给予的有限信息推测每个问题,只认为事件是在一般情况下发生,不考虑特殊情况。”

3结果

3.1数据的预处理和项目的筛选

用Pearson系数以及每道题与问卷每题总分相关分析了图片、文字两套问卷的信度。其中,在图片问卷中第一题的相关系数为0.205,第二题为一0.122,第四题为一0.049,文字问卷中第一题的相关系数为0.179,第二题为0.314,第四题为0.241,这三题在两套问卷中的相关显著性都大于0.05,对问卷统计结果没有意义,所以保留其余12题的结果进行分析。

3.2预期结果的一致性

首先考察在不同信息传播方式的影响下受众预期结果的一致性有何差异。预期结果的一致性是指受众选择答案的分布的离散程度是否相同,采用方差齐性检验法。结果见表1

从表1可见,对于大多数项目来说,文字问卷的方差都大于图片问卷,其中有6个项目存在显著差异,其余项目不存在显著差异。

3.3预期结果的感受性

预期结果的感受性是指受众对图片或者文字描述的心理感受程度,以及根据这个感受程度做出的预期推理。本研究通过研究受众对问题预期推断的结果来观察受众的心理感受程度。具体分析方法为:首先,计算出各名被试的总得分,即将每份问卷的答案相加(逆序编排答案的题目先进行校正),结果见表2;其次,将两组中各名被试的得分进行独立样本平均数差异的显著性检验。

检验结果为:t(77)=5.258,p<0.001,表明图片、文字两种信息传播方式对受众感受性的影响存在显著性差异,受众对图片材料的感受性高于文字材料。

4讨论

通过以上数据可知,图片、文字两种信息传播方式对受众心理预期产生了显著的影响,这主要体现在两个方面:预期结果的一致性和预期结果的感受性。

对于预期结果的一致性,目前的数据结果还不能做出确凿的结论。从表1可知,在绝大多数项目上,图片问卷组的方差要小于文字问卷组的标准差,这意味着在绝大多数情景下,图片材料对受众心理预期的影响更加一致。但是,由于每个项目都是采用7点计分,两种情况下的方差很难出现很大的差别。就本研究的结果来说,只有大约二分之一的项目出现了显著差异。不过,在所有项目中,除了第二题和第三题,其余各题的方差都是文字问卷的大于图片问卷的。这种明显“一边倒”的情况是值得关注的。

在预期结果的感受性方面,本研究统计结果表明,图片问卷和文字问卷之间存在显著差异,图片材料对被试心理预期的影响大于文字材料。两组问卷对被试心理预期的影响之所以存在如此大的差异,很大程度上是因为两种认知过程之间的差异。图片中的信息传输给被试时是并行式的,而文字描述中信息传输的形式是串行式的。被试在接收图片信息的冲击时是同时处理多个信息,而文字信息在被试脑中的处理过程是按顺序逐一接收信息再统一整合,所以图片信息给受众的冲击力要强于文字信息,这也就是图片组的感受性明显高于文字组的一个重要原因。

在探讨图片、文字两种信息传播方式对心理预期的影响时,信息量是否对等是特别值得关注的问题。如果图片问卷和文字问卷在场景信息方面存在信息含量不对等,就会直接影响被试的选择,在这种情况下,两组被试选择结果的差异就有可能是由信息量的不对等引起的,而不能完全归因于两种信息传播方式之间的差异。本研究在问卷编订的全过程中力求在操作层面上尽可能地减小或者消除这种不对等。本研究的文字描述是来源于图片,所以某一名被试的描述只可能是图片包含的所有信息量的一个子集。将所有被试的描述结果整合到一起,这样也就做到了文字描述和图片的信息含量尽可能地相似。

本研究的意义在于它将心理预期这个心理现象量化,使其具有了可操作性。心理预期是一种心理现象、心理范畴,在以往的研究中,心理预期只是作为一个整体概念被人们研究。而在本研究中,研究者通过心理感受等级将心理预期划分为若干个等级,便于实验的操作、数据的对比及分析。

地理信息数字化描述方法范文4

论文关键词:心理预期;信息传播;图片;文字

1引言

心理预期也可以称为预期推理,即建立在背景知识基础上的对可能发生事件的内隐期望,是受众根据当前正在加工的信息来预测未来的事件”。对预期的研究对于理解人类的决策规律具有重要意义,因为决策的前提就是对被决策的事物形成一个预期,任何决策都是在一定的预期之下进行的,预期在个体的决策机制中担负着重要的角色,可以说它是影响受众做出决策的关键因素。

预期是基于信息的推理,影响心理预期的因素可分为信息因素和被试因素两个方面。信息因素包括信息的含量、信息的传递及呈现形式等;被试因素包括被试的背景知识、阅读技能,甚至被试的年龄焦虑状态等。本文关注的是信息的不同呈现方式对心理预期的影响。

长期以来,有关文字的阅读研究一直是心理学专家最为重视、投入精力最多的一个课题,而有关图形的研究却相对较少。近年来,人们开始对图形的研究进行了一定关注。沈德立等(2001)认为,与文字相比图片具有双重编码,而字词只是单一编码,因而图片便于记忆,更有优势效应。图片之所以具有优势效应是因为图片的视觉特征区分度较大。图形材料作为一种信息或对文字信息的诠释,具有直观、鲜明、生动的特点,更能被受众认知与把握。特别是在新闻报道中,新闻摄影以其独特的报道方式与强烈的视觉冲击,达到“一图胜千言”的效果。最近一项调查表明,当今我们对社会信息的获得,60-70%的方式是图像的方式。

本研究探讨的主要问题就是图片、文字这两种不同的信息传播方式对预期结果的影响有何不同。

预期结果包括很多方面,本研究将重点放在了预期结果的一致性、感受等个方面,即:群体对某一特定信息做出预期的一致程度是否因信息传播方式的不同而产生差异(一致性);不同的信息传播方式对受众心理预期的刺激强度是否也会不同(感受性)。在本研究中,因为预期的结果在本研究中通过问卷的答案体现,研究者通过观察两组答案的分布特点(一致性)、数量值上的差异(感受性),来观察不同的信息传播方式对预期的影响。具体为两个问题:两者对预期结果的一致性存在什么样的影响;两者对预期结果的感受性存在什么样的影响。

2研究方法

2.1被试

本研究采用整群抽样,被试共79名,均为男性,年龄在l8到24岁之间。参加填写问卷的个体必须符合以下要求:初中以上文化水平,视力或矫正视力正常。被试随机分配到图片组或文字组,经检验,两组被试在年龄和文化水平方面不存在显著差异。

2.2研究工具

本研究采用自编问卷材料。问卷分为两套,一套为图片问卷,共15题。每题都是一张描述特定场景的图片,然后是与这张图片相关的一个问题及七个选项。另一套为文字问卷,与图片问卷不同之处就在于它不是用图片描述特定场景,而是用一段描述性的文字代替图片描述特定场景。

两套问卷除了场景的描述方式不同,一个用图片说明一个用文字描述,其余全部相同。为了排除答题倾向的干扰,问卷中半数的问题选项逆序排列,两套问卷逆序排列的题号及排列顺序一致。

2.3程序

2.3.1问卷的编制

本次研究以自编问卷为主。具体过程如下:

首先,选择图片材料并生成相应的文字描述。对入选图片的基本要求是:有一定情节(独立性),可以用简单语言进行描述,有较明显的预期感受性。以基本要求为标准,共选定33张图片作为初步人选图片。然后,由6名大学生对图片进行描述,如果大多数人对图片的描述基本一致,则符合研究目的,反之则不符合。结果33幅图片中有5幅不符合要求,l幅与研究者假设方向相反,所以有6幅图片被淘汰。由3名大学生对选定图片进行描述。(指导语为:“请你对每张图片进行描述,在描述过程中将你观察到的全部信息尽可能详细的记录下来。可以用词语、短句,尽可能不用长句,不要使用否定句和疑问句。”)为避免研究者的主观性,将3名学生的描述结果交由另一名没有参加过前两次实验的大学生进行汇总,汇总要求是:将3名学生的描述结果相同的合并、不同的接受,不要漏掉任何有关信息。这样做是因为每名学生的描述都是客观上用于判断的图片信息的真子集,如果将他们的描述中相同的合并、不同的接受,那么这个并集会越来越接近全集,即文字问卷中每题的信息含量最大限度地接近图片问卷中每题图片给予的信息(有关图片问卷和文字问卷信息量对等的问题在第五部分综合讨论中会详细阐述)。在此基础上删去描述不清楚的图片,结果有9张图片无法准确描述被删去,最终确定15张图片做题目,3张备用。

然后,编订问卷的问题及选项。问卷问题由研究者根据最初选定图片时对图片预期的假设而编订的,并根据每个问题编制十余个备择选项。而后选取6名大学生(没有参加过以前任何试验),让他们看图对问题进行选择,目的是选定选择项的量程范围,缩小选择项之问的尺度跨度,使之更精确。在确定选择项的数量值范围之后,对于选择项为数字的那部分题目,将其在这个范围内按对数关系计算出五个数据点,加上已确定的最大值及最小值,共七个数据点,设为七个选项;选择项为文字的那部分题目,将其在数量值范围内按程度从低到高划分为七个等级,设定为七个选项。

2.3.2实施调查

对79名青年男性进行了调查施测,采用团体施测方式,分两次进行,每名被试随机分入图片组或文字组。测试指导语均为书面形式,具体如下:“请你根据以下陈述的事件(给予的图片),对相关问题进行一个推测,在1—7个选项中选出一个与你的推测最相近的答案。注意:根据上文给予的有限信息推测每个问题,只认为事件是在一般情况下发生,不考虑特殊情况。”

3结果

3.1数据的预处理和项目的筛选

用Pearson系数以及每道题与问卷每题总分相关分析了图片、文字两套问卷的信度。其中,在图片问卷中第一题的相关系数为0.205,第二题为一0.122,第四题为一0.049,文字问卷中第一题的相关系数为0.179,第二题为0.314,第四题为0.241,这三题在两套问卷中的相关显著性都大于0.05,对问卷统计结果没有意义,所以保留其余12题的结果进行分析。

3.2预期结果的一致性

首先考察在不同信息传播方式的影响下受众预期结果的一致性有何差异。预期结果的一致性是指受众选择答案的分布的离散程度是否相同,采用方差齐性检验法。结果见表1

从表1可见,对于大多数项目来说,文字问卷的方差都大于图片问卷,其中有6个项目存在显著差异,其余项目不存在显著差异。

3.3预期结果的感受性

预期结果的感受性是指受众对图片或者文字描述的心理感受程度,以及根据这个感受程度做出的预期推理。本研究通过研究受众对问题预期推断的结果来观察受众的心理感受程度。具体分析方法为:首先,计算出各名被试的总得分,即将每份问卷的答案相加(逆序编排答案的题目先进行校正),结果见表2;其次,将两组中各名被试的得分进行独立样本平均数差异的显著性检验。

检验结果为:t(77)=5.258,p<0.001,表明图片、文字两种信息传播方式对受众感受性的影响存在显著性差异,受众对图片材料的感受性高于文字材料。

4讨论

通过以上数据可知,图片、文字两种信息传播方式对受众心理预期产生了显著的影响,这主要体现在两个方面:预期结果的一致性和预期结果的感受性。

对于预期结果的一致性,目前的数据结果还不能做出确凿的结论。从表1可知,在绝大多数项目上,图片问卷组的方差要小于文字问卷组的标准差,这意味着在绝大多数情景下,图片材料对受众心理预期的影响更加一致。但是,由于每个项目都是采用7点计分,两种情况下的方差很难出现很大的差别。就本研究的结果来说,只有大约二分之一的项目出现了显著差异。不过,在所有项目中,除了第二题和第三题,其余各题的方差都是文字问卷的大于图片问卷的。这种明显“一边倒”的情况是值得关注的。

在预期结果的感受性方面,本研究统计结果表明,图片问卷和文字问卷之间存在显著差异,图片材料对被试心理预期的影响大于文字材料。两组问卷对被试心理预期的影响之所以存在如此大的差异,很大程度上是因为两种认知过程之间的差异。图片中的信息传输给被试时是并行式的,而文字描述中信息传输的形式是串行式的。被试在接收图片信息的冲击时是同时处理多个信息,而文字信息在被试脑中的处理过程是按顺序逐一接收信息再统一整合,所以图片信息给受众的冲击力要强于文字信息,这也就是图片组的感受性明显高于文字组的一个重要原因。

在探讨图片、文字两种信息传播方式对心理预期的影响时,信息量是否对等是特别值得关注的问题。如果图片问卷和文字问卷在场景信息方面存在信息含量不对等,就会直接影响被试的选择,在这种情况下,两组被试选择结果的差异就有可能是由信息量的不对等引起的,而不能完全归因于两种信息传播方式之间的差异。本研究在问卷编订的全过程中力求在操作层面上尽可能地减小或者消除这种不对等。本研究的文字描述是来源于图片,所以某一名被试的描述只可能是图片包含的所有信息量的一个子集。将所有被试的描述结果整合到一起,这样也就做到了文字描述和图片的信息含量尽可能地相似。

本研究的意义在于它将心理预期这个心理现象量化,使其具有了可操作性。心理预期是一种心理现象、心理范畴,在以往的研究中,心理预期只是作为一个整体概念被人们研究。而在本研究中,研究者通过心理感受等级将心理预期划分为若干个等级,便于实验的操作、数据的对比及分析。

地理信息数字化描述方法范文5

【关键词】异构数据 本体 描述模型 映射 通用访问

1 引言

随着近年来网络技术的快速发展,各领域之间数据共享的需求日益增强,在网络基础设施日益完善的前提下,如何对不同行业和格式的数据资源进行统一访问和集成使用就成为了关键的问题。

国内外对于异构数据库数据的集成近期提出了ETL(数据抽取、传输、加载)机制,在实现中采用XML(可扩展标记语言)实现通用的数据交换,利用全局逻辑视图或者集成的综合数据库的方式实现对各类异构数据资源的集成。本文通过定义数据本体,设计了一种通用的数据访问方法,建立不同的数据资源与本体之间的映射,使得综合系统直接访问各个异构业务数据库,从而提高数据的使用效率,降低数据冗余。

通用数据访问面向的异构数据具有海量、多元、复杂、动态、移动、实时等特征,为了更好的解决异构数据资源的访问、集成和展现,在设计与实现通用数据访问系统时,必须提供用户对异构数据源透明、一致和实时的访问能力:

(1)透明性,是指屏蔽底层数据源的差异,从用户的角度看来,得到的数据不是来自于若干个数据源,而是一个数据源;(2)一致性,是指消除数据源之间的存在的结构异构和语义异构;(3)实时性,是指访问到的数据是最新的数据,并且对数据库中实时变化的信息能够及时地捕获与展现。

2 总体思路及架构

基于本体的通用数据访问方法面向图形化的数据展现,快速的从异构数据资源中抽取出适用的对象,对其进行统一管理,并借助地理信息系统或表单显示工具向用户提供清晰直观的数据展现。其主要解决异构数据的统一使用问题,在避免数据格式转换带来大量工作的前提下,实现数据的动态加载,保证应用系统与底层数据资源的分离,同时具有良好的扩展性,在数据种类发生变化时,只需要通过工具界面配置,就能够快速加载新增的数据资源。

基于本体的通用数据访问方法采用分层的体系结构,下层软件给上层软件提供运行支撑或输入,共分为四层,从底到顶分别是:本体定义及管理层、元数据映射层、数据访问层和数据展现层。

2.1 本体定义及管理层

本体定义及管理层主要负责建立基于本体的统一数据描述模型,并制订出一套对该数据描述模型的访问接口规范,是整个方法实现的核心和基础。

2.2 元数据映射层

元数据映射层主要实现数据的灵活配置,通过人工界面配置的手段在数据库元数据与统一数据描述模型之间建立对应关系,并把映射关系保存为XML文件,供通用数据访问软件读取。

2.3 数据访问层

数据访问层主要完成对数据库中实际数据的读取和输出。通用数据访问软件在实现时遵循本体定义及描述层制订的规范,内部的数据组织关系来自于元数据库映射层生成的映射关系XML文件。

2.4 数据展现层

数据展现层主要包括两种展现手段:基于地理信息的图形化显示工具和表格形式的表单显示工具。数据展现层属于业务应用范畴,主要需要考虑的是基于地理信息系统(GIS)的数据表现以及海量数据高性能显示的问题,与通用数据访问的实现没有直接关系,因此在本文中不对这部分的实现进行讨论。

3 关键技术及实现

3.1 统一数据描述模型

统一数据描述模型的内容包括图层公共信息(本体)和特征属性族,各类异构的数据在按照统一数据描述模型表述为本体和特征属性族的过程中,消除其原有的异构性,形成统一的数据表述。统一数据描述模型主要由图层公共信息和一组特征属性族组成。

统一数据描述模型确定种类繁多的数据信息之间存在的内在共同点,建立图层公共信息的统一描述。

图层公共信息:

其中标识属性、空间位置属性、时间属性以及符号属性,这几个属性的组合体现了数据对象在全维图形上的基本价值。

在统一数据描述模型中除了建立统一的图层公共信息描述以外,还借鉴可扩展标记语言的思想,建立了一个对象特征属性族描述方法,用来存放每类数据对象的具体属性项。该属性族由数据对象的类型确定,其可扩展的特性保证了每一类数据对象信息项的完整,同一类对象属性族项的数量和构成保持一致。特征属性族定义:

3.2 数据图层映射转换

采用根据数据库中字段的取值确定图层对象的动态映射机制,并提供多种方法来规范映射,提供了语义映射机制,通过将数据库字段与统一数据描述模型中的属性建立字段映射机制;采用数据库数据到图层对象的语义映射,提供量纲映射机制,通过规范数据库中数据到图层对象的取值处理标准,提供多种量纲转换机制,如经纬度的转换机制和时间格式转换机制等等;采用字段映射机制或条件映射机制来处理图层显示属性,如果显示属性采用字段映射机制进行配置处理,那么将使用配置字段的取值进行显示处理;如果显示属性采用条件映射机制进行配置,那么在进行显示处理时,将对这组字段的取值进行判断,符合某组合的取值,则用该组合的设置值进行显示,没有符合的条件组合就是用默认值进行显示。

4 结束语

本文的研究对象主要是针对数据库形态的数据资源,而文中提出的方法对其他形态的数据资源也同样适用,因此,后续的工作将以建立各种形态数据资源统一访问的软件系统为目标。

参考文献

[1]缪嘉嘉,邓苏,刘青宝.E T L综述计算机工程,2004(2).

[2]沈镭.基于XML的异质多数据库集成系统的设计与实现[J].河南大学学报(自然科学版),2007(9):530-532.

[3]吴姗姗,彭向阳.基于XML的通用数据库访问引擎的设计与实现[J].指挥信息系统与技术,2010(01).

作者简介

张金登,(1979-),男,高级工程师,研究方向为指挥信息系统总体技术。

施晓东, (1976-),男,高级工程师,研究方向为指挥信息系统总体技术。

李晓杰, (1975-),男,工程师,研究方向为指挥信息系统总体技术。

地理信息数字化描述方法范文6

【内容提要】根据国家科学数字图书馆(csdl)分布式学科信息门户及其学科信息导航系统建设的总体要求,描述了学科信息导航系统中资源选择、资源搜寻策略、元数据、知识组织体系、维护使用管理机制等的设计规范及其开放描述要求。

【摘 要 题】信息资源建设

【关 键 词】国家科学数字图书馆/学科信息门户/学科信息导航/设计规范

中国科学院国家科学数字图书馆(csdl)工程的一个重要任务是建立权威、可靠的学科信息门户体系。本文首先简要分析学科信息门户的基本形态和csdl学科信息门户建设要求,然后介绍csdl学科信息门户中网络信息导航系统的选择规则、搜寻策略、内容描述机制、组织体系描述机制、组织管理机制的设计规范及其开放描述要求。

1 学科信息门户形态

学科信息门户致力于将特定学科领域的信息资源、工具与服务集成到一个整体中,为用户提供一个方便的信息检索和服务入口。学科信息门户经历了不断发展和深化的若干形式:

(1)以网络学科信息导航为主的学科信息门户,提供权威、可靠、规范和可持续的网络信息资源选择、描述和检索[1-3],例如sogig(http://www.sosig.ac.uk/)、ahds(http://www.ahds.ac.uk/)、biz/ed(http://www.bized.ac.uk/)、eels(http://eels.lub. lu.se/)、geoguide(http://www.geo-guide.de/)、mathguide (http://www.mathguide.de/)、martindale's reference desk(http: //www-sci.lib.uci.edu/hsg/ref.html)、omni(http://www.omni.ac. uk/)、wwwvirtual library(http://www.vlib.org/overview. html)等,成为相关学科领域的核心和可信赖的信息门户。

(2)以专业机构或图书情报服务系统为基础的信息门户, 根据专业机构性质或其信息服务要求,将各类资源(包括网络资源、数据库、文件系统、知识库、指南手册等)组合在统一门户下向用户提供服务,其中部分门户可支持横向整合检索、参考文献链接、用户虚拟社区等功能。

(3)基于跨学科门户检索的学科门户体系, 支持多个学科信息门户之间的整合检索,例如crossroads[4]、issac network[5]、imesh[6]、elt[7]系统。

(4)基于门户体系的数字信息服务机制, 将多个分布门户(主要是学科信息门户)作为整个数字信息资源的整合机制和服务渠道,让用户通过门户体系方便地搜寻、调用和利用各种不同的信息资源和服务,例如英国jics的distributed national electronic resources (dner)[8]和美国nsf的national smete digital library(nsdl)[9]。

(5)开放数字信息服务机制, 不但支持基于学科信息门户的资源与服务集成,还进一步支持按照用户个性化需要定制信息门户,根据逻辑业务流程整合多个信息服务环节,支持多个信息门户之间的开放集成与定制[10],这方面的技术包括open digital libraries、openlinking和open metadata机制,而且基于分布web 服务的开放电子商务关键技术(ebxml[11]体系和web services[12 ]机制)也可在开放学科信息门户中得到应用。

通过这些努力,可以通过学科信息门户来逻辑地灵活地整合、可靠地组织、无缝地链接用户所需的信息资源和信息服务,并支持用户在它们基础上的个性化集成定制,从而将一个分布和纷杂的信息空间组织成一个方便的用户信息系统。

2 csdl学科信息门户建设

csdl将从开放数字信息服务机制出发,建立多个分布的学科信息门户网站,提供权威和可靠的学科信息导航,整合学科信息资源与服务系统,并逐步支持开放式集成定制。具体地:

(1)提供学科信息导航:针对专业研究型用户的需要, 建立可靠覆盖国内外本学科的权威的专业信息资源的规范导航系统,采取标准元数据来深入描述信息资源,采取规范知识组织体系对所收集资源进行组织,提供多层次信息检索和浏览功能,支持分布式信息资源选择、描述和组织,支持定期数据自动检验和计算机辅助更新。

(2 )实现学科信息横向整合:在学科信息门户内横向整合本学科领域的各种文献信息资源系统(包括二次文献数据库、全文数据库、联合目录、馆藏目录、馆际互借和全文传递等相关服务系统),提供分布资源的集成界面,并逐步实现同构和异构数据库的整合检索。

(3 )实现学科信息纵向整合:在学科信息门户内纵向整合本学科领域的各种文献信息服务过程(包括文献检索、全文获取、馆藏资源获取、资料传递、数字参考咨询服务、个性化集成定制、sdi服务、 用户协作交流服务等),按照用户信息检索与利用流程实现各个资源与服务系统间的无缝链接。

(4 )支持开放集成定制:通过规范元数据来描述学科信息门户的资源对象、知识组织体系、管理机制、检索与浏览机制、系统信息架构等各层数据,通过开放语言实现描述数据的规范标记,通过开放搜寻机制支持对这些描述数据的发现和解析以及对学科信息门户的发现、解析和重组,从而支持个性化定制和开放式集成。

csdl将通过有效的学科信息门户,将分布的数字信息资源和信息服务集成到用户桌面,并通过开放描述机制和分布web 服务机制来支持对各门户及其内容的个性化定制与集成。

3 学科信息门户中的网络信息导航

csdl学科信息门户中的学科信息导航系统指具有严格质量控制、提供规范和深入的知识化描述、支持集成与定制的可靠的网络信息资源组织和检索系统。它们在协调一致的设计规范和开放描述原则基础上,针对本专业研究型用户所需要的网络信息资源(包括网站、图书情报系统、文摘索引、电子期刊、科技报告、学位与会议论文、研究机构、学术团体、教育机构、学术会议、工具书、专业服务系统以及与学科科研紧密相关的其他资源系统),根据可靠的评价选择规则、搜寻搜集策略、规范组织标引机制、检索浏览机制和维护使用管理机制等,建立起可靠覆盖本领域核心资源、基本覆盖本领域其他主要资源、选择性覆盖相关学科核心资源、与其他学科信息门户有机链接的网络化资源与服务组织体系,并支持用户系统或其他学科信息门户对自己信息的搜寻、集成。

这样的学科信息门户一般具有以下特点:专业性,针对限定的专业领域,主要针对学术研究信息和教育科研用户;集成性,把专业领域所需要的各种资源与服务凝聚到一个知识体系中;知识性,根据对知识内容及其关系的分析来选择、描述和组织资源和服务,例如按照严格的评价规则,由信

息专家和学科专家选择信息资源,按照标准元数据格式和标准词表进行著录和标引,按照规范知识组织体系(如分类法)进行组织;智能性,提供符合专业领域特征的检索浏览方式,并可在专业知识组织体系(词表、分类法等)支持下优化浏览和检索,而且可与语义门户(semantic web)结合提供智能化资源检索和结果整合功能;可靠性,通过严格选择、规范描述和持续的校验与更新,保障导航信息的可靠性和整个组织与描述机制的可靠性。

为实现上述要求,学科信息导航系统依靠一系列规范机制来保障其有效性和可靠性,例如资源选择规则、资源搜寻策略、资源元数据描述规范、知识组织体系规范、使用管理机制规范、分布式组织管理规范等。通过这些规范,学科信息门户可以准确定义和描述自己的要求与运行机制,用户可以了解和信赖学科导航信息系统,其他系统也可以通过这些规范的开放描述来实现集成与定制。

4 资源选择和资源搜寻控制

严格的资源选择是学科信息导航系统知识性可靠性的关键保障之一,它的实现依靠严格的标准设计、规范定义和流程控制[2.13-16],至少涉及以下问题:

(1)资源选择标准。 它帮助工作人员明确理解对资源范围和质量的要求,帮助用户理解和信任它的质量控制标准并在此基础上帮助用户判断通过它所获得的信息的质量,促进分布运营机制下资源选择的一致性,帮助训练新的资源选择人员。资源选择评价标准应尽可能地可操作,其中某些可量化。

资源选择标准涉及资源范围标准、资源质量标准和资源评价标准。其中:

资源范围标准,规定什么资源可被收集组织到学科信息门户,主要涉及:a.信息内容,例如主题范围和可接受的资源类型、资源来源、内容深度、内容权威性、内容新颖性、商业化程度等;b.接入条件,例如可接受的付费条件、技术条件、注册要求、残障人利用条件等;c.细粒度要求,指资源对象应该达到的信息内容详细程度;d.元数据要求,指资源的地理与语言范围等。

资源质量标准,规定被选择资源需达到的基本质量,主要包括:a.内容标准,包括有效性、权威性、实质性、准确性、全面性、唯一性、资源结构组织、及时性以及资源维护程度;b.形式标准,包括浏览方便性、用户支持、标准化程度、美观程度;c.处理标准,涉及信息完整性、站点完整性、系统完整性等。

资源评价标准,用于规范化地描述选择人员对资源的评价意见,资源评价应按照前述选择标准从多层面描述评价结果,应能确定评价人及其评价资格,应使用标准语言进行描述,还可使用特定标记方式(例如星级标记)来简要表示评价结果,并作为元数据的一部分被存储和支持检索,评价信息可被写入资源描述摘要中。

(2)资源选择流程规范。 一个具有一定规模的学科信息导航系统往往有多个专家参与资源的选择评鉴,需要有严格的规范来保证选择过程的一致性。资源选择流程规范规定由什么人、按照什么标准和什么步骤、对什么方面的资源进行选择评价,以及如何处理选择评价结果。具体地,这个规范包括资源选择标准、资源选择流程步骤、选择人员标准、选择人员描述格式(以便选择过程中的推荐、指向和咨询)、选择人员分工组织规定、选择结果描述方式、选择信息交换格式(支持协作选择描述),还可规定是否接受用户推荐资源、接收程序以及对推荐资源的审查和回复程序等。

(3)资源搜寻控制。 学科信息导航系统需要严谨的资源搜寻控制机制和相应的搜寻规范来界定搜寻范围、过滤搜寻资源、协调搜寻操作过程,保障在有限的分布的人力下对高质量信息资源进行完整、及时、持续的搜寻,保证搜寻的有效性、一致性和连续性。资源搜寻过程需要规定搜寻途径和方式(即通过哪些途径和方式来搜寻和跟踪哪些资源)、建立和维护搜寻对象目录、分配搜寻责任、确定搜寻时序、确定资源智能过滤规则、确定资源搜寻中元数据挖掘与转换机制、确定推荐资源审查规则、确定与其他学科信息导航系统的合作搜寻机制等。

所谓合作搜寻机制,指覆盖领域相互交叉的学科信息导航系统间合作搜寻和共享元数据的方法,例如:a.不同导航系统分工负责交叉领域里不同主题范围的资源组织,在各自知识组织体系中都包含这些主题范围,通过直接链接对方资源元数据来相互利用各自的资源内容。b.不同导航系统分工负责不同主题范围的资源组织,相互交换和复用交叉主题范围的资源元数据,所交换的元数据往往由接收方导航系统进行再标引再组织,从而共同(往往各有侧重地)提供交叉领域的资源检索。无论什么情况,都需要商定分工搜寻范围、数据格式,并遵守共同的质量控制和著录原则。

5 资源元数据描述

学科信息导航系统涉及的描述信息包括资源对象、知识组织体系、使用管理机制、检索与浏览机制等层次,通过开放语言和规范方式对这些层次进行描述都构成元数据[17],成为导航系统元数据体系的一部分。高质量的元数据描述是学科信息导航系统知识性可靠性的又一关键保障,也需要一系列的描述规范和过程规范来定义和控制。本节主要讨论对资源对象进行描述的元数据,包括以下内容:

(1)元数据规范。元数据规范对元数据元素、 子元素及可能的限制属性进行规定。资源元数据涉及内容和管理两方面。内容元数据对资源本身进行描述,建议采用通用的或标准的元数据格式,采用规范扩展方式复用其他标准元数据格式的相关元素来描述复杂资源对象,并通过xml namespace方式建立与元数据格式定义文件的链接。 例如对一个课件资源,可采用dublin core[18]描述基本属性,复用ieee lom [19]相关元素来描述与教学有关的属性。管理元数据用于描述资源著录过程及其控制,一般不显示给用户,可被智能用于自动控制某些操作。可能的管理元数据元素包括维护者、上次搜寻日期、上次元数据更新日期、上次资源变动日期、预计资源重新审定日期、资源失效日期(例如会议信息)、元数据著录者等。管理元数据可以与内容元数据捆绑在一起,但也可单独通过一定唯一标识符与内容元数据链接,可支持内容元数据的复用。管理元数据也应采用标准格式和标准扩展方式。

(2)元数据著录规范及其他控制规范[20-22]。由于资源元数据可能来自多个途径(例如资源系统本身、用户、资源选择人员、资源著录人员、其他学科信息门户、自动挖掘等),它们对元数据内容的描述方式可能有很大差异,需要通过著录规范来具体规定如何进行元数据描述。规定内容包括:a.元数据内容编码规范,例如关于日期、语言、各种名称代码、主题词来源、分类表来源、评价等级等的标准表达方式或最佳实践(best practices)。有关标准可用计算机可识别方式组织,以利著录过程中进行查询和自动检验。b.元数据元素、子元素或限定属性的选择方式。c.主题词、分类号选择标引原则和方式,这时将利用分类标引规范。d.文字描述内容(尤其是摘要、评价意见等)的撰写规范,例如摘要来源、摘要长度、客观性、语言风格、署名等要求。这些著录规范被称为application profiles。

除了著录规范外,元数据检验规范可规定如何检验元数据的正确性,元数据转换规范支持对资源内含元数据或其他学科信息门户交换元数据进行转换的方法,元数据挖

掘规范支持根据资源内容自动析取元数据元素内容。

元数据描述过程规范将规定元数据描述的任务、程序、相应规范、有关审核控制机制(形成可靠的工作流),并可用开放语言进行描述而生成工作流元数据,成为元数据描述的工作流管理的基础。

(3)主题与分类描述规范。 对资源内容按照标准词表进行标引和分类,是学科导航系统知识性的重要体现,也是导航浏览和检索质量的重要保障。因此,csdl要求学科信息门户选择本学科的权威、通用、与本学科主要检索工具一致的主题词表和分类法来对导航系统资源进行主题标引和分类,并根据网络资源特点、参照流行网络资源目录和国际上主要学科信息门户来适当扩展与资源类型有关的主题词和分类类目。所选择的词表必须在相应元数据元素的编码规范属性中予以明确,所扩展的词汇或类目必须以定义文件形式进行描述并在编码规范属性中描述和链接,标引分类过程(包括标引分类深度)作为元数据著录规范的一部分予以规定(可参照或直接引用现有的权威标引分类规范)。

6 知识组织体系描述

所谓知识组织体系,是对内容概念及其相互关系进行描述和组织的机制,支持对信息对象按照知识内容和知识结构进行描述、链接和组织。目前阶段,csdl学科信息导航系统涉及的知识组织体系主要包括主题词表和分类表,今后嵌入语义门户(semantic web)和智能检索功能时,还将涉及语义网络(semantic networks)和概念集(ontologies)。对于学科信息导航系统而言,知识组织体系可用于:资源标引分类,资源主题检索,资源分类浏览,与其他资源系统的检索或浏览互操作。

知识组织体系本身也是一种数据,利用开放语言和规范方式对它们进行描述也产生元数据,形成关于知识组织体系的显性知识。可通过对这些元数据的发现、交换和解析来识别、转换、甚至重组知识组织体系,从而支持分布的学科信息导航系统间基于知识的集成以及整合检索和整合浏览[23]。

知识组织体系描述可分为几个层次:

(1)说明性描述, 即在各层元数据中对所采用的知识组织体系进行说明,并通过标准uri链接相应的知识组织体系定义文件, 以便用户或用户系统了解学科信息导航系统的知识组织体系。例如,在资源元数据的主题元素中通过编码规范属性定义所采用的词表并链接定义文件,或在学科信息门户信息架构描述文件中描述导航浏览所采用的分类体系并链接定义文件。

(2)定义性描述,即直接对知识组织体系结构、构成元素、 元素间关系、构造规则进行定义和描述,所形成的描述文件作为定义文件被链接到有关说明性描述中,以便利用知识组织体系进行扩展检索。例如,nkos联盟提出vocml[24]采用标准xml dtd方式来定义和描述叙词表和分类表及词表映射表,支持对词表的开放描述、解析、显示、交换和映射。

(3)主题图描述,即利用一定的知识组织体系, 对导航系统资源集合的主题内容结构、主题词汇、主题间相互关系以及主题与具体资源的链接进行描述,形成资源集合的主题图,可直接用于导航系统的知识化浏览,可建立资源集合的主题索引或交叉参照,还可链接复杂主题范围的分布式资源来建立虚拟知识体系,可通过主题概念与资源的不同链接在同一资源体系上建立面向不同主题体系或不同用户的资源界面。例如,xtm[25]利用xml语言标记主题图,从而用计算机可识别的开放方式标记资源集合的主题结构和链接,支持主题浏览和基于词表的智能检索。

(4)概念集描述,即建立符合学科领域要求、 用开放语言描述的概念集体系(ontology systems),利用概念集体系对信息资源内容进行语义标注或语义挖掘,形成基于语义的资源元数据。在此基础上,利用概念集中语义定义、语义关系定义和推理规则,实现基于语义的智能检索和浏览[26]。

实施递进建设的csdl学科信息门户,将首先严格按照元数据规范对知识组织体系进行说明性描述,然后支持以xtm 方式逐步深入地描述分类浏览结构,逐步研究和嵌入词表定义描述,并逐步研究和嵌入基于概念集的语义门户功能。csdl将通过标准和公开的应用规范对知识组织体系描述方式进行规定,并逐步建立相应的词表、主题图和概念集描述文件。

7 管理机制描述

学科信息门户及其导航系统的可靠运行和可持续发展取决于它在建设和运行中的有效管理以及相应管理机制的规范设计。在csdl学科信息门户中,与学科信息导航系统密切相关的管理机制包括资源组织机制、资源管理机制、元数据规范管理机制、用户使用控制机制等,其中资源组织机制已在前面的资源选择搜寻控制和资源元数据描述中予以讨论。

(1)资源管理机制, 通过一系列规范对学科信息导航库中资源内容的管理方式和程序进行规定,包括资源链接检验规范、资源更新规范、元数据记录维护规范、资源管理流程规范等。其中,资源链接检验规范根据不同资源的变化规律规定对这些资源的可链接性进行检验的时间间隔、检验方式和报告形式,资源更新规范规定对资源内容进行重新审查及其修改描述、修改标引与分类、修改评价信息、删除等处理的标准、责任分配、方式和有关技术要求,资源元数据记录维护规范检验元数据记录的唯一性、一致性、完整性和所链接的其他信息的有效性,资源管理流程规范则建立资源管理工作流程序和控制机制。

(2)元数据规范管理机制, 主要指对学科信息导航系统各种元数据规范和管理规范(包括本节涉及的管理机制规范)本身的管理规定,具体说明各种元数据规范和管理规范的描述格式和描述语言、内容描述或编码规则、公共存放位置(以支持开放搜寻)、公共登记要求(以支持元数据规范登记系统功能)、与相关资源内容的链接要求、与相关定义或标准文件的链接要求、范例记录编制及其存放与指向要求、版本管理制度、定期审查要求、审查责任人员、管理流程规定等,从而保证元数据规范或管理规范的有序、可靠和可持续管理。

(3)用户使用管理机制,指对信息资源使用的控制机制, 包括合法使用范围规范、用户身份认证方式、使用授权方式、使用审计程序、隐私保护政策等。需要区别狭义和广义的资源使用控制。针对学科信息导航系统,狭义控制指对导航系统内学科信息资源的使用控制,广义控制可能包括对导航系统中的扩展信息、词表数据、规范数据等的使用控制。无论是否限制用户范围,都应确定使用控制规范(因为不限制用户只是使用控制的一种特例),界定什么使用主体(subject )在满足什么条件(conditions)下可对什么使用对象(object)行使什么使用行为(actions)。这里,使用主体可能是用户或用户组、 用户或另一系统,使用对象可以是具体资源、资源范围或数据对象,使用行为包括读、写、改、转换、析取等,而条件可能是使用登记、身份认证、阅读版权申明、填写保证条款、支付费用等。其中某些条件的验证与实现可通过链接第三方程序来具体实施,例如身份认证、支付费用等。csdl学科信息导航系统将提供学科信息资源的公共浏览检索,但为统计使用情况、了解用户特点,需要进行(往往是隐蔽的)使用统计;对与学科导航信息相链接的用户讨论区、用户发表区等扩展信息和个性化定制等扩

展功能,将限制用户范围、要求身份认证;支持各种规范数据的公共查询和阅读,但严格控制对它们的删改;另外,可能只允许其他csdl学科信息门户和授权用户批量搜寻和下载导航资源来支持分布式导航信息组织和集成定制。

8 学科信息导航系统的开放描述

所谓开放描述,指信息系统通过开放语言和规范方式来描述自己系统的数据对象、规则、管理控制机制和操作过程,支持系统间互操作和基于智能的运行操作与管理。通过开放描述,将形成关于本系统不同描述对象的描述文件,这些文件置于本系统公知位置或递交公共登记系统,第三方系统可以对这些描述文件进行搜寻,按照开放语言规则进行解析,从而使第三方系统(或智能)能自动地识别、理解本系统的格式和规则,并在此基础上实现系统间的互操作。开放描述并不要求采用统一的具体描述格式,而是规定描述时应遵循的基本原则、底层语义和语法表示方法、标准扩展方式、标准转换机制等,因此不同系统可采用符合自己需要的不同具体方法或格式来描述实际内容,从而在保障各个系统的特殊需要和本地控制的同时,支持描述信息的开放搜寻、识别和系统互操作。

对于csdl学科信息门户及其学科信息导航系统而言,开放描述可分为描述方式和描述信息公布方式两方面的要求,目前阶段公布方式可采用在学科信息门户web服务器公知目录下以公开文件名存放描述文件,支持第三方系统开放搜寻;当csdl元数据规范登记系统建立后,将描述文件提交登记系统进行公共查询。对描述方式,可有以下建议:

(1)资源元数据格式描述,采用dublin core作为元数据核心元素集,采用扩展元素或扩展属性从其他标准元数据集中复用相关元素来描述资源的其他特征,采用namespace方式命名所复用的元素或属性, 采用xml dtd或rdf方式定义整个元数据集,采用xml 标记和封装输出的资源元数据。

(2)知识组织体系描述,采用dc subject的encoding scheme属性描述资源元数据中标引分类词表,通过url 链接相应的定义文件或介绍文件;采用xtm描述导航分类体系, 其描述文件在一定的使用控制下也置于公知位置机制,供授权的第三方系统(例如其他csdl学科信息门户)进行查询和调用,支持资源元数据搜寻和整合;逐步支持用vocml 描述的主题词表,相应词表描述文件可能作为第三方定义文件在说明性描述中予以链接,支持嵌入的智能检索功能。

(3)管理机制的描述, 涉及面向内部的管理规范和面向第三方的管理规范,前者包括资源组织、资源管理、元数据维护等,后者主要是用户使用控制。面向内部的管理规范可以是文本文件或html/xml 文件,应存放在系统公知位置,供公共查询;但也可以用xml dtd 方式定义这些规范,一方面可支持这些规范的交换和复用,另一方面可支持对规范的自动解析和处理(当然需要尽量与国内外现有的开放描述格式接轨)。面向第三方的管理规范应尽量采用开放语言描述,例如用户使用控制可采用xacl[26]来规定具体控制规范,在涉及隐私保护时参照p3p[27]制定隐私保护的政策与程序。

(4)整体学科信息导航系统的描述, 可作为学科信息门户信息架构(information architecture)定义及其描述的一部分,采用wsdl[28]开放描述语言等方法,对基本信息(例如名称、uri、学科、 简要描述等)、管理者信息(例如运营者、运营系统、联系方式等)、管理机制信息(例如关于使用管理、权益保护、隐私保护、定制控制等的描述文件名称、uri、描述规范namespace等)、组织机制信息(例如元数据格式、知识组织体系、模块结构体系以及它们的uri 和描述文件地址等)进行描述,以便第三方系统搜寻和解析,支持学科信息导航系统的开放集成定制和作为第三方服务系统的开放嵌入。

我们还将在学科信息门户及其资源导航系统的建设中继续探讨上述问题的规范建设,并希望与国内外其他单位进行合作。

【参考文献】

1 subject based information gateways. http://www.lub.lu.se/desire/sbigs.html

2 desire information gateways handbook.

http://www. desire.org/handbook/welcome.html

3 nordic interconnected subject-based informationgateways. final report. august 2000.

http://nwi.dtv.dk/anders/nisbig/slutrapport.html

4 crossroads. http://www.ukoln.ac.cn/metadata/roads/crossroads/

5 isaac network. http://scout.cs.wisc.edu/research/osaac/

6 imesh toolkit. http://www.imesh.org/toolkit/

7 european link treasury. http://mother.lub.lu.se/elt/index.html.en

8 distributed national electronic resources. http://www.dner.ac.uk/

9 national science, math, engineering and technologyeducation digital library.

http://www.smete.org/

10 张晓林.开放数字信息服务体系:概念、结构与技术.中国图书馆学报,2002(3)

11 ebxml. http://www.ebxml.org/

12 web services activity. http://www.w3.org/2002/ws/

13 bibliography on evaluating internet resources.

http://www.lib.vt.edu/research/libinst/evalbiblio.html

14 hofman p, worsfold e. selection criteria for qualitycontrolled information

gateways. http://www.ukoln.ac.uk/metadata/desire/quality/

15 adam guidelines for the selection of resources forinclusion.

http://ww

w.adam.ac.uk/adam/reports/select/

16 european link treasury quality assessment.

http://mother.lub.lu.se/elt/about/quality.html.en

17 张晓林.元数据研究与应用.北京:北京图书馆出版社,2002

18 dublin core metadata element set version1.1: referencedescription./dublincore.org/documents/dces/

19 ieee learning object metadata. http://itsc. ieee.org/doc/wg12/lom_wd6_3.pdf

20 olson n b. cataloguing internet resources: a manualand practical guide. 2nd

edition. http://www.oclc.org/oclc/man/9256cat/toc.htm

21 day m, cliff p. rdn cataloguing guidelines. http://www.rdn.ac.uk/publications/cat-guide/

22 roads cataloguing guidelines. http://www.rdn.ac.uk/publications/cat-guide/#2

23 张晓林.描述知识组织体系的元数据.图书情报工作.2002(2)

24 vocabulary markup language. http://orc.dev.oclc.org5103/nkos/bin00003.bin

25 xml topic maps (xtm) 1.0 http://www.topicmaps.org/xtm/1.0/xtm1-20010806.html

26 xml access control language. http://www.trl.ibm.com/projects/xml/xacl/index.htm