数据库本科论文范例6篇

数据库本科论文

数据库本科论文范文1

Abstract: With the rapid development of Internet technology, online information resource is rich. Library of university should special topics database according to its actual situation, to better serve readers and society. According to the actual situation of our library, the article proposed the suggestion and method of establishing ship subject database, graduate student degree thesis special database, foreign periodicals database and scholar library.

关键词:高校图书馆;船舶;数据库

Key words: university library;ship;database

中图分类号:G258.5文献标识码:A文章编号:1006-4311(2011)22-0185-02

0引言

随着科学技术的不断进步,人类社会已经进入到知识经济时代,用户信息需求不断扩大,由于学科种类繁多,信息范围广阔,因此不断地充实与更新网络数据库,展示自己的文献资源,已成为图书馆工作的新方向和新目标。图书馆拥有大量书刊文献,是收集、贮藏、加工和传播信息资源的场所。特别是对文献信息资源的分类、标引工作比较内行,所以有能力建一个标准化、规范化的数据库。图书馆应根据自己的馆藏现状、重点学科、重点课题以及经费等实际情况,来决定建立一个何种规模的数据库[1]。作为高校图书馆,建立一个研究生学位(硕士、博士)论文数据库;或者能够代表一个学校特色的专业数据库;或者是本馆馆藏量大、连续性好、利用率高的某种期刊题录库或目次页以及学者文库等等,是容易做到的,也是高校图书馆文献资源共建共享的重要发展趋势。下面介绍几种具有代表性的数据库:

1 建立船舶专题数据库

江苏省地处我国东部沿海,地居长江、淮河下游,拥有众多的造船企业。我校又是以船舶专业为办学特色的工科院校,拥有雄厚的专家教学资源,占据了地利、人和之优势。船舶专题数据库的建立将更能体现出我们学校的特色。具体的做法如下:

1.1 在中国科技期刊全文数据库、中国学术期刊(光盘版)、万方数据库、维普中文期刊数据库、万方数据库等中,转录与船舶知识有关的数据,建立船舶专题数据库。

1.2 同时,在历年的中文科技期刊中,选取与船舶相关的期刊,组织人力集中进行查阅、著录工作。对相关期刊进行逐年、逐期地查阅,同时著录卡片。接下来开始工作,若在转录的数据库数据中没查到该数据,则确认后在船舶数据库中新建,使之成为一条新数据;若重合,则只表明而不新建,具体视系统不同而不同。我馆历年来积累的题录卡片较为完整,此项工作便再次基础上进行此的,首先对原有著录卡片填加补充,加入主题词,使数据库更全面、更具体。

1.3 若想建全文数据库,则所需的时间、人力及物力就要相对的多很多。单纯依靠手工是很难完成巨大的工作量的,所以我们可以通过其他途径,例如使用扫描仪进行全文录入或文摘录入等工作,这样可以减轻工作人员的劳动强度,但会占用很大的内存,给以后的存储造成存储空间不足等问题。以本人的观点,最佳途径还是是在现有的数据库中套录数据,这样不仅可以减少人工成本,还可以大大地节省空间。

2建立研究生学位论文数据库

研究生学位(硕士、博士)论文有很高的学术价值和参考价值,是研究生向学校提交的一份学术研究论文,它是最新颖、最有学术研究价值,有独立见解及创造性成果的论文[2]。因此,应对其刮目相看,是一种倍受重视的特种文献。与他学校和其他类型图书馆不同,每个高校的图书馆都收藏有本校历届研究生学位论文的原文。由于多为电子版、纸质版双版收录,所耗人力、物力及财力相对较少,每个图书馆都是可以接受的。这样既深入地开展了工作,又增加了馆藏信息,而且增加了网上可利用资源。所以说,建立研究生学位论文数据库是必要的,也是可行的。为本馆馆藏增添了一大特色,是本馆的一大知识财富。

2.1 准备工作:对本校已毕业研究生人数进行统计,核对本馆是否收藏所有人员的学位论文。对没有收藏或已经丢失的,到研究生院或档案室借阅、复印,或直接向其本人索取,保证全部入库,尤其是博士生论文,因为相对来说它具有更高的学术水平。

2.2 著录卡片:在准备工作基础上,对收集论文逐一进行卡片著录。这就对工作人员提出要求:既要有一定的图书馆专业知识,又要系统地了解全校各个专业学科的知识;也可以是每个工作人员对其中某个专业比较了解,按其所熟悉的学科进行分工。著录时要按照要求进行标准化、规范化的分类、著录和主题标引等工作。这是保证数据库质量的关键。

2.3 数据录入:首先要选择一个适合的软件,要求:①界面清晰易懂;②检索项目全面;③系统适应性好,以保证数据库的质量。在数据录入时要使论文的作者、题目、并列英文题名、级别、学位、导师、学科类目,分类号等都成为可检索的项目,方便读者从各个方位进行数据的检索。录入工作人员既要懂计算机知识,又要通晓图书馆专业知识,不仅可以节省时间,还能够减少错误的发生。数据库建立完成后要及时地审查校核,以保证数据的准确性、完整性和及时性。

2.4 后期工作:数据库建好以后,应有专人负责其运作,将数据库内容进行光盘刻录,以防损坏或丢失。在网上上传整套数据,供读者查阅。除此,应制定相应的规章制度,使图书馆能长远地发展此项工作,使数据库不断完善,发挥其效益,满足使用者的需求。

3建立外文科技期刊题录库或目次页

数据库的建设是图书馆自动化、网络化建设最基础的工作,在完成了研究生论文数据库、期刊数据库的基础上,就需要对外文期刊进行收藏,这不仅能更深入、更全面地提示馆藏信息工作,而且外文期刊能够体现各学科在世界上的发展现状,未来趋势等,对高校的科研工作的开展具有重要意义。建立数据库或目次页可以在现有的外文科技期刊的基础上进行。

3.1 提高认识:外文科技期刊集是各国各个学科的精华,具有很高的权威性,体现出学科未来的发展趋势,和世界在此领域的发展水平。鉴于其特殊地位,各图书馆的领导正确对待。它所面对的不再局限于是高校教师、研究生和科研人员等高层次知识分子,而是更多的被普通社会群体所接受。面对着如此庞大的服务对象,图书馆应想尽一切办法,方便读者,为他们节省更多的时间,用最简捷、最方便、最高效的服务手段,为读者提供服务。这样,建立一个重点期刊、常用期刊的数据库;或针对某一学科建立相关外文期刊的题录库将有效解决这一问题。

3.2 统计调查:首先对馆藏的所有外文科技期刊进行全面的统计工作,确定出读者使用率高、连续性较强的期刊,然后再征求各学科带头人,特别是重点学科的学科带头人的意见,最终确定出学术价值高的外文期刊,在此基础上确定首批建库期刊,并在日后陆续完成普通外文期刊的收录。

3.3 录入方法:各馆可以根据自己的实际情况,建立数据库或目次页,具体情况视其能力来选择,再把这些数据上传到网上,供更多的读者使用。之后安排专人对数据库或目次页进行整理和后期维护,使之更好地为教学、科研事业服务。

4建立学者文库

科研成果、撰写论文、著书等的情况反映着一个学校师资力量、科研能力、教学水平等方面实力。我们把本学校教职工编著的书籍、撰写的论文建立在一个专题数据库力,以此来体现学校的科研水平和实力。

4.1 我馆与学校人事处、科研处合作,由他们提供所需资料,我管负责相应人员配备,成立专项任务组,对小组成员进行统一领导、指挥、协调,有条理、有步骤地完成此项工作。

4.2 依据人事部门提供的全校教职工名单,全校历年来的职称评审综合表,依据上面本人所提供的“出版的学术著作”、“正式发表的论文”等信息来建立数据库。

4.3 在进行录入工作前先对这些资料逐条进行标引和著录,录入时把分类号、题名(书名)、关键词、作者、出版社名称、刊名、年、卷、期等相关信息都做成可以检索的项目,以方便读者的查询。

5结语

知识经济时代的图书馆面临着前所未有的机遇和挑战,图书馆应突出本馆的馆藏特色,完善本馆馆藏书目数据及期刊数据库,在建立各类数据库和目次页时,都要依据学科重点及科研方向,具有针对性和实用性。建立一个标准化、规范化的数据库,为读者提供高层次、高标准、高效率的信息服务,是时代赋予我们的责任,也是我们高校图书馆的奋斗目标,相信我们高校图书馆的文献数据库建设将会更全面、更具体、更完善。

参考文献:

数据库本科论文范文2

【摘要题】实践研究

1调查情况介绍

为了配合中国高等教育文献保障系统(CALIS)“十五”期间的建设和中国高等学校数字图书馆联盟(CADLA,下称联盟)工作的开展,2002年4月,CALIS在成员馆中间发放了《数字图书馆建设情况调查表》;2002年5月和6月在联盟理事馆(注:目前中国高等学校数字图书馆联盟理事馆都是CALIS成员馆。)中间发放了《学位论文数据库建设情况调查表》和《教学参考书数据库情况调查表》。

截至2002年6月30日,共回收《数字图书馆建设情况调查表》89份,其中书面报告22份,电子版报告67份。这些调查报告中有29份来自综合性院校,34份来自工科院校,9份来自人文社会科学类院校,来自其他专业性院校,如医学类院校、农林院校和师范类院校的报告分别为5份、4份和6份。图1给出对提交调查报告的学校按地区进行统计得到的结果。根据统计数字和图表可以看到,此次在CALIS成员馆中进行的数字图书馆建设情况调查具有一定的代表性,比较全面地反映了高校数字图书馆建设的整体情况。

图1提交调查报告的学校按地区统计的结果

对于在22个联盟理事馆中间进行的“学位论文数据库建设情况”和“教学参考书数据库情况”重点调研,各单位均及时对调查内容进行了反馈。

针对上面的三份调查,本文第二部分从几个主要方面对各成员馆数字图书馆建设情况进行了分析总结;第三部分给出CALIS在“十五”期间将要建设的两个子项目“高校学位论文全文数据库”和“教学参考书数据库”在成员馆中间开展的情况;最后对目前成员馆数字图书馆建设中急需解决的主要问题进行汇总。

2整体分析

通过CALIS的宣传和培训,大部分成员馆意识到开展数字图书馆建设的必要性和重要性。调查结果显示,在2000年前后成员馆根据各自对数字图书馆的理解、现有基础、阶段性工作重点、人员情况,开始从专业性或校园范围的文献信息保障体系、数字图书馆应用系统、数字资源、基础设施等各方面进行建设,全面推动图书馆向电子化、数字化方面发展,并在资金投入力度方面予以重视。

2.1专业性、校园范围的文献保障体系

众所周知,CALIS在“九五”期间建设了三级文献信息保障体系。四个全国中心、七个地区中心分别构成文献信息保障体系的第一级和第二级,在全国和地区范围内行使文献信息保障功能。但是由于人力、物力、财力的原因,这些中心还不能满足所有高校图书馆和用户的全部需要。根据本次调查的结果,目前有10个学校正在开展专业性或校园范围内的文献信息保障系统建设。其中北京师范大学图书馆正在构造有一定规模的“中文教育数字图书馆”,将分布于国内外的中文教育资源纳入统一的检索系统;上海财经大学图书馆在数字图书馆理念以及相应的管理机制等方面进行了研究与实践,提出了建设“财经文献资源信息中心”的设想;电子科技大学图书馆“西南地区电子信息学科与文献信息中心”的建设已具雏形;首都师范大学图书馆和北京工业大学图书馆受北京市教委的委托筹建了“北京高校网络图书馆”;内蒙古大学图书馆“多功能蒙古学文献信息研制服务中心”的建设颇具民族特色;安徽大学、北京理工大学、大连海事大学、福州大学、哈尔滨工业大学的图书馆,依托校园网建立与本校学科发展、人才培养相配套的,以信息服务为重心的全方位、多层次、高效率的文献信息服务体系。

2.2数字图书馆应用系统

考虑图书馆的工作特点,针对图书馆的需要,研究和开发数字图书馆建设中急需的各种应用系统,已经被列入各成员馆的计划中。本次调查发现有16个图书馆正在应用系统方面进行技术攻关。其中开展数字图书馆原型试验系统研发的学校主要有北京大学、复旦大学、西安交通大学、厦门大学、中山大学、武汉大学等高校的图书馆,这些图书馆研制的内容包括数字图书馆体系结构、元数据、信息存储与检索、互操作等相关技术与解决方案;上海交通大学、北京大学、北京航空航天大学等10余所高校图书馆开发了“视频点播系统”,采用大容量存储设备存储多媒体资料在校园网内提供多媒体视频、音频资料的网上实时点播;复旦大学图书馆正在开发“图书馆电子资源跨平台检索系统”,实现统一界面查询,读者可以通过书刊名、文章名、关键词、著者、媒介类型、数据来源等检索项(包括组合检索项),查询系统连接的各个数据库;天津大学、厦门大学、西北师范大学等7所高校图书馆专门成立了“特色资源数字化加工中心”,开展纸本文献数字化、多媒体资源加工、电子剪报、数据库制作的相关硬件环境设备建设及软件支撑平台建设,形成数字化资源的收集、加工、分类标引、整合、、更新、维护等的完整系统;电子科技大学图书馆开发了“专题数据库系统”,为图书馆的数据库建设提供平台,包括开发、分类、全文检索、远程查询、科学管理和升级等功能,能全面、准确、高效地达到网络化数据库系统的应用标准;吉林大学、中国人民大学图书馆利用相关技术,建立了标准化的知识服务系统平台,开发了“服务子系统”,为用户提供个性化服务,包括信息定制、协作咨询、知识挖掘、多媒体教学、VOD点播、重点学科导航等;西安交通大学图书馆正在集中力量,依托CALIS西北地区中心搭建一个统一的软硬件平台,建设地区性数字资源中心、数字化中心、存储中心、交换中心以及数字图书馆研究与开发中心,为用户提供集成化的智能服务。

2.3数字资源建设

资源建设是数字图书馆建设的基础,也是各馆开展数字图书馆尝试的主要选择。“九五”期间在CALIS的宏观调控和统一规划下,一方面,各馆大幅度增加电子文献的引进,以网络版数据库为主,并引进部分光盘数据库;另一方面,各馆在自建资源方面取得了很大的突破,CALIS组织成员馆共同建设了联合目录数据库、中文现刊目次库、学位论文文摘库等数据库。在提交调查报告的89所图书馆中,85%以上的图书馆参与了CALIS“九五”期间的子项目建设,在支持CALIS资源建设工作的同时推动本馆的数字化进程,起到了事半功倍的效果。

与此同时,CALIS有选择性地支持24个单位根据本馆的特色馆藏、资源特性,在网络环境下建立特色馆藏,逐步把有价值的特色信息资源组织起来,建设成CALIS重点学科专题数据库,以便比较集中、更深层次地揭示各高校收集的富有学科特色的文献。目前CALIS重点学科专题数据库包括24家成员馆建成的25个重点学科专题数据库,数据量已达280万条以上,通过因特网进行服务,实现资源共享。

在CALIS的带动下,在24家成员馆的示范作用下,为了更好地满足本校教学科研的需要,其他的CALIS成员馆纷纷开展本馆特色资源的调研、论证和建设工作。本次调查统计结果显示,目前正在进行数据库建设的CALIS成员馆有74所,每个馆根据各自的条件和实力,或者百花齐放,如中山大学、西安交通大学、上海交通大学等17所高校图书馆同时进行几个数据库的建设;或者一支独秀,在数据库建设的质量上下功夫。

成员馆自建的这些数据库围绕着CALIS制定的“建设具有中国特色、地区特色和高等教育特色的专题数据库”的原则,或者对馆藏特色文献数字化,或者做某个学科或专题的数字资源建设工作,比较系统全面地对某个专题进行综合报道。数据库各具特色,有的体现中国文化渊源历史,有的介绍人物生平、业绩、著作,有的针对某个学科或专业做全面的介绍,有的展现科技动态。数据库形式多样,包括图象、文字、解说、全文和文摘,具有学科知识数据库的特点。揭示的内容比普通二次文献库要深,丰富了高校资源。数据库内容丰富,包含中外文期刊、会议论文、专利文献、产品、事实数据、研究机构信息,或集各种信息于一体。有的数据库具备良好的检索系统,提供WEB界面的查询,有些还使用全文检索系统和多媒体系统,可提供全文、关键词、题名、出处、文摘等多检索点检索;为配合学校的教学和科研,为推广高校科学技术成果,展示广大科研人员的劳动成果和聪明才智,给广大读者提供丰富的有价值的科研资料做出了积极的贡献,弥补了图书馆经费紧缺造成的纸本资源的不足,为高校数字图书馆的工作积累了丰富的经验和技术。

2.4基础设施建设

基础设施建设是各馆进行数字图书馆建设的一个重要部分。调查发现,有28所图书馆正在从基础设施建设入手,创造数字图书馆的基本环境。其中22所图书馆对本馆的自动化和网络系统进行了升级与改造,旨在建立先进可靠的高速信息网络系统,建设先进的图书馆集成管理系统,实现图书馆日常业务科学全面的自动化管理,为国内外资源共享提供环境;9所学校建设了多功能电子阅览室、多媒体教学、网络培训教室,提升了图书馆的开发和应用能力,为师生提供多媒体信息服务;北京理工大学、北京化工大学等4所院校还斥资数千万建设了新馆舍,给师生提供了舒适的教学科研环境。

2.5资金支持

《数字图书馆建设情况调查表》中还包括对各个学校用于数字图书馆建设的资金额度及其来源的调查。调查结果显示各成员馆数字图书馆的建设资金分别来源于“211工程”建设经费“985”工程,国家“教育振兴行动计划”,国家和省级自然科学基金,各省市教委、学校的专项拨款,与企业共建,捐助,图书馆年运作经费,学校自筹等10多个方面。由此可见图书馆动用了所有力量,通过各种渠道支持数字图书馆建设。小到学校,大到国家,建设数字图书馆的意识都明显增强,对此投入的资金大幅度增加,部分学校得到的数字图书馆建设的资金更是令人可喜。表1将各馆数字图书馆经费情况按几个等级进行了统计。需要说明的是有17个学校未对数字图书馆资金的投入进行说明,无法进行统计。对72个成员馆的统计结果显示,38.9%的学校数字图书馆建设的资金额度大于100万,其中有8.3%的高校十分重视数字图书馆的建设,投入了数千万资金支持数字图书馆的建设,但是,我们还应该看到,有超过一半的图书馆用于数字图书馆建设的资金小于10万,无力开展规模性的、目的明确的数字图书馆建设活动。“十五”期间,为了在更大范围内共建、共知、共享,CALIS任重道远。

表1数字图书馆建设资金状况统计

3重点调研

下面根据联盟理事馆对《学位论文数据库建设情况调查表》和《教学参考书数据库情况调查表》的反馈意见,综合CALIS成员馆对《数字图书馆建设情况调查表》的反馈意见,对CALIS成员馆“学位论文数据库”和“教学参考数据库”的建设情况进行分析。

3.1学位论文全文数据库建设

“高校学位论文文摘数据库”是CALIS“九五”建设的一项重要成果,是高校间开展文献传递的重要基础数据库之一。“九五”期间共有90余所成员馆参与了CALIS学位论文文摘数据库的建设,学位论文文摘数据提交量已经达到10万条。由于学位论文内容丰富、新颖、情报价值高,对某一专题有独到的见解和系统论述,对科研和生产有较大参考价值,读者需求呈上升趋势,为此,“十五”期间,CALIS将在该库的基础上进一步建设“高校学位论文全文数据库”,全面实现博、硕士学位论文资源的共享。根据《数字图书馆建设调查》和《高校学位论文全文数据库建设调查》的统计结果,CALIS成员馆中有29家开展了学位论文全文数据库的筹备和建设工作,其中13家来自联盟理事馆;目前这些学校学位论文的全文数据加起来有18100条,主要采用WORD和PDF格式保存,也有个别学校采用JPG格式和DJVU格式;其中北京大学、上海交通大学和东南大学图书馆学位论文建设工作开展较早,可以追溯到1996年;北京大学、清华大学和西安交通大学图书馆数据库建设规模较大,有超过5000条的全文数据;已经具有学位论文数据库提交系统的学校有11个,其中北京大学、清华大学等图书馆的系统已经比较成熟,不仅具有学位论文提交系统,而且同时开发了学位论文检索系统,并考虑了学位论文的编目、校验、统计,设计了学位论文管理系统;目前北京大学和西安交通大学图书馆的学位论文数据库系统是开放的,读者可以检索到摘要级,其他学校的学位论文系统有的要进行用户认证,有的通过IP限制访问;对于学位论文的版权问题,各个学校还没有很好的解决方案。比较实际的解决方法是和论文作者签署论文使用协议,限于校园网使用。成员馆的上述工作为“十五”期间CALIS学位论文全文数据库的建设提供了很好的基础。2002年5月底,CALIS管理中心邀请在学位论文建设方面有一定基础的15个联盟理事馆召开了“高校学位论文全文数据库建设工作研讨会”。会议统一了对高校学位论文全文数据库建设的认识,明确了高校学位论文全文数据库建设的指导思想为在统一的建库标准规范下,实现共建、共享。会上大家总结出学位论文建设的主要环节包括总体工作流程、标准规范、论文提交、应用系统、管理与版权等。会后,CALIS管理中心根据各成员馆的意见,整理了《高校学位论文全文数据库建设参考》,为其他准备开展学位论文全文数据库建设的学校提供参考,加快高校特色资源共建共享的进程。北京大学、清华大学、武汉大学、西安交通大学、厦门大学、东南大学等学校还表示愿意根据会议精神,在对各自的应用系统进行修改后,尽快向兄弟院校免费提供。与此同时,大家还认同了将CALIS学位论文全文数据库设计为“集中索引、分布式存储”的数据库的思路。

3.2教学参考书数据库建设

CALIS管理中心充分意识到,建设教学参考书数据库,对高校的公共基础课、专业基础课和一部分精选专业课的教学参考书提供上网服务,可以满足教育事业发展的需要,有效地解决各校教参复本量少的问题,在“十五”期间将“教学参考书数据库”建设提到了议事日程上来。

根据《数字图书馆建设情况调查表》和《教学参考书数据库情况调查表》反馈的结果,目前CALIS成员馆教学参考书数据库建设基本的情况是:14个学校已经建有一定规模的教学参考书数据库,另有11个学校开始筹划;其中教参数据库建库时间最早的是中国人民大学图书馆,始于1996年;北京大学图书馆1999年开始建库;包括复旦大学、清华大学图书馆在内的8所高校图书馆从2000年开始建库;其他的图书馆是在近一年里才开始和计划进行教学参考书数据库的建设;这些学校的教学参考书书目数据量加在一起有49500条,全文数据有5100条,其中复旦大学的书目数据量最多,已达26,500条,中国人民大学的全文数据最多,有3000条;对于教学参考书数据库系统,有7所图书馆使用TRS全文数据库进行二次开发,有3所图书馆采用快葳公司的DIPS系统,2所图书馆馆使用方正Apabi系统;选择MARC做为教参元数据进行著录的有5家,选择DC做元数据的有3家;对于全文,一般采用WORD和PDF格式;对于版权问题,中国人民大学、西安交通大学、中国科技大学图书馆目前的解决办法是限于校园网使用,其中中国人民大学图书馆已经开始对教师著作征询版权,清华大学和上海交通大学图书馆目前的政策是部分解决版权,同时结合访问控制,北京大学图书馆、复旦大学图书馆正在考虑和专业公司合作,全面解决版权;目前在主页上有教学参考书项目链接的图书馆,有上海交通大学、复旦大学和厦门大学,其中复旦大学图书馆的检索系统可以对外提供服务,非校园网用户可以浏览到书目级。

CALIS在6月中旬邀请22家中国高等学校数字图书馆联盟理事单位召开了“教学参考书数据库建设研讨会”。会上,大家根据各自的工作经验对CALIS将在“十五”期间进行的教学参考书数据库的建设工作提出了很好的建议:(1)标准规范方面:希望CALIS在标准、系统等方面提出方案与要求。(2)建设内容:在学科上有所侧重和分工。(3)版权问题:提出统一的版权解决方案。(4)管理方面:以211工程或CALIS名义,请学校教务部门将教参书的收集纳入教务管理工作,以保证教参考书的权威性和新颖性。(5)建设方式:由CALIS组织购买一批有版权的电子参考书,同时在CALIS协调下,由部分高校分工建设,共享数据,成本分摊。(6)合作思路:和数据库商与系统商合作开发系统和解决版权。(7)系统建设:第一步参建各校分别建立教参信息库,同时把数据集中起来建立CALIS教学参考信息库;第二步建设电子全文数据库。

针对以上建议,CALIS正在积极征集包括系统、资源、读者使用、服务模式、实施、经费预算等在内的教学参考书数据库的解决方案并通过申报、调研、审批方式确定承建单位。

4小结

CALIS管理中心通过“数字图书馆”、“学位论文数据库”和“教学参考书数据库”建设情况调查,从各个方面了解了成员馆数字图书馆建设的情况,同时掌握了CALIS“十五”期间将建设的“学位论文数据库”和“教学参考书数据库”在成员馆中的发展现状。

数据库本科论文范文3

【关键词】会议 文献 数据库 数字化 资源共享

一、研究背景

会议文献是指在各类学术会议上宣读的论文、论述、总结等形式的文献,包括会议前参加会议者预先提交的论文文摘、在会议上宣读或散发的论文、会上讨论的问题、交流的经验和情况等经整理编辑加工而成的正式出版物[1]。文献是进行学术交流的重要知识资源,大多数会议文献都具有独到的学术见解和新颖的学术观点,学术质量较高。许多会议文献还公布科研人员取得的新进展与新成果,并提出新的研究课题和新的研究设想。因此,会议文献往往具有专业性强、学术水平高、内容新颖、信息量大、可靠性强、出版速度快及发行方式灵活等特点[2]。

会议论文作为仅次于科技报告的十大情报源之一,代表了一个国家或地区在某一时期,在相关学术领域内取得的最高学术水平,是进行科学研究的文献信息保障,具有较高的学术价值和情报价值,是推动人类社会发展、科技进步的必备文献之一。

近年来,随着数字化加工、处理技术及信息检索技术的迅猛发展,各大图书馆以及数据库商开始将会议论文数字化,以期为受众提供更加便捷的数据服务。目前,国内综合性学术会议论文数据库主要有三个:CNKI的 《中国重要会议论文全文数据库》、万方数据的《中国学术会议文献数据库》、上海图书馆的《全国学术会议篇名数据库》。

本文通过对这三个数据库的统计调查,对国内主要学术会议论文数据库的建设和利用状况进行了初步分析,特别关注了所面临的共同问题,分析其产生原因并给出了相应对策与展望。

二、国内主要学术会议论文数据库开发所处的环境

(一)政治环境

近年来,政府在工作报告中指出,要“引导科研机构、高等院校的科研力量为企业研发中心服务,提高原始创新能力”。坚定不移地实施“国家知识产权战略”“倡导学术诚信、鼓励独立思考、保障学术自由、弘扬科学精神”。在政策的保障和推动下,学界的主动性明显增强,学术交流活动日见活跃,呈现出蓬勃发展的态势。

(二)经济环境

目前,整个市场经济正步入转型升级的阶段,各领域之间的渗透交融越来越明显。科研人员、教育界人士、政府机构对学术会议转化的成果需求日益旺盛,愿望日益迫切。传统图书情报机构对于会议文献的揭示已经难以满足受众的需求,需要寻求更为高效、精确的揭示途径和呈现模式。

(三)社会环境

《中国重要会议论文全文数据库》和《中国学术会议文献数据库》的总部在北京,《全国学术会议篇名数据库》总部在上海。京沪两地历史悠久,文化积淀深厚,在上海能感受到海纳百川的思想碰撞,北京更是汇聚了大量优质的教育文化资源,国内高质量的学术会议有很大部分都选择在这两地召开,办会条件成熟度高,具备明显的资源优势。

(四)技术环境

数字化加工技术的进步,互联网技术的快速发展为会议文献的揭示和服务提供了良好的支持,数据库开发者得以运用这些成熟的技术,来构建会议论文资源,成为采集、加工、保存、服务的技术平台。并通过互联网向全国乃至全世界提供学术会议论文数据服务,实现资源共享。

三、学术会议论文数据库建设和利用的现状

《全国学术会议篇名数据库》由上海图书馆上海科技情报所制作。该库建库时间早,早在1958年零星的资料收集就已出现。该数据库正式始建于1982年,最初以微缩胶片形式全文,1998年开始建立光盘及网络版数据库。《中国学术会议文献数据库》由北京万方数据有限公司制作,始于1983年,于1995年建光盘库,1997年通过Chinainfo出网络版文摘库,2002年网络版全文库。万方数据有限公司成立于1993年,是一家以中国科技信息研究所为基础,直属科技部的股份制高新技术有限公司。《中国重要会议论文全文数据库》由清华同方知网(北京)技术有限公司制作,教育部主管,该数据库始于1999年,能实现多库并行检索,具有强大的综合优势。(参见表1)

(一)会议论文收录量

万方《中国学术会议文献数据库》以250多万篇的数据量独占鳌头,CNKI《中国重要会议论文全文数据库》以200多万篇紧随其后,上图《全国学术会议篇名数据库》为120万篇,数据量较少。

(二)z索功能比较

基本的字段检索、高级检索和专业检索功能均无太大差异。万方和CNKI 均提供相似文献推荐服务,万方还提供与互动百科的词条链接服务;CNKI的分类导航、论文集导航和会议导航均做得较为出色,使用体验较佳。

(三)全文服务

万方和CNKI 均提供会议论文全文下载,会议论文索引免费获取,上图库仅提供篇名服务,需线下联系以获取全文。

学科导航(大类数量) 基本按照中图法,A大类不单列 分为十大专辑:基础科学、工程科技Ⅰ、工程科技Ⅱ、农业科技、医药卫生科技、哲学与人文科学、社会科学Ⅰ、社会科学Ⅱ、信息科技、经济与管理科学。十专辑下又分为168个专题。 无

(四)数据库收录会议情况抽样比较

通过对三个数据库5年内的收录数据进行统计,在此基础上对相关类目进行抽样比较分析得出如下结果。

(五)会议论文收录情况比较(参见表2)

2008~2012年,万方收录论文集12593种,年均2546个会议;CNKI收录7897种,年均1379个会议;上图收录3076种,年均613个会议。

(六)会议论文收录学科分布情况比较

万方会议论文收录科技类占总量的83.58%,其中工业技术比例最大,占39.07%;CNKI科技类占总量的73.80%,其中工业技术占30.00%;上图科技类占总量的68.40%,工业技术占30.92%。万方会议论文科技类占比是三个库中最高的,工业技术也是三个库占比最高的大类。上图会议论文中社科类占比为三个库中最高。

(七)收录会议重复情况比较

从5年内的抽样统计结果看,万方收录的会议论文集数量与上图收录的论文集数量重复率在大约是上图的50%。同时,万方和CNKI的重复量也基本上占CNKI的二分之一。

从上述调研及统计中发现,在建设力度方面,公益机构(上图)对会议文献数字资源的建设力度并不大,开展的服务力度非常有限,利用率不高;在加工深度方面,仅仅停留在对文献的数字化扫描的数字化还原层面,远未达到资源的深度揭示。相比较公益机构的迟缓,嗅觉灵敏的商业机构却在资金技术人力方面加大投入,采用全文扫描识别技术,力图深度揭示文献内容的内在关联,为受众提供更加人性化、个性化的服务。

四、存在的问题与对策

通过以上分析比较,我们发现,目前三个国内主要会议论文数据库之间数据体量差异较大,有一定的重复率。同时,因为数据库制作者的不同,制作标准不一,对同一种会议文献,不同的单位可能按不同的文献类型来处理,规范程度也不尽如人意[3]。由此影响了会议论文数据的查全率和查准率,给受众的正常使用带来诸多不便。学术会议是新研究成果的重要场所。据统计,有近1/3的学术成果是在相关会议上首次公布的;学术会议对本学科领域重大事件的首次报道率也是最高的。可以这么说,只参考期刊文献,不参考会议文献,科研的开创性将不复存在。因此,各大数据库应以读者的利益为出发点,达成共识,分工协作,不断提高兼容性,才能更好地为读者提供优质服务。

(一)增进沟通,统筹规划

会议文献数量巨大,任何一家机构都不可能独立收全所有的学术会议文献。这就首先需要全国各文献情报机构精诚协作,整合分布在各高校图书馆、公共图书馆、情报机构、数据公司中的会议文献资源,将资源进行充分的梳理、组合;其次要借鉴运作模式相对成熟的数据公司的力量,依托公益机构专业的分类标引手段,将公众资源和商业力量进行统一的运作规划,联合共建从而合理分配使用社会资源。如此,必然可以减少重复建设,从而提供更丰富优质的服务。

(二)规范制作,深度揭示

在数据库建设过程中,有必要建立规范的会议文献数据库,将不同出版形式的会议文献统一纳入该数据库,按照会议文献的特征和著录规范进行著录。同时,对会议文献的开发不能停留在全文提供的层面,应认真调研,做好深层次开发的准备,以深度标引为基础,提高资源揭示的深度与内在关联性,进一步完善会议文献的数字化建设工作。在服务平台相关功能上,论文数据的精准定位、深度标引以及全文的可检索途径已成为服务平台不可或缺的功能之一,必须充分考虑并挖掘这一功能。

(三)丰富内容,深化服

新一代的会议论文服务平台,不应当仅仅是提供论文检索的数据库,更应当以满足用户多样化需求为着力点,将服务延伸至会前、会中和会后。从会议预告到相关新闻,从篇目揭示到文献传递,从单向提供会议信息到支持用户相关信息,资源共享、开放协作将是未来会议文献数据库的发展趋势。

【参考文献】

[1]王冰,曹开玉. 军事情报网络资源检索理论与应用[M].北京:军事科学出版社,2007:508-512.

数据库本科论文范文4

摘要:文章介绍CNKI、维普和万方数据库各自的特点,并利用定性和定量相结合的方法,总结出数据库检索平台的建设现状:维普收录期刊最多,CNKI检索平台功能完善,万方缺乏优势;期望数据库未来发展能结合各自优势和不足,寻求最佳发展道路。

中图分类号:G252.7文献标识码:A文章编号:1003-1588(2014)12-0107-03

收稿日期:2014-11-15

作者简介:刘敏(1982-),湖南农业大学图书馆馆员。

*本文系CALIS农学中心项目“中文三大期刊数据库系统的检索与评价研究”阶段性成果之一,项目编号:2014015;湖南省教育厅项目“数据库系统功能在科技查新中的应用与评价研究”阶段性成果之一,项目编号:14C0555。笔者从评价指标具体化角度出发,介绍中文三大期刊数据库基本情况,并结合三者检索平台各自建设现状,采用定性(案例分析法)和定量(具体指标评价法)相结合,对数据库检索机制进行比较分析,并对数据库引文分析、科技查新等延伸功能进行论述,综合评价数据库目前建设现状。以期为图书馆今后采购中文期刊论文数据库、为用户了解某一主题研究动态选择数据库检索期刊论文以及为科技查新工作开展提供参考意见。

1数据库介绍和建设现状

1.1数据库介绍

《中文期刊全文数据库》(《中国知识资源总库》的一部分,以下简称CNKI)、《中国科技期刊全文库》(以下简称维普)和《万方数字化期刊系统》(以下简称万方)是目前使用率和影响力较大的三大中文期刊数据库。近年来,在丰富期刊收录的基础上,CNKI、维普和万方对各自的检索平台进行了优化。

CNKI由清华大学、清华同方发起,始建于1999年6月,资源收录类型涉及期刊论文、学位论文、会议论文、专利等。[1]维普源于1989年成立的中国科技情报研究所重庆分所数据库研究中心,经过多年发展,2000年,上线并向用户提供期刊论文检索服务;除《中文科技期刊数据库》外,还提供《外文科技期刊数据库》等十余种产品。[2]万方始建于2000年,属于国家科技支撑计划项目,为用户提供期刊论文、学位论文、会议论文等十余种文献的检索与利用。[3]

1.2建设现状

为保证数据库的可比性,笔者调研时均选用远程访问,及时了解数据更新情况(调查时间:2014年1月19日)。遇到具体问题,详细咨询数据库客服。

数据库均提供镜像版和网络版的访问方式。网络版更新频率能做到日更新,万方每周更新两次。从数据收录的回溯年限看,CNKI(1915年至今)收录期刊年限早于维普(1989年至今)和万方(1990年至今),提供世纪期刊的查询。

从期刊收录总量看,维普(9,215种,含1,978种核心)收录期刊最多,公开出版发行的所有期刊基本被维普收录,包括部分停办过刊和不公开出版发行内刊。万方(7,363种,含1,756种核心)期刊总量、核心期刊收录最少。CNKI(8,052种,含1,937种核心)介于二者中间。以《数字图书馆论坛》期刊为例,CNKI未收录,维普和万方收录。

期刊导航是数据库将收录所有期刊按规律排序,用户按浏览或检索方式找到期刊,并根据期刊提供卷次、期次等获取全文。CNKI和维普提供期刊导航功能,万方缺失。CNKI和维普提供刊名首字母导航方式浏览查询期刊。其中,CNKI期刊导航提供世纪期刊、核心期刊、出版地等十余种类别浏览查询,并提供刊名、ISSN和CN号码检索。维普提供全部期刊、核心期刊、国内外数据库收录期刊、地区分布四种类别浏览查询,并提供刊名和ISSN号码检索。从期刊导航功能完善性看,CNKI优于维普。

2数据库检索平台功能比较

2.1检索功能现状

评价数据库检索功能的完备性,首先应具有满足初学者、科研人员以及科技查新工作者不同检索要求的检索平台。从提供的检索类别看,数据库均有满足初学者检索要求的快速检索,具有满足科研人员检索要求的高级检索以及具备适应科技查新工作要求的专业检索。

CNKI检索平台还提供作者发文、科研基金、句子和来源期刊途径的检索。维普检索平台的传统检索,支持同义词检索、同名作者检索,并按照《中图法》进行分类浏览。从检索功能的特色看,CNKI和维普均有各自的特点。

常见的检索途径有主题检索、分类检索和作者检索。主题途径能够帮助用户检索某一主题的论文,保证检索结果的查准率。反映某一学科或专业检索的分类途径,能够帮助用户查找某一学科的论文时,保证检索结果的查全率。利用数据库检索,如果主题途径结合分类途径检索所需文献,一定程度上能够保证检索结果的查全率和查准率。作者途径能帮助用户检索具体作者发文情况。

反映主题途径检索的检索标识有:主题、标题、关键词、摘要等。CNKI、维普和万方具有标题、关键词、摘要的检索标识。CNKI和万方还提供“主题”检索标识。

常见的分类途径基本是按照《中图法》进行。CNKI和维普支持《中图法》分类检索,万方缺失。

“第一作者”检索能更准确反映作者科研水平和发文情况。CNKI和维普提供作者和第一作者检索,万方缺失第一作者检索。从提供第一作者检索看,CNKI和维普优于万方。

2.2检索平台评价指标

CNKI、维普和万方支持模糊和精确匹配。在实际检索中,能有效处理检索结果多与少的问题。上文可知,数据库支持主题、分类和作者途径检索,支持题录状态下对检索结果的批量导出、下载、保存和打印。这些功能对于需要将参考文献批量导出、保存或著录的科研工作人员、查新员而言,能够减轻工作量,提高工作效率。

刘敏:中文数据库检索机制的对比与评价研究*刘敏:中文数据库检索机制的对比与评价研究*CNKI提供科研社区功能,用户根据检索要求,可以下载、预览和分享期刊论文信息。检索平台提供信息分享的科研社区延伸功能在CNKI得到了较好的体现,优于维普和万方。CNKI提供引证文献链接,伴有下载频次提示、被引提示、引文网络分析,具备论文资源分享功能。总体而言,CNKI的检索平台功能优于维普和万方。3数据库检索测试分析选取具体实例,设定相同检索条件,对数据库分别从主题途径、分类途径、作者途径进行检索测试。检索结果见表1、表2。

对表1、表2进行分析可知:万方期刊收录量最小,维普略多于CNKI,与上文统计相符。从主题检索途径看,维普、CNKI题名和摘要的检索功能比万方强。维普的题名或关键词功能较强。CNKI的关键词、主题检索功能较强。从全文检索途径看,CNKI全文检索功能较强。从分类检索看,CNKI和维普期刊都按照“中图法”进行分类,检索方便。CNKI“中图法”检索输入提供分类法提示框。维普分类检索优于CNKI,查全率高。而万方不提供“中图法”分类检索,功能薄弱。从作者途径检索看,CNKI和维普提供第一作者和作者途径检索。万方不提供第一作者检索。CNKI和维普的作者检索功能优于万方。

4结论

4.1数据库重复建设严重,竞争明显

近年来,为强势占据用户市场,数据库商走了盲目“求多求全”的发展之路。数据库商希望靠丰富多样的文献资源来吸引用户市场,结果造成国内期刊数据库文献重复建设,数据库商之间竞争明显。虽然,一方面能避免行业垄断现象,对于数据库的发展能够起到一定的促进作用,但另一方面却造成了资源浪费。以本文研究为例,CNKI、维普和万方重复建设了中国的电子期刊市场。中文三大期刊数据库覆盖学科大类分布均衡,期刊收录总量上三个数据库各有不同。将收录核心期刊作为收录文献的核心竞争力,并不断优化核心期刊平台检索功能,可作为数据库商未来发展道路。

4.2检索平台功能优化

数据库在保证文献资源丰富并持续更新前提下,应不断注重检索平台功能优化。以CNKI为例,在保证文献信息类型多样、期刊总量丰富的基础上,不断优化和整合信息,先后推出了句子检索、基金检索、科研社区、多种类别期刊导航浏览等功能,为用户提供了检索方便,这应是维普和万方今后发展需参考借鉴之处。然而,三大数据库仍有检索平台功能不完善之处。以对检索期刊来源类别限定为例,CNKI提供SCI、EI、CSSCI等来源期刊类别限定,维普提供SCI、EI、CA、CSSCI等来源期刊类别限定,万方提供CSSCI、北大版等来源期刊提示。表面上看,对来源期刊级别限定能够帮助用户获取高质量期刊论文。但是,三大期刊数据库均不能及时反映核心期刊变动情况,部分核心期刊的增刊也可被作为核心期刊检出。因此,在保证文献数量的基础上,寻求期刊收录质量,优化检索平台应是数据库未来发展方向之一。

4.3检索标引度

数据库应寻求优势资源整合,注重检索标识标引深度。以主题检索为例,维普适合题名检索,CNKI更适合关键词检索。CNKI和维普按照《中图法》进行分类,在保证查全率前提下,检索更加快捷方便而准确,而万方主题检索功能较弱。只有CNKI提供全文检索。数据库应注重检索词的标引深度,为用户提供适合具体检索要求的检索标识。

4.4引文分析、科技查新延伸功能

结合上文所述,为适应用户需求,数据库保证检索平台具备快速检索、高级检索、专业检索以及期刊导航等基本检索类别;具有主题、分类、作者等检索途径,进而保证检索平台功能的完备性,并不断研发引文分析、科技查新等延伸功能,以更好地吸引专业用户利用数据库资源,这也是数据库未来发展值得深入研究的方向。

5结语

经过十余年发展,数据库检索平台从最初仅提供简单字段检索,到现在支持布尔逻辑检索、截词和特殊字符检索等多种功能,具有包含多种检索途径和多样检索标识。数据库检索机制发展逐步成熟。数据库未来发展应摆脱盲目追求资源优势的思路,努力寻求检索机制的优化才是今后数据库发展的重点。

参考文献:

数据库本科论文范文5

〔关键词〕资源组织;元数据;桂子文库

DOI:10.3969/j.issn.1008-0821.2011.12.014

〔中图分类号〕G250.74 〔文献标识码〕B 〔文章编号〕1008-0821(2011)12-0052-02

Metadatas Application and Practice on Characteristic

Database in University Library

――Example as Guizi Database of Huazhong Normal UniversityChen Haiyan

(Library,Central China Normal University,Wuhan 430079,China)

〔Abstract〕The article introduced metadatas three fundations on Characteristic Databases Building.It described and showed resource organization,resource application,database management of metadata on Characteristic Databases application and budiling by detail infomations,example as Guizi Database project of Huazhong Normal University.

〔Key words〕digital resource organization;metadata;Guizi Database

近年来,随着高校文献保障系统和数字图书馆工程的推进,各地区许多高校图书馆都在特色资源数字化建设中挖掘自身的潜力优势,扩展服务空间,建立了以本校学科优势为特色的专题数据库,为高校读者提供深层次的学科服务。为了推动了高校教学、科研水平的交流与提高,增强学校科研成果的彰显力,我校图书馆开发建设了华中师范大学教师科研成果文献数据库――桂子文库。桂子文库是收藏和保存学校教师和学者的学术科研成果文献的数据库,具有数字资源采集、加工、管理、存储、交换和等一系列功能,桂子文库面向全校读者提供个性化的文献内容服务、咨询服务、教学与科研支持服务、以及其他相关服务。

高校图书馆在进行特色数据库建设中,需要把相关的文献信息资源按照一定的原则进行收集、组合和有序的整理,这就是特色数据库要进行的信息资源组织。图书馆在进行信息资源组织时,是通过元数据来承担和实现的。我馆建设的桂子文库,就是基于DC元数据完成其对信息资源的组织和服务的。

1 元数据在特色数据库建设中的作用

元数据是用来描述数据本身内容和其他特征的数据,在数据库建设中,主要承担着描述信息、定位数据、检索资源、评估资源等重要作用。在特色数据库建设过程中,元数据承担着增加系统数据可信性、系统可用性以及资源发现能力等重要作用,是各方面功能、互操作以及参与聚合等得以实现的关键。元数据在特色数据库建设中的作用主要体现在以下几个方面:

1.1 资源组织方面

建立能够有效满足用户需求的高质量特色数据库,必须提取资源相关特征的元数据(题名、作者、关键词等),并科学地组织起来,便于资源的利用。这是特色数据库数据建设要解决的问题。文献信息资源根据特色数据库的需要,遵循设计好的元数据格式被有效地组织、分类,被严格地标注、描述。

1.2 资源利用方面

特色数据库经过对相关资源特征抽取和标注以后最终的目的是提供给用户利用,这里的利用包括数据库查找、识别、挑选、获取和数据复用等。资源的检索、浏览和定位借助于资源组织时抽取和标注的特征元数据实现,其对于元数据质量的要求就是涵盖全面、标注准确。数据复用则要求元数据应该从多个角度对同一资源进行描述,元数据质量方面的要求是元数据的准确性、描述项目的标准化且应有一定可拓展性。

1.3 数据库管理方面

建成的特色数据库除满足用户利用方面的需求外,还要满足特色数据库管理者管理方面的需求,如数据库所有权、安全控制、数据库及数据库部分内容访问统计、数据库之间互操作,这都需要借助于相关元数据实现。互操作管理元数据要求在建设过程尽可能采用相关、适用面广的标准,其他管理方面元数据则要求根据需要在数据库设计时设置好相关元数据字段。

元数据在高校图书馆特色数据库建设中的应用与实践2 元数据在桂子文库建设中的应用及实践

2.1 桂子文库建设中采用元数据的标准与原则

桂子文库是收集保存我校教师科研成果文献数据库,在对科研成果数据调研分析之后,确定了几种文献类型,分别是个人信息、学术论文、论著教材和其它成果,这也成为了桂子文库的子库即子栏目。在确定了桂子文库文献资源类型之后,我们采用现有的CALIS元数据标准规范,设计了相应子库的元数据方案,对文献资源进行描述、序化和组织。

桂子文库元数据遵循了CALIS元数据标准规范――《CALIS特色库子项目描述元数据规范及相关规则》、《CALIS特色库管理型元数据规范》,元数据的设计上具有标准化、描述准确性、通用和专用性、互操作性等特点。在对元数据进行扩展过程中严格执行了元数据扩展的规范化和标准化规则,即在扩展过程中,扩展的子元素及其限定词必须与原有元素语义定义保持严格一致,不能超出元素固有的语义范围。对于自建元素也进行了严格的语义界定和说明,以保证著录的准确性。

2.2 元数据对桂子文库的资源组织

在桂子文库的元数据设计方案中,学术论文、论著教材和其它成果虽然属于各种类型的科研成果,但在用元数据对它们描述上存在着共性的信息,因而设计了部分共用元素,即:〈题名〉〈主要责任者〉〈机构〉〈关键词〉〈摘要〉〈描述〉〈中图分类号〉〈资源类型〉〈文献引用〉〈标识符〉〈全文〉等,这里〈关键词〉和〈中图分类号〉是由“主题”元素扩展而来的;〈描述〉〈文献引用〉〈标识符〉等元素是根据学术论文、论著教材和其它成果的文献资源特征,做了元素的进一步扩展,比如:在著作教材子库中,〈描述〉的主要修饰词为〈摘要〉和〈丛编题名〉,扩展了两个元素:〈获奖情况〉和〈基金项目〉,〈获奖情况〉用来描述著作的获奖信息,〈基金项目〉可标明该著作为某个部级项目的成果。

个人信息库是收集科研成果作者的信息库,因而它的元数据结构不同于其它的3个子库,其元数据的主要元素为:〈姓名〉〈职称职务〉〈工作单位〉〈主要研究方向〉〈个人简介〉〈获奖情况〉〈科研项目〉等,对作者做了基本信息的描述和定位。

桂子文库对收录的数据进行归类入子库并按照其各子库的元素进行标引,实现了科研成果文献数就被有效有序地组织起来。

2.3 元数据在桂子文库中的服务功能的实现

桂子文库主要服务功能有检索功能、导航功能、关联功能、排行榜功能等,元数据是帮助这些功能得以实现的基本要素。

检索功能是数据库具有的最基本的功能,桂子文库首页中的高级检索是用几个主要元素来实现的,它同时又具有跨库检索的能力,这是通过学术论文、论著教材和其它成果3个子库的库结构中的共用元数据来实现的。

桂子文库的学科导航是用中图分类法进行的导航分类的,这是根据科研成果子库都有的一个共同元素〈中图分类号〉来实现的,通过导航,可方便地检索出某类别的文献成果。此外,还有一个院系导航,这是根据个人信息库的元素〈工作单位〉来实现的,点击院系导航的任一单位,可以搜索到这个院系的教师的基本信息情况。

关联功能是桂子文库使用功能的一个重要功能,通过关联点,可以迅速快捷地查找文献资源。桂子文库利用元数据实现的一个关联点是〈关键词〉,通过点击这个元素中标引的任何一个关键词,可以检索出含有这个关键词的所以科研成果记录;利用元数据实现的第二个关联点是〈主要责任者〉,点击这个元素中标引的作者名,就可以检索出这个作者的所有科研成果记录。

桂子文库具有排行榜的功能,我们制作了文献点击率排行和作者点击率排行,这是通过元数据的一个元素〈hitcount〉来实现的。在数据库的库结构中,置入这样一个字段,使每一条数据记录都有了点击数量,系统根据这个字段列出数据点击排行的情况。

2.4 元数据在桂子文库管理方面的应用

桂子文库数据库的后台管理中,制作了对用户访问的功能,在数据库的底层库结构中置入了元素〈hitcount〉,因每条记录都含有这个元素,在对数据进行访问统计时,根据定位元数据实现了对各子库的分类访问统计。

在数据安全管理方面,桂子文库利用元数据进行了数据安全控制。桂子文库的文献数据大部分是全文数据,在校园网内可以访问全文,在校园网外不能访问全文,但是通过分配的用户名和密码登录桂子文库,可以者校外进行桂子文库的全文访问。

元数据在桂子文库数据库的建设中组织文献信息资源、描述文献资源及定位,并且帮助实现了数据库的文献利用与各种服务功能,管理型元数据又对特色数据库的数据管理起到了一定的作用。

3 结 语

特色数据库建设过程中,对元数据的应用上,经常会遇到一些现有标准体系无法涵盖的需求,需要在现有标准基础上进行扩展,如果把握不好就可能造成元数据冗余。希望CALIS的中文元数据标准规范体系能够进一步得以完善,让图书馆自建数据库建设时能找到各种类型文献资源的相应的标准规范可以依据。增加检索的准确性,提高数据检索的能力也是特色数据库的服务功能建设的主要问题,高层次的描述符便于更精确的内容检索。因此,需要更进一步的把低层元数据和尽可能多的基于内容的元数据合并。通过合并,能够进行更精密的推理和规则。作为远景规划,希望CALIS在元数据标准规范建设时能推进元数据与语义集成的研究,提高数据库的检索效率,充分发展元数据在特色数据库建设中的作用。

参考文献

[1]李凌杰.特色数据库建设中的元数据质量控制研究[J].图书情报工作,2010,(5):43-46.

数据库本科论文范文6

关键词:专家评价;网络信息服务;文献分析与挖掘;专家库;专家地图;社会网络

中图分类号:C861 文献标志码:A 文章编号:

10085831(2014)02009906

一、引言

国务院2010年6月颁布的《国家中长期人才发展规划纲要(2010-2010年)》(以下简称纲要)中明确提出,为了加强人才工作基础性建设,推进人才工作信息化建设,建立人才信息网络和数据库,为此政府需要积极支持社会各方力量建设完善面向市场的各类专业人才数据库和人才管理系统。同时纲要还提出,在体制机制创新中必须创新人才工作机制,特别是人才评价发现机制,要求完善人才评价标准,注重靠实践和贡献评价人才,把评价人才和发现人才结合起来,坚持在实践和群众中识别人才、发现人才[1]。

本文将构建一个可操作性强的实际人才评价的应用平台,该平台可以依托各期刊数据库,自动化处理和分析文献信息,构建各领域的专题文献库,基于该库通过识别、筛选出各个研究领域的杰出专家及相互联系,解释其合作模式与规律,并对其进行科学评价。专家库的建立主要是通过采用包括h指数评价法、引文分析在内的多种文献计量方法和“中心性分析”等社会网络分析方法,利用专题文献库从各领域的核心作者中筛选出各领域专家而实现。各领域专家库的建成不仅有助于领域研究者加深对同行的了解,而且有助于科研管理部门和社会大众把握各领域研究人员分布情况和遴选相关专家。目前,我们开发的专家评价网络信息服务平台已经在武汉大学研究中心各项目组都投入了实际使用,大大提高了科研中的数据获取、处理、分析与评价的效率,并能导出各种统计图表、专家地图和专门格式的数据文件,以供更为深入分析之用,本网络平台也为一些高校的高端人才引进与评价提供了咨询服务。

二、平台构建意义

(一)对科研管理部门科技管理的决策支持

通过对专题文献库进行科研合作网络和引文网络的分析,可以发现某学科领域的核心专家群体,发现国家或机构研究人员的合作模式及规律,综合运用文献计量学、社会网络分析等指标对科学家个人,甚至扩展应用到对科研机构、学术期刊、科研项目进行学术水平的评价,从而为科研管理部门的人才引进、项目论证、科研团队组建、科技资源配置等决策提供定量依据。

(二)创新人才评价方法论体系

评价理论框架本身具有跨学科特征,所涉及的学科领域主要有决策学、管理学、政策学、行为学、经济学、计量学、工程学、社会学、心理学和逻辑学等,设计和实施科学的评价活动需要跨学科的方法,需要不同专业领域理论的整合和综合应用[2]。我们在评价过程中采取了多学科方法的融合,综合运用了以下各种方法:综合评价方法(如层次分析法、模糊综合评判法)、统计学方法、文献计量学方法(如引文分析)、社会网络分析方法(如中心性分析等)、心理测量方法等。

(三)人才评价活动的科学化、智能化

在评价过程中充分利用先进的信息技术是提高评价活动效率和准确性的必然要求,受到科学评价界的广泛关注。本网络平台要解决海量数据的获取途径和处理、分析方法的创新以及过程的自动化问题,实现各类数据库的数据自动采集、整理和目标关系矩阵的生成与运算,从而实现数据处理完全自动化,大大提高研究效率和结果的准确性,为科学研究的深入开展创造条件。

(四)开放化的网络服务平台创造社会价值

搭建基于web的评价信息服务平台能够充分利用互联网的开放性和社会性,充分整合各种类型的信息资源,更好地实现个性化信息服务(如本平台后面的专家地图功能,就是利用了谷歌公司的地图开放应用编程接口,实现了专家评价信息和地理信息的有效整合,提供了直观的评价结果可视化方案);开放化的网络服务平台,能满足广大科研工作者、科研管理部门各种信息需求,全面实现评价信息资源的社会价值和经济价值。

三、专家评价概述

科学评价(广义)是指用科学的方法对一切对象进行评价,意指“科学地评价”、“评价科学化”,覆盖的范围非常广泛,囊括了各行各业、各学科领域、各层次、各种类型的评价。评价就是根据评价的综合标准和指标体系确定被评价对象有无价值及价值的大小,价值是评价的基础[2]。本文研究的专家评价属于科研领域人才的评价,建立在心理测量学、文献计量学、社会学等基础上,对人才的人格、态度、能力、道德等内在(隐性)特质、工作成果与绩效等外部(显性)素质以及在同一社会群体的地位和影响力共三个方面进行测量,并按照评价标准进行评价的一种活动。科研人才的评价可以全面了解一个人各方面的内在素质、能力、业绩和社会影响力,对于科研管理部门的招聘、录用与选拨都有一定的参考价值。表1是我们提出的一个针对科研领域专家的一个通用人才评价体系,能根据不同的应用领域和目的对这三个方面的内部进行适当的微调。

本文将搭建一个基于文献信息的分析挖掘和专家评价系统,研究的目的是构建一个操作性强的应用平台,筛选出各个学科领域的杰出专家并进行评价和展示。哲学关于物质决定精神的观点,是心理测量的理论基础,一个人的心理特质可通过外在的行为样本进行间接测量和评价,很多都是通过与常模(群体中的相对水平,如人格特质测评)对比或者自比(个人在各种职业兴趣类型上得分的对比,如职业兴趣测评)的方式判定一个人的某种心理特质水平,无法进行直接比较[6],因此没有纳入综合排名的计算,而是另外单独提供心理测评服务,而学术道德诚信方面的评价更是难以标准化处理。因此,评价指标侧重于科研绩效(文献计量学定量指标)的评价和学术水平与地位(社会网络分析定量指标)的评价,突出可操作性,评价的指标权重确定采用了层次分析法。由于很难获得科研人员在具体某一学科的专利、自然基金项目、科技奖励等数据,因此专家评价主要采用期刊论文数据。本系统的国内数据源主要来自CNKI中国学术期刊出版总库,国外数据源主要来自美国ISI的Web of Science,而没有涉及博士、硕士学位论文、会议论文、专利、标准和其他科技成果数据库以及科技奖励和科研项目信息,这个需要以后再加以扩展。

四、系统分析与设计

(一)系统体系结构

本系统选择的开发平台是:LAMP(Linux/Apache/MYSQL/PHP) 。此开发平台具有开源、免费、跨平台、低成本的优势。这是一组常用来搭建动态网站或者服务器的开源软件,四个部分具有很高的兼容度,共同组成了一个强大的Web应用程序开发平台[7]。从使用的广泛性看,互联网信息服务提供者大量采用了LAMP的开发平台,比如著名的Google、FaceBook、维基百科以及大量的开放社区系统等。

表1 专家评价指标体系

(二)系统模型

整个系统主要包括从期刊数据源采集、整理、入库,到文献分析挖掘、专家筛选与管理、专家评价、专家关系挖掘与展示等各种分析结果导出,流程非常复杂,中间还涉及到大量系统与用户的交互环节,因此系统的流程设计必须充分考虑用户体验,部分交互环节采用了AJAX技术实现,做到按需加载数据,简洁高效,同时基于web信息构建原则,系统还具备了清晰的导航、标识和检索系统。系统流程模型如图2所示。

图2 系统模型

(三)数据库设计

本项目数据库的设计综合考虑了数据库存储优化和查询效率优化两方面的需求,对数据库的关系表结构进行了相应的优化处理。比如优化查询语句、试验联接、并、子查询等寻找最佳查询语句,文本检索时为了性能考虑少用LIKE关键词通配符匹配,而考虑采用全文本搜索(FULLTEXT)。为经常检索的表字段建立合适的索引,表结构设计选择正确的数据类型等[9]。后台数据库的设计采用免费、开源数据库管理系统MYSQL,并采用可视化的管理工具Navicat for MySQL实现数据库的开发与管理。系统包括以下核心关系表:管理账户表、评价指标表、期刊表、论文表、主题词表、关键词表、共词表、专家表、作者对表等。

(四)系统功能设计与实现

本系统主要包括信息采集、文献信息分析与挖掘、专家库三大模块。首先通过信息采集功能完成专题文献库的自动化建立,然后利用文献分析与挖掘模块从专题文献库分析、抽取出该领域的专家信息,并构建专家库。专家库采用了专家网络(将专家库中的专家按照其合作或潜在合作关系组成一个相互链接的专家网络,就是一个相互链接的专家页面集合)、专家地图(以Google地图作为媒介的方式可视化呈现专家信息、区域分布与相互联系)和专家排行榜(综合排行榜和各单项指标排行榜)三种形式展示丰富的专家信息。为了便于阐述系统设计与实现原理,本文采用测试数据集演示系统功能界面。

1.信息采集

信息采集功能主要完成以各文献数据库(目前,本系统的数据源主要来自CNKI中国学术文献网络出版总库、ISI Web Of Knowledge,以后将逐步扩展)为数据源的自动采集、入库,并完成数据的标准化处理,自动建立各领域的专题文献库,以符合深入分析与评价的需要。首先选定特定的研究领域,构造检索式完成信息检索,通过期刊系统的数据接口将检索结果导出为txt格式的文本文件,然后按照分析需求解析并截取题录信息各字段内容存入数据库(专题文献库)。有些数据则通过web采集,识别指定数据库网址URL特征和页面文本特征,分别编制相应正则表达式集合,通过字符串截取、正则匹配抓取指定数据(各种引文、下载信息等)完成采集入库。

2.文献信息分析与挖掘

主要包括基本文献分析和高级文献分析。基本分析功能实现对某领域文献库的基本分析,让科学研究人员能从整体上把握研究领域的基本状况。主要完成基于传统的文献计量学的一些基本统计,比如论文总数、合著论文数、作者总数、合著作者人数、合作度、合作率、词频统计与分析、作者发文数分布、期刊发文分布、机构发文分布、发文时序分布等,还包括一些基本的社会网络指标(包括网络节点数、边数、平均度、网络密度、节点度分布)的统计。这些基本统计运算逻辑通过本系统的统计业务类实现了封装。统计分析结果的可视化则采用第三方绘图组件包JPGraph实现。高级文献分析模块主要是发现科研工作者的相互联系,解释其合作模式与规律。主要包括基本功能:(1)作者关键词耦合分析(潜在关系网络挖掘);(2)作者合著关系分析(外在合作关系网络挖掘);(3)作者共被引分析,用于挖掘学科共同体及其共同约定,进而分析其学术观点归纳出该学科领域的学科范式;(4)共词分析(挖掘研究热点、学科前沿领域)。几个模块的实现有很多相似之处,都是通过调用基本统计分析后生成的数据(如词频统计生成的核心关键词表、关键词、作者的共现分析生成的共词表和作者对表)生成相应的矩阵,然后调用本系统的分析业务类所封装的矩阵算法进行分析处理,得出有意义的社会变量。本模块可以将生成的各种矩阵数据(专家合作矩阵、专家潜在合作矩阵等)导出为excel格式、UCINET专用的数据语言文件(DL file)格式,可以方便地导入SPSS或UCINET,从而进行更深入的数据分析与挖掘。

3.专家库

主要实现识别并筛选指定研究领域的专家,构建各领域的人才库,并进行评价和各种分析。各领域人才库的建成有助于各领域研究者加深对同行的了解,也有助于科研管理部门和社会大众把握各领域研究人员分布情况和遴选相关领域的专家,能为各科研机构和高校的人才选拨、招聘以及项目团队组建提供定量依据。专家库需要存储以下四类信息:第一类是专家基本信息(如姓名、单位、联系方式、科研简介等);第二类是该专家的专长研究领域信息(通过系统内置主题词表结合专题文献库的词频统计分析进行抽取);第三类是该专家的合作网络揭示及其可视化呈现(科研合作网络、潜在合作关系揭示);第四类是该专家各单项指标和综合指标的得分及其排名信息。包括专家识别与筛选、专家地图、专家检索和专家评价输出4个子模块。

之一,专家识别与筛选。通过分析专题文献库(作为专家数据源),提供各种组合筛选条件(发文数、期刊级别及影响因子、被引用频次、H指数、社会网络中心性指标等)由用户定制,然后根据用户定制条件从专题文献库提取专家基本信息(如姓名、单位、研究专长领域等),并计算该专家的相关特征数据,包括发文指标(发文数、第一作者发文数、个人独著发文数)、引文指标(被引用频次、高被引论文数、H指数)、社会网络指标(度中心度、中间中心度、结构洞约束系数)等,经过评价模型运算后将和评价数据一起存入该领域专家库。专家库会按照综合排名进行列表输出,点击每一个专家条目则进入该专家主页。后期通过后台管理界面实现专家个人信息的人工添加,主要包括个人各种联系方式、成果简介等补充信息。

之二,专家地图。专家地图是专家库系统的一个用于可视化展示的功能,其基于专家库的各种数据,通过Google Maps API实现地理信息和专家信息的有效整合,实现专家相关信息的可视化展示。专家地图是通过google地图加载专家基本信息(姓名、所在机构、研究领域等)和评价信息(发文数、引用次数、度中心度等指标的原始数据及其排名),通过google地图这个媒介直观呈现本学科领域专家的地域分布,使得专家的相关信息得以可视化展示。

基于专家数据库的基本信息和各项指标原始数据,进行各项排名生成处理,然后按照预置的模板将这些信息动态生成XML文档,然后利用XMLDOM解析

相应专家各项数据,并利用循环语句在地图上添加GMarker地标即可。由于专家数目比较多,所以采用了GMarkerManager地标管理器通过导入地标数组实现批量地标数据的加载[10]。

之三,专家检索。主要包括两部分:第一部分是专家库的多途径关键字(包括按题名、作者、机构、关键词、摘要、全文等)检索,通过关键字匹配实现精确或模糊检索,输出该专家基本信息和相关文献列表;第二部分是作者合作关系网络检索与可视化呈现(作者间的合作关系和潜在关系的揭示),可以任意指定一对作者,系统可以输出他们之间的所有最短路径,包括联系他们的作者及其文献信息,这是基于图论的Dijkstra算法并作出改进后实现的[11]。专家个人主页实现了专家相关信息的深度聚合,今后将向科研社会化网络服务方向发展,包括:个人基本信息、研究主题及时间分布、在线沟通(嵌入及时通讯和电子邮件工具)、各单项指标数据及其排名、二度合作人脉网络(每一个专家姓名链接到其个人主页,形成一个相互链接的合作社会网络)、潜在合作关系挖掘与展示(通过对因时空障碍而无直接联系的专家之间进行关键词耦合分析[12],发现共同的研究兴趣及耦合度,以及相互之间共同的合作者)、相关文献列表(通过机构、关键词、期刊、标题等字段链接到对应专题文献库的详细信息)。

之四,专家评价输出。基于构建的各领域专家库实现专家的综合评价与单项指标评价,各种评价结果便于科研管理部门和相关领域研究者全面了解和把握本领域的专家绩效、学术水平和影响力。本模块包括指标库管理、评价模型运算等功能。指标库管理包括专家评价指标库的增、删、改、查等基本功能。其中评价指标库的权重生成采用了层次分析法(AHP)实现,层次分析法的算法封装在了系统的评价业务类中。评价模型运算通过调用评价指标库的指标及其权重数据,同时调用评价业务类的评价算法实现各一级指标排序和综合排序,并自动生成各种评价报表,包括了各个二级指标的单项排名和综合排名。

五、结论

本文搭建了一个基于科学文献的信息分析与专家评价网络信息服务平台,目的是通过该平台满足科研工作者和科研管理部门关于领域专家的各种信息需求。平台依托各期刊数据库,实现了自动化的文献信息处理和智能化的分析挖掘,能对目标研究领域的学科知识结构进行一定程度的揭示,并运用社会网络分析方法对科研工作者的(潜在)合作关系的网络结构进行挖掘,以发现核心作者群体及其相互联系。同时,本文提出了一个实用的科研人才评价体系,综合运用文献计量学、社会网络分析的指标进行专家评价及排名,并通过Google Maps API实现了专家的地域分布及相关评价信息的可视化展示。本平台现已得到部分科研领域用户的使用及反馈,目前在支持的数据源(由于数据源的原因尚无法进行引文网络的分析挖掘)及其采集的自动化和准确性方面尚有待提高,对专家绩效指标仅仅支持其科研论文数据的采集和分析,今后将对专利、标准、报告等绩效指标的采集处理进行扩展。而关于专家个体内在特质的各种心理特质、道德水准的衡量,因为采用的测量及评价方法属于间接测量和心理映射,我们并没有纳入综合排名计算中,而是作为单独的模块提供,作为用户单位在择人、用人方面测试评价使用。参考文献:

[1]中央人才工作协调小组办公室,中共中央组织部人才工作局.国家中长期人才发展规划纲要(2010-2020年)学习辅导百问[M].北京:党建读物出版社,2010:8.

[2]邱均平,文庭孝.评价学理论・方法・实践[M].北京:科学出版社,2010:5.

[3]赵基明,邱均平.一种新的科学计量指标――h指数及其应用述评[J].中国科学基金,2008(1):23-32.

[4]宋歌.社会网络分析在引文评价中的应用研究[J].图书情报工作,2010,54(14):16-19.

[5]朱天,吴斌,王柏.科研合作网络的重要作者发现[J].数字图书馆论坛,2010,75(8):29-35.

[6] 刘远我.人才测评――方法与应用[M].北京:电子工业出版社,2008.

[7] JASON W, GILMORE W J.Beginning PHP and MySQL(Third Edition)[M].朱涛江,译.北京:人民邮

电出版社,2009.

[8] 叶新伟.PHP+Ajax Web2.0编程技术与项目开发大全[M].北京:电子工业出版社,2008.

[9]BEN FORTA. MySQL Crash Course[M]. Beijing:Posts&Telecom,2009.

[10]江宽,龚小鹏.程序天下Google API开发详解:Google Maps与Google Earth双剑合璧[M].北京:电子工业出版社,2008:1.

[11]周益民,孙世新,田玲. 一种实用的所有点对之间最短路径并行算法[J].计算机应用,2005,25(12):2911-2934.

[12]刘志辉,张志强.作者关键词耦合分析方法及实证研究[J].情报学报,2010,29(2):268-275.

Research on Web-based Information Service Platform of Expert Evaluation

DU Hui

(School of Information Management, Wuhan University, Wuhan 430072, P. R. China)

Abstract: