数据库建设文化研究论文

数据库建设文化研究论文

1大禹文化资料库概述

为了传承和弘扬大禹文化,受哲学社会科学研究院委托,单位成立了大禹文化研究中心,并召开了多次国内学术会议。目前,在海峡两岸研究人员的支持下,研究所已经收集了大量有关大禹的书籍、考古资料。这些资料即包括已经收集到的视频、照片、古籍原件等多种实体内容,也包括被“历代石刻史料汇编”、“公元集成图片库”、“中国基本古籍库”、“中国历代典籍总目系统”、“中国数字方志库”、“瀚堂典藏古籍数据库”等专题数据库所搜录的文献,还包括以大禹文化为主题新闻与资料。纵观历史,大禹文化在发展中进步,许多事实新闻,如“五水共治”等就是大禹文化建设的补充。因此,大禹文化资料库的建设也是一个长期的与时俱进的过程。

2资料库建设相关技术

2.1大数据技术

进入大数据时代,人们开始发现很多主题都开始变成了大数据。目前,大禹文化研究数据虽然不多,但由于大禹的历史悠久,随着考古技术的提升、大禹的历史文化资料会变得越来越丰富,以大禹为主题的传奇故事会以动漫、历史剧等形式传播出去。随着水文化得到人们的重视,融合大禹元素的水文化传播的信息也会大量增长。此外,大禹文化相关的电子商务以及无线传感、虚拟空间技术在大禹主题旅游行业的应用也会带来大数据。因此,针对大禹主题的大数据研究也会成为一个重要研究方向,可以在这些大数据中获得新的研究点。

2.2云计算

目前由于大禹文化研究资料分布在许多不同专题数据库中,需要人工进行整合。这会耗费了大量的人力,造成的研究的瓶颈。为此,如果有必要通过商业和技术协议将其各库中拥有的大禹文化资料共享出来,用云服务的方式为研究者提供统一的检索平台,以产生更大的社会效益。事实上,在教育领域,CALIS等图书馆共享平台已经在提供一个通用的文献资料云,并取得了良好的效果。但大禹研究者需要更为专业的数据库,如果能够将大禹主题信息较为精确地从各大数据库中抽取出来再作整理,必然能够降低研究者检索文献的难度,增加其搜索内容的广度。因此,开展基于云服务的大禹专题数据库构建方法研究就显得十分必要。

2.3垂直搜索引擎技术

由于收集资料的专业化和检索方式的专门化,使得垂直搜索引擎具有通用搜索引擎不可替代的功能。事实上,除专题数据库外,互联网是获取大禹专题信息的重要渠道。而建立专题数据库类似于建立一个垂直搜索引擎。有了大禹主题的垂直搜索引擎,许多最新的研究资料也可以从互联网中获取。由此要做的工作就是设计大禹主题的网络爬虫,用爬虫不断抓取互联网中的大禹文化研究资料,然后以搜索引擎的方式供研究者使用,并用统计方法对不断增长的资料进行分析。事实上,许多专题数据库(如国研网)就是含有专题文献摘要的搜索引擎。显然,构建大禹主题垂直搜索引擎会是专题数据库建设主要内容。

2.4多媒体信息检索技术

大禹文化研究资料包括了大量视频、照片等多媒体信息。但为这些多媒体信息建立标签需要花费大量人力,需要引入自动标引技术。目前手写体识别、截图搜索、智能问答、视频流中人脸识别等技术已得到广泛的应用。可以将这些多媒体技术用于对大禹文化资料的自动匹配和检索,以增强研究者获取资料的便捷性,进一步提升大禹文化专题数据库的建设水平。

3资料库设计思路

3.1设计目标

结合人工与计算机技术,建立能够对大禹文化主题相关信息的采集、加工和的平台,为研究者提供较搜索引擎更为精确的研究资料,较其他专题数据库更为完善的文献数据,较图书馆更为丰富的多媒体信息。

3.2信息采集功能设计

一般来讲,专题数据库的信息采集流程为:①确定专题信息的收集范围,实现专题信息的手工采集、自动采集;②按照数字文献格式标准体系对采集的专题信息进行存储,生成数字化文献;③以手工或自动的方式生成数字化文献的元数据对元数据进行自动标引,采用一定的标准进行组织;④对不同的数据库制作者赋予不同的权限,以手工或批量方式添加、修改、删除元数据,使元数据与数字对象建立对应,实现对元数据和数字对象的管理。按照数据的来源不同,需要设置不同采集形式,具体如下:已有资料电子化。即将已有的书籍和文献资料人工转换为扫描件,部分材料运用OCR技术转换为文字格式,并将实物拍摄成照片,运用多媒体技术做好各类资料的文本标注。这样就可以和已有的视频等电子资料整合成多媒体资料集。用深度搜索引擎技术,从各大数据库中自动提取出大禹文化主题相关的文献资料,直接引入其在原有数据库中的文献标识进行标注。设计好大禹文化主题网络爬虫,实时从互联网中抓取主题相关资料,保存在搜索引擎专用的数据库中。再应用自动推荐技术,向数据库管理员推荐有价值的文献资料,由管理员将互联网中的文献列入专题数据库中供研究者检索,即将文献标引为不同的标志,如果文献是从专题数据库中获取标明“引入”,搜索引擎直接获取标明“互联网”,数据库管理员人工确认的则标明“人工入库”。运用云技术,将资料库建在云端,与其他专题数据库建立合作关系,获得大禹专题文献的推送服务。可以从专业文献资料库、垂直搜索引擎和多媒体信息检索库的角度来开展资料的收集和整理。

3.3信息检索功能设计

为提升专题数据库的功能,实现更好的用户体验,具体设计如下:实现一般文献资料数据库应有的文本检索功能。该数据库提供主题、关键词、摘要、标题、内容等关键信息的全文检索,并以pdf文件形式提供文献资料。在大禹文献数据库中分析并整理出专业名词集,形成大禹文化语义本体,为检索者提供同义词识别、主题相关检索词推荐等功能,并能够按照访问量、下载量、文献引用量、发表时间等方式进行排序。对收集到的照片、视频等多媒体资料作自动标注,建立多媒体检索库,实现文本到多媒体信息统一检索接口。这里主要参考的标准是Mpeg-7,实现对视频中帧、镜头、情节和节目的分离;同时用Sphinx来提取语音中的信息,实现语音向文本的自动转换。这样用户就可以用关键词、截图、语音等方式来搜索资料库中的多媒体资料。例如,用户给出大禹陵的照片,就可以检索到出现过该照片信息的视频文件。提供智能问答系统,让研究者可以与虚拟资料库管理员进行在线交流,由计算机自动提供文献资料情况的解释说明,从而提高专业数据库服务的质量。具体实现过程为:建立FAQ库;对用户的提问进行分析,将问题转换成查询关键词;在FAQ库中查到问题对应的答案;对于在库中查不到的问题,则给出提问要求,让用户进一步明确意图;对多次查询没有结果的问题则从互联网上获取答案,并推荐给用户;如果用户认可推荐的答案,则将这个问题和答案组合加入到FAQ中去。事实上,清华大学图书馆的智能聊天机器人已经实现了这样的功能,并大大改善了查询者的用户体验。运用大数据技术,提供数据分析接口,让研究者能够从不断增长的数据中快速分析出想要的统计信息。主要要实现流处理和批处理两种处理方式。流处理主要针对不需要永久化存储的过程信息,如相关旅游服务的实时信息和商品销售信息。批处理则是针对长期积累在数据库中的大数据进行分析。要通过检索功能的优化,实现具有大数据分析环境、面向新媒体的新型数据库检索平台。

3.4信息检索评估方法设计

在数据库建设完成后,可以用信息检索的传统方法对构建好的数据库要进行测试与评估,方法如下:

3.4.1双率检测

双率检测,即对数据库检索的查全率和查准率进行评估。先要设计一套测试用关键词和测试用资料,然后对关键词查询的结果进行统计,获取查询结果与测评用资料的实际匹配程度。同时统计出被查得文献资料个数与实际已经存储资料个数的比值。在查询时要考虑查询对象除文本资料外,还有多媒体资料,要设计多种样本进行评估。

3.4.2对大数据统计分析结果进行评估

对大数据统计分析结果进行评估。即用人工评价的方式来对统计结果的正确性以及推荐结果的合理性进行打分,从而为优化统计分析算法打下基础。

3.4.3响应时间测评

设计不同的关键词组合,记录查询的时间,评估出系统的响应速度,设定响应阈值,并分析响应缓慢的原因。

3.4.4语义本体合理性评估

设计专业术语中容易混淆的一组关键词进行检索,统计出同义词和专用词转换的成功率,以利于优化大禹主题本体的设计。信息检索评估的体系十分复杂,要抓住专题数据库针对强的特点来测试,测试的主要目的是提高用户体验。

4结束语

大禹文化是华夏文化的标志之一,大禹文化研究历来受到人们的重视。随着时代的发展、全球化和大数据时代的到来,大禹文化研究资料的数量和表达媒体越来越丰富和多样化,有必要对这些数据进行分类和处理,从而构建全面、大型、完善、优质、动态更新的大禹研究多媒体电子数据库,以推进大禹文化研究。本文探讨了在数据库建设关键问题,具体包括实物资料的电子化、多个专题数据库文献的自动提取、互联网中实时新闻的获取、图像和音视频检索等。随着新技术的发展,在融入大数据分析和云计算后,可以实现研究专题的推荐和数据库间专题文献的自动推送等功能,从而大大降低专题数据库建设的人力成本,不断提升数据应用者的用户体验。论文对大数据、云计算和个性化推荐的细节没有深入探讨,希望能够在数据库的建设过程做进一步的研究。

作者:张斌 王传飞 何锋考 单位:浙江越秀外国语学院