数据挖掘技术下高校图书馆管理论文

数据挖掘技术下高校图书馆管理论文

一、Web数据挖掘技术简介

要了解Web数据挖掘技术,首先就必须要了解数据挖掘技术。数据挖掘是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。它的表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。Web数据挖掘是一种综合的技术,它主要是使用数据挖掘技术在互联网挖掘各种有用的、有趣的、隐藏起来的信息或者是有用的模式。与传统的数据挖掘相比,Web数据挖掘所挖掘的信息更加的海量,这些信息具有异构和分布广的特点。对于服务器上的日志与用户信息的挖掘仍然属于传统的数据挖掘。Web数据挖掘由于Web的逻辑结构其所挖掘到的模式有可能是关于Web内容的,也有可能是关于Web结构的。同时有些数据挖掘技术也不能直接运用到Web数据挖掘中。Web数据挖掘的研究范围十分广泛,它的研究主要包括了数据库技术、信息获取技术、统计学、神经网络等。Web数据挖掘根据所处理的对象可以分为三类:Web文档的内容挖掘、Web文档的结构挖掘、Web使用的挖掘。Web文档的内容挖掘指的是从Web文档及对其的描述内容中获取到有用的信息,即是对Web上大量的各种文档集合的内容进行处理,例如摘要、分类、聚类、关联分析等。同时内容挖掘还可以对各种多媒体信息进行挖掘。Web上的内容摘要是用简洁的语言和方式对文档的内容进行描述和解释,让用户在不用浏览全文的情况下就可以对全文的内容和文章写作的目的有一个总体的了解。文章写作的目的有一个总体的了解。而Web内容挖掘的这种方式非常有用,例如应用到检索结果的显示中。Web分类则指的是根据已经确定好的类别,为每一个获得的Web文档确定一个大类。聚类则是指的在没有确定类别之前,将相似度高的文档归为一类。关联分析指的是从文档集合中找出不同语词之间的具有的关系。Web文档的结构挖掘指的是从互联网的整体结构和网页之间的相互链接以及网页本身的结构中获取有用的信息和知识。目前为止针对结构的挖掘主要还是链式结构模式。对于Web结构的挖掘主要源于对引文的分析,引文分析的主要内容就是通过对网页的链接数和被连接数以及对象的分析来建立一个链接结构模式,这种模式可以用来对网页进行归类,同时还可以获取网页之间的相似度和关联度等信息。Web使用的挖掘一般情况下指的是对Web日志的挖掘。其挖掘的对象是用户与互联网交互过程中所抽取出来的各种信息,例如访问记录、用户名、用户注册信息以及用户所进行的操作等。在这一方面的研究已经比较成熟,同时也有很多较为成熟的产品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技术较为成熟的产品。

二、Web数据挖掘技术的工作流程

Web数据挖掘技术的主要工作流程可以分为以下几个步骤:第一步,确立目标样本,这一步是用户选取目标文本,以此来作为提取用户的特征信息;第二步,提取特征信息,这一步就是根据第一步得到的目标样本的词频分布,从现有的统计词典中获取所要挖掘的目标的特征向量,并计算出其相应的权值;第三步,从网络上获取信息,这一步是利用通过搜索引擎站点选择采集站点,然后通过Robot程序采集静态的Web页面,最后再获取这些被访问站点的网络数据库中的动态信息,然后生成WWW资源库索引;第四步,进行信息特征匹配,通过提取源信息的特征向量,去和目标样本的特征向量进行匹配,最后将符合阈值条件的信息返回个用户。

三、Web数据挖掘技术在高校数字图书馆中的应用

高校数字图书馆为师生主要提供以下功能:查找图书、期刊论文、会议文献等数字资源;图书借阅、归还等服务;图书信息、管理制度;导航到图书光盘、视频资源等数据库系统。师生时常登录到网站中查找其需要的信息,根据师生所学专业、研究方向不同,关注目标也不同。通常这类师生会到常用的图书馆网站上,查找自己所需要的特定领域的资源;浏览一下有哪些内容发生变化,是否有新知识增加,而且所有改变常常是用户所关注的内容;另外,当目标网页所在的位置有所改变或这个网站的组织结构、层次关系有所变动时,所有这些问题只要稍加改动,容易使用户难以找到所需内容。本课题采用Web挖掘技术与搜索技术相结合。首先允许用户对感兴趣的内容进行定制,构造数据挖掘的先验知识,然后通过构造浏览器插件,捕获用户在浏览器上的行为数据,采用Web数据挖掘的方法,深入分析用户的浏览行为数据,获得用户的信息资料集,最终为用户提供不同的个性化服务页面,并提供用户对站内信息进行搜索功能,同时可以满足师生对于图书馆资源进行查找访问的需求,实现高校图书馆网站资源真正意义上的个性化服务。

1、为开发网络信息资源提供了工具

数字图书馆需要的是一种可以有效的将信息进行组织管理,同时还能够对信息进行深层的加工管理,提供多层次的、智能化的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品的工具。目前许多高校数字图书馆的查询手段还只局限于一些基本的数据操作,对数据只能进行初步的加工,不具有从这些数据中归纳出所隐含的有用信息的功能,也使得这些信息不为人知,从而得不到更好的使用,这些都是对网络信息资源的一种浪费。而通过Web数据挖掘技术科研有效的解决这一问题。这种技术可以用于挖掘文档的隐含的有用的内容,或者可以在其他工具搜索的基础上进一步进行处理,得到更为有用和精确的信息。通过Web数据挖掘技术科研对数字图书关注中的信息进行更加有效地整合。

2、为以用户为中心的服务提供帮助

通过浏览器访问数字图书馆后,可被记载下来的数据有两类,一类是用户信息,另一类是用户访问记录。其中用户信息包括了用户名,用户访问IP地址,用户的职业、年龄、爱好等。用户名师用户登录图书馆时输入,用户访问IP地址通过程序获得,其他的信息都是用户在注册时所填写的,访问记录则是在用户登录时所记录的,也是由程序获得。对这些用户信息进行分析可以更加有效的了解用户的需求通过分析服务器中用户请求失败的数据,结合聚集算法,可以发现信息资源的缺漏,从而指导对信息资源采集的改进,让高校数字图书馆的信息资源体系建设的更加合理。对数字图书馆系统的在线调查、留言簿、荐书条等的数据进行收集整理,并使之转化为标准的结构化数据库,然后在通过数据挖掘,皆可以发现用户所感兴趣的模式,同时还可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好信息资源的采集计划。通过Web数据挖掘,可以对用户的信息需求和行为规律进行总结,从而为优化网络站点的结构提供参考,还可以适当各种资源的配置更加的合理,让用户可以用更少的时间找到自己所需要的资源。例如可以通过路径分析模式采掘捕捉确定用户频繁浏览访问的路径,调整站点结构,并在适当处加上广告或荐书条。

3、Web数据挖掘技术在图书馆采访工作中的应用

在图书馆的工作中有一步十分的重要,这就是采访工作,采访工作的做的好坏程度会直接的对图书馆的服务质量产生影响。通常情况图书馆的工作人员会根据图书馆的性质、服务对象及其任务来决定采访的内容。但是这种采访局限性很大,很多时候会受采访人员的主观意识的影响,同时这种方式也会显得死板不灵活。很多时候会出现应该购进的文献没有买,不应该买的文献却买了很多等与读者的需求不符的现象。这些现象的产生都是因为缺乏对读者需求的了解和分析。要解决这些问题就必须对读者的需求进行全面的了解和分析,而Web数据挖掘则为解决该问题提供了一种较好的方法。通过对各种日志文件和采访时获得的数据进行分析,可以很清楚的得到读者需要的是什么样的书籍、不需要的又是什么样的书籍,从而为采购提供各种科学合理的分析报告和预测报告。根据对分析还能帮组图书馆管理人员确定各种所需书籍的比例,从而确定哪些文献应该及时的进行补充,哪些文献应该进行剔除,对馆藏机构进行优化,真正的为高校里的师生提供所需要的文献和资料。

4、使用Web数据挖掘技术提供个性化服务

传统的信息检索工具在友好型、可理解性、交互性方面都存在着很大的缺陷。通常情况下都只是将各种查询结果毫无逻辑的简单的进行罗列,用户很难从其中获取自己需要的信息,通过数据挖掘,可以对图书馆网站上的在线调查、留言簿、读者调查表等数据进行收集整理,对不需要的冗余信息进行剔除。通过分析可以获知用户所喜好的浏览模式是哪种,他们常访问的网站的路径是什么,他们对图书馆中的那些资源比较有兴趣。然后再根据用户的普遍需求与每个人的个性需求,建立起相应的规则,从而帮助网站设计人员对网站进行设计和优化,使得这些信息检索变得更加的个性化、智能化,并根据每个用户的偏好等特征将检索到的信息排列处理,使得读者可以用最快的速度获得想要检索的文献信息。通过Web数据挖掘技术可以对用户的特征信息进行总结,将那些从没有发出过信息的潜在用户进行归类,同时还可以免费的为他们提供各种他们所感兴趣的信息和资料,把这些潜在的用户转变为正式的用户使用Web数据挖掘可以对用户的检索日志进行分析,从而得知用户所感兴趣的内容、他们的研究方向,并根据这些内容为用户指定个性化服务的内容,为用户提供各种他们所感兴趣的各种信息。

5、应用Web数据挖掘技术可以为学校决策者提供更好的决策支持

Web技术的发展和普及,使得Web上拥有丰富的信息资源。在这种信息“大爆炸”的时代里,高校图书馆可以通过Web数据挖掘技术,对与学校建设和发展的有着重大影响的各种嬉戏那些进行分析处理,从而使得更加方便的对这些信息进行有效的辨识、评价、管理。为学校的决策者及时的提供各种对学校的发展和成长有用的重要信息。这些信息可以是院校内的各种专业的设置情况,每个专业的课程设置情况,可以是其他知名院校相关专业的设置和专业课程设置的情况,也可以是研究课题的调查与申报,学校图书馆的建设,还可以是社会上对人才的需求信息以及其他与学校发展息息相关的信息。从而让学校的决策者可以在越来越激烈的竞争下,抓住转瞬即逝的机会,让学校能够健康、稳步的成长和发展。