人工智能技术图书信息检索系统设计

人工智能技术图书信息检索系统设计

摘要:针对传统图书信息检索系统通过本地服务器提供信息检索,其检索速率与结果准确率低,且受本地计算设施性能影响较大等问题,文中采用云计算以及人工智能技术开发了高效的图书信息检索系统,通过布置云端服务器,将图书信息检索系统的计算部署在云端服务器上,本地设施只需接收云端服务器的计算结果,大幅减小了本地设备对信息检索结果的限制。采用Agent技术对用户的兴趣、爱好与习惯进行学习,实现个性化地帮助用户完成信息服务任务,从而提升了信息检索效率。实验与测试结果表明,本检索系统的召回率与准确率较传统检索系统分别提高了22%与18%。

关键词:人工智能;云计算;Agent技术;信息检索

随着互联网技术的快速发展,信息数字化成为一种趋势。数字图书馆是传统图书资源信息化与网络化的结果,其将图书信息构建成一个没有空间、时间限制的网上知识共享中心。数字图书馆的核心服务之一为信息检索,人们通过关键字检索得到数字图书馆中自身关注的资料信息。传统的数字图书馆通过本地服务器提供信息检索,其检索速率与正确率受本地计算设施性能影响。此外,传统的图书信息检索方式效率低下且准确率低[1-5]。随着人工智能技术的发展,人们通过人工智能实现了多领域的自主学习工作模式。因此,通过人工智能来进行信息检索分类的学习训练,提高图书信息检索效率与准确率成为新的方向[6-8]。本文采用云计算及人工智能技术,开发了高效的图书信息检索系统。其通过布置云端服务器,将图书信息检索系统的计算部署在云端服务器上,本地设施只需接收云端服务器的计算结果,大幅减小了本地设备对信息检索结果的限制。其次,采用Agent技术来对用户的兴趣、爱好与特性进行学习,有针对性地帮助用户完成信息服务任务,从而提升信息检索效率。

1云计算

传统计算是通过本地服务器提供算力进行计算,当计算机进行一次计算时将计算任务提交至本地服务器进行计算。因此,计算效率受本地服务器性能影响。而云计算则是将计算任务提交至云端服务器进行计算,其的服务是由大量的计算单元通过IP网络连接起来提供的[9-10],云计算是基于搜索引擎平台设计的。云计算具有几个较为明显的特点:1)具有规模庞大的算力;2)具有大规模性和高弹性;3)共享物理资源和虚拟化资源;4)通过动态调度来分配资源;5)具有较强的通用性。云计算主要是通过网络来提供各种各样的应用,这些资源包括数据存储、服务器、数据库、网络与软件等工具和应用程序。基于云的存储使文件保存到远程数据库成为可能,而不是保存在专有硬盘或本地存储设备上,只要一个电子设备可以访问网络,其便可访问运行数据与软件程序,降低了计算对本地设备的依赖性。云计算由于成本低、效率高、速度快而被广泛应用。由于被访问的信息可以在云或虚拟空间中远程找到,提供云服务的公司允许用户在远程服务器上存储文件与应用程序,然后通过互联网访问所有数据,因此用户无需在特定的网络环境访问,允许远程工作。云计算的体系结构可以分为核心栈与管理层。核心栈按不同功能可分成资源层、平台层以及应用层3个层次,如图1所示。资源层也是基础设施层,其拥有物理资源、虚拟计算资源、存储资源以及网络资源等。平台层包含了云计算的结构层次,包括系统的分布式计算框架、文件系统、虚拟化以及存储系统子层等。应用服务器及其组件支持常规的通用应用逻辑。

2Agent技术

随着人们累计接收到的信息量不断激增,各种图书数据也越来越多。目前全球图书藏量在上亿册以上,数字数据总量更是高达上千太字节以上。因此,单靠手工查找自身所需数字图书资源速度慢、搜索不全面,无法满足用户的需求。图书信息检索系统结果,如图2所示。可以看出,图书信息检索系统工作流程为:信息收集程序(Robot)在网上图书库中搜索所有图书信息并返回搜索引擎,对搜索信息进行页面分类,建立索引数据库。用户在检索页面上输入相关的检索关键词发起检索请求,然后检索系统在索引数据库中根据用户提交的检索条件与关键词寻找匹配检索请求的页面。最后采用超文本链接的形式将搜索结果返回给用户,用户使用搜索引擎返回的链接访问相关信息。因此在整个图书信息检索过程中,搜索引擎的作用十分重要。传统的搜索引擎用的是B/S结构,客户机需要与服务器频繁交互,导致搜索速度慢,资源耗费大。随着人工智能技术的发展,人们开始研究使机器能够像人一样进行思考,从而实现更加智能化地工作[13]。传统搜索引擎面临两个问题:一个是信息提供者不能适时、主动地将最有效的信息提供给用户;另一个是用户无法寻找最需要的信息[14]。而Agent则能将人查找信息转变为信息找人。Agent能接受图书者有关图书信息的注册以及用户搜索有关图书信息要点的注册,从而能够主动通知用户谁能够提供自己所需要的信息,或者告诉信息者谁需要其的信息。Agent是能够在系统中发挥主观能动性的计算实体,其具有自主性、交互性、反应性以及主动性四大特性[15-16]。为了更好地实现信息找人,需要将整个网络连成一个整体,因此需要能够在网络中移动的Agent,即移动Agent,其结果如图3所示。其由Agent与Agent服务器组成。移动Agent携带着远程消息与客户机端Agent进行交互,主动提供信息给客户机端Agent,客户机因此获取相关信息并深度挖掘有用信息。同一个移动Agent服务器中通常具有多个移动Agent,Agent之间通过ACL(AgentCommunicationLanguage)以及Agent服务器接口进行数据交换。ACL定义了Agent以及服务设施间数据交互过程的语法与语义,移动Agent的ACL具有简洁、应用普遍性、通信独立性等特点。不同Agent服务器之间,则是通过Agent传输协议来(ATP)进行数据交互。ATP协议提供了分派、召回、提取、消息与应答等一组原语性的接口,不同生产商通过这些接口实现移动Agent的迁移操作。移动Agent虽然是计算机网络以及分布式系统发展的方向,但在复杂的网络环境中面临着较大的安全问题。因此,Agent的数据传输安全也极其重要。目前主要通过3个方面来保证Agent的安全传输,首先是将传输的信息进行加密,使得在传输过程中不被窃听者窃取到有用信息;其次是采用身份认证的方式防止信息被攻击者修改;最后是通过结构加密使得当前主机只能了解Agent的上一次和下一次到达主机。本文采用MASTP协议来防止Agent在传输过程中遭受到攻击。该协议引进了认证中心(CA)并假设:1)所有Agent均信任该CA且都从CA处获取了安全证书,该证书包含了各个Agent的公钥;2)协议中用到的密钥算法,数字签名算法等都是安全的。协议工作过程如下所述:主机A向CA中心发送经过公钥加密后的信息,并申请下一主机B的公钥,然后CA将主机B的公钥通过CA的私钥进行加密后发送给主机A;主机A通过主机B的公钥对主机A的公钥及对称密钥进行加密并发送给主机B,然后主机B通过私钥解密主机A发送的信息,并得到主机B自身的公钥。

3系统实现

3.1系统设计

首先构建了基于云平台的数字图书馆,其架构如图4所示。校内用户通过虚拟化集群与本地私有云相连,私有云提供网络存储服务,且私有云通过云接入网关连接到公有云。公有云平台提供服务器服务,可将数字图书馆检索请求切分成多个任务在云服务器上并行执行,提高了信息检索的效率,且降低了用户端对硬件资源的依赖。校外读者以及移动终端同样可通过公有云来访问数字图书馆的数据。系统架构采用Agent技术的分层结构,分别为应用层、Agent层、平台层以及网络层。应用层用于系统与用户之间的交互,其负责将用户的信息检索请求简析后发送给Agent层或者将Agent层的检索结果以特定格式传递给用户;Agent层用于处理用户的检索请求,并返回检索结果给应用层;平台层决定着Agent的移动方向以及信息通讯;网络层负责连接云服务器进行信息检索。整个系统的工作流程,如图6所示。首先,用户打开数字图书馆的检索页面,输入检索信息提交至服务器,同时发起检索请求;Wed服务Agent在接收到相关检索请求后,首先建立与处理用户检索请求有关的主机,然后建立相对应的检索Agent,同时把相关的主机地址收集起来并创建成地址列表返回给相应的检索Agent。检索Agent通过服务Agent传递的参数进行初始化操作并开始检索工作,同时在地址列表中对于主机之间转移并进行相关的检索;检索Agent根据特定的选择策略来决定下一个主机地址。一旦确定好下一个主机,检索Agent则转移到该主机上,并检索该主机上的资源来寻找符合用户检索需求的信息。若寻找到符合要求的信息,则保存检索结果;与此同时,检索Agent会继续按照选择策略移动到列表中下一个主机来搜索用户的检索需求,直到遍历搜索了地址列表中的所有主机。在检索Agent搜索完地址列表上所有主机后,将得到的检索结果返回给服务器,同时自行结束进程,结束整个检索流程。最后,服务Agent将最终得到的检索结果返回给提交检索请求的用户。

3.2系统测试

本文设计的图书信息检索系统主要通过3种方式来进行图书信息的检索,包括简单检索、多字段检索以及全文检索,检索页面如图7所示。在检索页面可以进行简单的信息搜索,首先设置检索条件,包括文献类型以及检索类型。文献类型包括中文图书、西文图书、学位论文、电子图书等;检索类型包括题名、作者、单位、中图分类号等。然后设置检索结果显示参数,包括每页显示记录数以及入藏日期等。若想进行更加精确的图书信息搜索,可进行多字段检索。多字段检索允许用户在题名、出版社、责任者、ISBN号等字段进行关键字匹配搜索,页面如图8所示。为了验证本文提出的图书信息检索系统的性能,采用公共数据集在本系统以及传统系统上执行图书信息检索。公共数据集收录了21487个图书文档,按照图书主题类别可分为1985个类别。本文主要从检索时间、召回率以及准确率这3个方面来评判检索系统的性能。检索时间表示从用户发起检索请求到系统返回检索结果所需的时间;召回率指系统检索出来的相关文档数与总文档中相关文档的总数之比;准确率指系统检索出来的相关文档总数与检索得到的文档总数。从数据集中随机挑选8个类别的图书分别在本系统与传统系统中进行图书信息检索,其测试结果见图9。可得本系统的召回率比传统系统高22%,准确率高约18%。9测试结果

4结束语

随着时代的发展,数字图书馆所收录的资源急剧增多,单纯靠人工检索图书资源不仅速度慢,同时检索信息不全面。人工智能的发展为图书信息检索提供了新的方向,通过Agent不但能够完成传统的人找信息,同时还能实现信息找人,从而提高了图书信息检索速度。本文采用云计算来实现检索任务的并行计算,将服务器资源安置在云服务器上,大幅度降低了检索系统对本地资源的依赖。经过系统测试,该系统各项功能均运行正常,且满足系统设计要求。

作者:龙飞 郭永平 单位:宝鸡文理学院