异构档案信息资源采集方法

异构档案信息资源采集方法

摘要:本文对异构档案信息资源和异构档案信息资源采集技术进行分析,并基于数据魔方的理念和通过对各种技术和工具的整合,构建了数据智能采集工厂模型,并将该模型应用于昆山市智慧档案馆建设,取得了较好成效。

关键词:异构档案;信息资源;数据魔方;数据智能采集

2013年1月29日,国家智慧城市试点创建工作会议在北京召开,国家智慧城市试点工作正式启动。据国家信息中心收集的数据显示,2014年全国试点城市共有409个[1]。随着智慧城市建设快速推进,政府主导的各个业务条线在信息化建设过程中产生了大量具有保存价值的政务信息资源,如何将这些信息资源完整收集、有效管理、妥善保存、安全利用,是档案部门需要深入思考的问题。在这其中,异构档案信息资源的采集要特别重视。

1异构档案信息资源概述

异构档案信息资源就是不同结构的档案信息资源,其异构性主要体现在五方面[2]。一是计算机体系结构的异构:数据的物理存储来源于不同体系结构的计算机,如大型机、小型机、工作站、PC或嵌入式系统。二是操作系统的异构:数据的存储来源于不同的操作系统,如Unix、Windows、Linux等。三是数据格式的异构:数据的存储管理机制不同,可以是关系型数据库系统,如Oracle、SQLServer、DB2、DM、MySQL等;也可以是文件形二维数据,如txt、CSV、XLS等。四是数据存储地点异构:数据存储在分散的物理位置上,如社保档案分别存储在各地社保局本地系统中。五是数据存储的逻辑模型异构:数据分别在不同的业务逻辑中存储和维护,相同意义的数据存在表现的异构,如某一单位的OA系统和其他业务系统中存在部门编码不一致的现象等。

2异构档案信息资源采集

2.1异构档案信息资源构成

异构档案信息资源构成如下:一是随着电子政务建设不断深入而产生的有关食品安全、公共交通、社会保障、教育卫生、气象环境等民生档案信息资源及各类政务信息资源;二是随着互联网、移动互联网技术的发展和普及而产生的各类网站数据、社交媒体数据、电子邮件数据等;三是随着电子商务的不断完善和普及而产生的各类订单数据、账单数据、物流数据等;四是随着大数据技术的发展和应用而产生的各类报表数据、统计数据、决策数据等。如果按文件格式分类,异构档案信息资源主要包括文本文件、图像文件、图形文件、音频文件、视频文件、多媒体文件等;如果按在系统中的表现形式分类,可以分为Web服务数据、关系型数据、数据包数据、接口数据等。

2.2异构档案信息资源采集技术

一是数据导入技术。数据导入技术适合源系统能够生成符合相关标准规范要求的文件包格式的情况。针对这种情况,可以通过文件包向导式导入工具,将源系统产生的文件包导入目标系统中。二是数据管道技术。数据管道技术适用于源系统不能生成移交文件包但可以开放数据结构的情况。在这样的情况下,由源系统提供访问其数据库所必需的用户名、密码、数据字典等信息,通过数据管道工具建立源系统和目标系统数据结构的匹配关系,实现数据采集。三是接口调用技术。接口调用技术是普遍适用的一种技术。包括两种情况:其一是目标系统提供应用程序接口(API)供源系统调用,由源系统将需要提交的数据传送至目标系统,被称为“推”式,实现方式包括DLL、OCX、JavaBean、WebService等;其二是源系统提供应用程序接口供目标系统调用,主动获取有效电子文件/档案数据,被称为“拉”式。四是数据交换技术。数据交换技术适用于源系统能够提供应用程序接口、数据要求有很强实时性、架构要求有很强扩展性的情况。数据交换技术通过部署数据交换引擎实现,数据交换引擎提供透明的网络通信和透明的数据查找,采用统一的数据安全机制,并规定标准的数据交互方式,使构筑在数据交换引擎上的信息系统可以遵循统一的数据交互标准、使用其提供的通信机制、利用其提供的数据资源管理快速找到所要访问的信息,进行数据交互。五是数据抓取技术。数据抓取技术根据各源系统的电子文件最终页面展现(HTML)实现数据采集。采用这种技术不需要对源系统的基础数据结构进行全面分析,也不需要对源系统的逻辑设计进行深入了解,更不需要源系统生成文件包或者提供应用程序接口,只需要通过对特定数据显示页面结构(HTML源码)进行解析,实现源系统页面显示内容和目标系统数据结构之间的对应关系,完成数据采集[3]。

2.3异构档案信息资源采集存在问题

从异构档案信息资源的构成可以看出,异构档案信息资源来源非常广泛,表现形式也多种多样,这给异构档案信息资源的采集带来了巨大挑战。现阶段,异构档案信息资源采集主要存在以下问题。第一,“信息孤岛”现象严重。电子政务建设已经持续了相当长一段时间,由于电子政务建设早期缺乏顶层设计、统筹规划和协调,也缺少标准依据,很多单位只能各行其是、各自为政,造成业务应用软件、系统平台、数据结构千差万别、五花八门,系统之间、部门之间、单位之间形成“信息孤岛”,难以实现异构档案信息资源的采集和共享。第二,各种采集技术存在局限性。针对异构信息资源的采集尽管存在多种采集技术,但是从上文对比分析可以看出,各种采集技术都存在一定的适用场景,不能满足异构档案信息资源的多样化采集需求。

3数据智能采集工厂模型

为解决当前异构档案信息资源采集存在的问题,笔者提出了“数据魔方”的概念,即将数据源的多样性和异构性比喻为魔方的一个个“面”,基于各种数据采集技术提供多种数据采集方法的组合供用户选择,以灵活应对不同来源、不同类型数据的采集需求;并基于数据魔方构建数据智能采集工厂模型,以实现对异构档案信息资源的灵活与智能采集。

3.1数据智能采集工厂模型体系结构

数据智能采集工厂模型以数据魔方为核心,通过对各种数据采集技术进行整合,以及对各种工具(格式转换工具、数据检测工具、OCR识别工具、EEP封装工具等)进行集成,实现对智慧城市建设过程中各业务条线产生数据的智能采集,并将数据清洗、分类、处理后纳入档案信息资源总库进行统一管理,达到异构档案信息资源整合的目的。从体系结构上来看,数据智能采集工厂模型由控制中心、魔方适配器、主动捕获触发引擎、嵌入式工具集和资源池等部分组成,分别说明如下。

3.1.1控制中心:是整个异构档案信息资源采集工作的“大脑”,完成各类收集规则的设计与预定义,并针对各行各业、各类专业档案设置相应的元数据方案,这样可采集不同类型的数据,也可从不同单位的应用系统中抓取数据。

3.1.2魔方适配器:由多种适配器组成魔方适配器,以加强异构档案信息资源的收集,通过集成各种数据采集技术提供多种数据收集方式,如脱机文件包导入、数据交换引擎自动导入等。具有多面性特点,能灵活应对多种途径、多种类型数据的采集需求。

3.1.3主动捕获触发引擎:探测各业务系统中的数据动静,实现快速自动采集,可完成在线档案收集操作和离线收集及时提醒工作。

3.1.4嵌入式工具集:是采集流程中的“加工作业车间”,能对所采集的数据进行处理,并提供多种数据处理解决方案,如格式转换方案、EEP封装方案、四性检测方案等,每一类方案对应一种处理工具,这些工具都将与数据采集功能进行集成、整合并协同开展工作。

3.1.5资源池:只有经过过滤、清洗、转换并检测合格的数据才能最终进入资源池,进行统一存储和管理。

3.2数据智能采集工厂模型特点

第一,开放独立的模型架构。数据智能采集工厂模型可以识别各种类型的信息系统数据,如业务系统、办公系统、财务系统、互联网数据等,具有开放、独立、与业务系统无关的特点,可实现与各种异构系统的集成。第二,高效多样的数据采集。数据智能采集工厂模型通过整合各种数据采集技术,提供了基于数据层的采集方法、基于逻辑层的采集方法和基于表示层的采集方法,通过魔方适配器的灵活配置,可以完成不同情况下的数据采集任务,尽可能地满足各种异构档案信息资源的采集需求。第三,灵活多变的魔方特性。可快速、灵活设置源数据和目标数据的匹配关系,具有魔方多面性、多元性特点,根据实际业务(数据源)变化“转动”魔方,便可快速实现匹配,从而收集多种途径、多种类型档案数据。第四,全面一体的采集处理。数据智能采集工厂模型通过对各种数据采集技术以及各类嵌入式工具(如格式转换工具、数据检测工具、OCR识别工具、EEP封装工具等)进行整合,可实现异构档案信息资源的采集和处理一体化管理,便于异构档案信息资源的统一管理。第五,灵活方便的任务管理。各种数据采集方式都可以设置成“工作任务”,既可以即时启动、立即执行,也可以设置为定时任务、到一定时间点执行,灵活方便。

3.3数据智能采集工厂模型应用

智慧档案馆建设总体来说包括智慧收集、智慧管理、智慧利用、智慧保存四方面,其中智慧收集功能可基于数据智能采集工厂模型实现。昆山市档案局在市智慧档案馆建设过程中,通过数据智能采集工厂模型、采用在线与离线方式,实现对立档单位各种业务信息数据库内容的采集,采集过程完全符合《数字档案关系型数据库转换为XML格式文档的技术规范》的要求;同时在采集过程中完成格式转换、数据检测等操作,能够满足对各种异构业务信息资源的智慧管理要求。

作者:程知 单位:江苏省昆山市档案局