信息化档案管理方法研究

信息化档案管理方法研究

摘要:随着科技的迅速发展,当今社会已经全面进入信息化、数字化、网络化的时代。档案信息的跨地区、跨部门利用日趋频繁,而传统档案管理面临着严峻的考验,因其使用效率较低,已适应不了新形势下社会发展的需要,在信息化条件下采用支持向量机的方法进行档案管理可以有效提高工作效率。

关键词:信息化;档案管理;支持向量机

1引言

近年来,在信息技术的大力推动下,各个单位都在进行档案信息化、数字化的工作,并将建设数字档案馆、提高各级档案管理信息化水平摆在重要位置。档案信息化是在国家档案建设管理部门的统一规划和组织下,在档案管理的活动中全面应用现代信息技术,对档案信息资源进行数字化管理和提供利用。档案管理模式从以档案实体保管和利用为重点,转向档案信息的数字化存储和提供服务为重心,从而使档案工作进一步走向规范化、数字化、网络化、社会化。

2档案管理系统设计

预归档库:预归档的方法是对归档文件进行初步处理,建立预归档库,管理人员对日常回收的纸质文档和电子文档进行初步收集整理,首先对已回收的纸质文件按照发文字号进行排序,然后将每一份文件,按照年度、全宗号、标题、发文字号、发文单位、页数(张数)、责任人、保管期限等字段信息录入预归档数据库,将纸质文件和电子文件分别保存于档案柜或数据库硬盘中,形成预归档库,待文件全部回收后,进行数据归档工作。数据归档:将预归档库中的文档录入至档案库。档案检索:在搜索框中可通过输入关键词来实现搜索。档案使用:在通过检索找到需要的档案后申请使用,经过审批后可以进行借阅或者复印。使用查询:查询使用档案的历史记录。

3支持向量机档案分类

在预归档的过程中,我们通过使用SVM算法对档案文本进行分类,并将分类信息录入预归档库中。档案文本特征提取的过程如图3所示,该模型各部分功能如下:档案文本分词处理:在经过去停用词处理后,对档案文本进行提取关键词,我们采用TF-IDF方法选取关键词。提取特征:提取样本特征,待识别的文本通过提取出的特征来进行识别。文本向量表示:本文采用布尔型向量空间模型来表示文本信息,将这些提取出来的关键词存储在一个数组中,将关键词转化为向量的形式。得到特征向量值:通过对特征进行标记得到一篇档案文本的特征向量值。由于档案文本的内容很多,因此找出其主要的分类关键词尤为关键,在找出关键词后就可以用这些关键词对邮件进行特征标记,也就是如果关键词在这篇文本中标记为1或-1,不出现则标记为0。为了防止出现偏差并提高效果,对于任何词,无论它是否在文档中出现,都赋一个基础值0.0001。然后进行向量归一化的操作,消除文档长度对于关键词出现频率的影响。我们使用SVM中linear核的SVC函数进行训练最终得到svm_module训练模型并存储为train_model.m,利用训练好的模型进行测试。首先将邮件中提取出关键词用向量表示,并用predict函数进行预测,得到返回值ret。对txt文本文件和字符串的分词代码如图4所示:对提取出的关键词分别存储在yiqing_key_words.txt和ham_key_words.txt中,内容如图5所示。标记邮件的特征向量值代码如图6所示。训练分类模型并保存如图7所示。

4结论

本文对信息化档案管理系统进行了设计,使用SVM算法对档案本文进行分类,能够满足日常档案管理的信息化需求,得出科学的结论,为有效提高档案归档整理和查询使用的效率提供方法。

作者:顾天一 朱昊 董宁 张国军 梁满志 单位:66139部队