数据加工范例6篇

数据加工

数据加工范文1

创建“灯塔”大数据平台

中国电信北京研究院通过整合电信自有数据、互联网数据和线下数据,创建了“灯塔”大数据行业应用平台,面向市场研究、广告、汽车、金融、人力资源等诸多行业领域,提供零售研究、消费者研究、店铺选址、精准营销、泛义征信等服务,变现数据资产,尽享数据红利。

在日前召开的“中国电信灯塔大数据行业高峰论坛”上,中国电信灯塔大数据产品总监孙静博介绍了灯塔大数据技术创新与行业应用实践。

中国电信拥有1亿的宽带用户,还有接近2亿的移动用户,通过解析管道里面的数据,电信的大数据优势将得到极大的发挥。与此同时,中国电信引入合作伙伴,从微博、微信、知乎等互联网平台收集行业数据,提供更精准的行业应用。

孙静博介绍道,灯塔大数据采用“5+1+1”的产品战略,5大产品方向,分别是市场研究、精准营销、人力资源、金融征信和安全,1个流量入口,基于AppStore提供各类应用,1个能力平台,即灯塔平台。

灯塔平台拥有一套完整的大数据技术解决方案,这套方案囊括了数据从采集、存储到运用等各个主要流程。

目前,在这个平台上共收集了600亿条的数据,覆盖1.8亿的行业字典规模,每日处理1亿条数据。

获行业数据红利

目前,中国电信灯塔大数据平台已经在多个行业落地应用。例如为店铺提供选址服务,灯塔大数据平台通过电信数据和行业字典,分析用户的行为偏好、人口属性和位置数据,从而为客户提供合适的商圈地址。

再比如,为金融客户提供消费阶段定位、消费能力评估、金融风险预警等服务。举例来说,在“小白”成长为“高富帅”的生命周期消费历程中,通过多元大数据精准预期消费节点和商品偏好,有效提升在线销售的针对性和成功率。

数据加工范文2

本节是在学生学习并掌握了数据的计算、筛选等功能及其图形化表示后的一节内容,针对同一组数据进行多次分析,使学生体验从不同的角度挖掘数据所蕴含的信息,属于信息素养中信息加工范畴的内容。本节主要意义在于体验信息加工的多角度分析,技能上必须要做好铺垫,所以一开始就对数据图形化的操作进行必要的复习,采用了“中学生视力情况调查表”,并在学生分析过程中给予适当程度的操作引领和指导,设计的学习任务和学生的实际情况密切相关,通过任务的完成,自然得出相应的结论。

教学目标

知识与技能目标:熟练掌握Excel软件中数据处理和图表表示的方式;学会从不同角度挖掘表格数据所蕴含的信息。

过程与方法目标:在教师引导下,学生扮演不同角色,学会利用Excel软件从不同的角度挖掘数据所蕴含的信息。

情感态度与价值观目标:用真实数据分析,要爱护自己的眼睛;要关注社会,培养社会责任感;锻炼发散性思维的能力和表达观点的能力。

教学重点、难点

重点:如何从不同的角度对表格数据进行分析和加工;能够选用合适的图表来表示自己的观点。

难点:根据所给数据,选择分析数据的角度。

教学过程

(一)复习利用Excel进行数据处理分析的一般过程

1.问题引入

师:眼睛是心灵的窗户,怎能不珍惜,怎能不爱护?但是,老师发现我们大部分同学的窗户上又加了一层玻璃镜片,而且近视现象日趋严重。你意识到这个问题了吗?你了解全班同学的视力情况吗?请你将全班同学视力情况作一个调查分析,调查表老师设计好了,请大家完成网上调查。

学生完成“视力情况调查表”(如下图)。

师:通过网上调查,获取了全班同学的视力情况信息,请同学们对数据进行分析。在操作完成以下两个任务后,对数据分析结果进行阐述。

(1)请以图表的形式表示全班的近视程度情况(不近视,轻度、中度、高度近视各占的百分比)。

(2)请以图表的形式说明我们以后应该如何预防或者减轻近视。

学生自主操作,完成任务。教师巡视辅导,引导学生分析结论。

学生完成后,得出结论:

①用饼图表示的数据很容易看出各部分在总体中所占的百分比。由饼图可以得出结论:班级同学近视率很高,问题比较严重。

②用柱状图表示的数据很容易看出每个项目的具体数目,体现不同项目之间的比较。比较引起近视的各种原因,我们为了保护眼睛,应该少看或远离电视,看书写字要注意姿势正确;要提高学习效率,改善学习方法,不能陷入题海战术,减轻眼睛负担。

(二)新授表格数据加工的多元性

1.问题探究

师:某企业有股东5人,员工100人,1990到1992年的3年间,该企业的收益分配情况如下表。

问题:你觉得该企业的分配方案合理吗?请说出理由。

生1:不合理,股东红利占的比例太大。

生2:合理,股东红利增长的总数和工资增长的总数是一样的。

师:合理不合理,暂不作定论。请同学们站在不同的角度,对数据进行处理分析。

学习任务:①你站在企业主管的角度(关注总金额的增长趋势),将数据以图表的形式分析,得出什么结论?②你站在工会的角度(注重金额增长比例),将数据以图表的形式分析,得出什么结论?③你站在员工的角度(关心个人工资增长数量),将数据以图表的形式分析,得出什么结论?

学生分成三大组,完成相应的任务。教师巡视辅导,引导学生站在自己的角度,对数据分析出相应的结论。

师:就刚才的问题,能不能简单地说合理或不合理呢?

生:不能。

师:人们的角色不同,立场角度不同,需求不同,对数据加工总是带有一定的选择性,这就是数据加工的多元性。

2.思考实践,深度挖掘

师:假如该企业一直按照1990年到1992年的比例趋势分配到现在(2010年),全体同学都站在员工的角度,分析股东个人收入和员工个人收入的差距究竟有多大。用数据图表来说明。

学生完成表格数据,用折线图表示。

师:通过刚才的数据分析,同学们很清楚地看出了收入的差距。绝大部分同学的父母是普通的工人或农民,辛苦劳作了一年,获得的报酬可能是很有限的。因此,同学们应该珍惜父母的劳动成果,体谅他们的艰辛。实事上,收入悬殊,贫富差距拉大,现在已经成了建设和谐社会的焦点问题之一。当然,我们的政府也采取了积极的政策措施来解决这个问题。同学们知道哪些政策措施?

生:最低工资标准,免去了农业税,种田国家有补贴了… …

3.角色畅想

师:(角色1)10年后你成了董事长,站在企业主管的立场,你认为这种分配合理吗?

(角色2)10年后你成了一名普通工人,经历了刚才的数据多元性分析后,会有什么样的想法?

学生分两大组,互相交流讨论。

生1:假如10年后,我成了一名企业家,在把自己的企业经营好、管理好的同时,应该以承担社会责任而自豪,应该以为社会多做贡献而自豪,应该为自己的职工能够得到社会的尊重而自豪,而不应该以追求私利为终极目标。

生2:假如10年以后,我成了一名普通工人,要有一颗平常心,毕竟社会是由绝大部分的平凡人组成的,努力争取在平凡的工作岗位上干出不平凡的业绩,同样也能造福社会,同时社会也会给我回报。

(三)内容小结

复习了表格数据处理的一般过程。

学习了表格数据加工的多元性,学会了站在不同的角度分析数据以及将数据以图形的形式表示,从而得出相应的结论。

懂得了看问题的角度不同,就会得到不同的结论,“横看成岭侧成峰,远近高低各不同”这句名言说的就是这个道理。

记住了在以后的学习生活中,我们应该多从不同角度全面分析考虑问题,才能够得出全面的分析结果。

(四)自我评价

学生完成网上调查自我评价表。

教学反思

本案例教学事例丰富多彩,吸引了学生的学习兴趣,通过一个和学生切身相关的数据,复习了Excel处理分析数据的一般过程,为接下来数据加工的多元性作了技术铺垫。

本案例最大的亮点之处是把社会热点问题引入了教学课堂,利用教材上的素材,将数据多元处理、分析解读和社会问题联系起来,更有现实意义,让社会热点讨论分析不再远离教学课堂。通过多元性分析讨论,既让学生多角度分析问题的能力得到了提升,又提高了学生对社会现象的思考分析能力。当然,在这个问题的处理上,我将复杂问题简单化了,事实上,收入分配问题不是我和学生在课堂上能讨论清楚的,主要目的是引导学生关注社会,培养学生的社会责任意识。

对于数据处理技术的应用,没有作为本节课的重点,在以后的教学中,还要加强数据处理技术应用的讲解。

点评

本案例从身边实例出发,逐渐拓展到社会,再进一步提升到未来。在情境设计上具有相当的广度。第一例,以视力保护为题,生动、形象、真实、实用,并且提供了信息采集的网络处理方式,很有效益,值得推广。第二例,以企业红利分配为题,社会性较强,利于学生了解社会,并结合了政治经济学相关知识,对高中生来讲提到了必要的高度。第三例,畅想、讨论未来,结合了思想教育和理想教育,给学生以更深远的思维和视野。总起来看,情境任务的设计还是非常顺畅而大气的。

数据加工范文3

关键词:机械加工企业 统计数据 质量 监控 对策

引言

统计工作遍布机械加工企业管理的方方面面,是各项工作的基础,是企业管理的重要组成部分,没有统计信息作为基础,企业领导就成为盲人,企业也无法在市场经济的大潮中取胜。大到企业的长远规划,小到车间建设,凡是能用数字量化反映事物本质及其发展的地方都离不开统计,统计为机械加工企业的经营决策提供了可靠的数字依据。

一、实际工作中常见的统计数据失真现象

在机械加工企业目前的统计工作过程中,统计数字不能如实反映客观实际,经常与实际数字不吻合,存在着统计失真的潜在危险。其主要原因有:

(一)信息失真

机械加工企业内部统计数据的重要性众所周知,但是实际工作中销售部门为了达到产销平衡虚报数据,生产单位为了增加计件工资多报数据,财务部门为了减亏增盈编造数据,管理部门根据进度算出一个数据,统计部门通过规范化调查得出一个数据,这样一个链条漫长的过程,统计数据信息出现失真的现象就在所难免。

(二)人为因素

统计数据与企业或个人利益相关,尤其是机械加工企业实行重组以后,利益分配和政绩挂钩,关系到职务升迁、个人荣辱,有些统计人员为了自身的利益、单位领导人的声誉和地位升迁,置《中华人民共和国统计法》及其他有关的统计法律法规于不顾,统计违法行为屡见不鲜,虚报、瞒报、伪造、篡改统计资料的现象时有发生,统计数字的模糊程度增加。

(三)统计人员素质不高

机械加工企业统计人员更换频繁,部分统计人员思想、业务素质不高,基层统计力量薄弱,基础工作不扎实,源头数字失真。大多数机械加工企业统计人员除少数几个专职人员外,多数统计人员为兼职,以会计或其它工作为主,统计工作为辅。

二、加强机械加工企业统计数据监控的对策

根据上文的分析,结合工作实际,笔者提出以下几点改进措施:

(一)提高统计分析深度,正确确定统计数据质量标准

机械加工企业的统计人员应以企业的经济效益为中心,树立科学的发展观,敏锐地发现和预测领导与群众关心的热点、难点,有的放矢地开展调查研究和专题活动,对原始信息资料进行科学分析,对数据资料加大科学预计量,对经济形式加强预测分析,自觉地投入到机械加工企业经济管理中去,为机械加工企业的经营管理提供切实可行的新对策、新建议。

(二)稳定统计队伍,加强人为错误的质量控制,提高统计人员素质

从主观上提高数据质量。统计人员素质的高低直接影响统计数据质量,目前,机械加工企业各级统计人员大多没有经过系统的专业培训,对统计专业知识掌握不够,对统计方法掌握不准。这些人明显缺乏经济方面的知识,仅满足于对统计数据进行叠加累计,根本谈不上对统计数据质量的分析。机械加工企业可以通过外聘和内部建立配套的培训机制,对每一层次统计岗位实施针对性的培训,改变统计人员结构,稳定统计人员队伍,迅速提高统计人员的业务素质和政治思想素质。

(三)加强资料搜集整理阶段的质量控制, 合理设计适合的统计指标体系

统计资料搜集整理阶段出现的差错是统计数据质量问题的主要方面。调查时,要采用科学合理的统计调查方法,要尽量减少登记性误差,降低代表性误差,建立多层次、多方位的统计数据模型。对于调查得到的资料,要特别注意审查其可靠性和适用性,要弄清楚统计指标的口径范围、计算方法和时期特点。对于口径不一致或不完整的资料,要进行调整、补充;对于相互比较的资料,必要考虑有无可比性,一旦发现数据有严重的质量问题,应进行核实,避免有质量问题的资料进入汇总处理阶段。

(四)分散统计职能,加强统计制度建设

在机械加工企业中,对企业发展至关重要的统计信息不仅局限于计划统计部门内部,而且还涉及其他部门,如劳资部门掌握机构人数、工资情况、基建部门掌握投资数据、销售部门掌握销量数据等。因此,为确保机械加工企业统计资料的系统性和完整性,应在各部门的工作职责中明确相应的统计责任,要求其按统一确定的口径、范围及时间提供相应的统计资料及分析报告。统计工作是一项系统性、全局性和规范性很强的工作,这就决定了统计数据必须有权威性,要充分利用《统计法》来维护统计数据质量。

三、结语

机械加工企业求生存、求发展,经营管理者一定要全面掌握机械加工企业经营管理的丰富内涵,以系统的、科学的统计理论及统计信息技术为基础,掌握和运用市场信息;根据机械加工企业具体情况建立机械加工企业统计信息网络系统和加强统计信息管理;根据统计的系统性、目的性、全面性、规范性、及时性、经济性等原则,设计统计信息网络系统,使机械加工企业经营管理工作及时、准确的取得统计信息。只有这样,才能真正发挥统计工作在机械加工企业经营管理中的重要作用。

参考文献:

[1]叶敏.浅谈企业统计管理[J].现代企业,2008;5

[2]王新芹.提高企业统计管理水平的新思路[J].统计与决策,2010;3

数据加工范文4

[关键词] 统计 改革 提高 质量

一、统计数据失真的原因

1、领导对统计信息的干预是是造成统计数据失真的前提。近年来我们国家对干部的考核任免,开始对其业绩进行量化考核,这应该是干部管理迈向规范化、科学化的重要一步,但是对于定量考核的某些指标我们没有进行严格、科学、规范的审计和评价,出现了片面追求GDP,以数字论英雄的现象,正是由于这一管理机制中的重要缺陷,使某些领导出于地方、部门、个人利益的考虑,对统计部门授意和间接施加影响,使之按其意志编造或瞒报、虚报统计数据,从而导致和助长了整个社会数字做假的不良风气,严重影响了重要统计数据的可靠性和准确性,给我国社会经济的发展造成了重大损失。

2、社会道德失衡,诚信严重失范,是造成统计数据失真的社会基础。改革开放以来,我国的社会经济发生了重大变化和深刻变革,人民生活显著提高,但无庸讳言,随着生活水平的提高,近年来社会诚信水平出现了明显下降趋势。这种道德失衡、诚信失范的现象不仅成为我国市场经济进一步发展的严重障碍,也成为统计数据造假的一大社会根源。它影响到了作为调查者的统计部门及统计工作者,也影响到了向社会提供各种统计资料的社会各界的每一个人,同时更影响到了我国各级领导干部。

3、统计法制意识淡薄,执法力度不够是造成统计数据造假日趋蔓延的关键因素。首先是整个社会的统计法制意识淡薄,从领导到群众,从上级主管部门到基层单位,从调查者到被调查者,都没有充分认识到对统计数据造假与其它触犯刑律的行为一样,也是一种严重的违法行为,也要承担法律责任。一部分人出于对部门、个人利益的考虑,对数字造假心知肚明,且彼此心照不宣,甚至协助造假、做假。其次,统计执法乏力,缺乏应有的打击力度,使统计法律、法规失去了应有的震慑作用,使本已非常淡薄的统计法制观念更加淡薄,直接助长了社会上统计数据造假的现象。

4、统计部门自律制度不完善是造成统计部门对统计数据失真、失守的关键因素。由于现在我国统计部门还没有财务部门那样严格的自律制度,所以统计人员和统计部门没有会计人员那样高的责任感和纪律约束感,因此也弱化了为保证统计数字质量而应该坚持的原则和立场,降低了自己对假数据的责任意识、敏感性和抗干扰能力、放弃了捍卫统计数据真实的神圣职责,使统计数据的真实性、可靠性失去了最后的保障。

5、统计工作人员及社会各界和领导的自身素质水平低下是造成统计数据失真的又一主要原因。首先现阶段我国统计队伍业务素质水平较低,造成统计各工作阶段科学性差,对统计工作各环节控制不严谨、不合理,造成了统计数据不同程度的失真。其次,作为被调查的社会各界,由于缺乏必要的文化及素质水平,导致记忆、记录、估计不准,也会使所提供数据失真。最后,由于部分领导干部个人思想觉悟、业务能力较低,向统计部门所提供的一些数据不是经过科学调查得到的,而且仅凭个人臆断、拍脑袋拍出来的,当然会使统计数据失真。

二、 解决统计数据质量问题的对策

针对统计工作中表现出来的诸多矛盾,问题及原因。这即受客观原因(全国依法治国刚起步,经济体制是从社会主义计划经济向市场经济过渡),也受主观原因(统计理论相对滞后,不能满足各社会阶层需要;统计队伍素质低,变化大;社会对统计重视不够,经费不足),当前必须在正视现实和矛盾的前提下,要用科学、系统的方式和方法来配套推进统计改革,必须抓好以下几个方面的工作

数据加工范文5

论文摘要:在总结对政府工程项目资金计划管理实际工作经验的基础上提出在电子信息处理时代下由电子信息处理系统实现资金计划安排、工程进度统计与工程资金拨付功能的基本构思。

政府工程存在项目多、单个项目投资总额大等特征,对应的资金计划管理工作相对来说就复杂许多。政府工程资金计划是政府年度财政经费计划的一部分,如果资金计划做得不合理,资金利用不充分或发生超投资计划的情况,都将会影响整个财政资金年度预算的执行不到位。

就目前政府工程投资资金管理的流程来看,工程资金的管理涉及到的部门主要有发改部门、财政部门及建设部门,数据使用部门除上述三个部门,还有审计部门、使用(管理)单位等。其中,发改部门负责区域内政府投资工程资金的计划统筹、资金安排,财政部门负责资金的拨付,建设部门主要是统计工程项目的进度情况及根据相关规定、合同条款计算应付工程款,工程资金的整个管理过程紧紧围绕年度资金计划进行,也就是说,无论财政部门的拨款还是建设部门的资金使用都必须严格控制在发改局下达的工程资金年度计划额度内,因此做好政府工程资金计划工作在整个政府工程资金管理中是非常重要的,一般来说,工程年度进度预测工作由负责政府工程建设工作的建设部门完成。建设单位完成了项目的年度进度统计后,由发改部门根据项目年度预算安排资金。因为工程的进展受多方面的影响,尤其是天气的影响较大,因此,工程进度的预算不可能做到百分之百准确,所以工程资金计划最好采用滚动预算的办法,一般可以以季度或月份为预算滚动周期。

目前,在实际工作中经常出现部门之间信息沟通不及时的情况,比如说,某个项目的工程进度比年初的预测完成得快,通常会发生年初安排的资金计划不够用的情况,有些项目也会由于某些原因出现进展停滞、年度资金计划过于充裕的情况。由于工程进度是由建设部门统计的,而资金拨付现在都由财政部门负责直拨,即直接由财政部门根据建设部门申核过的工程进度量将工程款直接打到施工单位的银行账户上,而不经过建设单位的银行账户。所以当工程款支付请款单到了财政部门后才能发现这个问题。发现问题后再由建设部门以公文函件的形式报告发改部门,发改部门再重新安排计划资金。

信息沟通不及时的根本原因在于涉及到资金计划管理工作的部门没有实现数据共享,从而在整个资金计划管理的流程中出现了工作脱节的情况。工程开展需要充足并及时的资金保障,传统的资金安排管理程不顺畅,手续烦琐,极大影响了工作效率,在一定程度上将影响工程的正常开展。下面简单阐述如何通过电子信息处理系统实现工程资金计划相关数据的共享。

多个用户共享数据库中的集成数据数据库的所有者允许其他用户访向它的数据库,称为共享数据库。可以利用局域网作为数据共享平台实现发改部门、财政部门、建设部门之间的数据共享。数据库按部门划分模块,即分成建设部门(项目单位、建设单位)模块、发改部门模块、财政部门模块三个大模块,其中建设部门模块里面实现工程进度预测、工程完成进度的统计功能,发改部门模块负责资金统筹安排功能,财政部门负责资金拨付统计功能,由各相关部门将本单位负责的数据录入数据共享平台,各单位可根据工作需要快速地到数据共享平台取数,从而实现工程资金管理的高效率和高质量。

数据其享平台图示如下:

数据共享电子信息处理系统的基本工作思路是:

第一步,由建设部门根据下年度的工程进展安排预测下年度的工程进度,工程进度预测按 ABC类别进行分类,在每一类下再按项 目作为统计口径,利用数据库对共享数据进行管理,必须赋予每个工程项 目唯一的编码,所有的数据统计均按唯一的编码进行。

第二步,发改部门根据建设部门的年度工程进度预测,在资金总盘子内安排年度工程计划资金。

第三步,由建设部门按项目将每月的工程进度录入电子信息系统,由信息系统自动统计所有工程项目的累计完成进度情况,财政部门根据建设部门统计的工程进度,在发改部门安排的年度资金计划内支付工程款。

第四步,由电子信息系统定期对比工程累计进度与年度资金计划之间的关系,并由电子信息系统自动在年度资金总盘子内实现项 目之间的资金计划调整功能,调整后的资金计划可以由人工审核批准,经审核批准后的资金调整后计划作为下一轮预算期初的资金使用计划。

通过这三大模块、四个步骤的周期性工作,实现“年度工程进度预测一年度工程资金安排一年度工程实际进展情况统计一年度工程资金拨付一年度工程资金调整再安排”的功能,直接由电子信息处理系统完成工程资金的计划调整管理工作,这样既可以保证数据 的准确性,又在很大程度上减轻了统计工作量。

政府工程投资管理对项目的总投资计划控制非常严格,上述的电子信息处理系统也应该将这个问题考虑在内,加强对项目总投资计划的控制管理。凡是累计完成投资进度达到了原总投资计划一定比例 (可以设为 90%或其它的比例)的工程项目,将不再根据实际完成的累计进度由电子信息处理系统自动调整资金计划,而必须由项目单位或建设单位以正式的公函将超投资的情况详细说明后,由发改部门审核批复。

在电子信息、网络应用日益发展的时代,利用电子信息处理系统实现对政府工程投资资金计划的管理是发展的一个必然趋势。作为一名政府工程资金的管理人员,不仅需要有资金管理方面的知识,也需要具备一定的电子信息应用软件、网络使用方面的基本知识,以跟上不断发展的信息经济时代的前进脚步。

参考文献:

[1]张维迎.博弈论与信息经济学[M].上海上海人民出版社,1996.

[2]谢识予.经济博弈论[M].上海:复旦大学出版社,2002.

数据加工范文6

[关键词]科学数据 数据生命周期 服务方式

[分类号]G250

进入21世纪,e-Science的产生改变了科研方式,科技创新越来越依赖于对海量数据的再利用。因此,如何融入e-Science环境满足科研人员的数据需求是图书馆界亟需探索的一个问题。国外已经有学者探讨e-Research中图书馆参与数据领域的角色定位问题,本文在总结前人观点基础上,利用数据生命周期(digitallife cycle)模型推演了e-Science环境下图书馆可以开展的科学数据服务方式,并考察各项服务的实际开展情况,辅以案例分析。

数据生命周期是指从数据产生,经数据加工和,最终实现数据再利用的一个循环过程,其实质是依据科研过程来管理数据。本文从来源、类型、基本流程、特色、实质等方面分析了各种数据生命周期理论,从中归纳出数据生命周期的一般基本流程,以此为指导思路探索了e-Science环境下图书馆可以开展的科学数据服务方式。

1 数据生命周期理论归纳

生命周期的概念源于生物领域,科学家描述了寄生物扁虱从一个宿主转换到另一宿主的生命周期过程,宿主为扁虱的整个生命周期提供支撑生存的环境。作为一种比喻,数字对象也可以看作扁虱,从一个数字加工环境到另一环境,最终生成数字产品供用户使用。数字生命周期的提法在IASSIST(International Associa-tion for Social Science Information Services&Technology)2006中多次出现,Ann Green总结了各类数字生命周期理论,并讨论了数字化生命周期的内涵:首先,“生命周期”不同于“生命期”(life span),即从产生到消亡,一个生命周期意味着一种数据加工环境,经过数据管理和长期保存,实现资源发现和再利用。具体来说就是对数字化资源进行保存及长期保存、提供获取,最终用于支持研究、政策制定等再利用活动。本文归纳了各派数据生命周期理论,从来源、基本流程、类型等方面进行列表对比(见表1)。

从各派理论可以看出,科研生命周期是数据生命周期的来源,同时e-Science环境下一个完整的数据生命周期涉及数据加工和知识抽取两个层次,数据加工是知识抽取的基础。其中,数据加工的过程基本达成一致,各家基本都涉及数据收集、数据处理、数据、数据发现等;另外,Liz Lyon的e-Research下的数据生命周期模型中有增加附加值环节,实质上属于数据加工的高级阶段,即再加工;而各家基本都涉及的数据分析则是最高级的数据加工,即知识抽取阶段。

综上所述,从内容层面看,一个完整的数据生命周期包括数据加工和知识抽取两个层次,数据加工是知识抽取的基础。数据加工又包括数据初次加工和数据再加工,前者包括数据存储系列环节;后者则是在一次加工基础上增加附加值。在知识抽取方面,主要在数据获取基础上进行的一系列高级活动,包括数据挖掘等知识发现活动。

2 数据生命周期流程下的图书馆数据服务拓展

由前文分析可以看出,数据生命周期由科研周期发展而来,通过数据生命周期图书馆可以宏观把握科研人员的科学数据需求,结合自身实际开展服务。笔者也试图通过数据生命周期理论推演e-Science环境下图书馆可以开展的科学数据服务方式。在此之前,国外已经有很多学者、机构对e-Science环境下图书馆参与数据领域的角色定位进行了探索,这与科学数据服务方式的探索是异曲同工的,因此本文首先总结已有研究,在此基础上提出自己的服务推演类型。

2.1 图书馆在数据服务领域的角色探索

Anna Gold提到科学研究生命周期理论和学术交流系统结合起来,很容易推导出数据和文献的生命周期流程,具体如图1所示:

笔者以此为线索探索了图书馆员在科学数据服务中可以担任的角色。在前出版阶段,主要角色是:①选择数据集并发放许可;②制作元数据(或标准)描述数据集;③数据保存服务;④评审、挑选长期保存资源;⑤协助用户数据发现;⑥发展数据出版标准和系统;⑦呼吁出台知识产权保护文件;⑧建立学术成果储存库,如数据仓储。在后出版阶段,作者主张图书馆员要争取成为研究者的合作者,如参与创建数据管理原型等。

另外,Liz Lyon也提到科学数据服务中涉及到的各主体的职责,其中,数据馆员可涉及的工作包括数据评估、数据长期保存、协调机构合作、宣传数据服务、发展标准等。一家专门从事学术交流领域咨询的公司也谈到图书馆介入科学数据领域的几种方式:培训研究者的“数据意识”;数据存档和保存;培训和提供数据馆员。Rick Luce也提到图书馆在e-Science环境下参与数据领域可尝试的新角色包括:改变传统的文献和学术交流视野;数据存档、机构库;发现相关资源、数据保存、教育和培训等。

由以上研究可以看出,国外图书馆界已经意识到在数据领域要参与新的分工,并开始将服务边界拓展到传统学术交流的上游即数据阶段。以上各家讨论的e-Science环境下图书馆在数据领域可以尝试的角色存在一定重叠,例如数据保存、数据获取等,这一定程度上是由图书馆存储信息资源的传统和优势决定的;其他如发展标准、知识产权等则是个别学者提出,主要是因为目前数据服务还没有产生成熟模式,讨论这些问题缺乏一定的实践基础。

2.2 基于数据生命周期的数据服务拓展

上述学者在图书馆数据服务探索方面积累了一定成果的同时,也存在很多不足。例如,大部分学者仅发散地列出图书馆员在数据服务领域可以尝试的角色,缺乏理论支持和系统性,只有个别学者按照学术交流系统的流程展开讨论;另外,上述研究没有归纳为服务方式。因此,本文利用数据生命周期模型归纳了图书馆可以开展的科学数据服务方式。如图2所示:

由前文可知,一个完整的数据生命周期应该历经数据初次加工、数据再加工、知识抽取阶段。其中数据初次加工包含数据收集、数据描述、数据存储、数据获取等环节,实际就是数据存储服务,这本质上和图书馆的文献保存性质相似。数据再加工则是对已经存储的数据进行二次加工,以增加附加值;而知识抽取则是在数据加工基础上的服务升华。由此可见,从数据初次加工到数据加工再到知识抽取是一个由低到高的循环过程。笔者在各个服务模块下又划分了具体的服务方式,下文主要讨论每项服务的内涵、开展情况,并辅以案例支持。

2.2.1 数据初次加工服务 数据初次加工的核心服

务方式是数据存储服务,数据存储服务其实是数据管理(Curation)的一个重要环节。Curation是指从数据被生产出来起就开始的管理和促进其被利用的行为,目标是使得数据能够符合现实的需要,或能被用于发现和重用数据。数据存储服务中包括的具体服务形式如数据存储及长期保存、数据发现及获取和数据管理咨询等。具体来讲,图书馆可以探索的服务项目可以包括以下几类:①数据存储服务:服务面向暂时性的数据存储,例如建立机构数据仓储,方便机构内部的数据共享,同时有部分数据可以转移到更高一层的机构库中。例如康奈尔大学图书馆建立的DataStaR就是一个临时的存储库,用户可以上传数据、选定特定同事进行数据共享、选择一个长久保存的机构库、数据出版等,支持小型研究团体的数据共享。普渡大学图书馆的D2C2是一个分布式数据保存中心项目,其中e-Data作为数据管理服务的试验平台。e-Data实现了对远程机构库的以及网格上数据集的分布式存取。其本地存储容量大概是30Tb,图书馆员已经和各个领域的研究者进行合作收集数据。②数据长期保存服务:服务面向永久性的数据存储。长期保存是一种基于存档的活动,数字保存需要解决的问题是即使随着时间的流逝、在技术已经变化了的情况下,还能够对文档的数据进行存取。例如由美国航空航天局(NASA)1990年开始着手建设的部级分布式数据存档中心(DAAC’s)包含海量卫星观测数据,由于这些数据具有不可重复性,因此必须保证可以永久获取,这对数据长期保存提出很高的要求。在处理技术方面,涉及在原有数据存储基础上增加一些长期保存活动,例如制定长期保存计划;数据评估来决定哪些数据需要长期保存;数据清洗、分配保存元数据、文件格式等。③数据发现及获取服务:帮助用户在海量信息中发现关联信息一直是图书馆的优势所在,类似于检索文献,e-Science环境下图书馆员也可以开展数据发现服务,形式包括数据检索、数据导航、集成融汇服务等。例如加拿大科技信息研究所(CISTI)就提供对加拿大科学、技术和医学数据(STM)的数据导航服务。它整理了加拿大范围的科学数据,进行分类整理、元数据描述,有些还提供科学数据库的链接等。集成融汇方面,2006年以来,中国科学院国家科学图书馆提出并开展科学数据与科技文献跨界集成服务、数据融合技术的研究和开发,利用数据SRU技术实现了科技文献、科学数据、字典等的服务融合。④数据管理咨询服务:除此之外,图书馆还可以提供数据管理咨询服务,数据馆员可以全程跟随科研项目,进行数据管理,从规划、收集到存档、的系列活动。另外,图书馆员也可以在存储格式、存储流程、标准等方面协助科研用户进行科学数据管理。国外的一些科学数据中心会跟随科研团队进行数据管理协助服务,例如美国NASA的地球观测实验室(EOL)。麻省理工大学图书馆就提供社会科学数据、地理GIS数据以及生命科学数据的咨询服务。

2.2.2 数据再加工服务 为了在更大范围内发挥数据的作用,图书馆可以对数据进行再加工,提供数据增值服务。例如数据可视化、文献和数据的链接等。在数据再加工服务方面,已经有图书馆开始探索数据增值的新形式,例如图书馆尝试给科学数据添加注释以及来源出处,实现了科学文献和科学数据的交叉链接。在实践方面,德国国家科技图书馆(TIB)就利用DOI系统,通过分配数据集数字对象唯一标识符,实现文献和科学数据的链接。

数据加工的最高等级即知识抽取活动,包括例如数据挖掘、数据分析、数据融合等。在知识抽取服务方面,将是科学数据服务的未来发展方向。在初期,图书馆可以协助科研用户进行数据挖掘、数据融合等服务,并可以提供相应的数据分析软件等;在后期,图书馆员应该尝试和研究者进行合作,参与到科研的前出版过程,提供数据分析等服务。

3 结论

由前文研究可以得出,数据管理的生命周期源于科学研究的生命周期。数据生命周期实质是将传统学术交流的链条拓展到前出版时期的数据阶段,从数据产生、整理到数据和获取,拓展了图书馆的服务范畴,可以有效地指导图书馆开展科学数据服务。图书馆现在的服务主要围绕已经出版的文献资源,e-Sci-ence环境下图书馆应该将服务链条拓展到上游数据处理阶段,并将知识服务作为未来服务发展的方向。

上一篇应收账款

下一篇专业英语翻译