大数据下职业院校数据治理体系的构建

大数据下职业院校数据治理体系的构建

摘要:近年来,职业教育在我国取得了快速的发展,在不断推行信息化建设的过程中,积累的数据资产非常巨大。然而对于职业院校信息化发展而言,数据质量方面的问题也造成了一定的限制。基于此,为了使数据质量得到提升,应当积极构建职业院校数据治理体系。结合数据治理白皮书国际标准研究报告、桑尼尔•索雷斯大数据治理框架、DAMA数据治理框架等理论研究成果,契合职业院校的特点,研究了大数据背景下职业院校数据治理体系的构建与实践。

关键词:大数据;职业院校;数据治理体系;构建与实践

一、前言

信息化建设在我国教育领域中已经经历了多年的发展,职业院校所积累的人才培养活动相关数据量也是十分庞大的。在云计算技术、移动互联网快速发展下,这些数据也体现出了典型的大数据特征。不过,职业院校在技术力量、人员管理、办学规模等方面都相对弱势,管理不规范,数据采集难度大,数据信息重复缺失,共享困难,审核难度大等,都对职业院校信息化发展产生了不利的影响。为此,应当在大数据背景下,积极推进职业院校数据治理体系的发展,提供更优质的数据服务。

二、数据治理框架体系的研究现状分析

目前,在数据治理方面,国内外专家学者都进行了大量的研究。早在二十世纪末,美国麻省理工学院就提出了全面数据质量管理的概念,明确了数据质量的概念、分析、提升,以期能够将更高质量的信息产品提供给用户。美国圣母大学针对数据治理的原则、技术、目的,提出了数据治理模型理论[1]。在我国的研究当中,也针对学校的特点,提出了数据治理的步骤、方法、模型,并且以美国院校数据治理经验为基础,提出了数据治理的技术工具、保障机制等核心要素。基于数据融合的角度,对高校数据融合及治理框架进行了阐述。由此可见,国内外学者从不同角度、不同方面展开研究,在管理创新、技术实践的基础上,对于院校数据治理提出了很多新的思路。在此基础上,国内外很多专家和研究机构也提出了一些数据治理的框架,其中 DAMA 协会所提出的 DAMA数据治理框架比较具有代表性,其中涉及到两个部分,分别是功能子框架、要素子框架,其对于数据管理中的环境要素及功能的对应关系进行了阐述[2]。不过其对于数据管理功能并不能全面概括,尤其是对于近年来的大数据技术发展及应用要求的大数据管理功能。而我国在2015 年的数据治理白皮书国际标准研究报告中,也提出了一定的数据治理模型框架,模型中主要包括了实施评估子框架、原则子框架、范围子框架等部分,主要明确的数据治理的方法、准则、治理域。其中,实施评估子框架主要明确数据治理方法,包括了实施生命周期等;原则子框架中明确了数据治理规则,包括了战略一致等;范围子框架明确了数据治理任务范围,包括了大数据、主数据等关键域。目前,在职业院校的教育信息化发展当中,已经基本上实现了对校园综合信息服务平台的构建,以三大平台为基础,同时集成了一卡通、OA、科研、教务等不同的业务系统,积累的数据体量也很大,涉及到访问日志、师生行为、业务数据等。此外,存在着数据全生命周期不完整、数据多源异构、数据多头管理等问题。这些问题的存在,导致职业院校信息化管理能力、信息化教学水平等都受到了一定的限制。因此,在大数据背景下,职业院校未来信息化发展过程中,需要进一步重视对数据治理体系的构建和实践,从而提供更为高效的数据服务。针对大数据治理方面,桑尼尔•索雷斯提出了借鉴性意义较强的大数据治理框架,可以针对大数据不同应用场景,通过信息治理准则、大数据类型、产业场景等方面,对大数据治理内容加以明确。在职业院校当中,这一框架对应了公共事业的产业功能场景,大数据类别将完全覆盖,包括大体量一卡通消费数据,以及班级考勤、宿舍管理等 M2M 数据,还涉及到了学生在校学习网站中的成绩、课程、学习行为等数据信息。而在信息治理方面,则涉及到数据质量、元数据、组织等方面[3]。所以,在职业院校数据治理体系当中,这一治理体系的参考借鉴价值实施比较高的。职业院校数据治理框架的构建中,可以将数据治理通用框架作为基本思路,结合自身信息化建设的需求、阶段、规模,开展个性化治理框架体系构建,对数据质量和应用价值进行提升。

三、职业院校数据管理过程中面临的挑战

(一)缺乏统一标准

当前职业院校的数据管理过程中,各个业务部门各自独立牵头建设信息系统,由于相互之间沟通协调不到位,数据标准和数据规划也并不统一。所以,在资产数据、科研数据、人事数据、学生数据等重要的数据资料上,都分别在不同信息系统中分散存储[4]。职业院校中各部门分散管理各个业务系统,全局规划存在不足。在早期系统建设过程中,通常遵循的是业务逻辑导向,没有进行统一的底层数据结构设计,因而系统之间的数据共享交换效率、维度、深度等都比较有限。数据之间的关联性比较差,甚至存在数据不一致、不规范、重复、无法共享等情况,导致数据资源没有发挥出其应有的价值。

(二)权责不够明确

在数据管理职责和权责方面,存在着不健全、不明确的问题。当前职业院校的信息系统管理职能,是在各个部门分散赋予的,但是不同部门对于数据的关注角度均有不同。例如业务部门对于业务管理范围内的数据比较重视,信息技术部门只注重信息系统运行管理维护的相关数据。由于缺少完善的跨部门数据质量沟通机制,因而没有一个专门的机构或部门能够站在全校的角度监督控制数据质量。

(三)数据质量不高

当前职业院校很多主数据质量都不够理想,在管理业务及学校信息化方面,尚未实现充分的融合,设备、资产、教师、学生等核心实体数据也没有得到统一的业务管理流程进行系统间维护[5]。在职业院校的大数据当中,主要涉及到结构化数据、非结构化数据两个类型。而传统的数据中心,对于海量的结构化数据,难以做到有效地实时转换、加工、抽取,对于其它的非结构化数据,如音视频、文档等,也难以进行有效的数据整合。因此,在整个业务范围内,主数据的共享性、完整性、一致性都难以得到充分的保障,进而导致数据质量不高的情况普遍存在。

(四)数据管理缺失

在职业院校数据管理中,基于信息化的要求,应当实现数据全生命周期管理。但是在职业院校实际工作中,这种数据管理是普遍缺失的。在业务系统管理当中,人员职责没有得到充分的明确,部分人员仍然采用表格文档或纸质方式进行数据管理。而如果相关厂商暂停维护、业务系统升级更新后,历史数据和新建系统难以有效整合,因而学校数据资产也面临着大量流失的问题。职业院校对于数据全生命周期管理的流程缺乏规范性和完善性,也没有相应的管理机制与管理技术,用于支撑数据全生命周期管理,因而造成了数据管理水平与质量较差。

(五)开发应用不足

在职业院校数据管理中,大数据的主要价值就在于对其进行深度的开发和应用。不过当前的职业院校实际工作中,并没有专门针对学生在线教学平台学习行为数据、学生消费数据等相关重要数据进行采集整理和分析应用,也没有从中提炼出有价值的信息,无法为学校决策提供支撑和依据,导致数据管理的价值和意义没有得到正确的体现[6]。

四、大数据背景下职业院校数据治理体系的构建与实施

在数据治理中,需要将技术和管理有机融合,以国内外主要的数据治理模型框架研究成果为基础,针对职业院校数据管理中存在的问题和不足,可以构建“金字塔”型的职业院校数据治理框架体系,体系中主要包括了关键域子框架、机制域子框架、目标域子框架等部分。其中,处于“金字塔”塔尖位置的是目标域子框架,主要对数据治理相关发展规划、IT 治理规划、学校业务发展目标等进行阐述。“金字塔”中层部分是机制域子框架,其作用是承上启下的,主要是推进数据治理工作实现治理目标的保障机制加以明确,包括了组织机构、协调机制、流程管理、技术工具。“金字塔”底层部分是关键域子框架,主要对职业院校数据治理重点关注的领域进行描述,明确了职业院校数据治理的具体行动方向、技术、对象等,包括了主数据、大数据、元数据、数据质量、数据标准、数据安全、数据生命周期、业务流程整合,分别处于基础层、支撑层、应用层,三个层次均会受到数据安全及数据标准管理的影响。

(一)组织机构和职责划分

在组织机构建立中,需要对成员角色、权限等加以明确,为数据治理工作开展提供保障[7]。根据国外相关院校的数据治理经验,从我国职业院校工作实际情况出发,分别在决策、统筹、执行等层面上对数据治理权责体系进行设计。其中,数据治理委员会和学校网络安全与信息化领导小组构成决策层,主要成员是学校高层领导,以学校首席信息官或学校分管信息化的领导为总负责人。数据治理工作组构成统筹层,人员包括信息中心及业务部门的负责人。数据集成开发人员、信息中心数据管理员、各业务部门数据责任人共同构成执行层。

(二)大数据信息标准建设

在职业院校数据治理体系的构建过程中,信息标准是信息化建设的重要环节。在业务系统及数据中心平台上层应用当中,对于数据统计分析、数据上报、业务活动等工作,都需要提供统一的信息标准支持。在全校范围内的数据库设计中,信息标准能够发挥与数据字典相类似的功能,是数据共享和信息交换的重要基础和保障。对此,职业院校可在大数据背景下,积极推进智慧校园数据治理工作的进展,大力研究和探索对信息标准的建设和完善。采用循序渐进、逐步完善的方式,根据行业标准、教育部标准、国家标准等,统一编制本校的数据标准。在职业院校信息标准中,应当纳入身份认证标准、信息交互标准、系统子集信息标准等内容,而在系统子集信息标准中,还需要纳入代码集、数据集等部分。同时,应积极开展数据标准维护,在数据标准日常管理中,可通过图形化界面实现,可满足数据标准历史版本的溯源,以及对新版本的等工作要求。

(三)数据中心和数据整合

在职业院校当中,应用系统对数据共享有着较高的需求,因此,对数据中心加以建立,能够避免应用系统相互共享数据形成网状结构,以确保对外提供一致和准确的数据信息。利用数据中心平台,能够集中和统一保存各个业务系统中的分散数据,根据师生角色,提供跨部门的信息服务、科研、教学、人事等综合数据,保证信息服务的全面性和权威性。在数据中心建设当中,可以根据需求选用不同的数据库系统,保证系统对接成熟、可用。应用的数据库集群技术能够达到良好的负载均衡能力和较高的并发及容错性。如果集群中有进程或节点失效,可将数据库访问向其它节点迁移。可以对多机并行处理指令提供支持,在查询读写海量数据的情况下,使数据查询处理时间缩短。通过构建双机集群数据库,能够确保数据中心运行效率得到保证。初步完成校园数据中心建立,整合图书系统、一卡通系统、认证平台、教务系统等异构业务系统。通过业务调研,对职业院校总体的数据情况加以了解,并运用数据集成工具,对各个业务系统中的分散数据进行抽取,并入数据中心数据库,形成学校唯一的数据集,进而达到标准化、统一化、集成化的数据中心。在数据整合过程中,可采用面向服务体系架构的形式,或是利用中间库向中间表和相应视图推送给数据。通过减少业务系统对数据中心的直接方位,使数据中心整体负载水平下降,运用跨平台架构,可提升兼容性。业务系统根据需求抽取数据,根据相关的语义信息,完成数据检索和展示功能,进而使数据库读写数据的获取难度下降。在数据中心当中,运用 ODI工具创建接口,相比于其它 ETL 工具,其具有很多方面的优势。例如,其能够对多种异构数据库加以支持,可以对数据库操纵数据自动生成。检测到事件发生出发接口流程后,可以简单加载数据变化实现。

(四)数据管理和流程梳理

有共享性的基础数据称为主数据,在职业院校业务系统中,存储了很多实体数据,包括科研项目、设备、课程、人员等,这些数据具有一定的稳定性,可以实现跨业务流程、跨系统、跨部门的共享。在主数据管理中,从学校各个业务系统中对主数据进行抽取、整合、治理,然后通过提供服务的形式,向其它业务系统分发主数据。业务流程梳理是主数据管理中的重点环节,其中主要涉及到了数据实体属性梳理、数据分类、数据建模等工作内容。其中,数据建模主要是按照业务流程,对数据实体加以识别,并根据数据实体联系开展数据分析,对数据模型进行构建[8]。数据分类中,对业务流程不同阶段数据进一步分类和归并,形成可靠、唯一的数据来源,为后续数据规范化开发应用提供支持。数据实体属性主要是将各个流程环节对应的业务活动信息形成数据表,对表中各个信息项加以明确。通过以上环节,可以实现全面的业务流程及数据梳理。基于职业院校学生主数据管理业务流程,对相关的流程图进行设计,从源系统中抽取学生主数据,作为权威数据源,确保在数据使用维护中应用的唯一性。

(五)数据质量管理的规范

在数据质量管理方法中,戴明质量环是一种有效的措施,通过计划、实施、检查、行动的模型,用于解决实际问题。以此为基础,将职业院校数据质量管理划分为计划、实施、监控、行动等阶段执行。在计划阶段,数据治理工作组对数据质量业务要求进行定义,对数据质量关键维度加以识别,并对保障高水平数据质量关键业务规则加以定义[9]。可以根据数据质量评估框架DQAF,用于定义数据质量关键维度,可以从数据质量的完整性、一致性、有效性、及时性、完备性等方面评估和提升数据质量。在实施阶段,对数据进行剖析检查,确认数据不一致、重复、缺失等问题,校正业务流程。在监控阶段,对数据质量水平进行持续的监控和度量,如果数据质量降低超出可接受范围,需要数据管理员及时采取措施处理。在行动阶段,主要是对各项数据质量问题管理措施具体执行,将数据质量缺陷校正清晰,确保数据质量提升,使业务预期得到满足。在之后有新数据集出现,或针对已有数据提出新的质量要求后,可以开展一个新的数据质量管理周期。

(六)数据全生命周期管理

生命周期是数据的一个重要的特征,对于职业院校学生来说,其基础数据通常具有三年的生命周期。数据中心仍然无法达到无限的存储容量,无法对所有基础数据永久保存,所以,就要充分重视数据全生命周期管理的内容。以数据生命周期 POSMAD 理论为基础,在数据生命周期内,是由六个阶段反复迭代组成,包括了数据的规划、获取、存储共享、维护、应用、报废等阶段环节。在数据生命管理周期内,职业院校需要保证合理的数据规划工作,落实好数据概念、逻辑模型规划、数据标准制定、数据库设计等,做好充分的数据资源准备工作[10]。在数据获取环节,对于数据的完整性、准确性要充分考虑,例如教师课务数据、学生成绩数据等手工流程所产生的数据,需要利用抽检和复查的方式,确保正确性。在数据存储环节,对于数据的完整性、保密性要高度重视,同时还要对数据可用性加以关注,例如教师档案、学生信息、校园一卡通消费数据等敏感数据,都要确保分级存储原则。同时对存储备份数据定期测试,确保数据完整和可以访问。数据维护环节,做好合并、转换、清洗、解析、更新等数据维护操作。数据应用环节,主要工作内容源自于数据输出、数据处理、数据查询,注意避免数据传输和各种操作损坏数据库中的数据。数据报废环节,要根据规制和业务需求,确认不再需要的数据,并对数据删除流程加以明确,使用合理的处理工具,保证相关记录的完整性。

(七)大数据管理应用强化

在职业院校大数据治理过程中,涉及到很多方面的内容,如元数据及主数据管理、业务流程重组、大数据分析平台构建、大数据挖掘应用等。基于业务要求,职业院校数据治理委员会要做好工作,吸收更多的大数据专业研究人员,对其角色、职责等加以明确。在大数据管理中,对于大数据相关核心业务流程的识别是最为重要的部分,还需要以业务流程关键环节为基础,制定大数据的业务规则、治理策略等,有效整合大数据和主数据管理。针对学校敏感数据,做好分级存储处理,运用正确的工具与策略提供保护。大数据治理中,还应当平衡数据备份政策及工具,将大数据存储成本降低、应用绩效提升。大数据治理功能中,注重数据应用价值的发挥,所以需要在数据分析中映射具体的业务目标,涉及到数据建模、数据分类等工作[11]。职业院校需要以大数据技术标准体系为基础,做好各种类型的非结构化数据、半结构化数据、结构化数据信息的采集与处理、分析处理、存储等工作。对过去不同应用系统中分散的数据及业务流程做好整合,形成全面、规范、统一的大数据中心和公共数据库。此外,通过校园大数据分析平台的构建,达到统一业务规划,避免信息孤岛产生,为学校决策管理服务提供充足的大数据支持[12-14]。

五、结语

大数据是当前信息化社会中的一个主要的特征,在大数据背景下,职业院校必须充分重视数据治理,确保数据准确一致、合规且可访问。以数据治理管理及技术等核心要素,在大数据背景下构建职业院校数据治理体系,确保职业院校执行的数据治理策略科学合理,提升数据资产管理及应用成效,促进学校综合治理能力的全面提升。

作者:张捷 单位:山西工程科技职业大学