高等教育大数据分析方法

高等教育大数据分析方法

摘要:教育环境的不断变化和迅速发展使得高等教育面临极大的挑战,大数据是其中面临的一个重要问题。本文基于人工智能手段,研究了高等教育资源中各种数据的获取来源,进一步讨论了传统的和非传统的关于学生的数据特点,提出了一个利用分布式技术的集成学习分析解决方案,该方案有利于扩大和改进教育管理部门决策支持系统功能,提高管理决策效率。

关键词:高等教育;人工智能;大数据;决策支持系统

0概述

高等教育的现代化进程使得人们对数据分析越来越感兴趣,教育管理者可以通过分析从各种学习来源收集的大数据来实现对决策的辅助[1]。然而,在高等教育中,最大的挑战是确定如何获取、处理、存储、呈现和使用数据,以得到可靠有效的结果[2]。针对目前现有的很多教育管理部门工作或研究人员缺乏对大数据系统架构的深入了解和合理规划,本文基于自然语言处理(NLP)解决方案,考虑学习分析技术的关键类型以及如何应用于教育管理系统,以解决学生成绩、辍学率、就业率等问题[3]。该方法将人工智能中自然语言处理技术与数据分析相结合,以便能够准确分析越来越多的非结构化数据,可以扩大和改进教育管理部门目前采用的决策支持系统功能,从而提高其实用性和实用性。

1高等教育大数据资源分析

本节通过对与学生数据相关的非传统数据的调研,总结了以下一些影响数据分析结果的因素,这些数据在分析时可以为高等学术机构带来更准确的决策见解。

1.1影响学生成绩和辍学的因素

学业表现参与度被认为是预测学生成功的有效手段。然而,还有许多其他的重要因素可以影响学生的成功,如社会融合,许多研究已经证实,社会适应性在学生的动机中起着关键作用,调查显示拥有更广泛、联系更紧密的人际网络的学生更有可能坚持下去。此外,学生的态度对激发学习行为的内在动机和好奇心等行为也有积极的影响。相反,学生对任何学习环境的消极态度,都可能导致厌倦、焦虑或压力,从而降低学生的学习能力,最终导致学生退缩。通过文献分析,可以将影响学生留校率的因素分为以下几类:(1)学业整合(即学生平均成绩;分数;对学业经验的满意度;对课程和课程的兴趣)。(2)社会融合(即与其他学生的关系;同伴团体的影响;社会/同伴支持;以及课外活动)。(3)机构承诺(即资金;基础设施;学术支持;技术支持;实践学习经验;学术建议)。(4)体制外因素(即金融、健康、外部社会圈子和生活方式)。

1.2构建学生状态的大数据结构

在许多情况下,学生状态数据包括半结构化和非结构化数据,需要一个非传统的数据管理系统。此外,目前收集这种形式数据的能力意味着在分析学生成绩时,需要将其视为预测留级率的一个重要组成部分。数据量仍然以千兆字节为单位表示,然而,它显示出相当多的变化。这表明了大数据的潜力,并且需要定制适合大数据分析的解决方案。经分析调研,我们列出下列数据组成:(1)学生日志姓名;年龄;性别;地点;以前的学校;学校毕业分数;(2)学生成绩统计按学科划分的内部评估分数;期中成绩;年度考试成绩;实验室成绩;项目成绩;(3)学生参与度指标:每日出勤率;研讨会参与率;小组学习参与率;研讨会出勤率;反馈/评论;(4)学生在线学习:参与学习管理系统(LMS)课程列表;LMS登录/注销时间戳;LMS持续时间/天;LMS考试分数;完成LMS模块;(5)过去学生成绩:学生获奖者;学生分数;学生课外奖励;学生辍学率;(6)学生社交网络:学生的学习小组;学生的朋友圈;(7)学生课外活动:学生参加社团;学生参加比赛;(8)学生的健康背景:是否有残疾?他/她有慢性病吗?(9)学生的财务背景:家庭年收入;学生是否有贷款?滞纳金记录;学生有奖学金吗?

2高等教育大数据分析模型与方法

2.1大数据分析模型

分析模型的建立旨在支持学生的进步和毕业,这部分研究的目的是利用不同类型的数据,通过他们通过不同的分析,然后将结果反馈到一个主分析模型。通过这种多重属性和特征可以参与到预测学生成绩和发现影响学生成绩的因素中。相对于单一的预测模型,我们提出一种综合分析模型,该模型针对数据变化大的特点,对各种数据(即自由格式文本、图表和正常操作数据等)以及复杂的分析使用非传统的数据管理系统,采用分布式平台来应对传统数据仓库无法处理大型复杂数据集并在几秒钟内交付输出/响应的情况,图1给出了模型的大数据体系结构。

2.2大数据分析方法

在图1所示模型中,提出了其中所处理数据的性质、数据收集中使用的工具以及数据在执行分析中的方法,分为以下三层:

2.2.1数据接入层

数据接入层包括处理引擎所需的所有数据源。可用的数据源如下:(1)大学保留数据库系统,例如学生日志、学生记录和历史数据;(2)学生移动应用程序,即基于学生活动生成数据的应用程序。首先,在将数据转储推入处理引擎(SCAP)之前需要数据转储。采用HBase(HadoopDatabase),HBase是一个分布式的、面向列的开源数据库,因为有以下三个重要特点①以原始格式存储数据;②提供实时访问;③便于批量处理。因此建议使用Sqoop工具将数据摄取到HBase中,因为合适的连接器是从结构化数据库HBase中摄取数据的关键,sqoop可用于将存储在sql数据库中的结构化数据转换为分布式文件格式,HBase可以接收这些文件格式。因此,学校的所有数据库都可以连接到sqoop,sqoop也可以安排定期接收数据,以便捕获任何数据更新。同时H-BASE的RESTAPI连接器可以使得它能够以结构化和非结构化格式直接存储应用程序的数据。API可以设置为在应用程序中更改时获取数据。

2.2.2存储层

存储层包括HBase及其文件系统hdfs。HBase上的impala封装可以对hbase中存储的数据运行sql查询。如果假设每个学生大约4MB数据,一所大学大约有30000名的学生的话,可以预期总共大约120GB的数据,其中包括记录、LMS数据、应用程序数据等。因此,此HBase需要至少100GB的存储容量。如果需要容错,则需要复制数据,这将增加所需的空间。这又取决于数据需要由配置复制参数复制的次数。所收集的数据被存储在一个单一的位置作为柱状文件,以节省空间和促进分布式/随机访问。这种分布式存储允许访问任何数据变量,因为它来自一个大表,并且进一步使处理引擎运行迭代机器学习查询。

2.2.3处理层

Spark形成处理层,Spark是加州大学伯克利分校的AMP实验室所开源的类HadoopMapReduce的通用并行框架,其中包含所有的分析。当使用SARK时,所有数据都以弹性分布数据(RDD)的形式存在。RDD是通过引用HBase中存储的数据创建的,HBase用作外部存储。在这一阶段的综合分析模型,所有的特征(包括计算特征从非结构化数据分析和原始特征)都会形成最终的RDD。一般来说,所有的预测建模过程都可以通过集成建模的过程来完成的,比如可以建立两种预测模型,即:学生表现(回归模型)和学生辍学(二元分类模型)。

3结语

通过对上述分析方法的实验可以得出,建立一个整体的学生进步和与其他人格因素一起考虑的大数据分析框架,对学生表现的预测会产生更准确的结果。本文着重研究了高等教育学生可获得的各种数据来源,进一步讨论了传统的和非传统的关于学生的传统数据,以便建立影响高等教育领域内决策关键问题的方法。此外本文还概述了从多个来源收集数据所采用的技术,这些技术会形成一个集成的学习分析解决方案,利用分布式技术系统,能够支持管理者在教育机构中做出更为有效的决策。文章所提出的数据收集、存储和分析解决方案也为在深度学习分析领域开发活动提供了有益的借鉴。

作者:张红 郝东来 单位:陕西职业技术学院 西京学院