决策树在教学评价中的应用研究

决策树在教学评价中的应用研究

摘要:决策树学习是人们广泛使用的一种归纳推理形式。先就决策树和决策树学习算法进行介绍,然后用实例阐述决策树在教育信息处理中的应用,主要以在教学评价中的应用为例来加以介绍。

关键词:决策树;数据挖掘;教育信息处理;教学评价

    当今社会处于一个信息爆炸的时代,海量的数据可以用来选择和发掘信息,然而有时却让人无从下手,因此数据挖掘技术受到人们的高度关注。数据挖掘是从大量的、不完全的、有噪声的、模糊的或者随机的数据中提取人们事先不知道的但又是有用的信息和知识的过程。它的方法很多,其中决策树是一种解决实际应用分类问题的数据挖掘方法。在教育教学中,根据决策树算法的实际特点,它可以在教育信息处理中的信息采集上发挥很大的作用。

1 决策树介绍

决策树学习是人们广泛使用的一种归纳推理形式。决策树起源于概念学习系统,其思路是找出最有分辨能力的属性,把数据库划分为许多子集(对应树的一个分枝),构成一个分枝过程,然后对每一个子集递归调用分支过程,直到所有子集包含同一类的数据。最后得到的决策树能对新的例子进行分类。它一般是从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它一般需要给定一组训练例子,训练例子一般被看成用于创建模型的数据集。由此可以看出,决策树是一个类似于流程图的树结构,其中每一个内部结点表示对一个属性的测试,每一个分支代表一个决策输出,而每个叶节点代表一个目标分类。决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子结点即为实例所属的分类,树上每个节点说明对实例的某个属性的测试,节点的每个后继分支对应于该属性的一个可能值。假如需要根据人员的外貌特征对人员进行分类,用于人员的外貌特征有3个,外貌列表={高度,发色,眼睛};各属性的值域分别为:高度={高,矮},发色={黑色,红色,金色},眼睛={黑色,棕色}。分类结果有两种:种类={+,-}。提供的训练例子集为:T={<(矮,金色,黑色),+>,<(高,金色,棕色),->,<(高,红色,黑色),+>,<(矮,黑色,黑色),->,<(高,黑色,黑色),->,<(高,金色,黑色),+>,<(高,黑色,棕色),->,<(矮,金色,棕色),->}。上述文字可构造图1所示决策树。

2 决策树学习算法

决策树算法有几种,如ID3、C4.5、CART等。其中ID3算法是最经典的算法,该算法从根节点开始,这个根结点被赋予一个最好的属性。随后对该属性的每个取值都生成相应的分支,在每个分支的终点上又生成新的节点。然后按照该属性的取值将每个训练例子都分别赋给一个相应的新节点。如果没有任何训练例子能赋给某个节点,那么该节点连同相应的分支都将被删除。这时,将每一个新节点都视作一个新的根节点,重复执行整个过程。这里,最好属性的选择要基于信息增益这个统计特性。在定义信息增益前,先要了解另一统计特性:熵。

给定一组有c个分类的训练例子,对属性a来说,它有值v,那么它的熵E定义为:E(a=v)=。其中pi是在第i类中属性a取值为v的概率。为了能选出最好的属性,需要使用度量信息增益。一属性的信息增益就是按照该属性对训练例子进行划分所带来的熵的减少量,定义:Gain(T,A)=E(T)-。其中,T是训练例子的集合,Tj是属性A取值为j的训练例子集合,为T的一个子集。

3 决策树在教育中的应用

在教育教学中,尤其是在高等教育体系中,学校的数据库中存贮着大量的教育教学信息,其中一部分和教学有关,如学校的开课排课情况、教师情况;一部分和学生有关,如学生历年的考试、测验成绩等。这些大量的数据后面隐藏着大量的信息,只要加以分析,就能得到许多有用的信息,如教育规律、学生的培养模式、学生学科间的差异性和相关性的一些规律。这些规律对教育管理决策来说是相当重要的,对教育教学改革有指导性的意义。

3.1 决策树在教育信息处理中的应用

决策树表示的是一个离散值函数,树中每一个节点表示一个属性,同时目标分类具有离散的输出值信息。教育中的大量信息,一般都是对一些离散的数据进行分析,比如学习成绩一般分成优、良、中、差,外语六级成绩分成过与未过,这些信息都可以用决策树来加以分类归纳,对于连续的属性值,也可以进行离散化处理后再利用决策树来加以分析。

3.2 决策树在教学评价中的应用案例

决策树在教育信息处理中的应用很广泛,下面以决策树在教学评价中的应用为例,来说明在教育信息处理中是如何使用决策树来分析的。教学评价在教育中是一个重要的问题,它是指依据一定的教学目标与教学规范标准,通过对学校教与学等教育情况的系统检测与考核,评定其教学效果与教学目标的实现程度。教学评价具有复杂性、多因素性和模糊性等特点。如何客观、科学、全面地对教学进行评价,是教学评价中一个重要的课题,下面尝试将决策树应用于教学评价。

在评价之初要有一个数据采集的过程,之后可以用决策树来加以分析。课堂教学评价指标体系分为若干项,从教师的角度可以分为授课态度A1、授课方法A2、授课内容A3、授课效果A4、教学评价A5,可以取训练例子如表1所示。 #p#分页标题#e#

对给定的训练例子数据是把连续的数据离散化的结果,A为评分90~100,B为评分80~89,C为评分70~79,D为评分60~69,E为评分<60,N1为教师编号,表中的A5为目标分类。

如果利用前面的ID3算法建立决策树,先检验所有信息增益的特征属性,选择信息增益最大的属性作为决策树的结点,由该特征的不同取值建立分支,对此分支的实例子集递归该方法建立决策树的结点和分支,直到某一子集中的例子属于同一类。

对给定训练例子的熵为:

E(T)==1.295 46。

以属性A1为例,A1的值={A,B,C},由表中可以看出,|TA|=2,|TB|=6,|TC|=2,E(TA)==1,E(TB)==0.650 025,E(TC)=0。所以,可得E(T,A1)==0.590 015,Gain=(T,A1)= E(T)- E(T,A1)=0.705 445。同理可得Gain=(T,A2)=0.459 009,Gain=(T,A3)=0.970 9488,Gain=(T,A4)=0.809 986,所以可得Gain=(T,A3)>Gain=

(T,A4)>Gain=(T,A1)>Gain=(T,A2)。可以看出A3的信息增益最大,所以选A3属性作为根节点的测试属性,并根据其值向下分支,利用ID3算法进一步划分,当根节点到当前节点的路径上包括所有属性或当前节点的训练样本同属一类时,算法结束。根据以上分析给出图2所示决策树。

可以根据生成的决策树,方便地提取其描述的知识,比如授课内容A3在这里产生的信息增益最大等信息。

4 小结

在教育信息中存在隐藏在数据中的规则,这些规则可以用不同的方法被挖掘。本文只是对决策树中的分类ID3算法在数据处理中的应用进行研究,目的是得到教育教学中存在的规则,利用发现的规则对教育管理决策提供有参考意义的信息。

参考文献:

[1]Callan R.人工智能[M].北京:电子工业出版社,2004

[2]尹朝庆.人工智能与专家系统[M].北京:中国水利水电出版社,2003

[3]朱福喜,等.人工智能原理[M].武汉:武汉大学出版社,2002

[4]陈翔,刘军丽.应用决策树方法构建评价指标体系[J].计算机应用,2006,26(2):368-370

[5]谷琼,等.基于决策树技术的高校研究生信息库数据挖掘研究[J].电子技术应用,2006,32(1):20-22

[6]王中辉,等.决策树在教学评价中的应用[J]甘肃科技,2006,22(3):125-126,106