计算机基础教育运用关联规则

计算机基础教育运用关联规则

 

一、引言   职校学生都要参加江苏省计算机办公自动化等级考试,为了保证学生考试通过率我们引进了在线考核系统。该系统通过网络服务器的设置,学生所用的计算机作为客户端来登录服务器随机抽取试题,答题完毕后网上提交试卷,系统会对学生的答卷进行分类、整理,并指出错误原因。近几年来,随着该系统的深入应用,暴露出许多错误率较高的题目,虽然教师能够获得学生错误的具体数据,但长久以来都只是被动的纠正问题,却不能发现错题之间潜在的联系。数据挖掘中关联规则就是从大量的数据中挖掘出有价值、有意义的内在联系。本文通过在线考核系统利用关联规则对错题数据进行挖掘,从中发现错题之间潜在的联系,找到学生学习的难点,进而指导教师主动的预防错误发生,提高教学质量。   二、关联规则理论   1.关联规则的作用   关联规则挖掘是数据挖掘中是一个重要的课题,它是一个自学习的过程。反映一个事物与其他事物之间的相互依存性和关联性,揭示数据间未知的依赖关系。假如两个或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其它事物猜测到。关联规则侧重于确定数据中不同域之间的联系,通过支持度和可信度定量地描述这种关联的程度,以此可以发现人们不知道的、或者是出乎人们预料的规则。   2.关联规则的基本概念   设I={i1,i2,...,im}是数据项的集合。D是所有事务的集合(即数据库),每个事务T是一些项目的集合,T包含在I中,每个事务可以用唯一的标识符TID来标识。关联规则是形如AB的蕴涵式,其中AI,BI,且A∩B=,A称为前提,B称为结果。含义是如果A出现在一条记录中,则在这条记录中B同时出现的可能性比较高。支持度:项集A在事务集D中的支持度是D中包含A的事务数,记作Support(A)。规则AB的支持度定义为P(A∪B),表示A、B同时出现的可能性,即支持度(AB)等于包含A和B的元组数除以元组总数。记作:Support(AB)=P(A∪B)。支持度描述了项集A和B在所有事务中同时出现的概率。例如一个文具店某天共有100笔业务,其中有10笔业务同时买了铅笔和橡皮,则关联规则“铅笔=>橡皮”的支持度为10%。置信度:规则AB的置信度定义为D中包含A的事务的同时也包含B的可能性,也就是在A出现的条件下B也出现的概率,即可信度(AB)等于包含A和B的元组数除以包含A的元组数。   记作:Confidence(AB)=P(B|A)=P(A∪B)/P(A)。支持度是对关联规则的重要性的衡量,而置信度是对关联规则的准确度的衡量。支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。有些关联规则置信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,也不重要。只有符合最小支持度和最小可信度的规则才可称为强规则。当给定一个事务集D时,关联规则挖掘就是要产生强规则。   3.关联规则挖掘求解问题的步骤    (1)预处理与采掘任务有关的数据,根据具体问题的要求对数据库进行相应的操作,从而构成规格化的数据库D。(2)针对D求出所有满足最小支持度的项集,即频繁项集。(3)生成满足最小置信度的规则,形成规则集R,解释并输出R。4.关联规则挖掘的经典算法——Apriori算法Apriori算法是一个很有影响的关联规则挖掘算法,它的核心是基于频集理论的递归方法,是挖掘单维布尔关联规则的一种重要方法,但具有一定的局限性。Apriori算法就是根据有关频繁项集特性的先验知识(priorknowledge)而命名的。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作;这一循环方法就是利用k项集来产生(k+1)项集。Apriori算法的基本思想是将关联规则挖掘算法的设计分解为两步:(1)找到所有支持度大于最小支持度的项集,即频繁项集;   (2)使用第一步找到的频繁项集产生所期望的规则。Apriori算法表示如下:输入:事务数据库D;Min_sup;Min_con。输出:事物数据库D中所有的频繁项集L。方法:L1={large-itemsets};for=(k=2;Lk-1;k++)dobeginCk=apriori-gen(Lk-1);foralltransactiont∈DdobeginCt=subset(Ck,t);forallcandidatec∈Ctdoc.support++;endLk{c∈Ct|c.support>=min_sup}endL=UkLk;   三、关联规则在等级考试模拟系统中的应用   学生通过在线考核系统进行测试,完成测试后答案自动上报到系统。教师利用该系统对学生的答案进行评判,系统会将学生做错的内容和学生所在机子的编号传送到系统数据库中。通过关联规则的挖掘我们对学生的错误可以有很好的预防,对提高教学效率有很好的帮助。下面我会以计算机《办公自动化》中的word和excel两个章节考核内容,选取10高职某班学生在考核中出现的错误问题来进行关联规则方面的实验。   1.主要错误类型的设定为了表述简单清晰,本文只拿出10名学生的5个主要问题来进行说明。如表1所示:   2.数据预处理为了便于挖掘,对错误类型进行了量化数据预处理,表中采用两个属性值,1代表此题错误,0代表正确,如表2所示:   四、结束语   本文主要是对学生计算机在线考核中出现的错误进行了关联规则的挖掘,从大量的数据中提炼出学生错误中间隐藏的具有教学指导意义的规则和信息,并以此找到影响学生成绩的原因,达到教学水平的提高。随着教育信息化的不断发展,将数据挖掘技术应用到日常教学中来,必然可以帮助教师更加合理的安排教学方法,从而带动整个学科发展。