数据挖掘学习计划范例6篇

前言:中文期刊网精心挑选了数据挖掘学习计划范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

数据挖掘学习计划

数据挖掘学习计划范文1

【关键词】 数据挖掘 大数据 分析方法 应用领域

一、数据挖掘

数据挖掘是一门新兴的学科,它诞生于20世纪80年代,主要面向商业应用的人工智能研究领域。从技术角度看,数据挖掘就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。

从商业角度来说,数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。

二、数据挖掘的基本分析方法

分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律。通过不同的分析方法,将解决不同类型的问题,在现实中针对不同的分析目标,找出相对应的方法。

目前常用的分析方法主要有聚类分析、分类和预测、关联分析等。

2.1聚类分析

聚类分析就是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类。它是一种无先前知识,无监督的学习过程,从数据对象中找出有意义的数据,然后将其划分在一个未知的类。这不同于分类,因为它无法获知对象的属性。“物以类聚,人以群分”,通过聚类来分析事物之间类聚的潜在规律。聚类分析广泛运用于心理学、统计学、医学、生物学、市场销售、数据识别、机器智能学习等领域。

聚类分析根据隶属度的取值范围可分为硬聚类和模糊聚类两种方法。硬聚类就是将对象划分到距离最近聚类的类,非此即彼,也就是说属于一类,就必然不属于另一类。模糊聚类就是根据隶属度的取值范围的大小差异来划分类。一个样本可能属于多个类。常见的聚类算法主要有密度聚类算法、层次聚类算法、划分聚类算法、网格聚类算法、模型聚类算法等。

2.2分类和预测

分类和数值预测是问题预测的两种主要类型。分类是预测分类(离散、无序的)标号,而预测则是建立连续值函数模型。分类是数据挖掘的重要基础,它是对已知的训练数据集表现出来的特性,获得每个类别的描述或属性来构造相应的分类器或者分类。分类是一种有监督的学习过程,它是根据训练数据集发现准确描述来划分类别。常见的分类算法主要有决策树、粗糙集、贝叶斯、遗传算法、神经网路等。预测就是根据分类和回归来预测将来的规律。常见的预测方法主要有局势外推法、时间序列法和回归分析法。

2.3关联分析

在自然界,事物之间存在着千丝万缕的联系,当某一事件发生时,可能会带动其它事件的发生。关联分析就是利用事物之间存在的依赖或关联知识来发现事物之间存在的规律性,然后通过这种规律性进行预测。如经典实例购物篮分析,就是通过分析顾客购物篮中物品的管理规律,来分析顾客的购物心理和习惯,然后根据这种规律来帮助营销人员制定营销策略。

三、大数据时代的数据挖掘的应用领域

3.1市场营销领域

市场营销是数据挖掘技术应用最早和最多的领域。通过分析和挖掘用户的消费习惯和消费特点,来提高商品的销售业绩。目前,数据挖掘在市场营销方面已经不仅仅限于超市购物等方面,已经普及到各个金融领域,如保险、电子商务、银行、电信零售等行业。利用数据挖掘技术来分析顾客的消费行为,为本行业带来潜在的客户和效益。

3.2科学研究

在科学研究中,经常需要分析各种大量的实验和观测数据,并找出相关的规律和知识。这些数据分析和挖掘都需要一定的算法,利用数据挖掘技术能科学的找出数据之间的规律以及找出我们未发现的知识。例如,对外空星体的探索、对DNA数据的分析等等。

在制造业、电信、教育领域,数据挖掘也发挥着巨大的作用,对过去政策的评估和新政策的制定都有很大的帮助。

伴随着大数据的数据管理,检索技术研究的进步,数据挖掘技术将迎来巨大的发展机遇,数据挖掘技术的应用也将更加广泛,数据挖掘的工具也将更加强大.

参 考 文 献

[1]胡天状.数据挖掘技术在教育决策支持系统中的应用[D].杭州:浙江师范大学,2002.

[2]吴文绍.甘肃省教育管理信息决策支持系统[D].兰州:兰州理工大学,2006.

[3]丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究[D].合肥:合肥工业大学,2012.

数据挖掘学习计划范文2

[关键词] 数据挖掘 数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。 转贴于

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘学习计划范文3

web技术的飞速发展和web信息的迅猛增长使得web不再仅仅是一个信息共享和平台。如何在用户的web活动中挖掘获取有价值的信息和隐含知识,并以此提供智能化、语义化、个性化的信息服务已经成为研究热点。

随着信息化教育的发展,数字化校园和网络教育逐渐成为人们足不出户完成教育和学习的关键领域,各种类型的教育软件和网站层出不穷,用户在自由浏览教育网站信息的同时出现了海量的具有潜在价值的日志信息。如何把这些教育数据转变成教育决策和教育教学活动优化等有用信息和知识,便是e?learning用户行为模式挖掘的意义所在。

1web数据挖掘

1.1web数据挖掘及web用户行为模式挖掘

web数据挖掘(web data mining)是数据挖掘技术在web上的应用。web挖掘是集数据挖掘、信息检索和信息抽取多种技术于一体的研究领域。web数据挖掘的发展源于数据挖掘,但是web挖掘的研究对象囊括了很多传统数据挖掘技术很难处理的数据:图像、视频、声音及网页之间的各种链接等。这些数据具有海量、异构、非结构化等特性,web挖掘就是针对这些数据特点而进行研究并获取潜在有用信息的过程。

行为模式是指用户操作过程中所体现出来的某种规律性[1]。用户行为模式挖掘是在web日志挖掘(web usage mining)基础上的应用研究,以网络日志为研究对象。web日志挖掘是指从用户的访问记录中提取感兴趣内容的挖掘模式。在用户浏览internet信息的过程中,服务器会记录用户访问及其与客户端之间的交互信息(包括访问的页面、时间、用户id等信息)并被记录在日志文件中,包括3种类型的日志文件:server logs、error logs、cookie logs。web用户行为模式挖掘正是对这3种日志文件进行挖掘,从而发现相似用户群体、访问模式、频繁路径等知识。

1.2web行为模式挖掘

目前, web行为模式挖掘研究领域主要包括:形式化描述网络访问行为、自动获取行为特征以及发现行为规律,研究的数据主要包括url页面请求、页面间链接的拓扑结构、注册用户特征等[2]。常用的研究方法主要有统计分析、关联规则分析、聚类分析和频繁序列模式分析[3]。

(1)统计分析是指获取用户行为的统计信息,如访问时间、频率等[4]。

(2)关联规则分析可获取用户页面访问行为间的关系。

(3)聚类分析是指通过聚类将特征相似用户的访问行为特点归并分组。

(4)频繁序列模式分析可以获取用户访问习惯、爱好及趋势等[5]。

通过这些分析方法获得的数据在页面导航、应用和产品推荐及公共教育服务系统的开发方面有着十分重要的作用。

1.3用户行为模式挖掘工作流程

结合web应用的需求,针对用户行为模式的特点,参照web日志挖掘的方法和流程,建立了用户行为模式挖掘模型,其工作流程如图1所示。

图1web用户行为挖掘工作流程

1.3.1数据准备

web挖掘过程中的数据采集和预处理阶段,旨在收集web服务器的访问日志文件,生成挖掘数据源,主要包括数据清洗、用户唯一性识别和完善访问路径等。通过这些可以有效地过滤掉一些类似用户访问传输协议、错误请求和短时间内多次重复的干扰信息,从而提高数据的纯净度、准确度和可信度。

1.3.2用户行为建模

早期的web应用大多以静态网页的形式呈现,现在越来越多的应用系统转变为基于平台的,并逐步发展成为具有实时交互性和开放性的web服务模式。人们发现在应用这些服务系统的过程中,理解用户与系统交互行为对于网络系统性能的提高、站点的重构以及个性化、多元化服务等具有重要意义[6]。同时,大量实践也表明,用户行为在时序、聚集、依赖等方面确实存在强一致性的行为特征[7]。

传统的建模方法和仅基于web日志的访问路径建模方法缺乏对用户行为模式的动态语义信息描述,为了解决这些建模方式存在的问题,我们采用一种新的基于网页元数据的建模方式。根据web用户行为的分层特性,行为模式可分为url访问、活动、会话3个层次。

基于分层的行为模型在用户访问序列信息的基础上增加了访问内容的局部主题、关键字等信息,这样的行为模型不仅有助于对用户行为的分析和理解,而且为新的

网络服务系统构建提供了良好的支持。

1.3.3用户频繁行为序列模式挖掘

用户行为序列模式挖掘是在用户行为序列模型的基础上,根据网络行为的一般规律,在目标用户群中通过序列模式挖掘方法,获得频繁的、普遍的、潜在的行为序列规律。这种行为序列描述了该用户群体在网络环境下一定程度上的共特征,为后期的个性化行为预测提供了必要的支持[8]。

针对行为序列数据的特点,对现有序列模式挖掘算法适用场合进行分析,我们选择出一种合适的访问行为频繁序列模式挖掘算法——prefixspan算法。根据访问行为序列特点,发现此算法比较适合行为序列模式挖掘。这主要是因为:①行为序列的每个元素都是单向的,便于序列投影;②以活动为单位的序列模式很长,使用此算法才能提高挖掘效率。

prefixspan算法是一种深度优先搜索算法,其基本思想是使用频繁前缀划分搜索空间和投影序列数据库,并搜索相关序列,检查前缀子序列,将其相应的后缀子序列投影到数据库中。该算法同时采用分治的策略,不断产生更多个更小的投影数据库,然后在各投影数据库上进行序列模式挖掘。

假设用户分为一个组,根据prefixspan 算法得到频繁序列模式为:

fsgroupid=(groupid,{(s1,t1),(s2,t2),…,(si,ti),…,(sn,tn)},tmin)(1≤i≤n)(1)

其中, groupid为用户组的标识,具有唯一性。si是该组内频繁行为序列,ti为si的支持度。

1.3.4用户行为模式聚类

web用户访问模式聚类就是根据用户访问的公共特性进行聚类。通过聚类形成多于一个的用户簇,这样每个簇中的用户都具有共同特性。通过对上述web日志挖掘数据的获取,提取用户的访问特性。

当前,用户网络行为分类研究还处于初级阶段,可将用户的网络行为简单分为交互行为、浏览行为、查询行为、协同行为等。然而现实生活中,用户的网络行为模式大多是这些行为的综合。聚类技术根据被分析对象间的相似性将相同或相似的对象集划分在同一类中。根据行为序列模式在时间轴上的变化特点,通过以序列相似性为基础的序列聚类算法对行为序列模式聚类,实现行为序列模式类别划分。

(1)序列相似性计算。因为网络用户行为存在着自主性和不确定性的特点,使得用户的访问行为发生的时间有很大的差异,普通的基于时间序列的欧几里得距离及其变形的序列相似性计算算法难以满足需要,因而,此处使用一种基于序列投影压缩的相似度计算方法。

以网络活动序列为例,假设有两条活动序列si,sj,且si=(ai1,ai2,…,ain),sj=(aj1,aj2,…,ajm),n≤m。则相似度计算公式如下:

sim(si,sj)=s(si,sj’)(t/m) (2)

sj’为sj 投影压缩后的变形,t为sj’的长度,即t= |sj’|

(2)序列聚类算法。在行为序列相似度计算的基础上,进行行为序列聚类,可以采用基于k?中心聚集的序列聚类算法。

输入:行为序列集d,预设的簇数k。

输出:k个簇的集合,使得所有对象与其最近中心点的相异度总和最小。

方法:①从序列集d中随意选取2k个序列,组成k个初始簇,则每个簇就包含了两个序列;②将剩余的每个序列进行序列相似性计算,寻找与初始序列的投影压缩最相似的簇;③添加序列到该簇;④反复迭代执行,直到簇的大小不再发生变化。

2web行为模式挖掘在e?learning系统中的应用

2.1e?learning系统

e?learning是指通过因特网或其它数字化内容进行的学习与教学活动,它充分利用现代信息技术所提供的、具有全新沟通机制和丰富资源的学习环境,实现一种全新的学习方式,这种学习方式将改变传统教学中教师的作用和师生之间的关系,从而根本改变教学结构和教育本质[9]。目前市场上的e?learning供应商大致分为3类:平台技术供应商、课程资源供应商和平台兼资源共同发展的供应商。e?learning系统应用也经历了从最初的在线学习阶段,到在线学习+学习管理阶段,再到在线学习+学习管理+培训管理阶段,最终发展成为现在的在线学习+学习管理+培训管理+知识管理阶段。

2.2web行为模式挖掘与e?learning系统

基于web用户行为模式的数据挖掘在e?learning方面的应用,就是指一个将来自各种e?learning网络教学平台的日志文件所包含的潜在有用的

数据转换为有用信息的过程,这些有用信息可为教师、学生、家长、教育研究人员、教育管理人员以及e?learning软件系统开发人员所利用,以了解学生及其所受教育的情况,并据此采取有针对性的管理和教学优化措施[9]。

e?learning用户行为模式挖掘过程如下:①收集网络e?learning系统服务平台用户使用数据;②数据预处理;③用户行为建模;④用户频繁序列模式分析和行为序列聚类,如图2所示。

实验发现,将用户行为模式挖掘算法和流程应用在e?learning系统的分析和挖掘,具有很好的效果,可以获得一些有用的数据,进而为教育教学工作服务。

通过用户行为模式挖掘,e?learning系统的建设者可以清楚地了解用户的需求,建立“以用户为中心的”网络结构体系,针对不同用户的需求“量身定做”课程设置,使e?learning教育系统的优势最大化,同时提高用户满意度;网站管理者可以利用系统向用户推送一些可能有兴趣的新知识;当用户关注到下一个知识点时,系统会建议并提供一些在学习新知识时可能会用到的知识点和相关信息,针对不同用户的个性化学习,定制个性化信息,即通过用户行为模式挖掘,建立、调整用户的喜好,使用户能够以自己的方式来访问,从而实现服务的个性化。不仅如此,通过用户行为模式挖掘可以让网站的设计者不再完全依赖专家的定性指导来设计网站,而是根据访问者的信息来修改网站的结构,设计网站的外观,找出优化网站组织结构的策略,节省用户的访问时间,节约网站的开支;通过挖掘结果还可以分析用户浏览学习的历史资料,预测用户的需求趋势,评估需求倾向的改变,提高e?learning服务系统的核心竞争力。通过web用户行为模式挖掘知识、规律和信息,及时调整系统课程设置和专业设置,满足广大用户的需求,留住现有用户,吸引更多用户。

图2e?learning用户行为模式挖掘流程

3结语

web行为模式挖掘是在web数据挖掘基础上发展起来的一门综合技术,主要致力于从网络海量的、异构的、多维的信息资源中寻找有潜在价值的知识。e?learning在我国经过十几年的发展,其模式也在不断改变,从单纯的在线学习发展到在线学习与在线管理相结合的模式。随着网络教育的发展,科学安排在线学习及管理模式非常重要,将web行为模式挖掘运用于e?learning系统中,能有效地帮助网站开发者和网站管理者了解用户,依据用户的偏好合理布局、改变管理模式以及调整发展战

第6期 陈新:基于java rmi的分布式数据库系统开发与应用软 件 导 刊2014年标题

基于java rmi的分布式数据库系统开发与应用

作者陈新

作者单位(镇江高等职业技术学校,江苏 镇江212000)

摘要摘要:以java rmi(远程方法调用)机制为基础, 以多层数据库作为模型,成功地实现了分布式数据处理。通过对java rmi的使用,实现了对数据的反复利用,不仅使系统效率得到显著提高,还使系统开发过程变得更为简便。

数据挖掘学习计划范文4

【关键词】在线审计 数据挖掘 预处理

1 引言

随着世界经济的全球化、一体化的发展,企业规模越来越大,经营的业务也日渐复杂,传统的审计模式已经不能够达到预期的效果,导致世通、安然等产生大量的财务舞弊事件,这些财务舞弊事件给世界经济的发展带来了严重的危害,也凸显了传统的人工审计、分期审计模式存在许多的缺陷和问题,人们亟需引入新的设计方法或模式,弥补传统审计存在的风险。光纤通信、移动通信、数据仓库等信息技术的发展促进人们进入“互联网+”时代,人们提出了许多的自动化审计系统,这些审计系统能够实现自动化、持续化、实时化的审计管理,系统的运行积累了海量的数据资源,激增的数据隐藏着更多的有价值的信息,能够帮助人们识别财务舞弊线索,但是也带来了较为严重的问题,这些问题包括以下几个方面:

(1)数据量过大,无法实时的获取有用的信息。审计系统经过多年的运行,由于这些系统运行积累了海量的数据资源,这些数据量非常大,一般的审计系统无法很好地利用这些信息,因此不能够对审计决策作出帮助。

(2)数据格式不一致,难以处理。不同的企业、经济体运行均采用不同的审计系统,因此审计系统产生的数据格式不一致,这些信息难以整合在一起,不利于人们进行统计和分析。

(3)数据不断运行和发展,但是财务舞弊的模型较为固定,没有自学习功能,因此许多的数据审计模式都是滞后的,这种不同步性给财务舞弊风险识别带来了巨大的风险,更加不利于审计发现。

(4)审计分析方法落后。传统的数据分析方法较为落后,仅仅采用固定的模式,因此这些工具不能够实时的从广度和深度进行学习和分析,为在线审计提供了强大的接口,但是在线审计系统的电子化、网络化发展和普及应用也为财务舞弊隐藏的更深,这样就难以识别。

因此,为了能够解决上述问题,人们提出在在线审计系统中引入数据挖掘技术,构建一种动态学习的审计模型,可以实时的发现数据中隐藏的有价值的信息,这些模式均隐藏在大型数据库、数据仓库中,其可以为数据集提供一个全面而深刻的认知,高度抽象和概况数据信息内容,将人们对数据的感性认识提升到理性认识,因此将数据挖掘技术应用于审计工作具有重要的作用和意义。

2 相关背景理论

数据挖掘是一种大数据分析方法,其可以从数据中寻找隐藏的知识信息,数据挖掘的结果通常划分为两种模型,分别是描述型和预测型。描述型的数据挖掘任务可以从刻画数据库中相关的数据相关特性,预测数据可以针对海量数据中隐藏的知识进行预测和推断。数据挖掘的主要功能包括以下几个方面,分别是聚类分析、分类和预测、偏差检测、关联序列分析等。

2.1 关联和序列分析功能

数据库中保存着海量的审计数据信息资源,并且这些审计数据信息资源存在极大的关联关系,并且也是变量之间存在的某种相关规律,关联的功能主要是寻找潜在的相关审计知识内容。分析内容的相关性可以增加时间属性,因此数据挖掘功能可以实现的关联分析与序列发现功能,一种是简单关联关系、一种是时序关联关系,为了能够更加清晰的展示简单关系,比如在企业审计过程中,企业购买车辆的同时肯定会购买车辆保险,这就是一个简单关联关系;企业为了办公方便,购买激光打印机一个月之后,肯定会采购硒鼓,这就是时序关联关系,在大型数据集中,产生关联的规则非常多,一般可以使用可信度和支持度进行筛选。

2.2 分类和预测功能

数据挖掘最为关键的功能之一是数据分类,在线审计过程中,政企单位最期望的就是能够分类审计数据内容,并且预测未来的审计,按照不同的属性将审计内容划分到一个个的分类模型,这样就可以更好的利用专家知识实现审计内容分类化、清晰化管理。预测管理可以利用审计内容上下文信息,预测审计对象的发展趋势。

2.3 聚类

如果一个审计内容数据集缺乏详细的描述信息,无法采用任何已知的在线审计分类模式对其进行筛选,此时可以采用聚类分析方法,在无监督学习环境中,将审计内容划分为多个簇,同时保证簇间的相异性,尽可能的保持簇内高度相似性、同构性,把符合发展规律的审计数据划分到一个类别,把不同类别的数据划分为一个类别,这样就可以区分正常数据和异常数据。

2.4 偏差检测

偏差检测又被称为离群点检测,可以发现正常数据流中存在的一个重要功能,并且可以发现企业财务舞弊过程中的不正常内容,可以从正常的数据中发现奇异点,这样就可以及时的发现偏差检测功能。目前,偏差检测可以采用的技术包括反常实例、观测结果、例外模式等信息,并且可以对用户的期望值进行有效地分析,详细的揭示非正常数据内容的感兴趣的模式,更好的对用户信息进行专家分析。

3 在线审计系统功能分析

在线审计系统功能主要包括以下几个方面:

3.1 降低审计风险

在线审计系统引入数据挖掘技术之后,审计对象可以从原来的纸质账簿发展到海量电子数据,接着从海量数据中进行挖掘潜在的有价值信息,这样就可以降低人工审计的几率,弱化或消除审计风险,从而可以有效地位审计人员提供一个量化的、科学的分析结果,进而可以进行审计决策,大大的降低在线审计系统自身存在的风险,可以提升审计系统的操作效率。

3.2 拓宽审计范围,全面开展审计监督

在线审计系统可以拓宽审计数据的覆盖范围,促进企业全面开展审计工作。审计人员可以采用在线审计系统抽取数据样本,利用数据挖掘发现异常的财务项目,对这些项目进行重点审计,快速定位每一个审计业务操作的相关的内容,审计人员可以有效地缩小审计时间、工作量,便于降低和缩小审计范围,这样就可以积极的利用在线审计系统开展事前审计、事中审计、效益审计,充分的发挥在线审计系统和数据挖掘技术的快速、准确特点,提高审计工作的质量和结果,减少审计存在的风险,形成了一个全面审计。

3.3 科学统计和抽样,提高审计工作效率

在线审计系统采用电子化、数据化模式,对于一个不懂计算机的审计人员来讲,可以对在线审计进行科学的统计和抽样,数据处理有快速又准确,使用数据挖掘技术完成审计资料的审核和分析,从而可以提高审计工作效率。

3.4 自主学习,动态维护审计模型

在线审计系统引入数据挖掘技术之后,数据挖掘技术具有自主学习功能,可以动态的维护审计模型,能够为历史数据信息进行挖掘,发现数据中潜藏的规则、规律和相关的模式,并且可以形成在线审计模型,构建相关的审计模型知识库,为在线审计的判别和分析提供一个有效地的支撑和依据,审计分析新产生的数据内容,又可以进行动态的验证,将生成的知识内容添加到数据库中,可以适应现代企业审计需求,不断的满足审计信息化的需求。

4 数据挖掘在在线审计模型中的应用设计

数据挖掘在在线审计模型中的应用主要包括五个关键步骤,分别是收集原始审计数据、数据预处理、数据挖掘分析、审计处理、新增审计数据等,基于数据挖掘的审计系统模型如图1所示。

4.1 收集原始审计数据

通过对各个行业、企业审计系统运行的数据进行采集,以便能够导入多行业审计数据,这样就可以更加全面的获取审计模型。

4.2 数据预处理

采集的原始审计数据存在很多的噪声信息,采用数据清洗和整理等方法,进一步提高在线审计数据的质量,数据预处理可以将不同的审计系统运行产生的数据进行一致化操作,这样就可以约简数据中的稀疏属性,这些属性对审计模型挖掘贡献较低或无贡献,因此将数据属性进行约简,可以降低数据的稀疏性,并且能够提高数据的计算复杂度,提升审计的效率。

4.3 数据挖掘分析

审计系统导入的数据经过预处理之后,可以利用数据挖掘技术对数据进行挖掘和分析,常用的数据挖掘技术包括K均值算法、支持向量机、BP神经网络、遗传算法等技术,可以针对这些审计数据进行分析,获取数据集中隐藏的模式。比如,可以采用支持向量机技术分析数据的相关关系,找出审计数据中隐藏的关联网,对财务审计数据进行或经济数据进行审计过程中,可以针对同一类或不同类之间存在的潜在关系进行建模,比如可以对企业的资产负债表、企业经营利润表、企业现金流量表之间存在的勾稽关系;如果按照相关的非财务逻辑思维惯性进行查找和挖掘,其可以从中发现事务中隐藏的经济活动,利用在线挖掘存在的内容进行分析,可以从中发现潜在的审计决策知识,提供较多的参考知识,比如企业可以发现养路费、车辆数目、车辆保险费用之间存在的关系,查看养路费或保险费的多少就可以发现企业是否购置了车辆,这样就可以从中发现企业是否私建了小金库。在数据挖掘中,离群数据分析与挖掘是一项非常重要的应用点,因此在审计过程中可以发现海量数据中与一般数据模型不相符的数据内容,离群数据实践结果表明真是的财务报表在形成之后可以揭示一定的规律,在线审计结束之后,用户就可以发现数据中隐藏的异常现象,也可以发现数据中存在的虚假成分,因此离群数据挖掘就可以发现财务舞弊、违背规律等相关的行为,这样就可以表现出来的数据操作之后进行分析,通过对离群数据进行描述,发现例外模式,挖掘异常的审计结果,为投资者提供最佳的决策依据。

4.4 审计处理

在线审计模型挖掘训练和学习之后,可以得到相关的审计决策模型,这些模型可以从海量的源数据获取审计结果,这些结果可以对审计内容进行量化分析和描述,如果这些数据存在问题,可以及时的进行处理,并且可以通过再分析、解释描述、使用人员沟通等过程,形成有益于财务审计的新知识,将这些知识加入到决策库中,以便能够更好的指导企业运行。

4.5 新增审计数据处理

在线审计模型运行的数据是动态的,因此审计模型也需要具有自动化的学习和管理功能,以便能够对新增数据进行操作和关系,针对数据进行预处理、数据挖掘分析,形成新的有价值的审计模型,从中挖掘更加新型的知识。

5 结束语

在线审计系统经过多年的运行积累了海量的数据资源,传统的审计专家、固定的系统审计模型已经无法支持多源数据融合能力,亟需结合现代数据挖掘技术,引入自学习模式,设计新的审计系统模型,可以大幅度提升审计准确度和效率。

参考文献

[1]王忠,武哲.数据挖掘在审计信息分析中的应用[J].计算机应用研究,2005,22(02):167-169.

[2]陈丹萍.数据挖掘技术在现代审计中的运用研究[J].南京审计学院学报,2009,06(02):57-61.

[3]曾德胜,彭灿明,陈源,等.基于数据挖掘的审计系统研究[J].长春工程学院学报(自然科学版),2011,12(01):124-127.

[4]赵保卿,王嘉玮.数据挖掘方法在经济责任审计评价中的应用[J].商业会计,2013,41(23):30-32.

[5]荆霞,张金城,黄作明.基于数据挖掘的审计数据分析[J].中国管理信息化,2011,14(17):57-60.

数据挖掘学习计划范文5

关键词:数据挖掘;实例教学;K-means

0 引言

随着沃尔玛超市的啤酒和尿布营销规则,数据挖掘(Data mining)逐步进入人们的日常生活,并且在生产和消费等各个领域都发挥着重要的指导作用。由于数据挖掘的重要作用,各个高校纷纷开设本科生以及研究生的数据挖掘课程。

数据挖掘是研究如何从大量数据中挖掘隐藏于其中的知识或者信息的科学。数据挖掘通常借助计算机科学、统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多技术来实现上述目标。该课程涉及大量数学和统计模型,较为抽象,而且具有很强的时效性,知识更新换代快。本科生或者研究生在学习这门课程的时候,概念较多,算法抽象,难以入门,更难于应用算法求解实际问题。为了获取较好的课堂教学效果,数据挖掘课程采用实例教学策略教学。

实例教学策略通过工具软件仿真建模,演示数据挖掘算法的具体运行过程,使得学生自己纳入数据挖掘算法学习、开发和研究过程。数据挖掘课程的实例教学策略包括选择实例、讲解实例、扩展实例和教学评价4个部分,如图1所示。

以K-means聚类算法实例作为数据挖掘实例教学的研究对象。具体讲解7个仿真数据的聚类问题;通过Matlab软件仿真K-means算法执行过程,使得学生了解K-means算法及其设计策略;扩展实例重点分析K-means算法中参数设置,使得学生真正掌握该算法,求解实际的聚类问题;教学评价进一步促进教师改进教学的不足,提升教学质量。

1 K-means聚类算法理论基础

聚类的思想在日常生活中广泛应用,如:物以类聚,人以群分。聚类是根据相似度形成数据的划分,使得同一类对象属于相同的类,而不同的对象位于不同的类。相似性度量是聚类算法的核心问题。常用的相似性度量如欧氏距离和夹角余弦等。K-means算法是一种基于欧氏距离的分割聚类算法。

K-means算法的基本思想:依据聚类个数C形成数据的C个划分,计算每个划分的类心,更新数据的类别为当前所属划分,不断迭代调整聚类及其类心,直至所有数据的类属不再改变为止。聚类个数c与K-means中的K对应表示聚类个数。

设数据集X={X1,X2,…,Xn}为待聚类的对象集,每个对象Ⅸ(1≤j≤n)由s个属性组成,记作Xj={Xj,…,Xjs),其中xjk是对象Xj的第k维属性值。第i类数据的中心定义为vi,其中vi的任一属性值通过该类数据相应特征的平均值计算得到,即(1)式中:|vi|为第i个聚类vi所包含的数据个数。第i个聚类中心vi与第j个数据点Xj的欧氏距离定义为(2)

根据式(2),将数据点划分到距离最近的数据类。重复计算类心vi和数据类属,不断地迭代,调整聚类。当聚类目标函数的变化值达到指定的阈值,即聚类不再改变或者发生较小的改变,算法可以停止,获得聚类结果。聚类目标函数定义为(3)式中:dij为第i个聚类中心vi与第h个数据点Xj的欧氏距离。目标函数J反映所有数据到其所属类心的距离之和。如果和较小,则表示数据靠近其所属类心,聚类内聚性好,聚类效果好;否则,表示每类数据比较分散,内聚性差,聚类效果差。

K-means算法描述如下:

(1)初始化:确定聚类个数C,随机选取C个数据作为聚类中心vi。

(2)更新聚类:计算所有数据到C个中心vi的距离,对每个数据选取与其最近的类心,将该数据归人该类。

(3)更新聚类中心:根据每个数据的类属,将同一类数据的特征值平均得到更新的聚类中心。

(4)迭代:计算该划分的对应的目标函数,的值,重复(2)~(4),直至J的值不变化或者J变化值达到指定的较小的阈值。

2 K-means聚类算法的实例教学

K-means算法采用了梯度下降和期望最大化等数学模型,算法较为复杂抽象。单纯根据上面的分析,学生无法形成直观的印象,因此,K-means算法需用实例教学策略。实例教学策略能够通过Matlab软件直观呈现7个仿真数据的K-means算法聚类过程,将抽象的算法具象呈现,从而降低算法的难度,提升学生学习兴趣。例1介绍了基本的K-means算法,属于实例讲解。但是在实际应用中,数据存在噪声、异常和缺失等情况,数据聚类结果较为复杂,因此,需要具体研究算法的参数,增强算法的健壮性。例2和例3分别讨论了聚类类数变化和类心变化的实例拓展过程。

2.1 实例选择

实际的聚类问题如文本聚类和图像聚类问题。文本聚类指计算机自动根据文本的语义,将文本分为政治、经济、军事、体育等类别。图像聚类是指计算机根据图片的颜色、纹理或轮廓自动识别图片的类型,分成海滩图片、森林图片、街道图片、日出日落照片等类型。无论文本信息还是图片信息均需要转换成每个实例的若干特征描述,即每个实例形成一个空间坐标点。聚类的过程就是根据空间点距离的远近,形成数据的划分,使得相似的数据(彼此靠近的数据)分成一类,不相似的数据(距离较远的数据)位于不同类。

由于课堂讲述的时间有限,因此将实例规模限定为7个2维仿真数据,如表1所示,数据初始分布如图2(a)所示。7个仿真数据的聚类过程如下所示。

2.2 实例讲解

本节重点介绍如何通过K-means算法聚类表1所示的7个仿真数据的聚类过程。

例1:初始化:设7个数据分成C=2类,随机选取(X3,X2)作为2个类心,用红色+号标记。

第1次聚类:根据图2(a)中的类心,计算每个数据到类心的距离如表2所示,从中选取距离较近的类心作为当前该数据的类属。第1次迭代后得到聚类为{X1X3X6}{X2X4X5X7},如图2(b)中2个圆圈所示,目标函数J=17.9。

更新第1次聚类的类心:根据图2(b)中数据分布重新计算2类的类心得到图2(b)中2个新的红色加号。

第2次聚类:根据图2(b)中的新类心,第2次迭代计算每个数据到类心的距离,如表3所示,选择最近的类心作为当前类属,得到聚类为{X1X3}{X2X4X6X7},如图2(c)中2个圆圈所示,目标函数J=16.60降低。

更新第2次聚类的类心:根据图2(c)中数据分布重新计算2类的类心得到图2(c)中2个新的红色加号。

第3次聚类,如图2(d)所示,目标函数的值J=16.60,前后2次误差为0,聚类无改变,算法结束。

通过以上实例的讲解,学习到K-means算法的过程:根据初始数据类划分,更新每类的类心;根据更新的类心,更新数据类划分,重复上述过程,直到数据划分不改变或者仅有较小的改变结束聚类过程。

2.3 拓展实例

K-means算法的参数包括两方面,分别是:①聚类个数C不同,聚类结果是否相同?②初始聚类中心不同,聚类结果是否不同?如果聚类中心不正确,是否能得到正确的聚类结果?针对上述2个问题,通过2组实例数据分析K-means聚类算法的性能。

例2:设7个2维数据如表1所示。初始状态数据分布如图3(a)所示。聚类过程如下:

(1)初始化:设7个数据分成C=2类,随机选取X1和X7作为2个类心,用红色+号标记。

(2)第1次聚类:根据图3(a)中的类心,计算每个数据到类心的距离如表4所示,从中选取距离较近的类心作为当前该数据的类属。第1次迭代后得到聚类为:{X1X2X3X4}{X5X6X7},如图3(b)中2个圆圈所示,目标函数J=12.60。

(3)更新第1次聚类的类心:根据图3(b)中数据分布重新计算2类的类心得到图3(b)中2个新的红色加号。

(4)第2次聚类如图3(c)所示,目标函数的值J=12.60,前后2次误差为0,聚类无改变,算法结束。

上述实例说明:无论初始聚类中心如何设置,迭代过程会不断修正,使其收敛到一个局部最优的聚类结果。但是,初始聚类中心不同,聚类结果不同。作为初始聚类中心比更合适,因为前者最终聚类目标函数比后者低,聚类结果更合理。

接下来,研究聚类类数对聚类结果的影响,设计实验对比不同聚类类数的聚类结果。

例3:设7个2维数据如表1所示。初始状态数据分布如图4(a)所示。聚类过程如下:

(1)初始化:设7个数据分成C=3类,随机选取{X3X47}作为3个初始聚类中心,用红色+号标记。

(2)第1次聚类:根据图4(a)中的类心,计算每个数据到类心的距离如表5所示,从中选取距离较近的类心作为当前该数据的类属。第1次迭代后得到聚类为{X1X3}{X2X4}{X5X6X7),如图4(b)中3个圆圈所示,目标函数,/=7.99。

(3)更新第1次聚类的类心:根据图4(b)中数据分布重新计算2类的类心得到图4(b)中2个新的红色加号。

(4)第2次聚类如图4(c)所示,目标函数的值J=7.99,前后2次误差为0,聚类无改变,算法结束。

上述实例说明:初始聚类类数C不同,聚类结果不同。C=3作为初始聚类类数比C=2更合适,因为前者最终聚类目标函数比后者低,聚类结果更合理。可以根据先验知识或者专家经验确定初始的聚类类数的范围,在此范围内多次运行聚类算法,从中选择最合适的聚类类数及其聚类结果作为最终的聚类结果。

2.4 教学评价

实例教学策略所选择的仿真问题和仿真数据来源于实际问题,可以极大调动学生学习兴趣。实例教学策略通过Matlab软件仿真将抽象的聚类过程具象呈现在学生面前,降低了算法学习的难度,易于学习。实例拓展分析了实际问题所遇到的参数设置,可以提升学生在实际中应用K-means算法求解的操作能力。

设计问卷对比研究传统教学策略和实例教学策略2种教学方法学生喜欢程度。问卷包括A~E共5个等级及其对应分值,分别是:非常枯燥(-2分)、比较枯燥(-1分)、一般(0分)、比较有趣(1分)和非常有趣(2分)。本次调查分传统教学法和实例教学策略两部分内容,分别发放问卷50份,回收问卷48份,回收率96%,问卷有效率为100%。传统教学策略的投票结果如表6所示;实例教学策略的投票结果如表7所示。调查结果显示:学生更喜欢通过实例教学策略学习数据挖掘课程,实例教学策略的综合得分远远高出传统教学策略的得分。

数据挖掘学习计划范文6

[关键词] web 数据挖掘 电子商务

一、引言

随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。

近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于Internet/WWW在全球互连互通,可以从中取得的数据量难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。

二、Web挖掘概述

数据挖掘就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。Web挖掘是将数据挖掘的思想和方法应用到Web页面内容、页面之间的结构、用户访问信息等各种Web数据中,从中抽取隐含的、以前未知的、具有潜在应用价值的信息。Web挖掘对在浩瀚的网络中发现有价值的知识、改进网站设计、提供更好的网上服务有重要的作用。

Web挖掘是针对包括Web页面内容,页面之间的结构,用户访问信息等在内的各种Web数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结构的数据,缺乏机器可理解的语义,Web挖掘的对象是大量,异质,分布的Web文档,对Web服务器上的日志、用户信息等数据所开展的挖掘工作也属于Web数据挖掘的范畴。Web信息的多样性决定了挖掘任务的多样性。按照Web处理对象的不同,一般将Web挖掘分为三类: Web内容挖掘,Web结构挖掘和Web使用记录挖掘。

1.Web内容挖掘

Web内容挖掘是指对Web页面及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有价值的知识的过程。它是数据挖掘技术在网络信息处理上的应用,主要方法有IR(information retrieve)和数据库方法。它又可分为Web文本挖掘和Web多媒体挖掘两种数据挖掘方式。Web内容挖掘多为这种方式的挖掘,它和平常的平面文本挖掘的功能及方法比较类似。Web文档多为HTML、XML等自然语言,因此可利用Web文档中的标记,利用这些信息可以提高Web文本挖掘的性能。在对Web文档进行分类分析中,可以基于一组预先分好的文档为每一类文档赋予一个类标签。由于超链接里包括了有关页面内容的高质量信息,因此可以利用这些信息对文档进行分类,并且这种分类比基于关键字的分类更加准确。随着网络带宽的扩大,多媒体信息在网上迅速增加,这对Web内容挖掘提出了新的要求。Web多媒体挖掘的挖掘主要是指基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像的挖掘。

2.Web结构挖掘

Web结构挖掘是对Web的组织结构和链接关系进行挖掘,从人为的链接关系中获得有价值的知识。由于文档之间互连,WWW能提供除文档内容以外的有用信息。Web结构挖掘通过分析一个网页链接和被链接的网页数量和对象,建立Web自身的链接结构模式。这种模式可以用于网页分类,并由此获得有关不同页面间的相似度和关联度的信息。Web页面除了包含页面以外还包括一个页面指向另一个页面的超链接。超链接里包含大量人类潜在的语义,它可用于分析出权威性语义。当一个Web页面的作者建立指向另一个页面的指针时,可以看作是作者对另一个页面的注解,即对另一个页面的认可。把一个页面的来自不同作者的注解收集起来,可以用来反应页面的重要性。这样,Web结构挖掘有助于用户找到相关主题的权威站点。

3.Web使用记录挖掘

Web使用记录挖掘是对用户访问Web时在服务器上留下的访问记录进行挖掘。它通过挖掘Web日志文件及其相关数据来发现用户访问Web页面的模式,主要技术有Cookies和远程Agent技术。Web使用记录挖掘的对象不是网上的原始数据而是从用户和网络交互过程中抽取出来的二手数据。服务器上的日志文件包括所请求的URL、发送请求的IP和时间,这些日志提供了有关Web动态的丰富信息。因此提取用户留下的这些日志文件进行Web挖掘,提取有关用户的知识,对用户的访问行为、频度、内容进行分析,得到关于用户的行为和方式的模式,从而改进站点的结构,或为用户提供个性化服务。对用户使用记录进行挖掘的方法主要有两种。一种方法是通过对日志文件进行分析,包含两种方式,一是访问前先进行预处理,即将日志数据映射为关系表采用相应的数据挖掘技术,如关联规则或聚类规则来访问日志文件。二是对日志文件直接进行访问以获取用户的导航信息。二是通过对用户的点击事件的收集和分析来发现用户的导航行为。

三、Web挖掘的主要技术

Web数据挖掘中常用的技术有路径分析技术、关联规则、序列模式、分类聚类技术等。

1.关联规则挖掘技术

该技术主要用于从学习者访问序列数据库的序列项中挖掘出相关的规则。在Web数据挖掘中,关联规则挖掘就是要挖掘出学习者在一个访问期间(Session)从服务器问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(Reference) 关系。在网络日志数据的预处理过程中,将学习者访问的页面路径构成了学习者会话事务集,可以通过关联规则挖掘得到大量的学习者访问请求的URL之间的联系,并将挖掘出的规则按照不同的支持度和置信度进行取舍,从而保留一些有用的规则进行应用。

2.序列模式挖掘技术

序列模式数据挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站服务器日志里,学习者的访问是以一段时间为单位记载的。经过数据净化和事件交易确认以后是一个间断的时间序列,这些序列反映了学习者一定的行为。在网络日志文件的预处理过程中,抽取了学习者对于每个URL浏览所耗用的时间,这种元数据从侧面描绘出每个学习者对于页面上承载的知识点的理解程度和思考难度,引用时间长的证明此页面承载的知识点比较难于理解。通过分析可以得出学习者对特定知识点的掌握程度。但由于网路线路的原因,致使学习者在提出URL请求后,很长时间才将相应的网页打开,所以这种由日志中记录的浏览时间所分析出的各种模式规则并不一定真实反映学习者的学习过程,所以我们利用序列模式挖掘方式预测出学习者后续要访问的页面集,然后将此页面集中的URL预先下载到本地计算机的缓存中去,从而降低了页面的打开时间,也就使得浏览时间的准确性和有效性得到了很大的提高。这种Web页面的预取技术是利用序列模式挖掘方法来实现的。

3.聚类分类技术

聚类技术可以将具有相同特征的数据项聚成一类。聚类分析模式就是将数据划分到不同的组或者簇中,组之间的差别尽可能的大,组内的差别尽可能的小,与一般认为通过学习者的固定信息进行的分类分析不同,聚类前并不知道将要划分成几个组和什么样的组,完全依靠服务器智能化的计算得出,因此聚类分析也可以称为无监督分类。通过聚类得出不同的类后,一旦某学习者的特征模式符合某个类后,推荐引擎自动将此学习者尚未访问的页面或者尚未进行的测试与练习推荐给学习者。这样就可以智能化地将处在不同学习阶段的学习者得到此类应该获得的学习和测试进程。

4.路径分析技术

用路径分析技术进行Web使用模式的数据挖掘时,最常用的是图。因为一个图代表了定义在网站上的页面之间的联系。图最直接的来源是网站结构图,网站上的页面定义成节点,页面之间的超链接定义成图中的边。其他的各式各样的图也都是建立在页面和页面之间联系或者是一定数量的学习者浏览页面顺序基础之上的。那么,基于Web使用模式的数据挖掘,就是从图中确定最频繁的路径访问模式或大的参引访问序列。

四、Web挖掘在电子商务中的应用

1.Web挖掘数据的来源

在Web挖掘中,一个关键性步骤是为Web挖掘提供合适的数据即挖掘对象。同样,把Web挖掘技术应用到电子商务中,也需要选择合适的目标数据集合。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表。这些数据具体分为以下几种:

(1)服务器日志数据

Web服务器日志记录了用户访问电子商务站点的浏览行为,是使用Web挖掘的主要数据来源。日志文件格式中最常用的公用日志格式(Common Log Format)提供了关于访问者物理访问站点的信息。

(2)Cookie日志数据

Cookie日志是服务器为了自动跟踪电子商务网站访问者而为单个浏览器生成的标志。用于自动标记和跟踪站点的访问者,并由客户端持有。Cookie通常存储的是类似于购物手推车状态信息或者客户最近连接电子商务网站所访问的网页等信息。在电子商务网站,存储在Cookie日志的数据主要是交易信息。

(3)客户信息

在电子商务的交易过程中,须经过银行的信用授权才能进行交易。在这一过程中,大量有关客户的个人资料等信息会传到电子商务网站。把这些数据经过清洗,然后存入网站的数据仓库中作为长期趋势的分析数据,供数据挖掘之用。所需的数据类型取决于在线购物时的商业类型和所使用的数据本身。

(4)其他数据源

电子商务是基于Internet进行各种交易的,在其上面有大量的异质数据源,里面隐含了大量的有价值的信息有待挖掘。可以利用智能Agent来进行抽取而获得有用的信息,有助于电子商务活动的开展。

2.电子商务中Web挖掘的过程

在电子商务环境下,主要的挖掘对象是服务器日志。其主要步骤如下。

(1)数据预处理

由于本地缓存、服务器、防火墙的存在,使得Web日志中的数据并不精确,直接进行挖掘有可能出现错误结果。因此首先对日志数据进行预处理,它包括数据净化、用户会话和事务识别等。数据清洗主要是删除与挖掘算法无关的记录、判断是否有重要的访问没有被记录;用户会话是一个用户在一定时间内请求的所有Web页面;事务识别主要是将页面访问序列划分为代表Web事务或用户会话的逻辑单元。

(2)模式发现

模式发现阶段是采用统计法、机器学习法等成熟技术,从Web使用记录中挖掘知识。与电子商务有关的模式发现的方法有统计分析、聚类规则和依赖性建模。统计分析是抽取有关电子商务网站访问者的最常用的方法。可以利用特征选择方法来分析网页,就能分析出网页的某个特征的点击流次数,根据获得的结果调整网页的内容和链接结构。聚类规则是从一组数据项中聚集出相似特征的一个聚类。在电子商务中,大致可分为两类聚类:用户聚类和网页聚类。利用聚类的规则可以分析顾客的信息便以开展电子商务活动。依赖性建模的目标是开发出一种能表达Web域中各变量显著依赖性的模型。这种模型是根据已存在的Web数据,然后抽象出这些数据内在关系的模型。模型的建立对增加网上产品的销量和改进用户导航的便利性都有很大的作用。除此以外,还有关联规则、分类、序列模式等其他的模式发现方法在电子商务的Web挖掘中有较大应用。

(3)模式分析

模式分析主要是采用合适的技术和工具,进行模式的分析来辅助分析人员的理解。最常见的模式分析方法是采用SQL查询语句进行分析。另一种分析方法是先将数据导入到多维数据立方体中,再利用OLAP工具进行分析并提供可视化的结果输出。设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力是电子商务网站生存和发展的关键因素。