数据分析范例6篇

数据分析

数据分析范文1

完整的数据分析主要包括了六个既相对独立又互有联系的阶段,它们依次为:明确分析目的和思路、数据准备、数据处理、数据分析、数据展现、报告撰写等六步,所以也叫数据分析六步曲。

明确分析目的和思路

做任何事都要有个目标,数据分析也不例外。经常有一些数据分析爱好者,向数据分析高手请教以下问题:

这图表真好看,怎么做的?

这数据可以做什么样的分析?

高级的分析方法在这里能用吗?

需要做多少张图表?

数据分析报告要写多少页?

为什么这些数据分析爱好者会提出这些问题呢?原因很简单,就是他们没有明确的分析目的,为了分析而分析,而且一味追求高级的分析方法,这就是数据分析新手的通病。

如果目的明确,那所有问题就自然迎刃而解了。例如,分析师是不会考虑“需要多少张图表”这样的问题的,而是思考这个图表是否有效表达了观点?如果没有,需要怎样调整?

所以在开展数据分析之前,需要想清楚为什么要开展此次数据分析?通过这次数据分析需要解决什么问题?只有明确数据分析的目的,数据分析才不会偏离方向,否则得出的数据分析结果不仅没有指导意义,甚至可能将决策者引入歧途,后果严重。

当分析目的明确后,我们就要对思路进行梳理分析,并搭建分析框架,需要把分析目的分解成若干个不同的分析要点,也就是说要达到这个目的该如何具体开展数据分析?需要从哪几个角度进行分析?采用哪些分析指标?

同时,还要确保分析框架的体系化,以便分析结果具有说服力。体系化也就是逻辑化,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑关系。如何确保分析框架的体系化呢?可以以营销、管理等方法和理论为指导,结合实际业务情况,搭建分析框架,这样才能确保数据分析维度的完整性、分析框架的体系化、分析结果的有效性及正确性。

营销方面的理论模型有4P理论、用户使用行为、STP理论、SWOT等,而管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。

明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据收集、处理以及分析提供清晰的指引方向。

数据准备

数据准备是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。这里所说的数据包括第一手数据与第二手数据,第一手数据主要指可直接获取的数据,如公司内部的数据库、市场调查取得的数据等;第二手数据主要指经过加工整理后得到的数据,如统计局在互联网上的数据、公开出版物中的数据等。

数据处理

数据处理是指对采集到的数据进行加工整理,形成适合数据分析的样式,保证数据的一致性和有效性。它是数据分析前必不可少的阶段。

数据处理的基本目的是从大量的、可能杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。如果数据本身存在错误,那么即使采用最先进的数据分析方法,得到的结果也是错误的,不具备任何参考价值,甚至还会误导决策。

数据处理主要包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法。一般拿到手的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。

数据分析

数据分析是指用适当的分析方法及工具,对收集来的数据进行分析,提取有价值的信息,形成有效结论的过程。

在确定数据分析思路阶段,数据分析师就应当为需要分析的内容确定适合的数据分析方法。到了这个阶段,就能够驾驭数据,从容地进行分析和研究了。

由于数据分析大多是通过软件来完成的,这就要求数据分析师不仅要掌握各种数据分析方法,还要熟悉主流数据分析软件的操作。一般的数据分析我们可以通过Excel完成,而高级的数据分析就要采用专业的分析软件进行,如数据分析工具SPSS、SAS等。

数据展现

通过数据分析,隐藏在数据内部的关系和规律就会逐渐浮现出来,那么通过什么方式展现出这些关系和规律,才能让别人一目了然呢?一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。

常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、瀑布图、漏斗图、帕雷托图等。

多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析师所要表达的观点。一般情况下,能用图说明问题的,就不用表格,能用表格说明问题的,就不用文字。

报告撰写

数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,以供决策者参考。所以数据分析报告是通过对数据全方位的科学分析来评估企业运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力。

一份好的分析报告,首先需要有一个好的分析框架,并且层次明晰,图文并茂,能够让读者一目了然。结构清晰、主次分明可以使阅读对象正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于读者更形象、直观地看清楚问题和结论,从而产生思考。

另外,分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。

数据分析范文2

关键词:数学建模竞赛;SPSS软件;现状;兴趣点

一、引言

“大数据时代”的到来使得数据挖掘和数据分析成为一项热门的技术技能,而在数据分析的过程中一个重要的步骤就是建立一定的数学模型进行解释和分析,以便更加合理和科学地解释数据间的规律和关系。同时,数学建模竞赛技能的广泛应用,更是衔接时代技术潮流的需求,提高大学生的建模技能和知识储备,迎战“大数据”,使你我都成为“大数据时代”的弄潮儿。李琳提出了以SPSS语法模板替换技术为核心的医院数据分析应用方案[1],卢红霞[2]和贾燕[3]分别在其硕士论文中都用了数据处理相关软件对其收集到的数据进行处理分析并开展研究。为了提高对我校学生参加全国大学生数学建模竞赛现状的了解,通过对在校学生的问卷调查进行相关数据收集,用SPSS软件做数据处理分析,得到我校大学生对数学建模竞赛的了解与认可程度和兴趣点的相应数据,从而提出关于本校学生参加数学建模竞赛现状的一些改善对策,从而争取更多的学生参加竞赛并且促使数学建模竞赛的进一步发展。

二、问卷调查的方式与目的

本次调查利用“百度云”线上发放并回收有效问卷170份,利用SPSS软件对回收的问卷进行数据分析统计,从而得出数学建模在我校的发展现状。通过对问卷调查的分析进一步对我校数学建模的发展和教学提出相应的意见和建议,对于我校的数学建模建设具有一定的参考价值和意义。

三、问卷调查的数据处理和结论分析

1.本校各年级学生对数学建模竞赛的了解程度和关注情况。利用SPSS软件统计分析,我校学生对数学建模竞赛的整体认知情况不容乐观,关注程度和了解情况有待提高,多数学生对数学建模竞赛的了解程度不深,有待提高。从数据处理的结果可知:参与本次问卷调查的主要年级群体是2015级的低年级学生,约占40.6%。2015级的学生对于数学建模方面的知识接触较少,且本校数学建模的相关课程学习安排在大二下学期,由此导致不了解数学建模竞赛所占的比重较大。一年一度的数学建模竞赛是丰富学生的课外科技活动之一,学校应加强在低年级的宣传力度,扩大数学建模的影响力,使低年级学生对此有更深的了解,以便更好地培养出优秀的参赛选手。2.本校学生对数学建模的关注度与参赛意愿的影响因素分析。下面主要从三个方面分析本校学生对数学建模的关注度与参赛意愿的影响因素:(1)从学生对数学建模竞赛的了解程度与参赛意愿分析其影响因素。通过SPSS软件对问卷报告中的相关数据的处理与分析可以得到:我校学生对数学建模竞赛的了解程度不高,多数学生对其只了解一点。利用SPSS软件进一步统计分析结果显示,学生参加数学建模竞赛的意愿与对其了解程度密切相关,且了解程度越深,参赛的意愿越高。(2)从学生对数学建模竞赛的兴趣程度与参赛意愿分析其影响因素。根据数据处理分析可以得出:我校学生对数学建模竞赛的兴趣程度不高,且大家对数学建模的兴趣程度与参加数学建模竞赛的意愿是呈正相关的。今天的数学是通过数学建模的方式来解决各种实际问题,并融入到日常生活中,因此培养学生的数学建模兴趣至关重要[4]。(3)从学生对数学建模竞赛的了解程度与对数学建模协会组织活动的关注度分析其影响因素。通过学生对数学建模协会组织的活动的关注度和数学建模竞赛的了解程度做相关性检验,判断其是否存在显著相关性(统计结果见表1)。根据表1可知:我校学生对数学建模协会组织的活动的关注度与对全国大学生数学建模竞赛的了解程度呈现正相关水平。3.我校学生所认为的全国大学生数学建模竞赛的难易程度。从问卷调查的数据处理结果可以得到:参加过数学建模竞赛的学生与未参加过竞赛的学生对数学建模竞赛所认为的难易程度存在一定的区别。数据显示:23.13%的学生认为全国大学生数学建模竞赛较难,54.42%的学生认为全国大学生数学建模竞赛很难;47.83%的人认为数学建模竞赛较难,39.13%的学生认为数学建模竞赛很难。显然,学生普遍认为数学建模竞赛难度较高,有部分学生在选择参赛时就对此产生了恐惧。但是,参加过数学建模竞赛的学生所认为的难度值降低,反映出了建模竞赛并不像想象中的那么难,也从侧面反映了教学与宣传的不到位,因此有必要提高数学建模课程的教学力度以及数学建模竞赛的宣传程度。

四、我校数学建模竞赛现状暴露的主要问题及其对策

虽然我校的数学建模竞赛在各方面的支持和努力下取得了较好的成绩,但是从调查问卷的统计结果可以看出存在着一些困境。(1)学生对数学建模的了解程度和关注度并不高,整体认知情况不容乐观。对此,呼吁各级相关部门和领导对数学建模这一新生事物给予更多的关注与支持,加大宣传力度。建模协会应定期举办数学建模培训会,使大家对其有更深入的了解和关注。(2)数学建模竞赛作为学术性较强的竞赛形式出现在大家面前,具有一定的难度,致使部分学生对此并不感兴趣。培养当代大学生的建模思想至关重要,抓住学生的兴趣点,积极鼓励学生参赛,逐步引导形成学生自主学习、合作探究的学习方式;培养学生的创新精神和实践能力,提高学生运用数学知识分析问题和解决实际问题的能力,领悟数学科学研究的基本过程和方法,发现数学的实用价值[5]。

参考文献:

[1]李琳.基于SPSS软件的医院数据分析[J].医学信息学杂志,2015,36(5):35-38.

[2]卢红霞.基于医院信息系统的数据挖掘与分析[D].南京:东南大学,2013.

[3]贾燕.医院建筑能耗监测数据分析研究及软件模型设计[D].济南:山东建筑大学,2015.

[4]唐海军,朱维宗,李红梅.高中生数学模型思想学习状况的调查研究[J].成都师范学院学报,2014,30(5):120-124.

数据分析范文3

关键词:大数据 智能 数据分析

中图分类号:F503 文献标识码:A 文章编号:1674-098X(2014)04(a)-0021-01

对于数据分析来说,其主要的目的就是通过对数据的分析去发现问题或预测趋势。从数据钻取、大规模分析的技术手段、以及算法执行上来说,大规模分析是和小规模数据在技术上是有很大差异的。想要探究大数据下的智能数据分析技术,首先要对数据分析这一概念进行深入研究。

1 数据分析

数据分析的过程其实简单的说就是做报告,做什么样的报告反映什么样的指标。最开始的时候基本上是data processing。例如零售行业来说,最主要的指标就是库存、销售同比增长情况、利润同比增长情况、促销率等等。对于不同的行业会有不同的相关的KPI需要跟踪,所以报告的内容也会有所侧重,但是只要你一个行业做久了,熟悉了套路之后,基本上就是以同样的方法开展。

对于数据分析,如果公司部门分的比较细的(例如可能有建模组),那么做数据分析可能永远都是做data processing了。对于模型的分析,需要你对业务有了深入的了解就可以建立一些模型出来(例如推荐模型)等等。

数据分析主要涉及的技能:

(1)数据库的能力。越全面越好,如果不是理工科的,最起码要会select那些简单的查询语句。

(2)EXCEL、PPT的能力。报告的呈现一般都是Excel+PPT的形式,最好VBA,这样就可以将很多人工的工作转化为自动化的能力,提高工作效率,领导也对你刮目相看,自己也有更多空余的时间准备其他方面的知识。

(3)市场分析能力。学会观察市场的走向和关注的内容,例如零售行业,现在大家都对CRM很热衷,那相关的分析方法和方式是怎么样的,你要自己去了解。从来不会有人手把手的将所有东西都告诉你,你必须自己学会去增长知识。

(4)一些会计的知识。因为通过以上分析,就是会计管理的一部分内容,最后还是公司盈利问题。有兴趣的也可以去看看战略管理方面的,对于做数据分析也很有好处的说。

综合来看,可以说数据分析=技术+市场+战略。

2 如何培养数据分析能力

理论:

基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;

(2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;

(3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。

实践:

(1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;

(2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉了解业务可以使数据看起来更加透彻;

(3)了解数据的定义和获取。最好从数据最初是怎么获取的开始了解,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;

(4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的了解要深入得多,就是这个原因。

3 大数据

大数据就是通过统计分析计算机收集的数据,在人们可能不知道“为什么”的前提下,了解到事物的状态、趋势、结果等“是什么”。

对于大数据,一直来说,数据规模导致的存储、运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够了,后来类似海杜普这样的研究则彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。

从技术层面说,大数据和以前的数据时代的最大差异在于,以前是数据找应用/算法的过程(例如各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。

大数据的特点:

(1)大数据不等同于数据大,我们处理问题是根据这个问题的所有数据而非样本数据,即样本就是总体;不是精确性而是混杂性;不是因果关系而是相关关系。

(2)大数据应用的几个可能:当文字变成数据,此时人可以用之阅读,机器可以用之分析;当方位变成数据,商业广告,疫情传染监控,雅安地震时的谷歌寻人;当沟通变成数据,就成了社交图谱。一切都可以量化,将世界看作可以理解的数据的海洋,为我们提供了一个从来未有过的审视现实的视角。

(3)数据创新的价值:数据的再利用。例如重组数据:随着大数据出现,数据的总和比部分更有价值,重组总和和本身价值也比单个总和更大;可扩展数据:在设计数据收集时就设计好了它的可扩展性,可以增加数据的潜在价值;数据的折旧值:数据会无用,需淘汰更新;数据废气:比如语音识别,当用户指出语音识别程序误解了他的意思,实际上就有效的训练了这个系统。

总之,大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了突出的技术和算法才体现了它的价值。

4 大数据下的智能数据分析

在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,实际中,选择处在两个极端的数据往往更容易找出它们之间的联系,把它们放在一个框架中看才能发现问题。因此,可以用以下四种方法在大数据背景下进行智能数据分析:

(1)从解决问题的角度出发收集数据;

(2)把收集的数据整理好,放入一个框架内,并利用这个框架帮助决策者做出决定;

(3)评估决定与行动的效果,这将告诉我们框架是否合理;

(4)如果有新的数据出现,我们将考察能否利用它对前面三步做出改进,以及我们今天是否还需要收集更多种类的数据。

5 结语

数据分析的最终目的是帮助业务发现问题并解决问题,提升公司价值,而这些是从数据发觉的,而不是盲目下结论。每家公司都有自己业务生产的数据,通过数据分析、同比环比、漏斗分析及模型等,发现业务上存在的问题,帮助公司业务的优化。

参考文献

[1] 李贵兵,罗洪.大数据下的智能数据分析技术研究[J].科技资讯,2013(30).

数据分析范文4

关键词:告警数据 Hadoop Spark

1 引言

随着电信网络的不断演进,全省数据网、交换网、接入网设备单月产生告警原始日志近亿条。以上告警通过网元网管、专业综合网管、智能网管系统[1]三层收敛,监控人员每月需处理影响业务或网络质量的告警事件为20万条,但一些对网络可能造成隐患的告警信息被过滤掉。如何从海量告警数据中获取与网络性能指标、运维效率相关的有价值的数据,对于传统的关系型数据库架构而言,似乎是一个不可能完成的任务。

在一般告警量情况下,ORACLE数据处理能力基本可以满足分析需求,但当告警分析量上升到亿级,如果采用传统的数据存储和计算方式,一方面数据量过大,表的管理、维护开销过大,要做到每个字段建索引,存储浪费巨大;另一方面计算分析过程耗时过长,无法满足实时和准实时分析需求。因此必须采用新的技术架构来分析处理海量告警信息,支撑主动维护工作显得尤为必要,为此我们引入了大数据技术。

2 分析目标

(1)数据源:电信运营商网络设备告警日志数据,每天50 G。

(2)数据分析目标:完成高频翻转类(瞬断)告警分析;完成自定义网元、自定义告警等可定制告警分析;完成被过滤掉的告警分析、TOPN告警分析;核心设备和重要业务监控。

(3)分析平台硬件配置:云计算平台分配8台虚拟机,每台虚机配置CPU16核;内存32 G;硬盘2 T。

3 制定方案

进入大数据时代,行业内涌现了大量的数据挖掘技术,数据处理和分析更高效、更有价值。Google、Facebook等公司提供可行的思路是通过类似Hadoop[2]的分布式计算、MapReduce[3]、Spark[4]算法等构造而成的新型架构,挖掘有价值信息。

Hadoop是Apache基金会用JAVA语言开发的分布式框架,通过利用计算机集群对大规模数据进行分布式计算分析。Hadoop框架最重要的两个核心是HDFS和MapReduce,HDFS用于分布式存储,MapReduce则实现分布式任务计算。

一个HDFS集群包含元数据节点(NameNode)、若干数据节点(DataNode)和客户端(Client)。NameNode管理HDFS的文件系统,DataNode存储数据块文件。HDFS将一个文件划分成若干个数据块,这些数据块存储DataNode节点上。

MapReduce是Google公司提出的针对大数据的编程模型。核心思想是将计算过程分解成Map(映射)和Reduce(归约)两个过程,也就是将一个大的计算任务拆分为多个小任务,MapReduce框架化繁为简,轻松地解决了数据分布式存储的计算问题,让不熟悉并行编程的程序员也能轻松写出分布式计算程序。MapReduce最大的不足则在于Map和Reduce都是以进程为单位调度、运行、结束的,磁盘I/O开销大、效率低,无法满足实时计算需求。

Spark是由加州伯克利大学AMP实验室开发的类Hadoop MapReduce的分布式并行计算框架,主要特点是弹性分布式数据集RDD[5],中间输出结果可以保存在内存中,节省了大量的磁盘I/O操作。Spark除拥有Hadoop MapReduce所具有的优点外,还支持多次迭代计算,特别适合流计算和图计算。

基于成本、效率、复杂性等因素,我们选择了HDFS+Spark实现对告警数据的挖掘分析。

4 分析平台设计

4.1 Hadoop集群搭建

基于CentOS-6.5系统环境搭建Hadoop集群,配置如表1所示。

4.2 Spark参数设置[6]

Spark参数设置如表2所示。

4.3 数据采集层

数据采集:由于需采集的告警设备种类繁多,故采取分布式的告警采集,数据网设备、交换网设备、接入网设备分别通过IP综合网管、天元综合网管、PON综合网管进行采集,采集周期5分钟一次。采集机先将采集到的告警日志文件,通过FTP接口上传到智能网管系统文件服务器上,再对文件进行校验,通过Sqoop推送到Hadoop集群上。

4.4 逻辑处理层

(1)建立高频翻转告警监控工作流程

先将海量告警进行初步删选,通过数量、位置和时间三个维度的分析,得出高频翻转类告警清单列表,最后由专业工程师甄别确认,对某类告警进行重点关注和监控。

(2)差异化定制方案

按组网架构细分,针对核心重要节点的所有告警均纳入实时监控方案;

按业务网络细分,针对不同业务网络设计个性化的监控方案;

按客户业务细分,针对客户数字出租电路设计个性化的监控方案。

4.5 数据分析层

Spark读取Hive[7]表的告警数据,然后在Spark引擎中进行SQL统计分析。Spark SQL模K在进行分析时,将外部告警数据源转化为DataFrame[8],并像操作RDD或者将其注册为临时表的方式处理和分析这些数据。一旦将DataFrame注册成临时表,就可以使用类SQL的方式操作查询分析告警数据。表3是利用Spark SQL对告警工单做的一个简单分析:

5 平台实践应用

探索运维数据分析的新方法,利用大数据分析技术,分析可能影响业务/设备整体性能的设备告警,结合网络性能数据,找到网络隐患,实现主动维护的工作目标。

5.1 高频翻转类告警监控

首先制定了高频翻转类告警分析规则,将连续7天每天原始告警发生24次以上定义为高频翻转类告警,并基于大数据平台开发了相应的分析脚本,目前已实现全专业所有告警类型的分析。表4是全省高频翻转类TOP10排名。

5.2 核心设备和重要业务监控

目前以设备厂商或专家经验评定告警监控级别往往会与实际形成偏差,主要表现在以下几个方面:监控级别的差异化设定基于已知的告警类型,一旦网络重大故障上报未知的告警类型就无法在第一时间有效监控到;同一类型的故障告警出现在不同网络层面可能影响业务的程度是完全不同的;不同保障级别的客户对故障告警监控的实时性要求也是不同的。

通过大数据分析平台对差异化监控提供了灵活的定制手段,可根据告警关键字,分专业、地市、网管、机房、告警频次等维度自主定制需要的告警数据,实现日、周、月、某个时间区等统计分析。

应用案例:省NOC通过大数据分析出一条编号为CTVPN80113的中国平安大客户电路在一段时间内频繁产生线路劣化告警,但用户未申告,省NOC随即预警给政企支撑工程师,政支工程师与用户沟通后,派维护人员至现场处理,发现线路接头松动,紧急处理后告警消除、业务恢复。

5.3 被过滤告警分析

全省每天网络告警数据300万条~500万条,其中99%都会根据告警过滤规则进行过滤筛选,把过滤后的告警呈现给网络监控人员。过滤规则的准确性直接影响告警数据的质量。一般来说告警过滤规则可以从具有丰富运维经验的网络维护人员获得,但是这个过程非常繁琐,而且通过人工途径获得的告警过滤规则在不同的应用环境可能存在差异,无法满足网络维护的整体需要。采用大数据技术对被过滤的告警进行分析可以很好地完善过滤规则,让真正急迫需要处理的告警优先呈现给维护人员及时处理,真正做到先于客户发现故障。表5是动环专业被过滤的告警情况分布。

5.4 动环深放电分析

动环网管通过C接口采集蓄电池电压数据,在停电告警产生之后,电压数据首次下降到45 V,表示该局站电池出现深放电现象,通过计算这一放电过程的持续时间,记为深放电时长,该时长可以初步反映电池的放电性能。一个局站每天产生几十万条电压等动环实时数据。

在告警数据分析的基础上,实现对蓄电池电压变化数据的分析,提醒分公司关注那些深放电次数过多和放电时长过短的局站,核查蓄电池、油机配置、发电安排等,并进行整治。利用Spark SQL统计了一个月内抚州、赣州、吉安三分公司几十亿条动环数据,分析了其中深放电的情况如表6所示。

6 结论

本文利用HDFS+Spark技术,实验性地解决告警数据存储和分析等相关问题:一是通过数据分析,从海量告警数据中发现潜在的网络隐患;二是结合资源信息和不同专业的告警,最终为用户提供综合预警;三是转变网络监控思路和方式,通过数据汇聚、数据相关性分析、数据可视化展示,提高了网络监控效率;最后还扩展到对动环实时数据、信令数据进行分析。

从实际运行效果来看,HDFS和Spark完全可以取代传统的数据存储和计算方式,满足电信运营商主动运维的需求。

参考文献:

[1] 中国电信股份有限公司. 中国电信智能网管技术规范-总体分册[Z]. 2015.

[2] Tom white. Hadoop权威指南[M]. 4版. 南京: 东南大学出版社, 2015.

[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.

[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.

[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.

[6] S鹏. Apache Spark源码剖析[M]. 北京: 电子工业出版社, 2015.

[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.

[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.

[9] 员建厦. 基于动态存储策略的数据管理系统[J]. 无线电工程, 2014,44(11): 52-54.

数据分析范文5

一、以认知冲突,引发学生产生数据收集与整理的强烈愿望

学生每一个学习行为的背后,都是有目的、有价值、有意义的。简言之,学生自己要真正认识到这种学习是有用的,哪怕仅仅是因为有趣、好玩,才能激发学生进行相关学习的愿望和兴趣。对于数据分析观念的培养,教师有必要替学生问一个“为什么”,问题不必明确提出,但一定要把相关信息告诉学生,引发学生强烈的认知冲突,才会产生进行数据收集、整理与分析的欲望,才会使他们认识到学习数据分析的必要性,产生兴趣,从而建立与培养其初步的数据分析观念。

以二年级上册“统计”一课的学习为例,学生首次接触“统计”的相关内容。在学生尚不真正知道与理解该词的确切含义的情况下,教材提供的课例是“统计最喜欢的动物”,以统计图形式呈现出喜欢四种动物(小猫、小狗、小兔、乌龟)的学生的人数,并提供了3道题目,但教材始终没有告诉学生,“为什么我要学习这个知识”、“为什么我要进行数据分析”。此时,对这一问题的提出与引导学生思考,只能由教师在不动声色中完成。所以,教学时,利用学生爱吃零食的特点,我调整了教学思路,首先,我征得学生同意,打算用班上卖废品的钱给学生买糖吃。此举得到学生们的一致欢迎;其次,我要求5个小组长提前去学校门口的超市,了解糖块的种类与价格,并告知其他同学;再次,我要求班委成员负责了解班上每一名同学的需求并进行分类、计算总量。每人限一块,以便于合理安排买糖的数量与花费;再次,将买来的糖带入教室,上课,进行相关的数据整理与分析;最后,完成全部教学任务后,吃糖。

当我将此想法与实际的授课过程讲给其他老师听时,有老师笑谈“孩子们学习的动力就是吃糖”。我不否认这是学生们积极参与教学活动的动力之一,因为事先我有告诉学生全部的活动过程与“完不成就不会有糖吃”的话。但不可否认的是,对于二年级的学生来说,为了达成“每个同学都能吃到自己想吃的糖”这一目标,要在活动的每一个步骤都进行相关数据的收集、整理与分析,才能正确且顺利地完成任务。简言之,等于我们告诉学生,“为什么要进行数据分析”、“只因为我们需要达成一定的目的”,并且,活动的每一步骤的数据分析都有学生亲自进行,并明确知晓这样做的原因――当然不是教师的程式化的要求,这就使得学生的数据分析工作是主动的,各成员之间是相互合作的,既使学生愉快地接受了数据分析的内容与过程,也在增强学生数据分析观念的同时,培养了学生主动学习与合作的精神。

二、挖掘数据中蕴藏的深层信息,体验数据分析的应用价值

统计教学的一个重要目标,是鼓励学生通过分析从统计图表中获取尽可能多的信息,为后续的某项工作或学习做出合理的决策。表现在教材中,数据分析观念的首次引入即是一个简单的“最喜欢的动物”的统计图,接下来的每一个问题的答案无不需要从该统计图进行寻找。这样的例子,在学生生活中也是有接触的。但是,教学过程中,也存在一个常见现象,学生通过统计图表获取的信息,多是一些最基本的、一眼即可看出的直接信息,而很少能够对图表上的数据信息进行更为深入的整理与分析,挖掘出更多有价值和有意义的信息来做出合理的决策。

数据分析范文6

[关键词] 计算机审计;数据挖掘;聚类算法;噪声数据

随着经济和信息技术的不断发展,许多企业开始引入了erp等系统,这些系统使得企业的众多活动数据可以实时记录,形成了大量有关企业经营管理的数据仓库。从这些海量数据中获取有用的审计数据是目前计算机审计的一个应用。对于审计人员来说,如何从被审计单位的海量数据中找出全面、高质量的审计数据从而找出审计证据是一个难题。本文利用数据挖掘技术对此问题进行了探讨并提出了解决的方法。

数据挖掘(data mining)指的是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取出隐藏的、不为人知的却潜在有用的信息和知识的过程[1]。事实上,实际应用数据的质量和存储模式对于实施计算机审计并成功获取审计证据非常重要。由于被审单位信息系统软硬件平台的异构性和可能存在的人为故意隐瞒、造假等,为保证计算机审计工作顺利进行和审计结论的正确,对审计数据进行采集时必须对数据进行检查、控制和分析。

1审计数据采集

审计数据采集指在开展计算机审计时从被审计单位的财务及业务信息系统及其他数据源获得审计所需的电子数据并进行适当的格式转换[3]。一般来说,计算机审计中数据采集的方法主要包括以下几种:

(1)利用被审单位信息系统的数据导出功能。大多数的信息管理系统都提供了数据导出的功能,审计人员直接可以利用该功能导出企业财务数据完成数据的采集。

(2)利用通用的数据处理软件完成数据采集。如access、sql server等都具有较强大的数据导入导出功能和数据转换功能。审计人员可以利用这些软件完成数据的采集。如被审企业原始数据为文本格式可以转换为数据库表格格式。

(3)利用审计软件完成数据采集。如国家从2002年开始建设的“金审工程”就以现场审计实施系统(ao)及审计办公系统(oa)作为计算机辅助审计的工具。别外应用国内的企业财务审计软件、审计数据采集分析软件等都可以完成审计数据的采集。

(4)利用专用程序接口完成数据采集。当被审计单位提供的审计数据的数据结构与已有的审计数据处理软件系统的数据结构差异较大时,可以在审计人员的协助下由专门的程序员开发接口程序,完成数据的采集,但成本相对较高。

2 数据清洗

利用数据挖掘对审计数据进行处理分类时,为了提高分类的准确性、高效性和可伸缩性,必须对数据库进行预处理,包括:数据的清洗、相关性分析、数据转换等。

文献[4]中给出数据清洗的定义为:发现和消除数据中的错误和不一致来提高数据的质量。一般而言,审计数据库中数据采集于异质操作数据库,不可避免存在着数据的错误或不一致等问题,如数据造假、数据重复、数据缺失等错误。根据文献[5]提出的审计数据质量特征,必须要对采集的原始数据进行清洗,即由“脏”变“干净”,提高审计数据质量,这是保证审计结论正确的关键。

数据清洗的一般过程如图2所示。

(1)数据分析:为了清洗出干净的数据,必须对数据进行详尽的分析,包括数据的格式类别等。比如采集来的财务数据的字段类型、宽度、含义等。

(2)模式转换:模式转换主要是指将源数据映射成目标数据模型,如属性的转换,字段的约束条件和数据库中各个数据集之间的映射和转换等。有时需要将多个数据表合并成一个二维表格,有时却要将一个数据表拆分成多个二维表格以便于问题的解决。

(3)数据校验:上一步的模式转换可行否,需要进行评估测试,经过反复分析、设计、计算、分析才能更好地清洗数据。否则不经过数据校验可能有些错误数据不是很明显,不能被很好地筛选出来。比如模式转换时将一个数据集分解成多个数据表的时候,造成父表的主关键字的值和子表外部关键字的值不一致,从而形成孤立记录,影响审计人员审计证据的正确性,进而影响审计结论的正确性。

(4)数据回流:用“干净”的数据替代原始数据源中的“脏”数据,避免下次数据采集时重做数据的清洗。

有时候数据的清洗需要反复进行,审计人员需要对采集到的电子数据进行多次清洗,这样才能得到高质量的审计数据。

3 数据挖掘实现

经过数据预处理后的审计数据库包含了多个数据集,每个数据集又包含了若干数据记录或者称为元组,如何从这些二维表格数据中挖掘出有意义的审计数据至关重要。本文介绍一种利用聚类算法进行审计数据挖掘的算法。

3.1 算法概述

3.1.1聚类算法

所谓聚类就是根据相似性对数据对象进行分组,发现数据的分布特征,使得每个聚类中数据有非常高的相似性而不同聚类中的数据尽可能不同[6]。它同分类的主要区别在于,分类事先知道所依据的数据特征,而聚类是要找到这个数据特征。作为数据挖掘的功能,聚类分析可以作为一个获取数据分布情况、观察每个类的特征和对特定类进行进一步独立分析的工具;聚类也能够有效处理噪声数据,比如数据库中普遍包含的孤立点、空缺或错误数据等。

聚类分析算法通常有5类[7]:①基于划分的方法,如clarans;②基于层次的方法,如cure和birch;③基于密度的方法,如dbscan、optics、gdbscan和dbrs;④基于网格的方法,如sting和wavecluster;⑤基于模型的方法,如cobweb。其中dbscan算法具有很好的过滤噪声数据的优点。本文探讨利用dbscan算法对审计数据进行处理,找出异常数据,查找出审计证据。

3.1.2 dbscan算法

dbscan算法的基本思想为[8]:对于同一个聚类中的每个对象,在给定的半径d的邻域中包含的对象不能少于某一个给定的最小数目minpts(也称密度)。

为了生存一个聚类,dbscan算法首先从数据集db中选择任意一个对象p,并查找数据集db中关于半径d的所有邻域对象,如果这个邻域对象的个数小于最小数目minpts,则p为噪声数据;否则p的邻域对象形成一个初始聚类n,n中包含对象p及p直接密度可达的所有对象。然后确定该类中的每一个对象q是否为核心对象,若是,就将q的d—邻域内尚未包含到n的所有对象追加到n中,并继续判定新追加的对象是否为核心对象,如果是,重复上述追加过程,直到这个聚类不能再扩大为止。然后dbscan算法再在数据集db中另选一个没有被标识为某个聚类或者噪声的对象,重复上面的操作,一直到数据集db中的所有对象要么被标识为某个聚类、要么被标识为噪声数据为止。

dbscan算法进行聚类的过程就是不断执行数据集查询比较的过程,最后产生的噪声数据就是通常所说的异常数据,对于帮助审计人员进行审计判断非常有效。图3表示了二维平面坐标下的噪声数据和若干聚类。

3.2数据模式定义

3.2.1项间的距离

设ri和rj是数据集db中的任意两条记录即某两个数据项,它们之间的距离定义为:

式中,ri(rix,riy),rj(rjx,rjy)表示数据集中两个项ri和rj在二维空间的坐标点,因此dij表示ri和rj在二维空间坐标的距离。如果dij大于给定的值d,则表示ri和rj不属于同一个聚类分组。

3.2.2审计数据预处理

数据挖掘时数据的选择是在二维平面上进行的,首先选择列(字段或属性),再选择行(记录或元组)。为了能够获得有效的审计证据得出正确的审计结论,有时候必须对源数据集进行数据转换。

因为各个企事业单位的规模不同,财务数据的数量级或者数量单位可能不同,为了得到更加科学可靠的聚类分析结果,需要对财务数据进行预处理,一般进行比例变换。如将x轴定义为某公司某月营业收入与利润总额的比值,将y轴定义为财务费用与净利润的比值,这样处理的数据能更好地反映该企业的实际情况。这里的财务数据预处理都是由用户来定义的,可以根据不同的审计要求和审计目的来定义。

建立一个新的二维表格数据至少包含4个属性项:记录号,x轴数据,y轴数据,标记。其中记录号保持对应源数据集db中的记录号, x坐标和y坐标即为经过比例变换后的数值,标记字段初始内容为空。

3.3算法描述及流程图

给定一个计算机审计数据集,假设具有n个元组或者记录,利用dbscan算法思想构造出l个分组(l<n),每个分组代表一个聚类。且l个分组必须满足如下条件:

(1)每个分组至少包含minpts个元组。

(2)每个分组中的任意两个元组直接的距离小于等于给定的距离d。

(3)每个元组仅属于一个分组。

图4为实现审计数据挖掘的算法(称为audbscan)的流程图。

3.4 聚类算法的实现

算法:审计数据挖掘聚类算法(audbscan)

输入:根据数据集db产生的二维表格数据

//至少含有4个字段:rec 记录号,rx x坐标数据,ry y坐标数据,rno 标记

半径d //度量密度的距离

密度minpts //簇中的数目

输出:噪声数据记录

algorithm audbscan(data,d,minpts)

for each record in data do

ifeach reccord in data is marked

output noise reccord //输出标识为噪声的数据

else

for each reccord in data is not marked noise or classer do

prand(a reccord is not marked noise or classer) //随机选取没有被标记的记录p

lfound(p,d,minpts) //找到p关于d的minpts密度可达记录

if s=recount(l)<minpts

p is marked noise

else

nfound(p,d,minpts)

each reccord in n is marked classer

for each reccord in n do

qone reccord

if q is a center record //q为核心记录

nfound(q,d)

endif

endfor

endif

endfor

endif

endfor

在audbscan算法中,利用rand()函数产生第一个随机记录p,利用found()函数产生p关于d的minpts密度可达记录。该算法最后的结果和随机产生的第一条记录相关,形成的聚类可能有不同,但得到的噪声数据一致,因此对于审计证据的查找是有效的。

4 结论

数据挖掘技术与海量数据下审计业务的有效结合是未来计算机审计的一个发展方向。本文主要介绍了审计数据的采集、数据的处理转换和数据的挖掘3个方面,并且在数据的挖掘方面采用了基于聚类的dbscan算法来快速、准确、高效地输出噪声数据。该算法中涉及的二维平面x,y轴坐标可以根据实际审计需要由审计人员加以定义,因此可以应用到各类审计实践中去。另外,可以将dbscan算法扩展到三维空间上,只要再加上一个z轴数据,当然z轴数据也应该是和x,y轴数据相关的一个比例数据,此时聚类的结果将会变成一个不规则球体,从而能够更加容易挖掘出未曾发现的知识,也更加容易发现数据间的潜在联系。

主要参考文献

[1][加]jiawei h,michelline k.数据挖掘概念与技术[m].范明,译. 北京:机械工业出版社,2004.

[2]陈伟,张金城,robin qiu.审计数据处理实验中的模拟数据生成系统[j].计算机工程,2007(19).

[3]王琦峰,胡玲玲. 基于ao的审计数据采集方法 [j].计算机系统应用,2009(3).

[4]米天胜,张金城. 面向数据的计算机审计中数据质量问题的探讨[j].审计与经济研究,2006(1).

[5]王昊,朱文明. 审计数据质量研究:从审计取证的视角 [j].南京大学学报:自然科学版,2007(1).

[6]杨磊,李建军,张志军,孙翠娟.谈数据挖掘中常用的聚类算法[j].中国成人教育,2008(4).

[7]胡彩平,秦小麟.一种改进的空间聚类算法 [j].模式识别与人工智能,2007(3).

[8][美]margaret h dunham. 数据挖掘教程 [m].郭崇慧,译.北京:清华大学出版社,2005.