数据仓库范例6篇

数据仓库

数据仓库范文1

关键词:数据仓库;传统数据库

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)20-30206-02

From Traditional Database to Data Warehouse

GAO Kang

(School of Health Technology of Jianghan University, Wuhan 430056, China)

Abstract: As a new technology derived from Database technology applied to a specific areas, Data warehouse plays an important role in the DSS. This paper describes the application background of the Data warehouse, the basic concepts and characteristics. And primary put Data warehouse compared with traditional Database, also pointed out that creating a Data warehouse can take full advantage of traditional Database.

Key words: Data warehouse; traditional Database

1 数据仓库(Data Warehouse)概述

1.1 数据仓库的应用背景

当今社会,正确及时的决策是任何机构生存和发展的重要环节。只有充分利用、发掘其现有数据才能实现更大的效益。日常的业务应用生成了大量的数据,将这些数据用于决策支持会带来显著的附加值效果。如果再加上有用的外来数据,则产生的效益进一步增强。许多机构在计算机系统中储存有大量的数据,例如一个企业购买、销售、生产过程中产生的数据及与客户相关数据等。通常这些数据都储存在许多不同的地方。数据仓库将分散在机构内各种跨平台的数据经过重新组合和加工,构成面向决策的数据集合,进而支持数据发掘、多为分析等技术和传统查询及报表功能的。企业和组织对这类应用的需求推动了数据仓库技术的发展。

1.2 数据仓库的概念及特点

不同的学者对数据仓库有不同的定义,这里我们以数据仓库之父Bill Inmon在1991年出版的《Building the Data Warehouse》一书中所提出的定义为准。数据仓库(简称DW)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

其特点即概念中所描述的四点:面向主题、集成、相对稳定和反映历史变化。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业或组织的各项数据,以及数据之间的联系;集成是指,数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是一致的全局信息;相对稳定也可以认为是一般情况下不可更新的。数据仓库的数据主要供企业或组织决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新;反映历史变化是指,数据仓库中的数据通常包含历史信息,系统记录了企业或组织从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

2 数据仓库与传统数据库的比较

2.1 差异概述

数据仓库既然是支持决策的,那么现今数据库技术已经已经日趋成熟,为什么不直接以传统数据库为基础来建立决策支持系统(DSS)呢?回答这个问题之前先了解两个概念,操作型处理和分析型处理。操作型处理(也叫事务处理),是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改。分析型处理则用于管理人员的决策分析。两者之间存在着巨大差异。

传统数据库,主要用于事务处理。最初的DSS也的确是直接建立在这种事务处理环境上的。事务处理是事务驱动的、面向应用的。它的根本任务就是及时地、安全地将当前事务所产生的记录保存下来。分析处理应用则完全不同。当以事务处理为主的联机事务处理应用(OLTP)与分析处理为主的DSS应用共存于同一个数据库系统中时,这两类处理发生了明显的冲突。直接使用事务处理环境来支持DSS是不合适的。表1给出了传统事务处理数据库与数据仓库之间的异同。

2.2 数据模型方面的差异

数据模型是数据仓库设计的精髓。关系数据库的关系数据模型已经被大家所熟知,在此不再详细说明。这种关系模型难以表达数据仓库的数据结构和语义;数据仓库需要简明的、面向主题以及便于联机数据分析的数据模式。

数据仓库一般是基于多维数据模型构建。该模型将数据看成数据立方,数据立方既描述一个语义结构由描述底层结构的实例化,由维和事实构成。维是人们观察主题的特定角度,每一个维分别用一个表来描述,称为维表,它是对维的详细描述。事实表示所关注的主题,也由表来描述,称为事实表,主要特点是包含数值数据,这些数值数据可以进行汇总以提供有关操作历史的信息。每个事实表包括一个由多个字段组成的索引,该索引由相关维表的主键组成,维表的主键也可称为维标识符。事实表一般不包含描述性的信息,维表包含描述事实表中事实记录的信息。

数据仓库的多维数据模型分为3种:星型模式、雪花模式和事实星座模式。其中星型模式最为常见,主要构成为:一个含大量而无冗余数据的事实表;多个相对含有较少数据的维表。每个维度自主组成一个维表,每个维表有一个维标识符与中心事实表发生联系,用图形描述呈星型。

如图1所示是一个销售数据仓库的星型模式。其中,有一个销售事实表,4个维表。事实表的索引是相应维表的主键,是事实表的外键。通过这种引用关系构成了多维联系。在每张维表中,除包含每个维的主键外,还需要描述该维的一些其他属性字段。

图1

雪花模式是数据仓库的又一种数据模式,是星型的延伸形式。因为维表是二维关系的一个特例,在设计维表时,可用关系数据库的规范化理论进行优化,以减少数据冗余,消除插入、删除异常,同时达到易维护和节约存储空间的目的。这样就有可能把某个维表的数据分解到多个不同的表中,而使模式表现为类似于雪花的形状。如图2即是在图1基础上演变而来的雪花模型。

由于雪花模式的某个维的数据分布在其他表中,查询时需要多表连接,给系统带来时间上的开销而降低性能。在这两种结构之间的选择取决于数据的规模和性质,以及在线分析处理的工作负荷。通常,星型模式需要更多的存储容量,但是处理起来更快;雪花模式更慢,但是占用较少的存储空间。

事实星座模式是指存在多个事实表,而这些事实表共享某些维表,也称星系模式,因并不常用在此不进行详述。

3 生成数据仓库过程可充分利用传统数据库

以上已经给出了数据仓库的概念和与传统数据库的主要区别,但并不是说数据仓库和传统数据库是完全割裂的。数据仓库、OLAP和数据挖掘(DM)一体才能够实现一个可行的DSS,数据仓库用于数据的存储和组织,OLAP集中于数据的分析,DM则致力于知识的自动发现。显然数据仓库在本质上和传统数据库是一样的都是用来存储数据的。

数据仓库的作用是存储从工作数据中节选的数据,并进行合并、聚集、变换等操作,通过一些为了分析和决策而设计的工具(如OLAP),使其对用户有用。这些数据可以是从数据库和文件中节选的,还可以是图像、录音、照片和其他数据。传统数据库中数据多以细节为主,可以作为数据仓库中粒度较小那一部分数据的来源。从数据仓库数据模型来看,也是以传统数据库表为基础生成的,传统数据库表通过规范化来消除表修改异常,在数据仓库中同样采用此方法来规范化维表,比如星型模型向雪花模型的转变。只是在表结构方面有所不同。我们在生成数据仓库时,应本着面向主题的原则,充分利用传统数据库数据,对有用数据进行抽取,将分散数据进行综合。完全可以做到对传统数据库数据的充分利用。

4 结束语

长期以来随着数据库技术的发展,积累了大量的数据,并且规模还在迅速的增加和扩大,现阶段急需采用新的数据库技术从日益庞大的数据库中提取出有用信息。数据仓库的出现和发展,就是计算机和数据库技术应用到一定阶段的必然产物。现在数据仓库技术研究仍处于起步阶段,其复杂性还需要大家进行深入研究。

参考文献:

[1] 萨师煊,王珊. 数据库系统概论(第3版)[M]. 高等教育出版社,2000.

[2] 王林. 数据库系统原理与应用技术基础[M]. 北京希望电子出版社,2003.

数据仓库范文2

一、高校财务数据仓库设计

高校财务数据仓库的设计大体分为概念模型设计、逻辑模型设计、物理模型设计和数据仓库的生成四个步骤,其中概念模型设计主要界定系统边界和确定主要的主题域及其内容;逻辑模型设计描述了数据仓库主题的逻辑实现;物理模型设计是逻辑模型在数据仓库中的实现;数据仓库的生成的工作是接口编程和数据装人。高校财务数据仓库的系统架构如图1所示。

(一)数据仓库概念模型设计进行数据仓库的概念模型设计要完成的主要工作有:(1)需求分析。对于数据仓库而言,在设计时必须根据需求分析划定一个大致的系统边界。高校财务数据仓库设计的需求分析为:学生学费收取趋势;教师工资发放趋势;各系部财政收支趋势;高校各种项目状况。所要求的操作数据库的数据有:学生缴费情况数据、各系部财政收支数据、各种项目状况数据和教师工资发放数据。(2)系统主题域及其内容确定。根据以上需求分析,可以确定高校财务数据仓库的3个主题:资金、职工和资产,如图2所示,

(二)数据仓库逻辑模型设计在财务数据仓库中已经确定资金、职工和资产作为主题域,其中资金作为核心主题进行设计,职工主题和资产主题作为辅助主题,通过对财务数据的分析,给出相应主题的分析结果。数据仓库的逻辑模型设计描述了数据仓库的主题的逻辑实现,即每个主题对应的关系表的关系模式的定义。数据仓库的基本架构包括星型架构、雪花型架构和星型雪花型组合式架构,本文的多维逻辑模型选用星型架构,构建星型架构主要完成的工作是进行事实表的设计和维表的设计。(1)事实表的设计。在财务数据仓库的逻辑结构中每个主题域都是由一组相关的数据表来进行具体设计的,这些表之间依靠公共码键联系在一起,形成一个完整的主题。在该系统中,可以建立事实表。职工主题的事实表有:职工信息表,职工培训表,职工所属部门表,进修项目表;资金预算主题的事实表有:预算事实表,预算时间维表,预算名称维表,预算机构维,预算版本维,预算表维。资产主题的事实表有:资产名称维表,资产时间维表,资产类型维表,资产所属部门维表,资产计划维表。(2)维表的设计。为了将数据按照内在的逻辑关系有序的存放在事实表中,应该提供所描述对象的详细属性。在数据仓库中,事实表是核心部分,也是所有表中所占体积最大,为了保证数据仓库查询、备份和还原等操作的效率,减少进行这些操作的时间,可以将历史数据归档到相应的独立的事实表中,从而有效控制事实表的大小。

(三)数据仓库物理模型设计一是财务数据仓库的物理模型是逻辑模型在财务数据仓库中的实现,是在充分了解财务数据仓库系统的基础上,分析其存储结构、存取方法、数据环境、数据的使用频度、使用方式、数据规模和响应时间等参数,实现财务数据仓库的物理模型组建。二是高校财务数据仓库的实现,高校财务数据仓库的实现过程如图3所示。

二、高校财务数据仓库系统实现的软件开发平台

在数据仓库的实现过程中,存在几种典型的解决方案。

(一)系统软件开发平台OLAP技术,OIAP是数据仓库的主要应用,它的分析结果能够显示出适合不同需求的图表和报表;数据库技术,使用SQL Server 2005的数据库管理工具组建财务数据库;使用SOLServer2005Analysis Services(sSAS)构建数据立方,即多维数据集;使用SQLServer2005 Integration Services(sSIS)从各种异构数据源中整合创建财务数据仓库所需要的数据,即ETL过程。

(二)接口设计目前,数据仓库的接口技术很多,如、ASP、JSP、PHP等,本文选用的接口技术实现下列的功能:菜单式、问答式和图形式访问;具备输入响应模块、输出模块、人机对话管理模块。

(三)数据采集数据的采集(即ETL过程)是进行数据的抽取、转换、清洗和装载的过程,它从分散的业务系统电将操作层面的数据加载到数据仓库中,完成数据从数据源向目标数据仓库的转化。其主要工作有:识别数据源的相关信息,并使数据源序化;管理元数据;对来自不同数据源的数据定制和集成为统一的格式;根据数据库和业务的规则,清理抽取后的结果数据集;粒度划分;数据分割;定期更新和维护数据。

本文提出了一套高校财务数据仓库的解决方案,论述了在财务系统中创建数据仓库的体系结构、设计模型和实现过程。数据仓库的实现是一个循序渐进的过程,并且也会随着客户需求的变动对功能进行调整,由于用户需求是无止境的,所以高校财务数据仓库的建设也是无止境。

参考文献:

[1]李海涛:《浅谈数据仓库与数据挖掘》,《井冈山医专学报》2006年第13期。

[2]孙林等:《财务数据仓库系统的分析与实现》,《河南师范大学学报》(自然科学版)2000年第28期。

[3]王俊洁、王俊鑫、黄青松:《基于数据仓库的毕业生就业预测系统设计和实现》,《楚雄师范学院学报》2009年第24期。

数据仓库范文3

数据已成为企业的重要资产,竞争的成败逐渐取决于数据的处理与运用。谁拥有了数据,谁就拥有了未来。实现数据大集中后,农信社的信息系统不断整合集中,积累了大量数据。如何对数据进行深层次挖掘,科学地对信息进行系统分析和评价,推动农信社向决策科学化方向迈进,成为各级农信社关注的焦点。

ODS与EDW两种数据平台的对比

一般来说,操作数据存储(ODS)对多个业务系统数据进行物理存储,采用贴源方式进行建模,不保留或保留短期历史,支持不依赖整合、不涉及历史数据处理、时效性较高的应用;数据仓库(EDW)则按主题组织数据,采用三范式(3NF)建模,对数据进行深度整合,保留明细数据的长期历史,支持跨部门、跨条线、跨应用系统的企业级综合分析和深度历史挖掘。

ODS问题解决方案

随着农信社各项业务的快速发展,业务数据呈现急剧增长的趋势。为了充分、深入地利用海量数据,各家银行无一例外地建设了数据仓库。农信社建设数据仓库既有业务发展、风险管理和银行化改革的业务要求,也有优化信息系统架构、数据治理、提升信息系统整体运作效率的技术要求。

管理视角。商业银行已从“渠道为王”时代步入“数据为王”时代。数据对企业的价值不言而喻,各家银行也都在考虑建设数据仓库甚至大数据系统来保存管理数据,进一步提升数据处理和分析能力,以期为业务经营和管理决策带来帮助。

业务视角。ODS的定位决定了它只是一个轻量级的数据平台,不保留历史数据以及不进行数据深度整合。然而,业务分析、风险管理、管理决策却恰恰需要使用历史数据进行同比分析、行为研究、趋势预测、决策支持。这就要求我们建设一个保留长期历史数据、对数据进行深度整合、具有较高数据处理能力的重量级数据平台――数据仓库。

技术视角。根据经验,随着管理分析系统建设步伐的加快,ODS系统将会逐步暴露出效率降低、数据不准确、标准化程度低、保存期限短等诸多问题,这些问题的解决方案有三种,三种方案的特点如表2所示。

方案一实际上是把ODS改造成了数据仓库。但该方案对规模较大的省级农信社来说存在较大实施风险和单点风险。对省级农信社来说,更稳妥可行的方案是适度优化ODS,重点解决效率和数据质量问题,用以支撑时效性较高的应用系统;同时建设数据仓库系统以全面支撑管理分析系统。

农信社建设数据仓库的应用价值

数据仓库作为基础的技术和数据平台,是企业信息科技规划的重要组成部分。建设数据仓库的业务价值必须借助其所具备的报表查询、专题应用、数据挖掘、决策支持等去体现,其技术价值更多体现在信息系统架构优化、数据治理、提升信息系统效率等方面。(见表3)

农信社数据仓库建设实施重点

技术选型。数据仓库选型主要包括技术平台和逻辑模型两个部分。开放平台和一体机各有优势和劣势,两者初期投资差不了太多,但一体机技术封闭,后期易被厂商锁定,维护、升级、换代的费用较高。农信社应根据各自规模、需求、投资预算及系统运维能力慎重选择。

应用推广。数据仓库提供了一个数据仓储环境,它的业务价值要通过其应用系统体现出来。建设数据仓库不是最终目的,更重要的是要基于数据仓库开发和优化应用系统来提升管理决策水平。然而,数据仓库的建设以及我们对数据仓库的认知是随着实践逐步加深的。经验表明,数据仓库的应用水平主要受制于最终用户的业务分析能力,技术手段的发展水平尚在其次。我们只有从基础做起,一步一个台阶,脚踏实地,务实探索,才能早日实现真正的数据挖掘和决策支持。

数据仓库范文4

关键词:地理信息系统;空间数据仓库;数据仓库;认知过程

0引言

进入21世纪后,对空间数据仓库的研究方兴未艾,在许多次的国际学术会议上都有相关[1~3]。例如在泰国召开的ISPRS第三届动态与多维GIS会议暨CPGIS第十届地理信息年会、北京召开的第20届国际制图协会国际学术会议、南非召开的第21届国际制图协会国际学术会议等。还有一些ESRI公司的白皮书、全球性用户大会、SSD国际会议、数字地球国际会议、GIS国际会议等也开始讨论空间数据仓库问题[4~8]。将空间数据仓库技术引入到我国大概是20世纪90年代末,文献[9~14]的发表开创了我国空间数据仓库理论与技术研究的新局面,此后又陆续出现了一些这方面的论文。

总体说来,上述工作对空间数据仓库的理论和方法进行了初步研究,在概念、原理、结构、操作与算法等方面进行了初步论述,已取得了卓有成效的成绩。但是到目前为止,空间数据仓库的概念框架和认知过程等方面还是缺乏系统的论述,没有形成一套比较完整的空间数据仓库概念框架体系和认知过程体系。

1概念框架

空间数据仓库是GIS技术和数据仓库技术相结合的产物,其定义很多,但中心思想包含三方面内容:①空间数据仓库是在网络环境下,实现对异地、异质、异构不同源数据库中地理空间数据、专题数据及时间数据的统

一、整合、集成处理,形成用户获取数据的共享操作模式;②空间数据仓库可根据需求对这些数据再进行测绘专业处理,提供多种空间数据产品,满足用户更高层次——对数据产品的需求;③基于空间数据产品,空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析,提供综合的、多维的、面向分析的空间辅助决策支持信息,满足用户空间决策分析的需求。

空间数据仓库的概念框架分为外部结构、内部结构。外部结构主要描述空间数据仓库与外部系统的关系;内部结构主要描述空间数据仓库的内部功能模块组成。

1.1外部结构

数据库系统处于空间数据仓库系统的最底层,管理着若干种不同的地理空间数据库和专题数据库,它们各自独立,形成了各式各样的异地异质异构的数据库系统,它们主要为空间数据仓库提供数据源。应用系统处于空间数据仓库系统的最上层,它通过一个标准的接口从空间数据仓库中提取地理空间数据、空间数据产品和空间辅助决策分析信息,为应用系统服务。其具体外部结构如图1所示。

1.2内部结构

空间数据仓库的内部组成应由八个独立功能模块构成,分层次实现空间数据仓库系统。其中,第一层次的功能模块是空间数据仓库的基础处理模块,由多源空间数据抽取、多源空间数据整合、多源空间数据统

一、空间数据仓库元数据组成;第二层次的功能模块是空间数据仓库的服务模块,由空间数据产品服务、空间数据立方体分析、空间数据挖掘分析组成;第三层次的功能模块是空间数据仓库的对外数据接口模块,由对外数据交换格式组成。第一层次的功能模块为第二层次的功能模块服务,第二层次的功能模块为第三层次的功能模块服务。其具体内部结构图如图2所示。

当应用系统提出需求时:①多源空间数据抽取功能模块从各源数据库系统中抽取出相应地理范围(矩形、多边形、椭圆)的不同种类的地理空间数据、专题数据;②多源空间数据整合功能模块对这些由图幅范围组织的地理空间数据进行相应地理范围的裁剪、拼接、接边、图形编辑、拓扑重组等整合处理,形成裁剪拼接和接边好的、具有完整拓扑关系的、物理上无缝的、按区域范围组织的地理空间数据;③多源空间数据统一功能模块对这些整合处理好的地理空间数据进行数学基础、数据编码、数据格式、数据精度等方面的统一处理,形成能相互叠加的地理空间数据;④将经抽取、整合、统一处理好的地理空间数据提交给空间数据产品服务功能模块,经过集成、融合、派生和关联等测绘专业算法处理,生成应用系统所需的各种空间数据产品;⑤基于已生成的空间数据产品,进行空间数据立方体分析和空间数据挖掘分析,得到面向空间辅助决策分析的结果;⑥将这些空间数据产品和空间辅助决策分析结果,以对外数据交换格式的形式提交给应用系统使用。

2认知过程

2.1认知过程概念图

空间数据仓库是描述地理现象的一个重要分支,其认知过程应与地理空间信息的认知过程基本一致,不同之处在于其描述的内容和范围大小的区别。因此,建立空间数据仓库的认知过程,实际上是要经过一个地理现象认识、抽象、组织、分析和应用的过程。其具体的认知过程概念框图如图3所示。

2.2认知过程描述

这14个世界模型和13个转换算子的组合构成了三个层次世界,即实体世界、目标世界和产品世界。其中,现实世界、地理现实世界、地理工程现实世界和地理工程概念世界这四个世界模型,以及命名、选择、抽象这三个转换算子,共同构成实体世界;地理工程尺度世界、地理要素分类世界、地理要素编码世界、地理要素几何世界和地理要素集合世界这五个世界模型,以及度量、分层、编码、测量和聚集这五个转换算子,共同构成目标世界;地理空间抽取世界、地理空间整合世界、地理空间统一世界、地理空间产品世界、地理空间决策世界这五个世界模型,以及提取、处理、变换、计算、分析这五个转换算子,共同构成产品世界。

数据库概念设计阶段、地理空间数据库实现阶段和空间数据仓库实现阶段构成了空间数据仓库系统实现过程的三个阶段,这三个阶段分别对应着三个层次世界,即实体世界、目标世界和产品世界。其中,前两个阶段是为地理空间数据库的建立服务的,由它们实现实体世界向目标世界的转换;后一个阶段是为空间数据仓库的建立服务的,由它们实现目标世界向产品世界的转换。

由此可见,空间数据仓库的认知过程主要就是这14个世界模型通过这13个转换算子的转换实现三个层次世界的过程。这个认知过程指导了空间数据仓库的实现。

3认知的概念定义

3.1世界模型

实际上,这些世界模型主要是依靠具体的实体模型或数据模型描述来实现的。每个世界模型均有其描述的地理空间对象,因此这些世界模型描述的内容大不相同,必须定义出这些世界模型。

3.1.1现实世界模型

现实世界中,人们能看到一系列物质和现象,对于这些物质和现象,不管是否能叫上名字,它们都是客观存在的,并且相互之间通过它们的关系组成了自然界的千差万别。由此可见,能将现实世界中所有物质和现象集合以及它们之间的相互关系用一定的形式进行描述就是现实世界模型。

现实世界的物质和现象集合中,隐含着许多不同的地理现象类,如地质、矿产、石油、自然地理等地理现象类。地理现象类是现实世界的一个子集。由此可见,能将现实世界中所有地理现象类集合以及它们之间的相互关系用一定的形式进行描述就是地理现实世界模型。

本文原文

3.1.3地理工程现实世界模型

地理现实世界的地理现象类集合中,特指一个或若干个地理现象就是地理工程现实世界,如自然地理等。地理工程现实世界是地理现实世界的一个子集。由此可见,能将地理现实世界指的地理现象以及它们之间的相互关系用一定的形式进行描述就是地理工程现实世界模型。

3.1.4地理工程概念世界模型

要用计算机来描述地理工程现实世界中的地理现象,就必须对它们进行抽象描述,形成地理现象在人们头脑中的反映,生成概念模型。由此可见,能将地理工程现实世界指的地理现象以及它们的内部关系用一定的形式进行抽象的概念描述就是地理工程概念世界模型。

3.1.5地理工程尺度世界模型

将地理现象抽象成概念模型,仅有这些还远远不够,因为现实世界中的所有地理现象均是有度量的,所以用计算机描述这些地理现象时,也必须是可度量的。度量主要包括描述地理现象的欧几里德几何坐标系和数学单位尺度。由此可见,对地理工程概念世界中的抽象地理现象进行欧几里德几何坐标系和数学单位尺度描述就是地理工程尺度世界模型。3.1.6地理要素分类世界模型

按照GIS理论,概念中的地理现象最终都是通过多种地理要素来表达的,因此如何对地理要素进行合理的设计和划分就显得十分重要。根据ARC/INFO的分层理论,只有将这些地理要素进行分类分级,才能高效地处理它们。由此可见,对地理工程尺度世界中具有尺度度量的地理现象进行地理要素的分类分级描述就是地理要素分类世界模型。

3.1.7地理要素编码世界模型

要使计算机能识别和处理地理要素,就必须给这些地理要素进行分类分级编码,即用一串数字来表示它们,该分类分级编码就成为该地理要素在计算机中的唯一标志符,以便计算机能识别和处理。由此可见,对地理要素分类世界中具有明确分类分级定义的地理要素进行分类分级编码描述就是地理要素编码世界模型。

3.1.8地理要素几何世界模型

为了便于计算机的存储和管理,必须将地理要素细分为几何目标。地理要素几何目标包括基本目标和复合目标。基本目标按地理要素的空间特征划分为点状目标、线状目标、面状目标、体状目标和表面状目标等五种;复合目标由基本目标集合嵌套构成。由此可见,对地理要素编码世界中具有明确分类分级编码的地理要素进行几何目标的划分和描述就是地理要素几何世界模型。

3.1.9地理要素集合世界模型

因为地理要素在一定的条件下由相同或不同的点、线、面、表面和体等五类空间目标组合而成,所以在实际使用中,必须通过计算机系统把数据库中存储的基本目标、复合目标还原成地理要素。由此可见,对地理要素几何世界中具有基本目标、复合目标描述的地理要素进行数据库的几何目标集合操作就是地理要素集合世界模型。

定义9地理要素集合世界模型。设Con中地理要素点状目标、线状目标、面状目标、体状目标、表面目标集合分别表示为Po、Lo、Ao、To、So,Atr为地理要素的某一地理特征集合,则地理要素集合世界模型为Ent={e|(Po,Lo,Ao,To,So)∈Atr}。

3.1.10地理空间抽取世界模型

地理空间抽取的主要功能就是从源数据库中按地理区域范围(矩形、椭圆、多边形等)抽取出满足一定条件的不同种类的地理空间数据。由此可见,对地理要素集合世界中的地理空间数据按一定地理区域范围和地理特征进行抽取的操作描述就是地理空间抽取世界模型。

3.1.11地理空间整合世界模型

数据库中存储的地理空间数据是以图幅为单位组织的,但应用系统使用数据是无图幅概念的,是以地理区域范围为组织的。由此可见,对地理空间抽取世界中抽取出的地理空间数据进行图形裁剪、图形拼接、图形接边、图形编辑和拓扑重组等整合处理,形成以地理区域范围为组织的无缝数据集合操作就是地理空间整合世界模型。定义11地理空间整合世界模型。设Con中图形裁剪、图形拼接、图形编辑、图形接边、拓扑重组功能分别表示为Cut、Stitch、Meet、Edit和Topology,整合功能集合表示为Fun={Cut,Stitch,Meet,Edit,Topology},则地理空间整合世界模型Pro={e|(e∈Ext,e∈Fun)}。

3.1.12地理空间统一世界模型

实现地理空间数据整合后,必须对来自不同源数据库中的地理空间数据进行统一,因为地理空间数据存在着差异。这些差异表现在如下方面,即数学基础差异、数据编码差异和数据格式差异、数据精度差异。由此可见,对地理空间整合世界中的地理空间数据进行数学基础、数据编码、数据格式、数据精度的统一操作和描述就是地理空间统一世界模型。

3.1.13地理空间产品世界模型

随着应用的深入,单纯的地理空间数据已越来越不能满足用户的需求,用户更加希望使用的是经过测绘专业处理的、经过二次加工处理的地理空间数据产品,后者在实际中具有更大的应用价值。由此可见,对地理空间统一世界中的地理空间数据进行测绘专业处理生成空间数据产品的操作就是地理空间产品世界模型。

定义13地理空间产品世界模型。设Con中单

一、集成、融合、派生和关联的功能分别表示为Single、Integrate、Fuse、Derive和Relate,测绘专业处理算法集合为Fru={Single,Integrate,Fuse,Derive,Relate},则地理空间产品世界模型Pdu={e|(e∈Uni,e∈Fru}。

3.1.14地理空间决策世界模型

建立空间数据仓库的最终目的是为空间决策支持服务,为用户提供大量的具有空间决策支持的信息,这可通过空间数据仓库中的空间数据立方体分析和空间数据挖掘分析来实现。由此可见,对地理空间产品世界中的空间数据产品进行空间数据立方体分析和空间数据挖掘分析,生成空间决策支持信息的操作和描述就是地理空间决策世界模型。

定义14地理空间决策世界模型。设Con中的空间数据立方体分析和空间数据挖掘分析分别表示为Scube、Smine,空间决策分析算法集合为Sdss={Scube,Smine},则地理空间决策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。

3.2转换算子

在空间数据仓库的认知过程中,14个世界模型的变换离不开13个转换算子,即命名、选择、抽象、度量、分层、编码、测量、聚集、提取、处理、变换、计算和分析,由它们实现每两个世界模型的转换。这些转换算子主要是依靠元数据来实现的,因为每个世界模型均有描述它的元数据,要实现两个世界模型的转换,通晓这两个世界的元数据是转换的前提。虽然这些转换算子的具体定义不同,但它们都是实现每两个世界模型的转换,从数学的定义上说就是由某个世界模型通过函数转换到另一个世界模型上,因此这些转换算子的宏观数学定义是一致的。

4结束语

目前,空间数据仓库理论和技术研究才刚刚起步,其目标是支持数字地球发展、空间数据集成、空间决策支持发展的需求。因此应该抓住这个千载难逢的好机会,将我国的空间数据仓库研究与建立迈上一个新台阶,以支持我国的空间数据基础设施建设。本文对空间数据仓库的概念框架和认知过程体系进行了一定程度的技术探讨,希望能起到抛砖引玉的作用。

参考文献:

[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.

[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.

[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.

[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).Esri/com/base/compay/opengis.

[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).Esri/com/base/compay/opengis.

[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.

[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.

[9]赵霈生,杨崇俊.空间数据仓库的技术与实践[J].遥感学报,2000,4(2):157-160.

[10]李琦,杨超伟.空间数据仓库及其构建策略[J].中国图像图形学报,1999,4(11):984-990.

[11]杨群,闾国年,陈钟明.地理信息数据仓库的技术研究[J].中国图像图形学报,1999,4(8):621-626.

[12]周炎坤,李满春.大型空间数据仓库初探[J].测绘通报,2000,22(8):22-23.

数据仓库范文5

关键词:数据仓库;数据处理;数据清洗和转换

中图分类号:TP399文献标识码:B文章编号:1009-3044(2008)36-2566-02

The Technology Research on Data Processing in Data Warehouse Developing

YU Xiao-ping, LIU Li-ya, XIAO Jing

(Collage of Computer Science and Technology, Shihezi University, Shihezi 832003, China)

Abstract: Building a data warehouse is a huge project and data processing is a important step in it. The article interpret the occurred problems and its resolve methods from some aspects such as data collection、data cleaning、data transformation and data quality check in data processing. The system has been realized in bank business.

Key words: data warehouse; data processing; data cleaning and transformation

1 引言

在当今快节奏的、以信息为基础的经济社会中,企业必须整合大量不同的异构数据源来支持其战略决策,比如商业智能或企业绩效管理。总体数据管理、数据仓库和数据集市是实施这种战略的基础。建立一个企业级的数据仓库(data warehouse)是一项巨大的工程,其中数据处理又占据其中50%-70%的工作量。数据处理包含很多方面:一是从多种数据源综合数据仓库所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性;另一方面就是如何从现有数据中衍生出所需要的指标。

数据的抽取(Extract)、转换(Transform)和加载(Load)即ETL实施是数据处理的主要手段。ETL功能改造了源系统中的相关数据,将它们变成有用的信息存储在数据仓库中,是提供数据仓库信息内容的前期工作。如果没有对源数据进行正确的抽取、清洗和用正确的格式进行整合,作为数据仓库中枢功能的查询处理,就不能进行。

2 数据仓库概述

2.1 数据仓库的基本概念

数据仓库(data warehouse)经过数十年的发展,人们对它的认识也逐步深入。数据仓库的创始人W.H.Inmon给数据仓库的定义是:数据仓库是一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。从数据仓库的功能角度来看,将其定义为:数据仓库是指企业中可查询的数据源;数据仓库是一种信息环境。根据数据仓库的应用,数据仓库可以分为:

数据仓库将分散的日常操作数据加工处理、集成、综合后,形成归纳总结数据乃至专业分析数据,从而成为历史性详细数据。

2.2 数据仓库建设中的关键问题

数据仓库的结构如图1所示。

数据仓库从多种数据源中提取数据,经过数据抽取、清洗、转换等过程加载到数据仓库系统中输出供企业中各种不同层次的人员使用:普通用户,使用查询和报表功能;高级用户,使用多维展现的在线分析功能( OLAP);专家级用户,使用数据挖掘功能做决策分析。

数据仓库中的数据源来自于多个数据库子系统。这些数据库子系统是面向不同应用建立的,彼此独立。由于各种原因如数据输入错误、不同来源数据引起的不同表示方法、数据间的不一致、数据的不完整、NULL值等导致数据仓库中的数据不可避免地在数据的名称、类型、描述、关联、取值等方面出现问题,从而扭曲其获得的信息,影响信息系统的运行效果,也为企业建立数据仓库、建立决策支持系统、应用商务智能化带来隐患。因此数据处理就成为数据仓库建设中的关键。

3 数据处理的步骤

3.1 数据获取

根据数据仓库的主题确定哪些关联数据源是分析的对象,这些数据源不仅包含企业中业务数据库系统中的数据,还包括来自企业外部的数据,比如同业其他单位的信息、监管部门的信息、统计数据等。把这些数据源按照业务处理系统、业务管理系统、外部资源等等分类,同时也按照数据仓库的主题进行分类,确定外部数据的实体、关系和属性,形成数据采集文档,构成数据仓库系统的原始数据集。

3.2 数据清洗

图1数据仓库的体系结构

3.2.1 数据清洗原因

数据清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,通过试抽取,将有问题的记录先剔除出来,根据实际情况调整相应的清洗操作。主要问题如下

1)数据不完整:需提取字段的属性缺值,或者只含有不可用的聚合数值;

2)数据不一致:字段编码或名称不一致,比如,定期存款表、活期存款表、内部账、贷款表中对账户状态的定义各不相同,数据汇总的时候就会出错;再比如,age=‘42’,而birthday = 03/07/1997;

3)数据冗余:所谓冗余信息,就是指不同关系表中存在的同一含义的字段,而同一含义不仅指这些字段的取得或计算方式一样,还指它们成立的条件一样,例如截止某一时间同一地区的同一贷种的贷款余额。在OLTP系统中,这样的字段往往是基于性能考虑而设计的,而在面向分析设计模型时,为了保证结果的唯一性和准确性,就必须用且只用其中之一的数据产生分析结果;

4)其他错误:比如2005/05/09销户的账户,2005/05/15居然又发生一笔交易,2005/04/30日的数据记录中有2005/05开户的数据记录,这种错误会给数据统计带来麻烦。

3.2.2数据清洗原则

1)不完整数据清洗:首先检测出数据源中的不完整数据(主要是看数据仓库开发中感兴趣的字段值是否丢失或为缺省值),然后判断数据的可用性,根据一条记录的不完整程度和其他因素来决定这条记录是保留还是删除。最后推断丢失属性的值,人工补上或用自动的方法用常量或平均值或最可能的值补上;

2)改正不一致的数据,统一不同数据源或不同数据库表中的同一个实体;

3)由于多个数据源的整合而产生的冗余数据可以在数据转换阶段解决;

4)出现在数据仓库维中的字段以维表属性为依据清洗。

3.3 数据转换

数据转换包括数据格式转换、数据类型转换、数据汇总计算、数据拼接等等,也是保证数据准确性的重要一环。

3.3.1 数据转换的原则

1)建立源数据和目标数据的映射关系;

2)建立数据提取规则参数表,确定提取的源表;

3)制定数据抽取的方式:全量数据抽取还是增量数据抽取;

3.3.2 数据转换注意事项

1)数据仓库系统中各字段最好重新命名,体现数据的一致性。比如日期问题,不同的含义就要起不同的名称,如状态变动日期、余额变动日期等;

2)数据转换过程本质上就是数据映射过程。正确的取数建立在对业务数据库系统设计的准确理解及对企业业务的清晰了解基础上。

比如数据仓库中有“贷款余额”字段,贷款业务数据库中“贷款本金信息表”,“本金异动表”和“放款主表”中都有“贷款余额”字段,究竟从哪个表中取值?如果这几张表中这个字段的含义是相同的,那么取哪个都不会出错。实际情况中往往是不同的。“贷款本金信息表”是每账户一笔纪录,只保存最新的余额值;“本金异动表”是每账户每变动日期每变动时间一条记录,保留变动的历史轨迹;“放款主表”中也是每账户一条记录,但是信息很多,数据量巨大,扫描一遍的时间长。究竟从哪个表中取数要看数据仓库设计中此字段的具体含义;

另外,若某个字段值可以从业务系统的多个数据库表中提取,那么提取的规则是看这几张表中哪个表的数据记录是最完备的就从中提取。比如存款业务的主档表包含所有的存款账户,而明细档表只包含发生交易的账户,也许有账户长期以来就没有交易,统计账户数量或者账户余额时从主档表中取出的数据才是齐全的。操作时可以根据业务源系统的类别及数据库表之间的关系选定一个取数的优先级。

总之,当数据仓库中同一表中的数据来自于源系统中不同的表,甚至不同的库时,抽取时务必保证这些数据单位一致,而且都满足同一时间条件。

3)数据仓库中有些字段的值是由源系统综合后得到的。比如:定期存款科目 = 存款种类+存期;贷款科目=贷款种类+账户状态等;

4)数据量不大就采用全量数据抽取方式以简化数据处理过程。否则就采用增量数据抽取方式。

数据转换成功执行的前提条件是对操作型业务数据库系统的充分理解。

3.4 数据质量评估

1)数据量评估:确定数据量,包括历史数据和增量数据的数据量;

2)数据完整性评估:验证数据库实体的每个属性都有明确的值,不存在“空”或“未知”的属性;

3)数据准确性评估:数据库中的实体应和现实世界中的实体一致,找出造成差异的原因和设计改进的方法,使数据的准确性达到允许的范围之内;

4)数据有效性评估:根据业务系统中规则,评估系统中非法数据的数量和情况,并设计改进的方法;

以上对数据的评估需要在数据源和数据仓库两方面进行并写出数据源评估的报告和数据仓库数据评估的报告。各个阶段形成的文档资料构成数据仓库元数据的一部分。

4 结束语

结合实际项目,总结概括了数据仓库建设中数据处理的几个方面。对企业的信息化建设具有积极的指导意义。

参考文献:

[1] Kimball R.数据仓库工具箱:维度建模的完全指南[M].2版.北京:电子工业出版社,2003.

[2] Inmon W H.数据仓库[M].北京:机械工业出版社,2003.

[3] Fan W G, Lu H J, Stuart E, et al. Discovering and reconciling value conflicts for numerical data integration[J]. Information Systems,2001(26):635-656.

[4] 杨俊生.数据驱动方式下的数据源分析[J].中国金融电脑,2004,(5):41-43.

数据仓库范文6

【关键词】数据仓库 数据挖掘 技术 应用

信息时代背景下,传统数据库主要是面向事务并存储在线交易的数据信息,但是无法为人们找到信息中隐藏的重要内容。因此社会发展新形势下,数据仓库与挖掘技术应运而生,并成为企业现代化发展的重要应用技术,不仅能够提高数据信息管理能力,还能够促进企业发展。因此加强对该课题的研究具有积极意义。

1 数据仓库及数据挖掘技术概念

所谓数据仓库技术设计灵感来自于传统数据库技术,其主要是在计算机中实现数据存储的一种技术。但是相比较传统数据库,二者存在本质上的差别。数据仓库的出现并未取代传统数据库,二者共存在信息时代,且发挥自身独特的优势。数据库主要存储在线交易数据,且尽量避免冗余,通常采取符合范式规则设计;而数据仓库在设计过程中有意引入冗余,采取反范式方式实现设计目标。

而数据挖掘技术是在数据集合基础之上,从中抽取隐藏在数据当中的有用信息的非平凡过程。这些信息表现形式呈现多样化,如概念、规则等。它在具体应用过程中,不仅能够帮助决策者分析历史与当前数据信息,还具有预见作用。就本质上来看,数据挖掘过程也是知识发现的过程。数据挖掘技术是多个学科综合的结果,对此其融合了多项技术功能,如聚类、分类及预测等,且这些功能并非独立存在,而是存在相互依存关系。

2 数据仓库与挖掘技术的应用

2.1 数据仓库技术的应用

作为信息提供平台,其从业务处理系统中获得数据,并以星型与雪花模型实现对数据的有效组织。一般情况下,它具体应用主要表现在四个方面:

2.1.1 抽取数据信息

数据仓库具有独立性,在应用中需要从事务处理系统、外部数据源等介质当中获取数据,并设置定时抽取,但需要合理控制操作时间、顺序等,以提高数据信息有效性。

2.1.2 存储和管理数据

作为数据仓库的关键,数据存储及管理模式直接决定其自身特性。因此该方面工作需要从技术特点入手,并积极解决对各项业务并行处理、查询优化等问题。

2.1.3 表现数据

数据表现作为数据仓库的开端,集中在多位分析、数理统计等多个方面。其中多维分析是数据仓库的核心,也是具体表现形式,而通过数据统计能够帮助企业抓住机遇,实现经济效益最大化目标。

2.1.4 技术咨询

数据仓库的出现及应用并不简单,其是一个系统性的解决方案和工程。实施数据仓库时,技术咨询服务十分重要,是一个必不可少的部分,对此在应用中,应加强对技术咨询的关注力度。

2.2 数据挖掘技术在各领域中的应用

不同于传统时代,社会各领域在参与激烈的市场竞争过程中,充分认识到数据对自身长远发展战略实现的重要性。因此数据挖掘技术在当前各行业发展中随处可见。

2.2.1 应用于医学方面,提高诊断准确率

众所周知,人体奥秘无穷无尽,遗传密码、人类疾病等方面都蕴含了海量数据信息。而传统研究模式,单纯依靠人工无法真正探索真正的秘密。而利用数据挖掘技术能够有效解决这些问题,给医疗工作者带来了极大的便利。同时,医疗体制改革背景下,医院内部医疗器具的管理、病人档案资料整理等方面同样涉及数据,引进数据挖掘技术,能够深入分析疾病之间的联系及规律,帮助医生诊断和治疗,以达到诊断事半功倍的目标,且为保障人类健康等提供强大的技术支持。

2.2.2 应用于金融方面,提高工作有效性

银行及金融机构中涉及储蓄、信贷等大量数据信息。利用数据挖掘技术管理和应用这些数据信息,能够帮助金融机构更好地适应互联网金融时代的发展趋势。提高金融数据完整、可靠性,为金融决策提供科学依据。金融市场变幻莫测,要想在竞争中提升自身核心竞争力,需要对数据进行多维分析和研究。在应用中,特别是针对侦破洗黑钱等犯罪活动,可以采取孤立点分析等工具进行分析,为相关工作有序开展奠定坚实的基础。

2.2.3 应用于高校日常管理方面,实现高校信息化建设

当前,针对高校中存在的贫困大学生而言,受到自身家庭等因素的影响,他们学业与生活存在很多困难。而高校给予了贫困生很多帮助。对此将数据挖掘技术引入到贫困生管理工作中,能够将校内贫困生群体作为主要研究对象,采集和存储在校生生活、学习等多方面信息,然后构建贫困生认定模型,并将此作为基础进行查询和统计,为贫困生针对管理工作提供技术支持,从而提高高校学生管理实务效率,促进高校和谐、有序发展。

2.2.4 应用于电信方面,实现经济效益最大化目标

现代社会发展趋势下,电信产业已经不仅限于传统意义上的电话服务提供商、而将语言、电话等有机整合成为一项数据通信综合业务。电信网、因特网等网络融合已经成为必然趋势,并将成为未来发展的主要方向。在大融合影响下,数据挖掘技术应用能够帮助运营商业务运作,如利用多维分析电信数据;或者采取聚类等方法查找异常状态及盗用模式等,不断提高数据资源利用率,更为深入地了解用户行为,促进电信业务的推广及应用,从而实现经济效益最大化目标。

3 结论

根据上文所述,数据仓库与挖掘技术作为一项新型技术,在促进相关产业发展等方面占据十分重要的位置。因此在具体应用中,除了要积极明确数据仓库与传统数据库之间的差别之外,还应切实结合实际情况,积极引入数据挖掘技术,充分挖掘和探索数据信息中的重要内容,为制定科学决策提供支持,同时还应加大对技术的深度研究,不断提高技术应用水平,从而为用户带来更大的利益。

参考文献

[1]陈宏.浅谈数据仓库与数据挖掘技术及应用[J].科技广场,2011,09:90-93.

[2]崔愿星.浅析数据仓库与数据挖掘的应用[J].内江科技,2014,01:141-142.

[3]王慧.数据仓库和数据挖掘在医院信息系统中的应用[J].电脑开发与应用,2014,01:76-78.

[4]靳鑫.浅析数据仓库和数据挖掘[J].中国新通信,2012,11:29-31.