大数据云计算技术范例6篇

前言:中文期刊网精心挑选了大数据云计算技术范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

大数据云计算技术范文1

关键词:大数据;云计算;职业教育

中图分类号:G424 文献标识码:A 文章编号:1009-3044(2014)09-1853-01

2012年,联合国大数据政务白皮书,提出了各国政府(包括联合国在内)的一个历史性机遇:利用丰富的大数据对社会经济做出具体的分析,帮助政府更好的运行经济服务社会。同年,奥巴马在美国白宫宣布将“大数据战略”上升为国家意志,将大数据定义为“未来的新石油”并加大投资拉动相关产业。2013年12月5日-5日,由中国计算机学会主办,中国CCF大数据专家委员会承办的主题为“应用驱动的架构与技术”的中国大数据技术大会,这次大会成为大数据技术与应用深度结合的新起点,成为产业界、科技界与政府部门密切合作的新平台,进一步推动我国大数据的产学研。2014年3月1日,在北京举行的贵州・北京大数据产业推介会上,贵州共获投730.2亿元用于大数据产业的发展,这一伟大的壮举将全面推动贵州互联网,网络营销发展进而影响贵州经济发展。百年大计,教育为本,在贵州“后发赶超,跨越发展”的过程中,教育的改善提升成了社会发展步伐是否稳健的重心,随着大数据的到来,贵州的教育正张开腾飞的羽翼迎接新一轮的跨越赶超,贵州在全国率先完成中小学生学习信息管理系统,学生学籍信息入库。为加快推进职业人才培养体系建设,促进经济工作稳定快速发展,省教育厅、人社厅等多家单位携手并进,联合出台了加快职业人才教育培养的实施方案,以贵阳为中心,打造职业教育核心发展区,规划高职办学规模达到25万人,为贵州大数据产业发展提供充足的人才保障,建成具有贵州特色的现代职业教育体系。在大数据背景的前提下,贵州的职业教育发展将踏上更加非凡和精彩的跨越之旅。

1 大数据、云计算简介

麦肯锡公司在2011年了一个前沿领域的研究:大数据。虽然到现在为止没有一个明确的定义,但是,大数据不是海量数据的表面理解,具有数据体量巨大,数据类型繁多,价值密度低,处理速度快等特点。 “云计算是通过网络提供可伸缩的廉价的分布式计算能力”。云计算代表了以虚拟化技术为核心、以低成本为目标的动态可扩展网络应用基础设施,是近几年来最有代表性的网络计算技术与模式。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。

2 高职院校大数据条件下云计算的应用

云计算的应用使得高校在信息工具化的时代能够脱离原始的“信息孤岛”现象,集中了原本分散的国内及世界的教育资源,让社会与学校,学校与教师,教师与学生之间有了更深的互动和相互带动,把社会各行各业对教育有利的资源通过计算机与网络终端带动教育的发展。高职教育与传统的本科教育不同,重点是培养学生的实际操作能力,通过资源库的分析和选取并优化应用,可以提高高职教育的目标性。

2.1 依据社会人才需求信息,调整专业设置

目前的社会公开招聘信息都是通过互联网至少在全国范围内进行公开招考的,近几年,百度等各大网站都可以轻易的分析出

招聘的条件和专业。各大中型企业招聘的专业类型等都可以通过数据提取,数据分析得到各专业的需求状况,通过这些计算、分析这些大数据,可以适当迅速的调整专业设置和专业学习计划,以适应信息瞬息万变的时代需求。

2.2 利用数据库优秀教育资源,提高教学效果

近年来,各大高校,职院都在进行重点专业的课改工作,很多优秀的课程教学视频和配套资源等上网,通过相关网站对教育资源的数据进行搜索,在相应的学院,教研室,进行数据的分析和研讨,经过相应的更改后可以直接应用我们的教学和管理中,可以充分吸取网络教育资源的精华,变成自己教学工作进步的工具。

2.3 充分利用电子图书馆,扩展“校企合作”的形式

贵州是教育相对落后的地区,首先,经济基础决定上层建筑,资金配套的硬件措施是制

约学校教学工作前进的桥梁,近几年,国家的西部发展计划和贵州省对教育尤其是职业教育的大力支持,使得,学校的教学环境有了很大的改善,很多学校都配套修建了电子图书馆和电子信息实训室。“校企合作”首先在发达地区开展,在贵州,合作项目近三年才开始试行,以贵州职业技术学院为例,2012年,由政府搭台的“中兴网络学院”项目达成协议,中兴在贵州职院第一次投入一千万元建立实训室并开始招生,除了学校教学计划必须完成的课程外,中兴选派有实战经验的一线老师加强学生实训的教学和指导,让学生更深入的练习自己的职业技能,除了学习学校扎实的基础理论,更吸收了中兴企业信息化的优势。

3 高职教改的新方向

面向大数据的云计算主要是为学院提供基于云架构的知识、信息的存贮,但对于这些数据的科学性分析和研究并不完备,尤其是职业院校需要的不仅仅是可以相对容易验证真理的理论知识,主要是一线的先进生产力和技术的学习和研究资料,所以认真学习和研究大数据的处理方式,将是未来高职在大数据方面的发展新方向,当然事物两面性的原则,大数据的网络环境也为学院的发展带来负面的影响,比如,随处可见的传感器和摄像头等,都可能会泄露学校和学生的私人隐私信息,暴露学校的科研痕迹和学生的行踪轨迹,从而对学生的个人安全等起到威胁作用,所以,隐私信息保护系统也是当下研究的热点问题。

大数据云计算技术范文2

【关键词】云计算技术 大数据 数据处理

随着物联网、网络、移动通信等的快速发展,特别是互联网的普及使得信息传播的规模和速度呈现几何增长,人们获取信息的途径和方式开始变得异常丰富,人们事实上已经进入了“信息大爆炸”时代。与此同时信息传播的大容量、高效性和准确性也对现有的数据处理体系提出了更高要求。根据大数据摩尔定律,人类世界的数据产生量将按照每两年一倍的速率增长,预计2020年世界数据量将超过35亿GB,“大数据”时代迫在眉睫。“大数据”具有离散型、随机性、发散性、爆发性等特点。近年来,随着云技术的兴起全面革新了传统的数据技术,大容量、多样化、快速处理、信息价值性和准确性为了云技术背景下大数据处理的五大主要特征。如何利用云计算技术对大数据进行高效处理已经成为了信息技术发展亟待解决的关键问题。

1 大数据和云计算的关系

云计算技术是指利用集中式远程计算资源池,通过按需分配的方式,为终端用户提供强大而廉价的计算服务技术。云计算技术作为一种数据处理方式,其技术特点包括:一是资源池在物理上是对终端用户完全透明的;二是能够为任何行业提供规模化计算服务,其服务能力可看做是“无限”的;三是其应用部署快速便捷,服务能力和方式是可以完全按照终端客户要求定制的,具有极强的弹性伸缩能力;四是云端数据获取方便,能够资源共享,用户使用成本低廉。

云计算技术是目前最强大的数据存储、传输和处理平台,它是大数据处理的最优选择。云计算能够为大数据提供几乎“无限”的存储空间和处理能力,满足其超大容量存储和超级复杂的处理需求,也是传统存储方式无法实现的。云计算侧重数据的计算处理,而大数据需要强大数据处理能力,因而它是云计算的处理对象。此外大数据所产生的业务需求也为云计算的实现提供了更多的形式。

2 基于云计算的大数据处理技术

2.1 大数据的采集技术

目前数据采集方式主要分为集中式和分布式两大类。其中分布式的灵活性较强,而集中式的全局性较好。实际上大数据采集的对象通常包括组织内部和相互独立组织间的各类数据,而云计算恰好具有并行处理的优势,因而可采取混合式采集方式能够更加有效地完成数据采集任务。即在各个组织内部采用集中式数据采集方式,通过在组织内配置中心服务器,作为集中式数据注册机构,用于存储和共享内部的数据。在相互独立组织间,采用云计算的集群技术、虚拟化技术等在各独立组织中心服务器间采用分布式采集方式实现数据采集、组织间对接和共享。大数据结构类型包括结构化、半结构和非结构化数据,因而在应用云计算技术进行分布式采集时,可依托其超强的扩展性和容错力,将数据池内数据进行同构化,从而实现数据进行分类存储。

2.2 大数据的存储技术

由于超大体量、离散、复杂的数据特点,传统数据存储模式已经难以满足大数据存储要求。一方面单结点的数据仓库在容量上难以满足呈几何增长的数据量,在运行效率上也难以满足大数据的分析处理需求。另一方面传统数据仓库按行存储模式,虽然可以实现大容量索引和视图,但实际操作中其时间和空间过高。而云计算主要采取列式存储模式,即区分数据不同属性,不同属性列都单独存放。云计算中列式存储的优势在于在投影数据时只需查询其属性列,系统处理量和处理效率显著提升。此外按数据属性进行列式存储,数据仓库中相邻列数据的相似性更高,因而能够得到更高的数据压缩率,进一步减少存储所需空间。

2.3 大数据的挖掘技术

联机分析能够完成数据的复杂处理,得到直观结果,实现决策性分析。云计算并行模式下联机分析能够基于数据全局,建立多维分析模型对数据进行多维度分析,从而尽可能获得全面的分析结构。由此可见多维度分析是联机分析的重要特征,而云计算技术下数据仓库正好是通过多维数据组织的。

联机分析对数据的处理仅仅只是表面的,其获取的信息价值并不高,难以得到数据深层次的含义与内在关联。而数据挖掘正是在联机分析的基础上,从超大体量的数据仓库中提取数据所蕴含的隐性信息,并将这些信息用规律、概念或是模型等表现出来。基于云计算的数据挖掘主要采用分布式并行挖掘技术。与其他串行方式相比,云计算技术下并行数据挖掘能够利用机器集群拆分分布式系统中的并行任务,并将拆分后的各个任务分别交由不同的机器去处理,从而实现大规模数据处理,其时间成本也大大降低。

2.4 大数据的可视化技术

上文所述数据挖掘可实现大数据的深层次、多维度分析,获取更多有用信息。而云计算平台下可视化技术则能够将上述信息具体化,从而使数据及其有关结构的相关信息能够更直观地表现出来,更容易被发觉和理解。可视化技术是指在存储空间中,将数据库及其中数据以图像(图形)的形式表示出来,并在其中再采用其他的分析手段获取图像中所蕴含的未知信息。而原有的数据处理仅仅只能够从数据本身入手,分析和观察数据中的内在信息。云计算下的可视化技术不但能够实现非空间数据的多维度图像显示,而且能够实现检索过程的直观图形显示,从而帮助人们更好地挖掘和理解信息,信息检索效率也大大提升。

3 结语

在数据爆炸时代,云计算的出现为大数据的存储和处理提供了可能,也为数据处理系统的功能扩展提供了重要保障。以往的数据管理将收集和存储作为重点,而在云计算模式下,大数据管理将更多地侧重数据分析、挖掘及管理模式的创新。目前数据采集和统计技术已经较为成熟,利用云计算进一步丰富大数据的存储和处理方式,实现更高层次的数据挖掘和可视化将是今后需要解决的问题之一。

参考文献

[1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146+169.

[2]吴雪琴,基于云计算的大数据信息检索技术研究[J].电脑知识与技术,2014,10(10):38-41.

[3]迪莉娅.基于云计算的电子政务大数据管理研究[J].信息管理与信息学,2013(12):50-51.

大数据云计算技术范文3

所谓“大数据”(bigdata),就是指所涉及的数据量规模大到无法利用现行主流软件工具,在一定的时间内实现收集、分析、处理或转化成为帮助决策者决策的可用信息。大数据有四大特征:数据规模大(Volume),从TB级别跃升到PB、EB乃至ZB级别;数据种类多(Variety),有图片、地理位置信息、视频、网络日志等多种形式;数据要求处理速度快(Velocity),是指数据处理挖掘速度极快;数据价值密度低(Value),指大数据库包含极高的商业价值,可以深度挖掘出及时、相关和有效的信息。即所谓的“4V”特性。大数据时代,不仅改变了传统的数据采集、处理和应用技术与方法,还促使人们思维方式的改变。大数据的精髓在于促使人们在采集、处理和使用数据时思维的转变,这些转变将改变人们理解和研究社会经济现象的技术和方法。

二、云计算的定义及特征

“云计算”最早是从IBM和谷歌等大型互联网公司处理海量数据的实践中提出。云计算(CloudComputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。美国国家标准与技术研究院对云计算给出的定义是:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。云计算具有以下特征;支持多人共享资源池,服务由一组资源支撑,云计算借助虚拟化技术,按照客户需求对存储、计算、内存、网络等资源化进行动态的分配;随需的自助服务,用户可以随时随地的用任何网络设备调用云计算资源;按需的自助服务,用户可以根据自身的需求,自行调整或者修改所需计算资源或服务;服务费用低廉,用户只需支付少量的费用即可满足对信息处理的需要。

三、大数据、云计算之间的关系

大数据与云计算的关系很密切,大数据离不开云计算,云计算也离不开大数据,两者相互依赖,互为依存。大数据本身就是一个复杂的问题集,大数据必须有云作为基础架构,才能得以顺畅运营。大数据必须依靠云计算技术来实现对庞大数据资源的挖掘和整理,从而提炼有价值的信息(见图1)。

四、大数据、云计算助推管理会计转型升级

(一)基于大数据和云计算的管理会计思维变革

大数据、云计算时代,财务数据的容量在不断增大,人们不再一味地追求数据的精确度,也不再依赖抽样分析,数据的时间价值和完整面貌开始显现,数据价值挖掘的核心向动态、实时、全部的数据处理转变,人们更加注重利用数据的及时性和完整性;大数据、云计算时代,财务管理决策流程也将发生变革,事物之间直接的因果关系也不再是关注的重点,人们开始转向认识、研究和利用事物之间的相关关系;大数据、云计算时代,财务分析开始从基于单类型的结构化数据向多类型的非结构化数据转变,财务信息和非财务信息实现高度融合,财务决策信息更加全面系统深入,相关度、准确度和可靠度不断提升。(见图2)

(二)管理会计由注重事后分析向基于过程控制转变

对企业的经营管理活动进行事后研究和分析是传统管理会计关注的重点,通过所分析经营管理活动事后反馈的数据结果来发现企业经营管理活动存在的问题,提出相应的整改意见并对未来的经营管理活动给出指导意见。但是,在现阶段瞬息万变的商业环境下,仅在事后对经营管理活动的结果进行分析不能及时,动态,全面和深入地了解企业,要更加注重对经营管理活动过程的分析。基于大数据和云计算的应用,财务人员不再局限于在事后对结果进行分析,反馈和监督,还能够实现过程中对重要经济指标偏离的差异分析、关键原因查找、纠偏控制及成功的关键驱动因素的深挖掘、再甄别、过程行动计划和方案的动态修订和完善、核心要素资源的重组和再配置等一系列管理过程。有效助推企业实现从经营性控制向规划性控制转变;从事后经营管理向全过程经营管理转变;从静态经营管理向动态经营管理转变。基于大数据和云计算的应用,管理会计能在事前、事中、事后对企业的经营活动实现全过程,多方位,深层次的管控,从而有效的提升管理会计信息的及时性,相关性和有效性。

(三)借助大数据和云计算实现财务信息和非财务信息的高度融合,提高财务决策的相关性和准确性

大数据、云计算时代,对管理者投资决策有用的信息不仅仅限于财务信息,企业内部跨部门的数据、过去和现时跨业务形态的数据、合作伙伴和竞争对手的数据、上下游企业之间形成的供应链数据等等结构化和非结构化的数据组成一个广义的大财务数据系统,形成一个集财务分析、战略分析、商业模式分析和前景分析于一体的生态系统。基于大数据和云计算的大财务数据系统,有效实现财务信息和非财务信息的高度融合,为企业提供信息更加及时,内涵更加丰富,领域更加广泛,分析更加深入全面的综合财务报告,有效的避免了传统财务报告信息来源单一,内容粗略简单,结果反馈迟缓等不好的方面,综合财务报告不仅能够及时、动态、高效地反映企业所处的商业环境和社会环境,还能对企业战略规划、业绩状况、综合治理、和发展前景等诸多与企业可持续发展息息相关的重要信息进行有效整合,深度解析。大数据、云计算技术使得财务决策更加科学合理,财务信息和非财务信息的高度融合,使得单纯依靠财务信息决策导致的不可控的非系统风险得到极大程度的降低。大数据和云计算技术的应用,也使得财务与企业各部门之间的关系更加密不可分,企业各部门各业务系统的数据共享中心形成一个有机的整体,不同业务系统之间的“信息孤岛”效应也得到有效的解决,使得企业作为一个大的生态系统运行更加健康有序。

(四)大数据和云计算助力企业提升资金管理水平

良好的资金管理体系不仅能有效强化资金内部控制,确保货币资金的安全,提高资金的使用效益,还能有效保障公司经营活动的顺利开展,并根据资金的实时流向及动态监控为公司管理者提出合理的资金使用的建议和措施,提升企业的生产、经营管理水平。大数据、云计算技术为集团企业实现全过程、全方位、全覆盖、全周期的资金管理和科学的经营决策提供了技术支撑。集团企业可可以按年度、月度、每周、每日甚至每时每刻对经营活动、投资活动和筹资活动发生的资金收入和出进行监管、考核和预测,使得企业的资金预算更加准确,最大限度的减少资金积压,不断提高资金的使用效率。大数据、云计算时代,企业借助云会计平台进行实时全过程全方位可视化监控分子公司所有与资金运作的相关信息,记录分子公司每一笔资金的流向,分析各分子公司资金的利用效率,从而对分子公司进行考核。企业可借助大数据、云计算技术对所有的与资金收付相关的历史业务数据进行分析,分析企业不同区域,不同时间,不同业务涉及的不同现金流活动,借此帮助企业预测相同区域,相同时间,相同或者类似业务日常经营活动可能发生的资金收入和支出。企业通过云计算技术分析研究存储在大数据中心与企业资金管理相关的采购数据、销售数据、现金流数据、同行业及相关行业数据、资金分析数据、银企互联数据,实现对企业资金收付管理、资金调拨管理、资金分析和考核管理的动态化全过程监管。在大数据、云计算时代,不仅资金的管理水平得到迅速提升,随着新型金融业态兴起,资金管理由侧重于资金集中和调配向不同层次的产融结合转变。企业可以有效利用资本市场优化企业的资本结构,利用业务支付时间差取得沉淀资金,利用各种金融工具拓展企业的经济业务,实现企业的资金管理与产业经营、资本运营的深入融合。

(五)大数据和云计算使得企业绩效考核更加全面、科学、合理

大数据云计算技术范文4

关键词: 云计算;分布式并行数据挖掘;海量数据

Abstract: In this paper, we develop a parallel and distributed data mining toolkit platform called PDMiner. This platform is based on cloud computing. PDMiner is used to preprocess data, analyze association rules, and parallel classification and clustering. Our experimental results show that the parallel algorithms in PDMiner can tackle data sets up to one terabyte. They are very efficient because they have good speedup, and they are easily extended so that they can be executed in a cluster of commodity machines. This means that full use is made of computing resources. The algorithms are also efficient for practical data mining. We also develop a knowledge flow subsystem that helps the user define a data mining task in PDMiner.

Key words: cloud computing; parallel and distributed data mining; big data

中图分类号:TN915.03; TP393.03 文献标志码:A 文章编号:1009-6868 (2013) 04-0032-007

随着物联网、移动通信、移动互联网和数据自动采集技术的飞速发展以及在各行各业的广泛应用,人类社会所拥有的数据面临着前所未有的爆炸式增长。美国互联网数据中心指出,互联网上的数据每年以50%的速度增长,每两年翻一番,而目前世界上90%以上的数据是最近几年才产生的,人类社会进入了“大数据”时代。因此,信息的获取非常重要,一定程度上,信息的拥有量已经成为决定和制约社会发展的重要因素。

数据挖掘作为信息获取的一门重要技术,得到了广泛的研究。数据挖掘[1]从大量的数据中挖掘出有用的信息,提供给决策者做决策支持,有着广阔的应用前景。由于要挖掘的信息源中的数据都是海量的,而且以指数级增长,传统的集中式串行数据挖掘方法不再是一种适当的信息获取方式。因此扩展数据挖掘算法处理大规模数据的能力,并提高运行速度和执行效率,已经成了一个不可忽视的问题。

为了解决海量数据的挖掘问题,一种简单的方式就是把所有的数据划分成若干份,也就是切分成若干个子任务,然后分布到各个计算资源上去进行计算,每个节点完成一个子任务,最后进行集成。分布式计算就是把一个计算问题分解成多个子问题并同时处理的计算模型。基于分布式计算模型,Luo等人[2-4]集成了很多数据挖掘算法到多主体系统。另外一种提高计算效率的方式是并行计算,并行计算也是把一个大的计算问题分割成小任务的形式。近年来,并行计算的体系结构和模型也引起了广泛的兴趣和研究[5-6]。

尽管分布式计算和并行计算有很相似的特点,但是它们之间各有侧重,分布式计算强调在所有异构计算资源上同时求解问题,而并行计算则更加强调同一台计算资源内部多线程并行。这两种计算方式可以对应到算法之间的并行以及算法内部并行这两种计算模式。文献[2-4]提出基于主体技术的算法之间并行的计算模式,他们利用主体技术中主体本身的自主性、智能性等特点,实现不同算法主体之间的并行计算,以消息传递的方式实现同步,大大提高了算法的执行效率,减少了运行时间。第二种计算模式,是粒度比较小的并行方式,主要研究的是算法内部的并行。通过把算法分解,尽可能地找出算法中可并行的部分进行并行计算。这种计算模型的最终效率取决于算法本身的可并行程度,如果并行程度非常高,那么就可以大大提高算法的运行效率。由于在很多应用中,只需要执行一种应用(算法),所以研究算法内部的并行实现非常重要。文献[7]实现了多种机器学习算法在多核计算机上的并行,本文主要针对第二种并行计算模式进行研究,而且可以在大规模计算机集群上运行。

近年来,云计算得到了学术界和业界的广泛关注,它是一种基于互联网的、大众参与的计算模式,其计算资源,包括计算能力、存储能力、交互能力,是动态、可伸缩、且被虚拟化的,以服务的方式提供给用户。基于大规模数据处理平台——Hadoop,我们研究开发了并行分布式数据挖掘平台——PDMiner,其目的是设计实现并行数据挖掘算法处理大数据集,且提高执行效率。在PDMiner中包含4个子系统,工作流子系统、用户接口子系统、数据预处理子系统和数据挖掘子系统。整个数据挖掘平台提供了一个从海量数据中挖掘有用知识的完整解决方案,而且提供了可扩展的灵活接口。

1 大规模数据处理平台

——Hadoop

Hadoop是一个软件计算平台,可以让程序员很容易地开发和运行处理海量数据的应用程序。其核心部分包括HDFS[8]和基于MapReduce[9-10]机制的并行算法实现。

1.1 HDFS

Hadoop分布式文件系统HDFS是受Google文件系统启发,建立在大型集群上可靠存储大数据集的文件系统。它和现有的分布式文件系统有着很多的相似性,然而和其他的分布式文件系统的区别也是很明显的。HDFS具有高容错性,可以部署在低成本的硬件之上。此外,HDFS提供高吞吐量地对应用程序数据的访问,适合大数据集的应用程序。

HDFS结构包含一个名字节点作为控制主节点,其他的服务器作为数据节点,存储数据。具体地说,HDFS具有如下几大特点:

(1)强容错性

HDFS通过在名字节点和数据节点之间维持心跳检测、检测文件块的完整性、保持集群负载均衡等手段使得系统具有高容错性,集群里个别机器故障将不会影响到数据的使用。

(2)流式数据访问与大数据集

运行在HDFS之上的应用程序必须流式地访问它们的数据集。HDFS适合批量处理数据,典型的HDFS文件是吉字节到太字节的大小,典型的块大小是64 MB。

(3)硬件和操作系统的异构性

HDFS的跨平台能力毋庸置疑,得益于Java平台已经封装好的文件IO系统,HDFS可以在不同的操作系统和计算机上实现同样的客户端和服务端程序。

1.2 MapReduce

MapReduce是Google实验室提出的一种简化的分布式程序设计模型,用于处理和生成大量数据集。通过该模型,程序自动分布到一个由普通机器组成的超大机群上并发执行。

Map和Reduce是该模型中的两大基本操作。其中,Map是把一组数据一对一的映射为另外的一组数据,Reduce是对数据进行规约,映射规则与规约规则可由用户通过函数来分别指定。现实生活中很多任务的实现都是可以基于类似这样的映射规约模式。

MapReduce通过把对数据集的大规模操作分发给网络上的每个节点来实现可靠性,每个节点会周期性地把完成的工作和状态信息返回给主节点。如果一个节点保持沉默超过一个预设的时间间隔,主节点就认为该节点失效了,并把分配给这个节点的数据发到别的节点,并且因此可以被其他节点所调度执行。

由于MapReduce运行系统已考虑到了输入数据划分、节点失效处理、节点之间所需通信等各个细节,使得程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大规模的分布式系统资源。

2 并行分布式大数据挖掘

平台体系架构

Hadoop提供了让程序员易于开发和运行处理海量数据应用程序的平台,其分布式文件系统HDFS是建立在大型集群上可靠存储大数据集的文件系统,具有可靠性,强容错性等特点;MapReduce提供了一种高效编写并行程序的编程模式。基于此,我们开发了并行数据挖掘平台——PDMiner,大规模数据存储在HDFS上,且通过MapReduce实现各种并行数据预处理和数据挖掘算法。

PDMiner是一个集成各种并行算法的数据挖掘平台,其中的并行计算模式不仅包括算法之间的并行,而且包括算法内部的并行。图1给出了并行数据挖掘平台PDMiner的总体系统架构,其中主要包括4个子系统:工作流子系统、用户接口子系统、并行抽取转换装载(ETL)子系统以及并行数据挖掘子系统。工作流子系统提供了友好的界面方便用户定义各种数据挖掘任务;用户接口可以对算法的参数进行设置以及通过结果展示模块分析挖掘结果并做出相应的决策;并行ETL算法子系统和并行数据挖掘算法子系统是PDMiner的核心部分,它们可以直接对存储在HDFS系统上的数据进行处理,ETL算法处理后的结果也可以作为数据挖掘算法的输入。

2.1 工作流子系统

工作流子系统提供了友好和统一的用户接口(UI),使得用户可以方便地建立数据挖掘任务。在创建挖掘任务过程中,可以选择ETL数据预处理算法、分类算法、聚类算法、以及关联规则算法等,右边下拉框可以选择服务单元的具体算法。工作流子系统通过图形化UI界面为用户提供服务,灵活建立符合业务应用工作流程的自定制挖掘任务。通过工作流界面,可以建立多个工作流任务,不仅每个挖掘任务内部并行,而且不同数据挖掘任务之间也并行。

2.2 用户接口子系统

用户接口子系统由2个模块组成:用户输入模块、结果展示模块。用户接口子系统负责与用户交互,读写参数设置,接受用户操作请求,根据接口实现结果展示。比如并行分类算法中并行朴素贝叶斯算法的参数设置界面如图2所示,从图中看到可以方便地设置算法的参数。这些参数包括训练数据、测试数据、输出结果以及模型文件的存储路径,而且还包括Map和Reduce任务个数的设置。结果展示部分实现了结果可视化理解,比如生成直方图、饼图等。

2.3 并行ETL算法子系统

数据预处理算法在数据挖掘中起着非常重要的作用,其输出通常是数据挖掘算法的输入。由于数据量的剧增,串行数据预处理过程需要消耗大量的时间来完成操作过程,因此为了提高预处理算法的执行效率,在并行ETL算法子系统中设计开发了19种预处理算法[11],如图3所示,包括并行采样Sampling、并行数据预览PDPreview、并行数据添加标签PDAddLabel、并行离散化Discretize、并行增加样本ID、并行属换AttributeExchange、并行布尔型数据到系列数据的转换BoolToSerialNum、并行数据归一化Normalize、并行属性约简PCA、并行数据集成DataIntegration、并行统计Statistic、并行属性约简AttributeReduction、并行数据区间化Intervalize、并行冗余数据删除RedundancyRemove、并行属性添加AttributeAdd、并行属性修改AttributeModify、并行数据缺失值替换ReplaceMissingValues、并行属性删除AttributeDel,以及并行属性选择AttributeSelection等。

通常ETL操作都具有很高的并行化程度,比如属性的删除,可以把数据划分成很多块,算法对每个数据块的处理都是相对独立的,因此并行ETL子系统中实现的并行ETL算法具有很好的加速比,大大提高了算法的运行速度和执行效率。

2.4 并行数据挖掘子系统

并行数据挖掘子系统是并行数据挖掘平台PDMiner的核心部分,主要包括了三大类算法:并行关联规则算法、并行分类算法[12]以及并行聚类算法等。

目前该并行数据挖掘子系统中已经开发了很多经典的数据挖掘算法,各类并行算法模块包含的算法如图4、图5、图6所示,其中并行关联规则算法包括并行Apriori算法[13],并行FP树FPgrowth以及并行Awfits算法;并行分类算法包括并行超曲面分类算法HSC、并行k近邻算法Knn、并行朴素贝叶斯算法NaiveBayes,并行决策树算法C4.5、并行基于范例推理算法CBR、并行基于类中心算法CBC以及并行极限向量机ESVM等;并行聚类算法包括并行DBScan算法,并行Clara算法[14]、并行k均值算法Kmeans[15-16]以及并行EM算法等。

执行数据挖掘算法的一般流程如图7所示。从算法流程来看,PDMiner是一个用户友好的系统,用户不用了解底层算法的设计和实现,就可以很容易使用系统。另外对于并行ETL子系统和并行数据挖掘子系统,还提供灵活的接口方便用户集成新的算法。

2.5 基于MapReduce实现的算法实例

下面以决策树为例描述基于MapReduce的并行算法的实现过程。决策树算法是利用已标记训练集建立决策树模型,然后利用生成的决策树对输入测试数据进行分类。在以前的很多工作,主要是把数据划分到多个计算节点上,然后各自建立决策树模型,最后采用集成的方式得到最终模型[17]。采用MapReduce机制可以很好地解决决策树算法内部的并行问题,提高算法的执行效率以及处理数据的规模。

图8给出了并行决策树算法的流程图。在该并行算法中,实现了同一层内节点之间、节点内的并行计算,提高算法的执行效率。更重要的是,实现的并行决策树算法以循环代替了递归,使得运行完程序所需要的最大作业(Job)个数可预测(最大数目为样本集中条件属性的数目 ),从而有利于控制程序的执行状态。而在递归中,无法预测还有多少节点要运算,这样就无法预测程序何时结束。由于层与层之间的运算是串行的,因此在基于MapReduce机制的并行决策树实现中,上一层都会传递前缀信息给下一层节点,这些前缀包括从根节点到当前分支的分裂属性信息等。

从流程图可以看到每一层只需要一个Job,而不关心有多少个节点。程序需要运行的最大层数由条件属性的个数决定,因此是可控制的。由于在并行的过程中主要是统计频率,因此的设计非常重要,设置如下:在训练过程中,训练数据被划分到各个节点中进行运算,Map函数输入的分别设计为样本ID和样本本身;输出的,key设计为训练样本对应的类别+条件属性的名字+条件属性的值,value为key出现的次数。Reduce函数的输入和输出的的设计均为Map函数输出的。

当还有前缀的情况下,需要删除训练集中包含生成决策规则的样本,该过程是一个读写的过程。对于包含新得到的决策规则的样本,不再写入训练集,这样在下一次迭代中就只计算那些没有包含生成决策规则的样本。

测试过程则非常简单,每个Map利用已生成的决策树模型对样本进行预测,直接样本的预测标记,不需要Reduce过程。

3 PDMiner的特点

3.1 可扩展性

PDMiner是一个可扩展的并行分布式数据挖掘平台,我们为系统提供了灵活的接口来扩展集成新的并行算法。通过工作流子系统可以很方便地添加一个新的算法,比如在并行ETL子系统中添加新的算法PDAlgorithm1,则只要添加如下代码:

通过加入最后一行代码以后就可以在选项卡PD-Filters下面加入一项PDAlgorithm1。生成空类PDAlgorithm1的代码如下:

其中在函数listOptions( )、getOptions( )、setOptions( )中编写配置算法参数的代码,在run( )函数中编写调用Map函数和Reduce函数的代码,用户可以根据具体的算法编写相应的Map函数和Reduce函数。并行数据挖掘算法的添加与ETL算法的添加类似。

3.2 支持多挖掘任务

在PDMiner中,不仅支持单个任务的创建和执行,而且支持同时创建和运行多个数据挖掘任务。这些任务可以是不同类别的挖掘任务,比如并行关联规则任务、并行分类和聚类任务等,当配置完参数,这些任务可以同时在并行分布式系统PDMiner中执行。

支持多挖掘任务功能,具有非常重要的作用。比如要对所有的分类算法进行比较,从而选择对已有数据集表现最佳的算法。一般的做法是串行测试完所有的算法,然后根据算法的效果进行选择。而在PDMiner中可以并行地解决该问题,所有的算法都面向同一个数据集(读取同一个头文件信息),最后结果通过系统进行展示,从而选择最合适的算法。从这个比较机制看到,所有的并行算法都是在并行系统中执行,因此可以处理大规模数据;另外,这些算法的执行过程是并行的,评价过程是自动的,因此可以减少算法执行时间和用户的干预。

3.3 创建复杂挖掘过程

通过工作流子系统,系统还支持创建复杂挖掘任务,可以把并行数据预处理操作和并行数据挖掘算法串联起来。系统提供并行属性删除操作、并行数据归一化以及并行分类算法朴素贝叶斯的串联。当配置完所有算法参数后,其执行过程如下:

·执行属性删除操作,对数据集进行属性删除操作,并且修改头文件,生成新的头文件信息。

·接收属性删除后更新后的头文件,进行数据归一化操作。

·进行分类算法任务。接收从第二步传递过来的头文件信息,然后启动分类算法任务。当任务执行完后,对分类结果进行展示。

4 实验分析

并行分布式数据挖掘平台PDMiner是一个高效的数据处理与分析工具,主要面向海量数据集的处理。在保证算法正确性的情况下,构造大数据集来考察算法的性能。系统中开发的并行算法已经在通信领域的实际数据挖掘中应用,以下给出了一些算法在构造的大数据集上的性能测试结果。鉴于隐私性等原因,这里没有给出具体的并行算法名称。

图9、图10、图11、图12、图13给出了2个并行ETL算法和3个并行数据挖掘算法的时间性能。ETL测试的数据规模达到太字节级,而关联规则、分类算法、聚类算法的数据规模分别是30 GB级别、400 GB级别、12 GB级别。我们分别记录了32个节点,64个节点,128个节点的运行时间。若假设32节点执行的时间是标准的理想状态下的时间,图中红线部分给出了理想情况下64节点和128节点的时间性能。从这些图中,可以看到:

·通过增加节点,都可以提高算法的运算速度,较少执行时间。

·算法本身越简单,即并行成分也大,效果越明显,ETL算法显然具有较高的加速比,执行效率也比较高;这说明算法的并行效率与自身可并行化的程度有关。

·如图11所示,算法有时候可以得到线性加速比,说明该并行数据挖掘系统可以有效地利用计算资源。但我们也应该看到这种并行计算模型也不是万能的,增加节点并不能总是能很好地提高效果(如图13所示),有时甚至会由于并行通信而使效果变差。

5 结束语

针对大数据的处理和挖掘,本文开发设计了并行分布式数据挖掘平台——PDMiner。基于Hadoop平台和MapReduce的编程模式,开发实现了各种并行数据预处理操作以及并行数据挖掘算法,包括关联规则算法,分类算法以及聚类算法等。另外,PDMiner还开放了灵活的接口,方便集成新的ETL算法和数据挖掘算法。实验测试表明,开发的并行算法可以处理海量数据,且具有很好的加速比性能。

参考文献

[1] HAN J W, KAMBER M, PEI J. Data mining: Concepts and techniques [M]. 3rd ed. San Francisco, CA,USA: Morgan Kaufmann Publishers, 2011.

[2] LUO P, LU K, SHI Z Z, et al. Distributed data mining in grid computing environments [J]. Future Generation Computer Systems, 2007,23(1):84-91.

[3] LUO P, LU K, HUANG R, et al. A heterogeneous computing system for data mining workflows in multi-agent environments [J]. Expert Systems, 2006,23(5):258-272.

[4] ZHUANG F Z, HE Q, SHI Z Z. Multi-agent based on automatic evaluation system for classification algorithm [C]//Proceedings of the International Conference on Information and Automation(ICIA’08),Jun 20-23,2008, Zhangjiajie, China. Piscataway, NJ, USA:IEEE, 2008: 264-269.

[5] HAMEENANTTILA T, GUAN X L, CAROTHERS J D, et al. The flexible hypercube: A new fault-tolerant architecture for parallel computing [J]. Journal of Parallel and Distributed Computing, 1996,37(2):213-220.

[6] GOUDREAU M W, LANG K, RAO S B, et al. Portable and efficient parallel computing using the BSP model [J]. IEEE Transactions on Computers, 1999,48(7):670-689 .

[7] CHU C T, KIM S K, LIN Y A, et al. Map-reduce for machine learning on multicore [C]//Proceedings of the 21st Annual Conference on Neural Information Processing Systems (NIPS’07), Dec 3-6,2007, Vancouver, Canada. Berlin, Germany: Springer-Verlag, 2007:281-288.

[8] BORTHAKUR D. The hadoop distributed file system: Architecture and design [R]. The Apache Software Foundation, 2007.

[9] DEAN J, GHEMAWAT S. MapReduce: Simplified data processing on large clusters [J]. Communications of the ACM, 2008,51(1):107-113.

[10] 万至臻. 基于MapReduce模型的并行计算平台的设计与实现 [D]. 杭州: 浙江大学, 2008.

[11] HE Q, TAN Q, MA X D, et al. The High-activity parallel implementation of data preprocessing based on MapReduce [C]//Proceedings of the 5th International Conference on Rough Set and Knowledge Technology(RSKT’10), Oct 15-17, 2010,Beijing, China. LNCS 6401. Berlin, Germany: Springer-Verlag, 2010:646-654.

[12] HE Q, ZHUANG F Z, LI J C, et al. Parallel implementation of classification algorithms based on MapReduce [C]//Proceedings of the 5th International Conference on Rough Set and Knowledge Technology(RSKT’10), Oct 15-17, 2010, Beijing, China. LNCS 6401. Berlin, Germany: Springer-Verlag, 2010:655-662.

[13] LI N, ZENG L, HE Q, et al. Parallel implementation of apriori algorithm based on MapReduce [C]//Proceedings of the 13th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel Distributed Computing (SNPD’12), Aug 8-12,2012, Kyoto, Japan. Piscataway, NJ,USA: IEEE, 2012:236-241.

[14] ZHAO W Z, MA H F, HE Q. Parallel K-means clustering based on MapReduce [C]//Proceedings of the1st International Conference on Cloud Computing(CloudCom’09), Dec 1-4, 2009, Beijing, China. LNCS 5931. Berlin, Germany: Springer-Verlag, 2009:674-679.

[15] HE Q, WANG Q, ZHUANG F Z, et al. Parallel CLARANS clustering based on MapReduce [C]//Proceedings of the 3rd International Conference on Machine Learning and Computing (ICMLC’11):Vol 6, Feb 26-28,2011,Singapore. Piscataway, NJ,USA: IEEE,2011: 236-240.

[16] HALL M, FRANK E, HOLMES G, et al. The WEKA data mining software: An update [J]. ACM SIGKDD Explorations Newsletter,2009,11(1):10-18.

[17] 宋晓云, 苏宏升. 一种并行决策树学习算法研究 [J]. 现代电子技术, 2007,30(2): 141-144.

作者简介

大数据云计算技术范文5

投资逻辑:计算机行业是技术驱动型和需求推动型行业。行业下游需求集中在交通、电力、医疗、金融、民生等领域,由于宏观经济的不景气,下游需求不足。我们重点看好的是技术变革带来的投资机会,云计算、大数据,已经从概念逐步落到实地,在政府大力推动下,这些细分领域内的公司必将迎来发展机遇。

云计算:国际云计算产业快速发展,国际IT巨头亚马逊、微软、谷歌的云计算业务增长迅速。国内的云计算需求正在快速起来,以阿里云为代表的云计算服务公司业绩快速增长,我们看好在云计算领域有长远布局的公司,以及与国外巨头合作的公司。

大数据:我国政府把大数据产业上升到国家战略层面,出台了一系列促进政策,打破数据孤岛,政府购买大数据服务。大数据是打造智慧社会的利器,我们看好拥有强大数据处理分析能力的平台型公司,以及利用自身能力向下游拓展,有数据变现能力的公司。

大数据云计算技术范文6

关键词:云计算;大数据;钢铁企业应用

中图分类号:TP393.09

“云计算”和“大数据”无疑是当下非常热门的两个词汇,在各个行业中被广泛提及。一些信息技术公司也适时地推出了相关产品,企业实际应用以及带来的惊奇效果也不断被各种媒体所报道,似乎一夜之间信息技术进入到了云和大数据的时代。

在相对传统的钢铁行业近几年向着现代化高速发展,信息系统的也得到了广泛应用,但是钢铁企业一般对新信息技术的敏感以及引入应用要迟缓和慎重许多,然而革命性的信息技术带来的管理和运营效益又为对这些传统企业极具吸引力,因此本文将从“云”和“大数据”的基本概念理解的基础上对钢铁企业实际应用可能遇到问题和前景进行相关论述。

1 对云计算和大数据的理解

“云计算”和“大数据”这两个上看起来有些莫名其妙组合的词汇,成为信息技术领域中的一项新技让人难以理解其含义。这两个热门词汇被频频提及,但是它们的真正实含义是什么?采用哪些最新的软硬件技术?企业该如何进行应用?效果如何?这些问题引起各行各业相关人士的广泛关注。

1.1 云计算。在传统网络结构图中大多以云这种形状的图例来表示网络,大概也是沿用这种图例习惯,最初Google将基础的软硬件网络广泛地集成一个很大资源共享池称之为“云”,用户可以通过网络以按需和易其扩展的方式使用资源,它具有虚拟化集成,超高的资源利用率,超大规模计算等功效。

对于“云”的概念给出很多了解读,简单理解就是由计算机硬件网络构成集群平台,可以提供各种软件、计算和信息服务,而这种又是服务可以按需为用户动态定制资源和服务内容,按使用量进行计费的一种信息服务全新模式。更通俗一些的讲,可以将云可以比喻成电厂、自来水厂与普通市民之间的关系,每个用户不需要自建电厂水厂,也不需要知道这些资源是怎么来的,而只根据自身需要使用并进行费用支付即可。

云平台按应用范围可以分为企业私有云,公共云和混合云三种,目前云计算技术发展日趋成熟,国外的Googel,Amazon等都有成熟的云平台投入商业运营,国内的阿里云,百度云也推出相关应用。企业可以租用公共云或者构建自己的私有云,展开相关的应用。

1.2 大数据。如今,数据中心已经成为企业一份重要资产,每时每刻从种种传感器,信息终端等都会有海量的数据产生。这些数据以近乎爆炸的方式进行膨胀,数据量达到PB、EB或ZB的级别,而传统的数据处理模式已经远远不能满足需求,因而衍生出“大数据”(big data)概念。

大数据不仅仅是个海量的数据,是规模非常巨大和复杂的数据集,传统数据库管理工具处理起来面临很多问题,比如说获取、存储、检索、共享、分析和可视化,大数据的重要特点可以用三个V来标示,一是数据量(Volume),数据量是持续快速增加的;二是高速度(Velocity)的数据I/0;三是多样化(Variety)数据类型和来源。

大数据的收集与存储或许不是最大的难点,最难也是最重要的就是如何从海量的数据中构建数据挖掘分析模型,进而提取出有价值的信息。对于企业来说大数据的核心价值在于,从拥有数据到预判需求,也就是帮助用户用一种全方位的方法和手段处理数据,发掘出新的业务模式,创造商业机会,发掘潜在用户。

一些前沿的信息技术公司推出了许多大数据的产品,例如IBM在业界率先提出“大数据平台”架构,以Hadoop系统、流计算、数据仓库和信息整合与治理四大核心技术能力,突破了传统数据仓库的理念,能够为企业组织提供实时分析信息流和因特网范围信息源的能力;国内钢企广泛采用的SAP也适时推出了面向大数据大规模处理的产品HANA,其“内存计算”和“列式存储”技术,使数据处理近百倍的速度提升,HANA能够贯通云计算、移动应用、商务分析、企业应用和数据库五大平台,实现海量数据的高效处理和实时分析。

钢铁企业如果部署和应用这些产品,实现大量、多样化数据的流式传输与即时存储、低延时和高效的处理,并在海量的基础数据上依据复杂数据分析模型进行高速运算转化为精准有价值的信息,真正体现的大数据的价值,为企业创造实实在在的经济效益。

1.3 云计算与大数据的关系。云计算与大数据的产生都是为了应对海量信息的高效处理,进而为应用企业挖掘出有巨大商业价值的信息,它们有着共同一致的目标,许多专家认为,大数据是一个问题集,而云技术是解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据在这个平台上进行分析应用,由此可见云与大数据是相辅相成、紧密甚至不可分割关系。

2 企业落地应用

近十几年来国内钢铁行业在迅猛发展,企业投入巨资购买世界上最先进的设备改建扩建产线,中国粗钢产量已稳居世界第一。然而高速发展带来了整个行业产能过剩,价格下跌,利润微薄,有些钢铁企业连续巨额亏损生存都成了问题,严峻的市场环境已迫使其从以往追求规模化和营业收入转化成对产品市场占有率和利润最大化的追求。这样就要求企业必须充分利用现有资源,最大限度的发挥人、财、物的效能,建立高效的业务流程,更精细化的成本控制与分析。

现代信息技术,特别ERP、MES、自动控制等系统正是为满足上述企业需求而产生并不断发展改进,成为协助企业管理,实现价值的重要技术手段。目前钢铁企业大多都已经实施了这些系统,在生产运营过程中,每时每刻都有大量的数据,但是由于缺乏合适的处理技术,很多数据仅仅是存在硬盘中而没有经过分析和加工转化成为更有价值的信息,对海量数据的高效快速处理也成为企业信息化深度应用的一个瓶颈。另外,企业的信息化的发展需要引入各种各样的系统,这些系统又需要服务器或存储资源,独占系统占有资源无法实现共享,硬件不停地购置,机房和设备不断扩张,给企业再信息化的投资、运维和能耗等方面带来来巨大压力。

基于钢铁企业目前存在的问题,我们认为云计算和大数据的与解决这些问题存在很好的吻合度,但是引入这些新技术并在钢铁企业中进行落地应用可能会遇到一些问题:(1)投资与效益方面。前面分析到钢铁市场环境恶略,钢企紧张的资金只可能向生产经营倾斜,信息化的投资必定到压缩,而实现云平台和大数据又需要较大的费用,因此信息部门必须提供足够精准且真实可见的效益去打动高层领导。前期可以集合旧有设备构建轻量级的私有云,资源充分得到利用同时又可减少硬件设备的购置费用,此外要与生产、质量、营销和财务等重要部门的专业人员进行分析,挑选一些领导关注、业务需求强烈、难以用传统方式得到的信息用大数据方式进行解决,钢企的运营的资金都非常庞大,如果引入新的信息技术能为产品品质提升,成本精准分析与控制,市场预测等方面哪怕有很小的百分比提升,带来的经济效益也会非常巨大,进而引起决策层的兴趣。(2)技术方面。云平台和大数据的应用对企业信息技术能力的挑战,新技术的应用会对企业的信息技术人员提出更高技能要求,钢铁企业纷繁复杂的应用该系统迁往云端本身就是一个浩大的工程,钢企的连续生产特性都系统必须程序稳定运行,保障企业生产运行的安全,实现这些系统平稳的迁移技术人员要承担巨大的技术风险,因此,因此建设云计算与大数据的应用企业必须做好IT技术准备。

针对钢铁企业要清醒地认识云平台和大数据落地应用与高新科技公司的重大差别,不能被热炒概念和其它行业成功案例所迷惑,在应用前需进行冷静分析,契合企业实际需求认真研究分析,在实施时建议遵循以下几点:1)以企业效益为目标,技术服务于应用;2)不盲从,不追逐热门概念,解决重点需求,求实效;3)做好整体规划,分步进行实施;

3 结束语

信息技术已经无可阻挡的地向云计算和大数据时代进行快速发展,相应的软硬件会更趋于成熟,成功案例也会越来越多,在这个时代,掌握信息就掌握了市场先机,传统的钢铁企业更要提高对新信息技术的敏感度,适时地引入并加以实际应用,为其企业创新、创效、持续发展的重要支撑手段。

参考文献:

[1]潘明惠,徐莲荫.SAPHANA内存计算技术项目实战指南[M].北京:清华大学出版社,2012,08.