大数据实验平台下信息管理论文

大数据实验平台下信息管理论文

一、必要性与可行性

当前“大数据技术”充满了新的机遇和挑战,其在企业IT基础架构、数据管理、分析和服务这些关键规划领域的应用,将会对社会经济发展带来长远深刻的影响。大数据指的是从各种各样的数据中快速获得有价值信息的能力,具有数据量大、种类繁多、价值稀疏、处理速度快的特征,这些特征对目前社会各个行业的信息架构、系统的冲击非常大。大数据技术对整个社会经济发展来说既是机遇也是挑战。

(一)必要性

根据IDC在2011年6月的《数字宇宙》(DigitalUniverse)研究报告,2011年全球新建和复制的信息量超过1.9ZB(1.8万亿GB),五年时间增加了近九倍。随着数据量的指数级增长、数据源种类(包括结构化数据源和非结构化数据源,如社交媒体、富媒体文件以及地理空间信息)的飞速增加,以及数据产生速度的加快(如实时传感器数据),传统的数据库和架构无法处理、管理和分析如此庞大的数据集。政府、金融、电信、互联网等大数据应用的行业先锋目前均面临大数据的问题。不仅如此,随着物联网、云计算、移动互联网、车联网、智能手机、平板电脑的飞速发展,大数据技术拥有了更为广泛的数据资源。因此,IT产业界及行业用户都亟需针对大数据设计和优化大数据存储、管理和查询平台,来替代传统关系型数据库平台。在技术发展的前沿阶段进行实验平台建设对我学院师生具有重要意义。该实验平台能够为学生提供一个了解最前沿技术的机会,不仅能够提高学生学习兴趣、自学能力,还为学生就业、更好地规划未来的职业发展提供了机会。大数据技术的机遇与挑战带来了很大的人才缺口,目前大数据技术平台开发、方案实施人才紧缺;由于云存储、大数据技术带来的信息安全问题,也亟需大量信息安全领域的人才;由于大数据技术在物联网、电子商务、移动互联方面的应用,对了解大数据技术的电子商务专业人才也更青睐。通过本实验平台的培养,感兴趣的优秀学生还可以尝试考取与大数据技术密切相关的Hadoop专业认证———ClouderaCertifiedDeveloper/AdministratorforApacheHadoop,为学校、学院在该领域带来正面影响,增加更多合作和就业的机会。该实验平台能够为信息系统专业试点班培养计划的很多核心课程(包括管理统计学中的业务报表与分析、商务智能方法与应用、商务智能实践、数据挖掘和BA综合实训等)形成较好的前后衔接关系,能够丰富实践教学环节,深化教学大纲的内容,从建设更合理的课程建设体系来说具有很大的必要性。近几年学生就业压力越来越大,迫切需要对教学内容和实践环节不断突破创新,才能具备持续发展能力。因此在原有课程体系和实践教学环境的基础上增设本实验平台非常必要。

(二)可行性

教学计划中的相关程序设计课程为学生学习云存储技术、熟悉大数据开发平台、了解最新大数据技术的发展、进行大数据平台基础上的开发、实现对大数据的分析、可视化演示打好了基础。英特尔ApacheHadoop平台是目前大多数大数据处理的技术基础,目前该技术已经发展成熟,并随之产生很多基于该平台的大数据处理工具,可供实验室建设实验平台使用。

二、建立大数据实验平台的基本构想

(一)实验平台人员

实验平台人员负责实验平台的建设、维护,实验设计与指导人员由在大数据相关领域、课程建设以及实践教学方面都有着丰富的经验的教师与实验室工作人员构成,同时与大数据企业进行合作,获得其核心技术人员的支持、培训和大力配合,可以共同组成一个经验丰富、精炼实干的建设团队。

(二)软件调研

大数据的特点为4个“V”:第一,“Volume”,指的数据量大,包括大的数据块,或数据总量巨大,从TB跃升到PB;第二,“Variety”,指的是数据种类繁多,包含大量非结构化数据,例如网络日志、音频、视频、地理信息等;第三,“Value”,价值稀疏性,大量数据中有价值数据很少;第四,“Velocity”,指的是处理速度快,这与传统数据挖掘有很大区别。选择有数据分析基础、在业内发展领先的企业进行调研并选择适合高校规模的合作企业是建立实验平台的重要工作。很多公司给出了可供使用的大数据平台:IBM?InfoSphere?BigInsightsTMBasicEdition是一款基于开放源码ApacheHadoop的分析平台,用于分析大量本机格式的非常规数据,支持结构化、半结构化和非结构化内容,以实现最大程度的灵活性;IBM?InfoSphere?Streams是一个高级计算平台,帮助用户开发的应用程序快速摄取、分析和关联来自数千个实时源的信息;惠普公司Vertica分析平台6.1,能够通过Hadoop分布式文件系统连接器来优化大数据;ClearStoryData大数据分析新创公司,通过Clearstory,公司客户可以将自身的数据与行业的公共数据融合,寻找统计上的新视角,目标是取代目前市场上的主流数据可视化工具,包括QlikView和Tableau等老牌工具;Informatica9.1提供首款Hadoop编译器Hparse,这是一种针对Hadoop而优化的数据转换环境,该软件支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而多样的数据源;Datameer:Hadoop海量数据分析平台允许用户在缺乏技术知识的情况下能够分析大量数据;Infochimps平台以其完备的基础设施和专业知识,为客户提供端到端的大数据解决方案,Infochimps是一家位于美国德克萨斯州奥斯丁的创业公司,2012年2月从数据市场转型为大数据平台提供商后获得谷歌投资;甲骨文大数据机———OracleBigDataAppliance集成系统融入了Cloudera的DistributionIncludingApacheHadoop、ClouderaManager和一个开源R;微软SQLServer新增PDW功能,可以帮助客户扩展部属数百TB级别数据的分析解决方案;亚马逊将MapReduce作为一项服务,其弹性MapReduce编程是一项能够迅速扩展的Web服务,运行在aws的亚马逊弹性计算云和亚马逊简单存储服务上;Teradata是企业级数据仓库(EDW)的领导者,在结构化数据、半结构化数据和大部分非结构化数据领域几乎没有很大成果,因此收购了AsterDa-ta———一家提供SQL-MapReduce框架的公司。AsterData是高级分析和管理各种非结构化数据领域的市场领导者和开拓者,为Teradata带来了大数据分析市场商机。

(三)方案实施

实验平台的设计同时立足于大数据技术的发展的前沿性与本学院学生专业特点,与学生前序的理论、实践课程均有良好的衔接,符合人才培养计划,深化了教学大纲的内容,并针对不同专业学生设计实践学时、内容和难度。本实验平台可以同大数据行业中的公司科研部门共同合作建设,双方确定在人才培养、师资培训、共建实验室和实训基地、推动大学生校外实习和社会实践活动的开展等方面开展全面、广泛、长期、深入的合作。该实验室建设将丰富实践教学体系,也可推动学院科研项目立项、新课题研究、专项基金申请和联合开展商用项目开发等;该实验室使师生能接触高新大数据开发平台,了解最新大数据技术的发展,进行大数据平台的开发,实现对大数据的分析、可视化演示,增强学生的动手能力并提升就业质量;与此同时,提升了教师的项目管理能力和教学能力。

三、结论

实践教学平台建设是一项可以推动课程建设和专业建设的可行工作,在转变观念、定位于应用型人才培养的今天,实践教学平台的建设更是一项必须的工作,而一个高水平的实验平台可以为教师们的教学和科研活动提供良好的物质保证,经过大数据平台建设可以使课程建设工作再上一个台阶,同时也会使教师们的研究水平更上一个台阶。

作者:胡敏 单位:北京信息科技大学信息管理学院