云环境下的大数据存储系统设计

云环境下的大数据存储系统设计

【摘要】云环境下的大数据处理是未来数据存储、处理的主流技术。对此,本文通过对云环境下大数据的存储、管理研究,分别对系统存储文件夹、文件卡、数据处理算法进行设计,搭建成一个云环境下的大数据存储平台。最后,通过平台的实际应用,结果表明:云环境下存储技术能够实现数据快速存储、数据处理,提高了数据的存储、管理效率与质量。

【关键词】云环境;大数据;数据存储系统;系统设计;算法

引言

近年来,随着计算机技术与互联网技术的快速发展,互联网的信息量呈现大量增长的现象,对大量的数据进行存储、处理是一件较为困难的事情,传统的数据存储、处理技术已经不能满足当下人们对数据处理、存储的需求。针对此问题,本文通过对云环境下大数据的存储管理研究,设计一个云环境下大数据存储软件,分别对系统的存储文件夹、文件卡、数据处理算法进行设计,构建了一个云环境下的大数据处理平台,平台的应用结果表明:云存储技术能够实现快速存储、数据处理,提高了对数据的存储、管理效率与质量。

1.云环境与大数据内涵

云计算是将数据信息的处理方式从个人电脑PC与互联网转移到数据中心的一种模式。云计算不仅涉及到软件,还涉及到硬件等设施。数据的存储与管理对任何企业都是非常重要的,而数据的安全性是数据存储的关键。在云计算环境下,数据的可用性与持久性对存储服务也是非常重要的。一般来说,一个大型的元计算服务有专属的数据中心,大量的数据存在于各个不同的地方,数据以副本的形式存在于每个不同的地方,建立较好的容错机制,提高大数据的存储、利用质量。大数据一般是指在规模上和复杂度上都是难以用现有的数据库管理工具或传统的计算方法完成对数据信息分析处理的数据。大数据是当今世界流行的数据分析方法之一,需要从信息时代生活中,分析大量的信息数据,从中得到各种各样的有用数据信息。大数据具备五个特点:数据量较大、种类多、速度快、时效高、价值密度低。目前,大数据主要存在以下几个方面的挑战:(1)数据采集存储和生命周期的管理。由于现代互联网络的大力发展,数据信息的类型、结构、模式变得更加复杂;(2)数据包的处理。数据包的价值密度是较低的,需要快速地提取有用信息,具备数据处理高效、可信及可视化等特点。对于同一个数据信息,采用不同的处理方法与分析模型,最后得到的数据结果相差较大。大数据的处理结果还需满足数据的可视化呈现、可追溯、可判断等相关需求。(3)数据的安全与隐私问题。在存储、处理、传输大量数据信息的过程中,都需要处理安全方面的问题。大数据时代,往往生产数据的人也同时是使用、管理数据的人,所以原有的技术手段已经显示出不足,无法满足现在大数据的安全要求。

2.云环境下的大数据存储原理

大数据的存储原理为:在数据存储的过程中,根据相关的存储节点,建立一个大型的云环境数据存储系统,通过该系统将大量的数据处理任务分解为各个小的任务,将数据的大集合区域分解为各小区域,然后并行进行数据处理。以下为处理的详细步骤:根据上述原理中的数据处理过程,在并行处理数据时,假设R为需存储的大量的数据,有k元属性,A1,A2,Ai,Ak,代表大量数据的各属性,其中Ai是大量数据被存储在第m个节点上。

3.云环境下的海量大数据存储系统设计

3.1存储设计

云存储系统文件存储系统的把节点主要有两部分:数据节点、非数据节点。系统中的主要成分是数据节点(图中DateNode节点),管理节点与监控节点为非数据节点(图中Master节点)。Client节点即为访问的客户。Node节点为系统主要部分,主要包括数据存储、数据查询、事务处理,主要完成确保系统大部分任务的正常运行。Master节点主要实现对系统整体状态的监控,包括系统节点状态、局部数据节点的查询、保持文件块地址信息等。

3.2文件块设计

在存储系统存储文件时,规定每个文件块都用一个主副本,每次事务处理文件块时主本控制所有副本的信息更新。文件块还有以下控制信息块:(1)主副本所在节点编号:系统中各节点都在Master节点获得属于本节点的编号,且与本节点的地址组成一个节点编号。(2)副本个数:包括主副本和其他副本,一般情况下,值为1时,代表无其他副本,值为0则代表此文件块不存在。(3)副本所在节点编号:保存所有节点编号,可实现根据节点编号寻找副本节点地址信息与系统编号的功能。

3.3更新算法设计

本数存储系统采用谷歌公司的Chubby服务机制,Chubby算法主要通过5台机器组成一体实现该算法的功能,这样就可支撑万台机器锁,5台机器本身则采用完全冗余策略,Chubby内部采用Conscnsusprotocol协议保证系统的一致性,在系统内部的5台机器中设定一个Master,随着时间的推移而自动更新。Client和Chubby之间采用event方式通信。

4.实际应用

现阶段,云存储越来越受到关注,应用范围也越来越广,各个领域都有较好的应用范例。随着城市化的快速发展,城市监控的网络变得越来越重要,以下为云存储平台在视频监控领域的应用情况。随着各互联网公司的加入,云存储研究相关人员将互联网相关产品中的信息与云存储应用绑定,增加用户的便捷性。在互联网云存储技术的支持下,互联网上消费电子产品的信息快速流通得以实现,有图片、文字、音乐、视频的信息,实现产品信息的自由流通,为用户提供了产品的交流元素。在该系统中需要提供存储容量大于10PB的存储系统。互联网云存储对访问要求较低,需要实现对数据的保护、压缩、删除等操作,公司根据用户对平台的存储服务空间、访问流量等进行相关的费用收取。

5.结论

云环境下的海量数据存储技术是未来发展的趋势,云平台是实现该技术的载体。针对传统的数据存储、处理方式的各种不足,本系统采用云环境下的存储技术,实现对数据的安全、快速存储、处理操作。通过对实际工程的应用,结果表明云存储技术的应用提高了对海量大数据的存储、处理操作的效率与质量。

参考文献

[1]邵彧.大数据云存储中的并行优化处理方法仿真[J].计算机仿真,2016,33(4):395-398.

[2]费贤举,王树锋.基于云环境下的海量大数据存储系统设计[J].计算机测量与控制,2014,22(7):2259-2262.

作者:刘斌 单位:武警北京市总队第二医院