在线客服
客服热线
010-56293071
QQ:
服务时间:
8:30 - 18:30
>
>
数盾Hippo200在Hadoop环境中构建大数据集的解决方案

Copyright  ©  2018   北京数盾信息科技有限公司   www.shudun.com   All Rights Reserved.

京ICP备09024756号  

解决方案
优秀的密码信息安全整体解决方案提供商。

数盾Hippo200在Hadoop环境中构建大数据集的解决方案

1、背景概述
 
Hadoop是一个能够对大量数据进行分布式处理的软件框架,它具有高可靠性、高扩展性、高效性、高容错性的特点。Hadoop技术在越来越多的大数据分析场景中被采用,得以广泛应用。Hadoop核心的两部分HDFS和MapReduce,HDFS提供存储能力MapReduce提供计算能力。HDFS作为一种分布式文件系统,以流的形式访问被写入的大型文件,前端产生的数据先缓存到本地,再通过拷贝的方式写入HDFS系统中,这样就面临着一些问题:
 
(1)集群节点内存储资源与计算资源在一起,扩充存储的同时必须扩充计算;
 
(2)HDFS使用多副本方式保护数据安全,意味着空间利用率低,大量数据时的存储成本非常高;
 
(3)外部新进数据需要先做缓存再复制到HDFS,大量数据时的复制窗口时间过长,影响生产效率;
 
(4)无法依据数据被使用的频繁,自动分成冷热数据实现分层存放。
 
标准的Hadoop 架构
 
 
2、解决方案
 
数盾Hippo200采用ARM架构实现的新一代存储设备,兼容主流文件、块存储方式,提供统一的存储池构建数据集,支持多种访问协议直接对接前端应用,同时支持后端计算服务访问ARM存储集群中数据完成计算分析。 
 
·低功耗:满载工作情况下电量仅为X86架构的50%,随着规模变大或更长的运行时间,成本优势越突出。
 
·高可靠:多副本或纠删码方式保护数据,硬件冗余设计及预警通知,故障自修复,容忍硬盘,节点及故障,系统更可靠。
 
·高扩展性:支持按需动态增加节点,存储容量与并发能力同步扩容,最大可扩展至4096个节点。
 
 
数盾Hippo200 取代 HDFS
 
3、方案优势
 
本方案为用户节省大量成本并带来业务系统效率的提高,主要体现在:
 
(1)存储资源与计算资源分离,独立的存储系统在运维、扩容方面更加灵活;
 
(2)支持纠删码技术,相比较HDFS的多副本方式明显提升空间利用率,降低存储成本;
 
(3)支持多访问协议,对接各种应用平台及大数据分析平台,打造高效的数据流;
 
(4)建设统一的存储数据集,省去缓存环节,业务数据就地满足分析需求;
 
(5)免去从临时存储到HDFS文件系统的复制操作,节约大量时耗,提升大数据分析的周期;
 
(6)数据依据冷热程度,自动分级存于不同类型的硬盘介质,降低总体成本;
 
(7)兼容POSIX,可同时提供数据给不同版本的Hadoop使用,兼容性强大;
 
(8)节省Hadoop授权费,节省耗电费用50%以上。