北大青鸟java培训:Hadoop环境下管理大数据的八大存储技巧?
目前大数据行业越来越火爆,导致我国大数据人才极度缺乏。以下是关于在Hadoop环境中管理大数据存储的技能的IT培训/介绍。
1,分布式存储传统的集中式存储已经存在一段时间了。
但是大数据并不真正适合集中式存储架构。
Hadoop旨在使计算更接近数据节点,同时采用HDFS文件系统的大规模横向扩展功能。
虽然,Hadoop管理自身数据效率低下的通常解决方案是将Hadoop数据存储在SAN上。
但也造成了自身性能和规模的瓶颈。
现在,如果你通过一个集中式的SAN处理器来处理所有的数据,那就违背了Hadoop的分布式和并行特性。
您可以为不同数据节点管理多个SAN,也可以将所有数据节点集中在一个SAN中。
但是Hadoop是一个分布式应用,所以它应该运行在分布式存储上,这样存储就保留了和Hadoop本身一样的灵活性,但是也需要拥抱一个软件定义的存储方案,并在商业服务器上运行,这自然比瓶颈Hadoop更高效。
2,超收敛VS分布式注意,不要混淆超收敛和分布式。
一些超融合解决方案是分布式存储,但通常这一术语意味着您的应用程序和存储存储在同一计算节点上。
这是一种解决数据本地化问题的尝试,但是会造成太多的资源竞争。
这个Hadoop应用和存储平台将竞争相同的内存和CPU。
Hadoop运行在专有应用层,分布式存储运行在专有存储层,这样更好。
然后,利用缓存和分层技术解决数据定位问题,补偿网络性能损失。
3.避免控制器瓶颈的一个重要方面是避免通过单点(如传统控制器)处理数据。
相反,确保存储平台的并行化,性能可以显著提高。
此外,该方案提供了递增的可伸缩性。
向数据湖添加功能就像向其中投入x86服务器一样简单。
分布式存储平台将自动添加功能,并在必要时重新调整数据。
4.重复数据删除和压缩掌握大数据的关键是重复数据删除和压缩技术。
通常,大型数据集中70%到90%的数据会被简化。
在PB容量上,可以节省数万美元的磁盘成本。
现代平台提供线内(与后处理相比)重复数据删除和压缩,这大大减少了存储数据所需的容量。
5.合并Hadoop发行版许多大型企业都有多个Hadoop发行版。
可能是开发者需要或者企业部门已经适应了不同的版本。
无论如何,最终维护和操作这些集群往往是必要的。
一旦海量数据真正开始影响一个企业,多个Hadoop分发会导致效率低下。
我们可以通过创建一个可重复的压缩数据湖来提高数据效率。6.虚拟化Hadoop虚拟化已经席卷了企业市场。
许多地区超过80%的物理服务器现已虚拟化。
然而,仍然有许多企业因为性能和数据本地化问题而避免谈论虚拟化Hadoop。
7.创建弹性数据湖创建数据湖并不容易,但可能存在对大数据存储的需求。
我们有许多方法做这件事,但是哪一种是正确的呢?这个正确的架构应该是一个动态灵活的数据湖,能够以各种格式(结构化、非结构化、半结构化)存储所有资源的数据。
更重要的是,它必须支持应用程序在本地数据资源上执行,而不是在远程资源上执行。