ApacheHadoop-2.2.0 与之前的 hadoop-1.x 相比出现了一些新的特性,具体如下: 一.资源统一管理系统 YARN YARN 是 ”YetAnotherResourceNegotiator”的简称。由于 MRv1 存在扩展性,资源利用率,可靠性和只能单一框架作业的问题, apache 对 MRv1 进行改造
Apache Hadoop-2.2.0 与之前的 hadoop-1.x 相比出现了一些新的特性,具体如下:
一.资源统一管理系统 YARN
YARN 是 ”Yet Another Resource Negotiator”的简称。由于 MRv1 存在扩展性,资源利用率,可靠性和只能单一框架作业的问题, apache 对 MRv1 进行改造,把 JobTracker 中的资源管理功能抽象成了一个独立的系统,由原来 HDFS,MapReduce 两个框架的 Hadoop 变为了 HDFS,YARN,MR,Others 等多个框架集合的 Hadoop ,如下图 1 Hadoop 框架的演变
图1 Hadoop框架的演变
集结了YARN的集群的不单局限运行MR,还能够同时运行其他的框架比如Spark,Storm,Giraph等,对于运行在YARN之上的各种框架,YARN进行资源(比如CPU,内存)统一管理和分配,使它们共享一个集群,从而提高资源的利用率,降低成本。
二.HDFS Federation
在 Hadoop 0.23 之前一个集群只有一个命名空间,并且是单独的 NameNode, 这个 NameNode 负责对这个单独的命名空间进行管理。针对单个 NameNode 的 HDFS 架构具有一定的局限性,比如随着数据的飞涨命名空间的限制,性能的瓶颈,大量不同类型的程序在集群中运行导致相互之间的影响,同时由于单节点失效的隐患,一个 NameNode 的集群一旦宕机将导致了整个集群的不可用。 HDFS Federation 使 HDFS 的命名空间能够横向的扩展。在 HDFS Federation 中的 NameNode 是联盟关系,它们之间相互独立且不需要相互协调 , 各自分工,管理自己的区域。从而能够快速的解决大部分单 NameNode 的问题。图 2HDFS 框架图:
图2 HDFS框架图
三.HDFS Snaphots
保存某一个时刻的只读文件系统,用于数据的备份防止用户错误和灾难恢复。与数据库快照类似!
四.HDFS HA
用于解决 HDFS 的 NameNode 单节点问题。实现主 NameNode 节点在出现故障时与备 NameNode 节点之间的快速切换。主备 NameNode 之间通过一个共享存储同步元数据信息,其中 Hadoop 提供了 QJM 和 NFS 两种可选的共享存储系统。