Hadoop简介の备忘

简介

本文以Hadoop实战为主,另外参考hadoop权威指南,hadoop技术内幕还有网上的资料给出的一个hadoop生态圈的一个简介,
主要以要点为主。

Hadoop历史

hadoop的历史blablabla….
主要记下hadoop不同版本的特性。

特性 1.x 0.22 2.x
安全认证
旧的配置名称 弃用 弃用
新的配置名称
旧的MapReduce API
新的MapReduce API 是(加入部分缺失类库)
MR1运行环境(经典)
MR2 运行环境(YARN)
HDFS联邦管理
HDFS高可用

Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则NameNode HA等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility两个重大特性。

1

Hadoop项目及其结构

1

  • Common 主要包括你FileSystem,RPC和串行化库。
  • Avro Avro是用户数据序列化的系统.提供了丰富的数据结构类型,快速可压缩的二进制数据格式,存储持久性数据的文件集,远程调用RPC的功能和简单的动态语言集成功能。
  • MapReduce: 用于大规模数据集(大于1TB)
  • HDFS: 分布式文件系统,
  • Hive : 数据仓库
  • HBase : 按列存储的数据库,使用HDFS作为底层存储
  • ZooKeeper : 分布式协调任务

Hadoop与分布式开发

  • 数据分布存储
  • 分布式并行计算
  • 本地计算
  • 任务粒度
  • 数据分割
  • 数据合并
  • Reduce
  • 任务管道

Hadoop计算模型-MapReuduce

Hadoop 数据管理

HBase的数据管理

Hive的数据管理

含*的查询不会生成MR任务

每个table在hive中都有一个相应的目录来存储数据。
比如一个表pvs: /wh/pvs/,其中wh是hive-site.xml中指定的数据仓库的目录。

Hive将元数据存储在RDBMS中,如Mysql中,hive中的元数据包括表的名字,表的列,表的分区,表分区的属性,表的属性,表的数据所在的目录等。

Hadoop集群安全策略