上QQ阅读APP看书，第一时间看更新

第2章
Hadoop伪分布式集群

本章主要内容：

●　安装独立运行的Hadoop。

●　Hadoop伪分布式的安装与配置。

●　HDFS的命令。

●　Java操作HDFS。

Hadoop的运行方式可以分为3种：

●　独立运行的Hadoop。不提供HDFS存储服务，也不需要启动任何的后台守护进程，但可以直接在本地运行MapReduce程序，并将输出结果保存到本地磁盘上。

●　伪分布式运行的Hadoop。一般是指只有一台服务器的Hadoop运行环境，需要启动NameNode（主节点存储服务）、SecondaryNameNode（主节点日志数据备份服务）可提供HDFS存储服务。启动守护进程ResourceManager和NodeManager，运行MapReduce程序并将结果输出到HDFS上。

●　集群运行的Hadoop。可用于生产环境的高可靠集群。借助ZooKeeper实现宕机容灾和自动切换。

为了快速上手，我们会运行一个独立的MapReduce。独立运行的MapReduce可读取本地文本文件，然后将输出的数据保存到本地磁盘上。

注意：本书后面的环境，都使用CentOS7、JDK1.8_x64和Hadoop 3.2.2作为基础环境。本节搭建的伪分布式集群（实际上是单台虚拟机）所用的服务器及相关配置，可以用于第2章到第12章所有涉及的伪分布式操作环境。

第2章 Hadoop伪分布式集群

第2章
Hadoop伪分布式集群