Hadoop+Spark大数据分析实战
上QQ阅读APP看书,第一时间看更新

第2章
Hadoop伪分布式集群

本章主要内容:

● 安装独立运行的Hadoop。

● Hadoop伪分布式的安装与配置。

● HDFS的命令。

● Java操作HDFS。

Hadoop的运行方式可以分为3种:

● 独立运行的Hadoop。不提供HDFS存储服务,也不需要启动任何的后台守护进程,但可以直接在本地运行MapReduce程序,并将输出结果保存到本地磁盘上。

● 伪分布式运行的Hadoop。一般是指只有一台服务器的Hadoop运行环境,需要启动NameNode(主节点存储服务)、SecondaryNameNode(主节点日志数据备份服务)可提供HDFS存储服务。启动守护进程ResourceManager和NodeManager,运行MapReduce程序并将结果输出到HDFS上。

● 集群运行的Hadoop。可用于生产环境的高可靠集群。借助ZooKeeper实现宕机容灾和自动切换。

为了快速上手,我们会运行一个独立的MapReduce。独立运行的MapReduce可读取本地文本文件,然后将输出的数据保存到本地磁盘上。

注意:本书后面的环境,都使用CentOS7、JDK1.8_x64和Hadoop 3.2.2作为基础环境。本节搭建的伪分布式集群(实际上是单台虚拟机)所用的服务器及相关配置,可以用于第2章到第12章所有涉及的伪分布式操作环境。