Hadoop3.x入門：完全分散式Hadoop叢集安裝部署

首頁>技術>JasonLu19862020-03-28 01:34

Hadoop3.x入門：完全分散式Hadoop叢集安裝部署

一、概述

上篇文章我們寫了Hadoop3.1.1的原始碼編譯，這裡我們將編譯的原始碼進行部署，作為我後面遠端程式碼除錯的目標叢集，這裡我把部署的一些重要的步驟寫一寫，希望對新手們有空，對Hadoop很熟悉的就不用看了。

叢集節點：

節點主機名說明192.168.0.101master.hadoop.ljsmaster節點192.168.0.102worker1.hadoop.ljsworker1節點192.168.0.103worker2.hadoop.ljsworker2節點

軟體版本：

Apache Hadoop3.1.1

JDK1.8

Centos7.2

二、安裝部署

1.叢集的初始化工作，請參照：Spark2.x入門：叢集(Standalone)安裝、配置、啟動指令碼詳解，ssh免密，關閉防火牆、jdk安裝等上面這篇文章已經詳解講了，這裡不再講解；

2.修改配置檔案，在Master節點配置好後，直接複製到另外兩個worker節點即可:

1).修改hadoop-env.sh檔案，新增以下內容，我這裡用root使用者安裝的，你如果用其他使用者下面就配置你的使用者即可：

# export JAVA_HOME= export JAVA_HOME=/opt/jdk1.8.0_112# Location of Hadoop.  By default, Hadoop will attempt to determine# this location based upon its execution path.# export HADOOP_HOME=export HDFS_NAMENODE_USER=rootexport HDFS_DATANODE_USER=rootexport HDFS_SECONDARYNAMENODE_USER=rootexport YARN_RESOURCEMANAGER_USER=rootexport YARN_NODEMANAGER_USER=root

2).修改hdfs-site.xml,檔案內容如下：

&lt;configuration&gt;  //namenode元資料目錄    &lt;property&gt;        &lt;name&gt;dfs.name.dir&lt;/name&gt;        &lt;value&gt;/data/app/dataDir/dfs/name&lt;/value&gt;        &lt;description&gt;            Path on the local filesystem where theNameNode stores the namespace and transactions logs persistently.        &lt;/description&gt;    &lt;/property&gt;    //datanode資料目錄，就是你自己的資料    &lt;property&gt;        &lt;name&gt;dfs.data.dir&lt;/name&gt;        &lt;value&gt;/data/app/dataDir/dfs/data&lt;/value&gt;        &lt;description&gt;            Comma separated list of paths on the localfilesystem of a DataNode where it should store itsblocks.        &lt;/description&gt;    &lt;/property&gt;    //web的埠一般就是50070    &lt;property&gt;        &lt;name&gt;dfs.namenode.http-address&lt;/name&gt;        &lt;value&gt;master.hadoop.ljs:50070&lt;/value&gt;    &lt;/property&gt;    &lt;property&gt;        &lt;name&gt;dfs.namenode.secondary.http-address&lt;/name&gt;        &lt;value&gt;master.hadoop.ljs:50090&lt;/value&gt;    &lt;/property&gt;    //三副本    &lt;property&gt;        &lt;name&gt;dfs.replication&lt;/name&gt;        &lt;value&gt;3&lt;/value&gt;    &lt;/property&gt;    //檔案操作許可權檢查，這裡配置成false    &lt;property&gt;        &lt;name&gt;dfs.permissions&lt;/name&gt;        &lt;value&gt;false&lt;/value&gt;        &lt;description&gt;need not permissions&lt;/description&gt;    &lt;/property&gt;&lt;/configuration&gt;

3).修改core-site.xml,檔案內容如下：

&lt;configuration&gt;    &lt;property&gt;        &lt;name&gt;fs.defaultFS&lt;/name&gt;        &lt;value&gt;hdfs://master.hadoop.ljs:8020&lt;/value&gt;    &lt;/property&gt;    //臨時檔案路徑    &lt;property&gt;        &lt;name&gt;hadoop.tmp.dir&lt;/name&gt;        &lt;value&gt;/data/app/dataDir/tmp&lt;/value&gt;    &lt;/property&gt;&lt;/configuration&gt;

4).修改yarn-site.xml,為方便檢視日誌，這裡配置了日誌聚合、每個nodemanager分配多少記憶體，檔案內容如下：

&lt;configuration&gt;    &lt;property&gt;        &lt;name&gt;yarn.resourcemanager.hostname&lt;/name&gt;        &lt;value&gt;master.hadoop.ljs&lt;/value&gt;    &lt;/property&gt;    &lt;property&gt;        &lt;name&gt;yarn.nodemanager.aux-services&lt;/name&gt;        &lt;value&gt;mapreduce_shuffle&lt;/value&gt;    &lt;/property&gt; &lt;property&gt;      &lt;name&gt;yarn.log-aggregation-enable&lt;/name&gt;      &lt;value&gt;true&lt;/value&gt;    &lt;/property&gt;  &lt;property&gt;      &lt;name&gt;yarn.log-aggregation.retain-seconds&lt;/name&gt;      &lt;value&gt;2592000&lt;/value&gt;    &lt;/property&gt;    &lt;property&gt;      &lt;name&gt;yarn.log.server.url&lt;/name&gt;      &lt;value&gt;http://master.hadoop.ljs:19888/jobhistory/logs&lt;/value&gt;    &lt;/property&gt;  &lt;property&gt;      &lt;name&gt;yarn.nodemanager.local-dirs&lt;/name&gt;      &lt;value&gt;/data/app/dataDir/yarn/local&lt;/value&gt;    &lt;/property&gt;   &lt;property&gt;      &lt;name&gt;yarn.nodemanager.log-dirs&lt;/name&gt;      &lt;value&gt;/data/app/dataDir/yarn/log&lt;/value&gt;    &lt;/property&gt;    &lt;property&gt;      &lt;name&gt;yarn.nodemanager.log.retain-second&lt;/name&gt;      &lt;value&gt;604800&lt;/value&gt;    &lt;/property&gt;    &lt;property&gt;      &lt;name&gt;yarn.nodemanager.remote-app-log-dir&lt;/name&gt;      &lt;value&gt;/app-logs&lt;/value&gt;    &lt;/property&gt;    &lt;property&gt;      &lt;name&gt;yarn.nodemanager.remote-app-log-dir-suffix&lt;/name&gt;      &lt;value&gt;logs&lt;/value&gt;    &lt;/property&gt;  &lt;property&gt;      &lt;name&gt;yarn.nodemanager.delete.debug-delay-sec&lt;/name&gt;      &lt;value&gt;600&lt;/value&gt;    &lt;/property&gt;&lt;property&gt;  &lt;name&gt;yarn.nodemanager.localizer.cache.target-size-mb&lt;/name&gt;  &lt;value&gt;1024&lt;/value&gt;&lt;/property&gt;&lt;property&gt;  &lt;name&gt;yarn.nodemanager.localizer.cache.cleanup.interval-ms&lt;/name&gt;  &lt;value&gt;60000&lt;/value&gt;&lt;/property&gt;&lt;property&gt;  &lt;name&gt;yarn.nodemanager.resource.memory-mb&lt;/name&gt;  &lt;value&gt;2048&lt;/value&gt;&lt;/property&gt;&lt;property&gt;  &lt;name&gt;yarn.scheduler.maximum-allocation-mb&lt;/name&gt;  &lt;value&gt;2048&lt;/value&gt;&lt;/property&gt;&lt;property&gt;  &lt;name&gt;yarn.scheduler.minimum-allocation-mb&lt;/name&gt;  &lt;value&gt;1024&lt;/value&gt;&lt;/property&gt;&lt;property&gt;  &lt;name&gt;yarn.scheduler.minimum-allocation-mb&lt;/name&gt;  &lt;value&gt;1024&lt;/value&gt;&lt;/property&gt;&lt;property&gt;  &lt;name&gt;yarn.nodemanager.resource.cpu-vcores&lt;/name&gt;  &lt;value&gt;2&lt;/value&gt;&lt;/property&gt;&lt;property&gt;  &lt;name&gt;yarn.scheduler.maximum-allocation-vcores&lt;/name&gt;  &lt;value&gt;2&lt;/value&gt;&lt;/property&gt;&lt;property&gt;  &lt;name&gt;yarn.scheduler.minimum-allocation-vcores&lt;/name&gt;  &lt;value&gt;1&lt;/value&gt;&lt;/property&gt;&lt;/configuration&gt;

5).mapred-site.xml，上面yarn-site.xml也配置了historyserver服務，這裡跟它配置要一致：

&lt;configuration&gt;&lt;property&gt;&lt;name&gt;mapreduce.framework.name&lt;/name&gt;&lt;value&gt;yarn&lt;/value&gt;&lt;/property&gt;&lt;property&gt;&lt;name&gt;mapreduce.jobhistory.address&lt;/name&gt;&lt;value&gt;master.hadoop.ljs:10020&lt;/value&gt;&lt;/property&gt;&lt;property&gt;&lt;name&gt;mapreduce.jobhistory.webapp.address&lt;/name&gt;&lt;value&gt;master.hadoop.ljs:19888&lt;/value&gt;&lt;/property&gt;&lt;property&gt;  &lt;name&gt;mapreduce.reduce.memory.mb&lt;/name&gt;  &lt;value&gt;1024&lt;/value&gt;&lt;/property&gt;&lt;property&gt;  &lt;name&gt;mapreduce.map.memory.mb&lt;/name&gt;  &lt;value&gt;1024&lt;/value&gt;&lt;/property&gt;&lt;property&gt;  &lt;name&gt;yarn.app.mapreduce.am.resource.mb&lt;/name&gt;  &lt;value&gt;1024&lt;/value&gt;&lt;/property&gt;&lt;/configuration&gt;

6).修改workers檔案，上面指定了資料三副本，這裡最少也得配置三個datanode,如果你配置的是一個副本，可以配置一個或者更多datanode，檔案內容如下：

[root@master hadoop]# cat workers master.hadoop.ljsworker1.hadoop.ljsworker1.hadoop.ljs

3.配置檔案修改完成，拷貝到worker1、worker節點：

[root@master hadoop]# scp -r /data/app/hadoop-3.1.1  worker1:/data/app/[root@master hadoop]# scp -r /data/app/hadoop-3.1.1  worker1:/data/app/

4.為了方便操作，這裡可以修改下環境變數，在/etc/profile新增：

export HADOOP_HOME=/data/app/hadoop-3.1.1export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

執行 source /etc/profile生效

source /etc/profile

5.啟動叢集，這裡把常用命令列一下：

1)啟動整個叢集，在namenode節點執行

 /data/app/hadoop-3.1.1/sbin/start-all.sh

2)停止整個叢集，在namenode節點執行

 /data/app/hadoop-3.1.1/sbin/stop-all.sh

3)單獨啟動/停止namenode,只需在namenode節點執行

/data/app/hadoop-3.1.1/sbin/hadoop-daemon.sh  start namenode /data/app/hadoop-3.1.1/sbin/hadoop-daemon.sh  stop  namenode

4)單獨啟動/停止datanode，各個datanode都要執行

&nbsp;/data/app/hadoop-3.1.1/sbin/hadoop-daemon.sh&nbsp;&nbsp;start&nbsp;datanode&nbsp; /data/app/hadoop-3.1.1/sbin/hadoop-daemon.sh  stop  datanode

5)啟動/停止所有datanode，在namenode節點執行

/data/app/hadoop-3.1.1/sbin/hadoop-daemons.sh  start datanode /data/app/hadoop-3.1.1/sbin/hadoop-daemons.sh  stop  datanode

6)啟動/停止整個yarn服務，在namenode節點執行

 /data/app/hadoop-3.1.1/sbin/start-yarn.sh/data/app/hadoop-3.1.1/sbin/stop-yarn.sh

7)啟動/停止yarn resourcemanager服務，在namenode節點執行：

/data/app/hadoop-3.1.1/sbin/yarn-daemon.sh&nbsp; start&nbsp;resourcemanager/data/app/hadoop-3.1.1/sbin/yarn-daemon.sh  stop  resourcemanager

8)啟動/停止單個yarn nodemanager服務，各個nodemanager都要執行

/data/app/hadoop-3.1.1/sbin/yarn-daemon.sh  start nodemanager/data/app/hadoop-3.1.1/sbin/yarn-daemon.sh  stop  nodemanager

9)啟動/停止所有yarn nodemanager服務，在namenode節點執行：

/data/app/hadoop-3.1.1/sbin/yarn-daemons.sh  start nodemanager/data/app/hadoop-3.1.1/sbin/yarn-daemons.sh  stop  nodemanager

10)啟動/停止historyserver

/data/app/hadoop-3.1.1/sbin/mr-jobhistory-daemon.sh start historyserver/data/app/hadoop-3.1.1/sbin/mr-jobhistory-daemon.sh stop historyserver

6.叢集啟動後，可訪問master.hadoop.ljs:50070埠，進行驗證。

117

Hadoop

HDFS

∨ Flutter 學習路線圖！跨平臺開發必備，不可錯過的學習進階歷程！

劇多