【Big Data】Spark - 4：Hadoop - Single-Node Cluster, HDFS, YARN

tags: `Big Data` `Hadoop`

Common

本篇主旨在於如何啟動 Single-Node Cluster 單節點叢集
Single-Node Cluster 又稱為 Pseudo-Distributed Mode 偽分散模式

1. 設定 core-site.xml

gedit /usr/local/hadoop/etc/hadoop/core-site.xml
添加以下指令

<configuration>
    <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
    </property>
</configuration>

2. 設定 hadoop-env.sh

gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
利用 ctrl + f 搜尋，在此指令# export JAVA_HOME=下方添加


export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

3. 設定 hdfs-site.xml

gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml
添加以下指令

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value> file:/usr/local/hadoop/hadoopdata/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value> file:/usr/local/hadoop/hadoopdata/hdfs/datanode</value>
    </property>
</configuration>

4. 設定 yarn-site.xml

gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml
添加以下指令

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>8</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>8192</value>
    </property>
</configuration>

5. 設定 mapred-site.xml

gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml
添加以下指令

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
    </property>
    <property>
        <name>mapreduce.map.env</name>
        <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
    </property>
    <property>
        <name>mapreduce.reduce.env</name>
        <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
    </property>
</configuration>

補充：service 的環境變數已經不再相互繼承

為了解決 hadoop 3.0.0 版本之後，各個 service 的環境變數已經不再相互繼承所產生的問題
參考資料：Hadoop 3.0.0 RC0執行MR Job時所遇到的坑
為了在 Hadoop 環境下，能順利執行 MapReduce 程式

6. 設定 HDFS 目錄

sudo rm -rf /usr/local/hadoop/hadoopdata/hdfs
mkdir -p /usr/local/hadoop/hadoopdata/hdfs/namenode
mkdir -p /usr/local/hadoop/hadoopdata/hdfs/datanode
sudo chown -R 使用者名稱:使用者名稱 /usr/local/hadoop

7. 啟動 Single-Node Cluster

格式化 HDFS NameNode：hadoop namenode -format
格式化 HDFS DataNode：hadoop datanode -format
啟動 HDFS：start-dfs.sh
啟動 YARN：start-yarn.sh
檢查 processes：jps

補充：檢查 Hadoop

ResourceManager

開啟 Firefox，並輸入 localhost:8088
- 節點資訊：選擇側邊選單的 Nodes 查看

HDFS NameNode

輸入 localhost:9870
- Datanodes資訊：選擇上方選單的Datanodes

NodeManager

輸入 localhost:8042

HDFS DataNode

輸入 localhost:9864

停止 Hadoop

stop-all.sh

Extensive 延伸閱讀

How to Install Hadoop On Ubuntu 17.10 And Run Your First MapReduce Program
https://www.digitalvidya.com/blog/install-hadoop-on-ubuntu-and-run-your-first-mapreduce-program/
Hadoop Single Node Cluster 安裝在Ubuntu 詳細解說
http://hadoopspark.blogspot.com/2016/05/hadoop-single-node-cluster_12.html
第4章 Hadoop 2.6 Single Node Cluster 安裝指令
http://hadoopspark.blogspot.com/2015/09/4-hadoop-26-single-node-cluster.html

Reference 參考資料

上課講義：https://tims.etraining.gov.tw/TIMSonline/index3.aspx?OCID=113442
封面圖片：http://www.learncomputer.com/hadoop-single-node-cluster/

Author Description

站長留言

【Big Data】Spark - 4：Hadoop - Single-Node Cluster, HDFS, YARN

tags: `Big Data` `Hadoop`

Common

1. 設定 core-site.xml

2. 設定 hadoop-env.sh

3. 設定 hdfs-site.xml

4. 設定 yarn-site.xml

5. 設定 mapred-site.xml

補充：service 的環境變數已經不再相互繼承

6. 設定 HDFS 目錄

7. 啟動 Single-Node Cluster

補充：檢查 Hadoop

ResourceManager

HDFS NameNode

NodeManager

HDFS DataNode

停止 Hadoop

Extensive 延伸閱讀

Reference 參考資料

SpicyBoyd

沒有留言:

張貼留言

若這些文章對你有幫助，歡迎贊助

站內搜尋

熱門文章

文章分類

文章總表

本站網頁

訪客留言

聯絡我

本站錯誤回報

快速連結

站外連結

瀏覽次數

訂閱

Author Description

Author Social Links

站長留言

【Big Data】Spark - 4：Hadoop - Single-Node Cluster, HDFS, YARN

tags: Big Data Hadoop

Common

1. 設定 core-site.xml

2. 設定 hadoop-env.sh

3. 設定 hdfs-site.xml

4. 設定 yarn-site.xml

5. 設定 mapred-site.xml

補充：service 的環境變數已經不再相互繼承

6. 設定 HDFS 目錄

7. 啟動 Single-Node Cluster

補充：檢查 Hadoop

ResourceManager

HDFS NameNode

NodeManager

HDFS DataNode

停止 Hadoop

Extensive 延伸閱讀

Reference 參考資料

SpicyBoyd

沒有留言:

張貼留言

若這些文章對你有幫助，歡迎贊助

站內搜尋

熱門文章

文章分類

文章總表

本站網頁

訪客留言

聯絡我

本站錯誤回報

快速連結

站外連結

瀏覽次數

訂閱

tags: `Big Data` `Hadoop`