站長留言

  • ✅ 本站維護及更新歷史紀錄,詳情請參考公告
  • ✅ 有任何意見、想法,歡迎留言給Spicy知道喔
  • ✅ 固定於每周一至周五更新Blogger文章,周末不定期
上課筆記程式Big DataHadoopSpark

【Big Data】Spark - 4:Hadoop - Single-Node Cluster, HDFS, YARN

tags: Big Data Hadoop

Common

  • 本篇主旨在於如何啟動 Single-Node Cluster 單節點叢集
  • Single-Node Cluster 又稱為 Pseudo-Distributed Mode 偽分散模式


1. 設定 core-site.xml

  1. gedit /usr/local/hadoop/etc/hadoop/core-site.xml
  2. 添加以下指令
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>

2. 設定 hadoop-env.sh

  1. gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
  2. 利用 ctrl + f 搜尋,在此指令# export JAVA_HOME=下方添加
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

3. 設定 hdfs-site.xml

  1. gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml
  2. 添加以下指令
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value> file:/usr/local/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value> file:/usr/local/hadoop/hadoopdata/hdfs/datanode</value> </property> </configuration>

4. 設定 yarn-site.xml

  1. gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml
  2. 添加以下指令
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.nodemanager.resource.cpu-vcores</name> <value>8</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>8192</value> </property> </configuration>

5. 設定 mapred-site.xml

  1. gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml
  2. 添加以下指令
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value> </property> <property> <name>mapreduce.map.env</name> <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value> </property> <property> <name>mapreduce.reduce.env</name> <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value> </property> </configuration>

補充:service 的環境變數已經不再相互繼承

  • 為了解決 hadoop 3.0.0 版本之後,各個 service 的環境變數已經不再相互繼承所產生的問題
  • 參考資料:Hadoop 3.0.0 RC0執行MR Job時所遇到的坑
  • 為了在 Hadoop 環境下,能順利執行 MapReduce 程式

6. 設定 HDFS 目錄

sudo rm -rf /usr/local/hadoop/hadoopdata/hdfs mkdir -p /usr/local/hadoop/hadoopdata/hdfs/namenode mkdir -p /usr/local/hadoop/hadoopdata/hdfs/datanode sudo chown -R 使用者名稱:使用者名稱 /usr/local/hadoop

7. 啟動 Single-Node Cluster

  1. 格式化 HDFS NameNode:hadoop namenode -format

  2. 格式化 HDFS DataNode:hadoop datanode -format

  3. 啟動 HDFS:start-dfs.sh

  4. 啟動 YARN:start-yarn.sh

  5. 檢查 processesjps

補充:檢查 Hadoop

ResourceManager

  • 開啟 Firefox,並輸入 localhost:8088

    • 節點資訊:選擇側邊選單的 Nodes 查看

HDFS NameNode

  • 輸入 localhost:9870

    • Datanodes資訊:選擇上方選單的Datanodes

NodeManager

  • 輸入 localhost:8042

HDFS DataNode

  • 輸入 localhost:9864

停止 Hadoop

  • stop-all.sh

Extensive 延伸閱讀

  1. How to Install Hadoop On Ubuntu 17.10 And Run Your First MapReduce Program
    https://www.digitalvidya.com/blog/install-hadoop-on-ubuntu-and-run-your-first-mapreduce-program/
  2. Hadoop Single Node Cluster 安裝在Ubuntu 詳細解說
    http://hadoopspark.blogspot.com/2016/05/hadoop-single-node-cluster_12.html
  3. 第4章 Hadoop 2.6 Single Node Cluster 安裝指令
    http://hadoopspark.blogspot.com/2015/09/4-hadoop-26-single-node-cluster.html

Reference 參考資料

  1. 上課講義:https://tims.etraining.gov.tw/TIMSonline/index3.aspx?OCID=113442
  2. 封面圖片:http://www.learncomputer.com/hadoop-single-node-cluster/

沒有留言:

張貼留言

本網站建議使用電腦或平板瀏覽