站長留言

  • ✅ 本站維護及更新歷史紀錄,詳情請參考公告
  • ✅ 有任何意見、想法,歡迎留言給Spicy知道喔
  • ✅ 固定於每周一至周五更新Blogger文章,周末不定期
上課筆記程式Big DataHadoopLinuxSparkUbuntuVM

【Big Data】Spark - 3:Hadoop 環境建置 - Ubuntu, VMware, Java, SSH, Hadoop

tags: Big Data Hadoop

軟體清單

  1. Ubuntu:ubuntu-18.04.1-desktop-amd64.iso
  2. VMware:VMware Workstation Player
  3. Java 8+, Python, or R
  4. Hadoop:Apache Hadoop


1. 將 Ubuntu ISO 映像檔安裝於 VMware

2. Ubuntu 設定

  1. 設定帳密

  2. 設定虛擬機名稱、Ubuntu存放位置

  3. 其他設定

    • 硬碟空間:40GB
    • RAM:4~8GB
    • 處理器:2

補充:若後續還需要調整 Ubuntu 設定

3. 等待安裝 Ubuntu

4. 更新 apt

  1. 開啟 Terminal (CMD):ctrl + alt + T
  2. sudo apt-get update

5. 安裝 Java

  1. sudo apt-get install openjdk-8-jre openjdk-8-jdk
  2. 設定環境變數:gedit ~/.bashrc
    • 後續還會再碰到,需設定其他的環境變數
  3. 在檔案末,添加下列指令
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib/native" export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
  1. 使設定檔生效:source ~/.bashrc
  2. 檢驗環境變數是否設定正確:echo $JAVA_HOME
  3. 檢查 JDK 版本:java -version

補充:若出現 lock 的鎖定訊息

  • E: Could not get lock /var/lib/dpkg/lock - open (11: Resource temporarily unavailable)
  • 解決辦法
    • 刪除lock:sudo rm -R 檔案路徑

    • 注意可能檔案路徑不同,請參考錯誤訊息上的路徑,刪除檔案

6. SSH Server 和 rsa 金鑰

Why?

  • 機器之間的SSH認證要開啟
  • 因為NameNode必須要與DataNode進行溝通
  • 若未設定,在執行的時候,會出現要輸入user 使用者名稱、pwd 密碼的狀況

步驟

  1. SSH server:sudo apt-get install openssh-server

  2. 確認 SSH server:ssh localhost

  3. 關閉連線:exit

  4. cd ~/.ssh/

  5. 設定 SSH server, rsa 金鑰

    • 提升使用者權限:su - 使用者名稱,例如:su - test
    • 產生無需密碼連線的金鑰設定:ssh-keygen -t rsa
    • 按數次 “Enter” 鍵,直到顯示 RSA 金鑰

    • 儲存金鑰:cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
  6. 重複步驟2~3,確認連線

7. 安裝 Hadoop

  1. 將下載好的Hadoop,放置於 Download 目錄
    • 或者直接用Terminal下載:wget 網址
    • wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz
  2. 解壓縮:sudo tar -zxvf 檔案路徑 -C 目的地路徑
    • 放置於 /usr/local:sudo tar -zxvf ./hadoop-3.1.1.tar.gz -C /usr/local
  3. cd /usr/local
  4. 移動資料夾 (更改資料夾名稱):sudo mv 原資料夾名稱 新資料夾名稱
    • sudo mv ./hadoop-3.1.1/ ./hadoop
  5. sudo addgroup hadoop
  6. 更改使用者權限:sudo chown -R test:hadoop hadoop

補充:如何進入 Computer

  1. 一開始點擊檔案總管,一定會出現這個畫面

  2. 選擇 “Other Locations”

  3. 最常使用的 usr 資料夾

Extensive 延伸閱讀

  1. 如何安装Ubuntu 18.04 LTS桌面和服务器版,详细步骤
    https://www.sysgeek.cn/install-ubuntu-18-04-lts/
  2. How to Setup Hadoop 3.1 on CentOS, Ubuntu and LinuxMint
    https://tecadmin.net/setup-hadoop-single-node-cluster-on-centos-redhat/
  3. apt-get 指令一覽:https://b9532026.wordpress.com/2010/03/30/apt-get-指令一覽-2/
  4. Ubuntu:https://wiki.ubuntu-tw.org/index.php?title=首頁
  5. 常用指令https://wiki.ubuntu-tw.org/index.php?title=GNU/Linux_常用指令
  6. Linux Command 命令列指令與基本操作入門教學:https://blog.techbridge.cc/2017/12/23/linux-commnd-line-tutorial/

Reference 參考資料

  1. 上課講義:https://tims.etraining.gov.tw/TIMSonline/index3.aspx?OCID=113442
  2. 鎖定訊息,解決辦法:https://www.ubuntu-tw.org/modules/newbb/viewtopic.php?post_id=290136
  3. 封面圖片:https://www.ubuntu.com/
  4. 動物園之路 -4- 大象的安頓:https://ithelp.ithome.com.tw/articles/10127797

沒有留言:

張貼留言

本網站建議使用電腦或平板瀏覽