站長留言

  • ✅ 本站維護及更新歷史紀錄,詳情請參考公告
  • ✅ 有任何意見、想法,歡迎留言給Spicy知道喔
  • ✅ 固定於每周一至周五更新Blogger文章,周末不定期
上課筆記程式Big DataHadoopSpark

【Big Data】Spark - 1:Hadoop 簡介 - HDFS, YARN, MapReduce

tags: Big Data Hadoop

What Is Hadoop?


Hadoop

  1. 集儲存、運算、資源管理於一身的分散式 Big Data 處理平臺

  2. Great for batch 批次, but slow

HDFS

  • Hadoop Distributed File System 分散式檔案系統
  1. Name Node:儲存檔案的block清單,metadata、namespace
  2. Data Node:負責儲存實體檔案的block


3. block:將同一個block複製成數等分(通常是3份)再將這些block分散儲存到各個DataNode,同時會產生一份清單,記載著這份檔案所屬的block與散落在哪幾台DataNode,這份清單會被記錄在NameNode上,而相同的block不會同時存在於同一個DataNode上

  • 高度的容錯性:當其中一個節點損壞時,檔案系統中的資料還能保存無缺

MapReduce

  1. Mapping:把工作分散、分佈出去
  2. Reducing:各節點運算出的結果直接傳送回來歸納整合
  3. 由於MapReduce所有運算的過程都會讀寫檔案,運算效能相較之下較慢(之後被Spark取代)
  4. input:Big Data
  5. output:Useful Data

YARN

  1. Yet-Another Resource Negotiator 資源管理系統

  2. 又稱 MapReduce 2.0

  3. 將resource management和job scheduling/monitoring 分開

    • Resource Manager:在NameNode上,管理Hadoop內資源
    • Node Manager:在NameNode上,監控Hadoop叢集內每台機器的資源使用情況,數量預設會與DataNode相同
    • Application Master:負責一個Job生命週期內的所有工作,類似老的框架中JobTracker

  4. 原本的MapReduces哪裡不好?

    • 擴展性差:Job Tracker兼備資源管理和作業控制兩個功能
    • 可靠性差:Job Tracker如果出錯的話,整個Job都會失敗 >> 單點故障

Extensive 延伸閱讀

  1. Hadoop ecosystem 工具簡介, 安裝教學與各種情境使用(中文)
    https://ithelp.ithome.com.tw/users/20107349/ironman/1309
  2. 動物園之路(初學者):https://ithelp.ithome.com.tw/users/20028525/ironman/596

Reference 參考資料

  1. Hadoop 官網:https://hadoop.apache.org/
  2. 上課講義:https://tims.etraining.gov.tw/TIMSonline/index3.aspx?OCID=113442
  3. tutorialspoint:https://www.tutorialspoint.com/hadoop/index.htm
  4. 認識大數據的黃色小象幫手 –– Hadoop
    https://www.inside.com.tw/2015/03/12/big-data-4-hadoop
  5. Hadoop 生態系統與場景
    https://bigdatafinance.tw/index.php/tech/methodology/409-hadoop
  6. Apache Hadoop NextGen MapReduce (YARN)
    https://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-site/YARN.html
  7. Introduction to Hadoop, MapReduce, and Apache Spark
    https://slideplayer.com/slide/9521933/
  8. 圖片:https://www.quora.com/What-is-the-difference-between-HBase-and-Hadoop
  9. Hadoop 新 MapReduce 框架 Yarn 详解
    https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

沒有留言:

張貼留言

本網站建議使用電腦或平板瀏覽