【Big Data】Spark - 1：Hadoop 簡介 - HDFS, YARN, MapReduce - SpicyBoyd 部落格

上課筆記程式 Big Data Hadoop Spark

【Big Data】Spark - 1：Hadoop 簡介 - HDFS, YARN, MapReduce

SpicyBoyd

tags: `Big Data` `Hadoop`

What Is Hadoop?

Hadoop

集儲存、運算、資源管理於一身的分散式 Big Data 處理平臺
- HDFS
- Yarn
- MapReduce
Great for batch 批次, but slow

HDFS

Hadoop Distributed File System 分散式檔案系統

Name Node：儲存檔案的block清單，metadata、namespace
Data Node：負責儲存實體檔案的block

3. block：將同一個block複製成數等分(通常是3份)再將這些block分散儲存到各個DataNode，同時會產生一份清單，記載著這份檔案所屬的block與散落在哪幾台DataNode，這份清單會被記錄在NameNode上，而相同的block不會同時存在於同一個DataNode上

高度的容錯性：當其中一個節點損壞時，檔案系統中的資料還能保存無缺

MapReduce

Mapping：把工作分散、分佈出去
Reducing：各節點運算出的結果直接傳送回來歸納整合
由於MapReduce所有運算的過程都會讀寫檔案，運算效能相較之下較慢(之後被Spark取代)
input：Big Data
output：Useful Data

YARN

Yet-Another Resource Negotiator 資源管理系統
又稱 MapReduce 2.0
將resource management和job scheduling/monitoring 分開
- Resource Manager：在NameNode上，管理Hadoop內資源
- Node Manager：在NameNode上，監控Hadoop叢集內每台機器的資源使用情況，數量預設會與DataNode相同
- Application Master：負責一個Job生命週期內的所有工作，類似老的框架中JobTracker
原本的MapReduces哪裡不好?
- 擴展性差：Job Tracker兼備資源管理和作業控制兩個功能
- 可靠性差：Job Tracker如果出錯的話，整個Job都會失敗 >> 單點故障

Extensive 延伸閱讀

Hadoop ecosystem 工具簡介, 安裝教學與各種情境使用(中文)
https://ithelp.ithome.com.tw/users/20107349/ironman/1309
動物園之路(初學者)：https://ithelp.ithome.com.tw/users/20028525/ironman/596

Reference 參考資料

Hadoop 官網：https://hadoop.apache.org/
上課講義：https://tims.etraining.gov.tw/TIMSonline/index3.aspx?OCID=113442
tutorialspoint：https://www.tutorialspoint.com/hadoop/index.htm
認識大數據的黃色小象幫手 –– Hadoop
https://www.inside.com.tw/2015/03/12/big-data-4-hadoop
Hadoop 生態系統與場景
https://bigdatafinance.tw/index.php/tech/methodology/409-hadoop
Apache Hadoop NextGen MapReduce (YARN)
https://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-site/YARN.html
Introduction to Hadoop, MapReduce, and Apache Spark
https://slideplayer.com/slide/9521933/
圖片：https://www.quora.com/What-is-the-difference-between-HBase-and-Hadoop
Hadoop 新 MapReduce 框架 Yarn 详解
https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

SpicyBoyd

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

本網站建議使用電腦或平板瀏覽

Copyright 2017-, SpicyBoyd 部落格. All rights Reserved. | Designed by Colorlib