tags: Big Data
Hadoop
What Is Hadoop?
Hadoop
HDFS
- Hadoop Distributed File System 分散式檔案系統
- Name Node:儲存檔案的block清單,metadata、namespace
- Data Node:負責儲存實體檔案的block
3. block:將同一個block複製成數等分(通常是3份)再將這些block分散儲存到各個DataNode,同時會產生一份清單,記載著這份檔案所屬的block與散落在哪幾台DataNode,這份清單會被記錄在NameNode上,而相同的block不會同時存在於同一個DataNode上
- 高度的容錯性:當其中一個節點損壞時,檔案系統中的資料還能保存無缺
MapReduce
- Mapping:把工作分散、分佈出去
- Reducing:各節點運算出的結果直接傳送回來歸納整合
- 由於MapReduce所有運算的過程都會讀寫檔案,運算效能相較之下較慢(之後被Spark取代)
- input:Big Data
- output:Useful Data
YARN
-
Yet-Another Resource Negotiator 資源管理系統
-
又稱 MapReduce 2.0
-
將resource management和job scheduling/monitoring 分開
- Resource Manager:在NameNode上,管理Hadoop內資源
- Node Manager:在NameNode上,監控Hadoop叢集內每台機器的資源使用情況,數量預設會與DataNode相同
- Application Master:負責一個Job生命週期內的所有工作,類似老的框架中JobTracker
-
原本的MapReduces哪裡不好?
- 擴展性差:Job Tracker兼備資源管理和作業控制兩個功能
- 可靠性差:Job Tracker如果出錯的話,整個Job都會失敗 >> 單點故障
Extensive 延伸閱讀
- Hadoop ecosystem 工具簡介, 安裝教學與各種情境使用(中文)
https://ithelp.ithome.com.tw/users/20107349/ironman/1309 - 動物園之路(初學者):https://ithelp.ithome.com.tw/users/20028525/ironman/596
Reference 參考資料
- Hadoop 官網:https://hadoop.apache.org/
- 上課講義:https://tims.etraining.gov.tw/TIMSonline/index3.aspx?OCID=113442
- tutorialspoint:https://www.tutorialspoint.com/hadoop/index.htm
- 認識大數據的黃色小象幫手 –– Hadoop
https://www.inside.com.tw/2015/03/12/big-data-4-hadoop - Hadoop 生態系統與場景
https://bigdatafinance.tw/index.php/tech/methodology/409-hadoop - Apache Hadoop NextGen MapReduce (YARN)
https://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-site/YARN.html - Introduction to Hadoop, MapReduce, and Apache Spark
https://slideplayer.com/slide/9521933/ - 圖片:https://www.quora.com/What-is-the-difference-between-HBase-and-Hadoop
- Hadoop 新 MapReduce 框架 Yarn 详解
https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/
沒有留言:
張貼留言