免費手機網(wǎng)頁網(wǎng)站廣東省各城市疫情搜索高峰進度
1. Hadoop 是什么
- Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。
- 主要解決,海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的分析計算問題。
- 廣義上來說,Hadoop通常是指一個更廣泛的概念—Hadoop生態(tài)圈。
2. Hadoop 的優(yōu)勢
- 高可靠性:Hadoop底層維護多個數(shù)據(jù)副本,所以即使Hadoop某個計算元素或存儲出現(xiàn)故障,也不會導致數(shù)據(jù)的丟失。
- 高擴展性:在集群間分配任務數(shù)據(jù),可方便的擴展數(shù)以千計的節(jié)點。
- 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任務粗粒速度。
- 高容錯性:能夠自動將失敗的任務重新分配。
3. Hadoop 組成(面試重點)
4. HDFS 架構概述
HDFS(Hadoop Distributed File System)的架構概述。
- NameNode(nn):存儲文件的元數(shù)據(jù),如文件名,文件目錄結構,文件屬性(生成時間、副本數(shù)、文件權限),以及每個文件的塊列表和塊所在的DataNode等。
- DataNode(dn):在本地文件系統(tǒng)存儲文件塊數(shù)據(jù),以及塊數(shù)據(jù)的校驗和。
- Secondary NameNode(2nn):用來監(jiān)控HDFS狀態(tài)的輔助后臺程序,每隔一段時間獲取HDFS元數(shù)據(jù)的快照。
5. YARN架構
- ResourceManager(RM):整個集群資源(內存、CPU等)的老大。
- NodeManager(NM):單個節(jié)點服務器資源老大。
- ApplicationMaster(AM):單個任務運行的老大。
- Container:容器,相當于一臺獨立的服務器,里面封裝了任務運行所需要的資源,如內存、CPU、磁盤、網(wǎng)絡等。
6. MapReduce 架構
MapReduce將計算過程分為兩個階段:Map和Reduce
1)Map階段并行處理輸入數(shù)據(jù)
2)Reduce階段對Map結果進行匯總