當(dāng)前位置：首頁(yè) > news >正文

建筑工程外架安全網(wǎng)西安的網(wǎng)絡(luò)優(yōu)化公司

news 2025/7/5 1:38:42

建筑工程外架安全網(wǎng),西安的網(wǎng)絡(luò)優(yōu)化公司,wordpress閱讀積分,手機(jī)設(shè)計(jì)繪圖軟件app前言（全部為語(yǔ)雀導(dǎo)出，個(gè)人所寫(xiě)，僅用于學(xué)習(xí)！！！！） 復(fù)習(xí)之前我們要有目的性，明確考什么，不考什么。對(duì)于hadoop來(lái)說(shuō)，首先理論方面是跑不掉的&#x…

前言（全部為語(yǔ)雀導(dǎo)出，個(gè)人所寫(xiě)，僅用于學(xué)習(xí)！！！！）

復(fù)習(xí)之前我們要有目的性，明確考什么，不考什么。

對(duì)于hadoop來(lái)說(shuō)，首先理論方面是跑不掉的，而且還是重中之重。例如：hdfs的讀寫(xiě)流程，hdfs副本機(jī)制等等。其次是hadoop命令,如果學(xué)習(xí)了hadoop不了解hadoop dfs …和hdfs dfs …那么你可以重修了。最后要明確那一部分會(huì)出什么題。

下面背景色或者字體改變的背過(guò)就完了。

一初始Hadoop部分（了解）

這一章主要考點(diǎn)如下：

1.大數(shù)據(jù)技術(shù)的5V特征是什么？（選擇，簡(jiǎn)答）

容量（Volume）：數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價(jià)值和潛在的信息

種類（Variety）：數(shù)據(jù)類型的多樣性

速度（Velocity）：指獲得數(shù)據(jù)的速度

可變性（Variability）：妨礙了處理和有效地管理數(shù)據(jù)的過(guò)程

真實(shí)性（Veracity）：數(shù)據(jù)的質(zhì)量

2.大數(shù)據(jù)包括特點(diǎn)是（選擇，簡(jiǎn)答）

海量數(shù)據(jù)處理；多結(jié)構(gòu)化數(shù)據(jù)；增長(zhǎng)速度快；價(jià)值密度低。

3.Hadoop的創(chuàng)始人是誰(shuí)？（選擇）

Doug Cutting。

擴(kuò)充：以下項(xiàng)目中，哪個(gè)不是由Doug Cutting所創(chuàng)立的（）。

A、Hadoop B、Nutch C、Lucene D、Solr

4.Hadoop 的框架最核心的設(shè)計(jì)：HDFS（存儲(chǔ)）和 MapReduce（計(jì)算）?；蛘邌?wèn)Hadoop核心三大組件是：HDFS 、MapReduce 和 YARN。（填空）

注意：兩個(gè)就沒(méi)YARN，三個(gè)就有。

5.Hadoop 物理架構(gòu)：Master-Slave 架構(gòu)。（選擇、填空）

6.Hadoop 的優(yōu)點(diǎn)？（簡(jiǎn)答）

高可靠性：Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。

高效性：Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)，并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡，因此處理速度非?？?。

高擴(kuò)展性：Hadoop是在可用的計(jì)算機(jī)集蔟間分配數(shù)據(jù)并完成計(jì)算任務(wù)的，這些集蔟可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)。

高容錯(cuò)性：Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本，并且能夠自動(dòng)將失敗的任務(wù)重新分配。

7.請(qǐng)列舉幾個(gè)Hadoop生態(tài)圈里的組件并簡(jiǎn)述其作用？（簡(jiǎn)答）最少記住四個(gè)標(biāo)黃的

HDFS ：分布式文件系統(tǒng)，用于存儲(chǔ)大規(guī)模數(shù)據(jù)，具備高容錯(cuò)性。

MapReduce：編程模型和計(jì)算框架，用于批量處理大數(shù)據(jù)，分為 Map 和 Reduce 階段。

YARN ：資源管理和調(diào)度系統(tǒng)，負(fù)責(zé)集群資源的分配和任務(wù)調(diào)度。

Hive：數(shù)據(jù)倉(cāng)庫(kù)工具，使用類 SQL 查詢語(yǔ)言進(jìn)行數(shù)據(jù)分析和處理。

HBase：分布式 NoSQL 數(shù)據(jù)庫(kù)，支持實(shí)時(shí)隨機(jī)數(shù)據(jù)訪問(wèn)。

Spark：快速的計(jì)算引擎，支持批處理和流式處理，更高效于 MapReduce。

ZooKeeper：集群協(xié)調(diào)服務(wù)，處理分布式應(yīng)用程序的同步和狀態(tài)管理。

二 Hadoop3.x 環(huán)境搭建（附實(shí)驗(yàn)考點(diǎn)）（重點(diǎn)）

1.目前，[ Hadoop](https://so.csdn.net/so/search?q=Hadoop&spm=1001.2101.3001.7020) 的最高版本是Hadoop3.x。（選擇）

2.Hadoop有三種運(yùn)行模式，分別是：單機(jī)（本地）模式，偽分布式模式，全分布式模式。（選擇）

運(yùn)行模式	說(shuō)明	使用場(chǎng)景	配置要求
單機(jī)模式（Local Mode）	所有Hadoop組件在單個(gè)進(jìn)程中運(yùn)行，沒(méi)有啟動(dòng)守護(hù)進(jìn)程。	開(kāi)發(fā)和測(cè)試小規(guī)模的Hadoop應(yīng)用，快速驗(yàn)證程序邏輯。	配置簡(jiǎn)單，不需要復(fù)雜的集群設(shè)置。
偽分布式模式（Pseudo-Distributed Mode）	模擬分布式環(huán)境，Hadoop守護(hù)進(jìn)程（如NameNode、DataNode等）作為獨(dú)立進(jìn)程運(yùn)行。	進(jìn)行全面的測(cè)試，適合HDFS的文件輸入輸出操作和內(nèi)存檢查。	需配置Hadoop的配置文件（如core-site.xml、hdfs-site.xml）以模擬多節(jié)點(diǎn)環(huán)境。
全分布式模式（Fully-Distributed Mode）	在多臺(tái)機(jī)器上運(yùn)行，每臺(tái)機(jī)器作為獨(dú)立節(jié)點(diǎn)，運(yùn)行不同的Hadoop守護(hù)進(jìn)程。	生產(chǎn)環(huán)境和大規(guī)模數(shù)據(jù)處理，充分利用集群資源。	配置每臺(tái)機(jī)器，包括網(wǎng)絡(luò)設(shè)置、SSH無(wú)密碼登錄等。

補(bǔ)充：關(guān)于Hadoop單機(jī)模式和偽分布式模式的說(shuō)法，正確的是（D）
A．兩者都起守護(hù)進(jìn)程，且守護(hù)進(jìn)程運(yùn)行在一臺(tái)機(jī)器上
B．單機(jī)模式不使用HDFS，但加載守護(hù)進(jìn)程
C．兩者都不與守護(hù)進(jìn)程交互，避免復(fù)雜性
D．后者比前者增加了HDFS輸入輸出以及可檢查內(nèi)存使用情況

以下哪一項(xiàng)不屬于 Hadoop 可以運(yùn)行的模式（C）。

A、單機(jī)（本地）模式 B、偽分布式模式

C、互聯(lián)網(wǎng)模式 D、全分布式模式

3.Hadoop集群配置文件及其作用。（選擇）這幾個(gè)都要背過(guò)必考類型

配置文件	修改內(nèi)容	可修改參數(shù)
`hadoop-env.sh`	配置 JDK 環(huán)境變量	`<font style="background-color:#FBDE28;">JAVA_HOME</font>`
`core-site.xml`	配置 HDFS 地址和臨時(shí)文件目錄	`<font style="background-color:#FBDE28;">fs.defaultFS</font>` , `hadoop.tmp.dir`
`hdfs-site.xml`	配置 HDFS 上的 NameNode 和 DataNode 設(shè)置	`dfs.replication` , `dfs.namenode.name.dir` , `dfs.datanode.data.dir`
`mapred-site.xml`	指定 MapReduce運(yùn)行時(shí)框架	`mapreduce.framework.name`
`yarn-site.xml`	配置 ResourceManager 和 NodeManager	`yarn.resourcemanager.address` , `yarn.nodemanager.aux-services`
`slaves`	記錄所有從節(jié)點(diǎn)的主機(jī)名	列出每個(gè)從節(jié)點(diǎn)的主機(jī)名

補(bǔ)充例：

在配置Hadoop時(shí)，經(jīng)常會(huì)在下面哪一個(gè)文件中配置JAVA_HOME（c）。

A、hadoop-default.xml B、hadoop-site.xml

C、hadoop-env.sh D、configuration.xsl

HDFS默認(rèn)的當(dāng)前工作目錄是/user/$USER，fs.default.name的值需要在哪個(gè)配置文件內(nèi)說(shuō)明。（B）**
A. mapred-site.xml B. core-site.xml
C. hdfs-site.xml **D. 以上均不是

4.搭建環(huán)境時(shí)比較重要命令。（選擇，填空，簡(jiǎn)答）

（1 讓新的linux環(huán)境變量生效：source /etc/profile

（2 進(jìn)行初始化命令：hdfs namenode -format

（3 單節(jié)點(diǎn)逐個(gè)啟動(dòng)：

在主節(jié)點(diǎn)上啟動(dòng)HDFS namenode進(jìn)程：hadoop-daemon.sh start namenode

在從節(jié)點(diǎn)上使用指令啟動(dòng) HDFS DataNode進(jìn)程：hadoop-daemon.sh start DataNode

在主節(jié)點(diǎn)上使用指令啟動(dòng)Yarn RecourseManager進(jìn)程：yarn-daemon.sh start recoursemanager

在每個(gè)節(jié)點(diǎn)上從節(jié)點(diǎn)上使用指令啟動(dòng)Yarn nodemanager進(jìn)程：yarn-daemon.sh start nodemanager

在規(guī)劃節(jié)點(diǎn)Hadoop02使用指令啟動(dòng)SecondaryNameNode：hadoop-daemon.sh start secondarynamenode

（4 腳本一鍵啟動(dòng)和關(guān)閉全部守護(hù)進(jìn)程

在主節(jié)點(diǎn)Hadoop上使用指令啟動(dòng)所有HDFS服務(wù)進(jìn)程：start-dfs.sh

在主節(jié)點(diǎn)Hadoop01上使用指令啟動(dòng)所有Yarn服務(wù)進(jìn)程：start-yarn.sh

將以上指令start改為stop就為關(guān)閉服務(wù)命令

(5 查看master上啟動(dòng)的5個(gè)NameNode、DataNode、SecondaryNameNode、NodeManager、ResourceManager守護(hù)進(jìn)程：jps

注：這里只有搭建環(huán)境部分，剩余內(nèi)容再第六，第七章。

補(bǔ)充例：Hadoop集群?jiǎn)为?dú)啟動(dòng)NameNode進(jìn)程的命令是（c）。

A、./start-namenode.sh

B、./start-all.sh start namenode

C、./hadoop-daemon.sh start namenode

D、./hadoop-daemons.sh start namenode

三認(rèn)識(shí)HDFS分布式文件系統(tǒng)（核心）

1.HDFS是分布式文件系統(tǒng)，根據(jù)Google發(fā)表的論文 GFS建立起來(lái)的。（選擇，填空）

補(bǔ)充例：下面與HDFS類似的框架是（B）。

A、EXT3 B、GFS C、NTFS D、FAT32

2.HDFS的優(yōu)勢(shì)：（簡(jiǎn)答）

（1 大數(shù)據(jù)處理：HDFS 默認(rèn)會(huì)將文件分割成 Block，以 128MB (默認(rèn))為 1 個(gè) Block，然后按鍵值對(duì)存儲(chǔ)在 HDFS 上，并將鍵值對(duì)的映射存儲(chǔ)到內(nèi)存中。如果小文件太多，那么內(nèi)存負(fù)擔(dān)會(huì)很重。

（2 流式數(shù)據(jù)訪問(wèn)：一次寫(xiě)入，多次讀取是最高效的訪問(wèn)模式。因此，讀取整個(gè)數(shù)據(jù)集的時(shí)間延遲比讀取第一條記錄的時(shí)間延遲更重要。

（3 商?硬件：Hadoop 被設(shè)計(jì)運(yùn)行在商?硬件的集群上，并通過(guò)保存多個(gè)副本的形式提供冗余的容錯(cuò)機(jī)制，且副本丟失或宕機(jī)會(huì)自動(dòng)恢復(fù)。默認(rèn)保存的副本數(shù)為 3 個(gè)。

補(bǔ)充：例下列選項(xiàng)中，Hadoop集群的主要瓶頸是（B）。

A、CPU B、磁盤(pán)IO C、網(wǎng)絡(luò) D、內(nèi)存

3.HDFS的局限性：（簡(jiǎn)答）

 （1）不能進(jìn)行低時(shí)間延遲的數(shù)據(jù)訪問(wèn)：HDFS是為高數(shù)據(jù)吞吐量應(yīng)用優(yōu)化的，以提高時(shí)間延遲為代價(jià)。<font style="background-color:#F9EFCD;">HDFS要求低時(shí)間延遲數(shù)據(jù)訪問(wèn)的應(yīng)用不適合在HDFS上運(yùn)行。</font>（2）不能存儲(chǔ)大量的小文件：由于NameNode將文件系統(tǒng)的元數(shù)據(jù)存儲(chǔ)在內(nèi)存中，因此該文件系統(tǒng)所能存儲(chǔ)的文件總數(shù)受限于NameNode的內(nèi)存容量。每個(gè)文件、目錄和數(shù)據(jù)塊的存儲(chǔ)信息大約占150個(gè)字節(jié)。因此，舉例來(lái)說(shuō)，如果有一百萬(wàn)個(gè)文件，且每個(gè)文件占一個(gè)數(shù)據(jù)塊，那至少需要300MB的內(nèi)存。但是如果存儲(chǔ)數(shù)據(jù)十億的文件就超出了當(dāng)前硬件的能力。<font style="background-color:#F9EFCD;">所以存儲(chǔ)文件時(shí)盡量將小文件合并成較大的文件。</font>（3）不支持并發(fā)寫(xiě)入、文件隨機(jī)修改：一個(gè)文件只能有一個(gè)寫(xiě)，不允許多個(gè)線程同時(shí)寫(xiě)；僅支持?jǐn)?shù)據(jù)append（追加），不支持文件的隨機(jī)修改，這種限制使得<font style="background-color:#F9EFCD;">HDFS不適合需要頻繁修改文件內(nèi)容的應(yīng)用。</font>

補(bǔ)充：

（1 請(qǐng)例舉出不適用HDFS的場(chǎng)景。

低延遲數(shù)據(jù)訪問(wèn)需求；大量小文件存儲(chǔ)；需要高并發(fā)寫(xiě)入；需要隨機(jī)修改文件內(nèi)容。

（2 HDFS無(wú)法高效存儲(chǔ)大量小文件，想讓它能處理好小文件，比較可行的改進(jìn)策略不包括（D）

A. 利用SequenceFile、MapFile、Har等方式歸檔小文件。

B. 多Master設(shè)計(jì)。

C. Block大小適當(dāng)調(diào)小。

D. 調(diào)大namenode內(nèi)存或?qū)⑽募到y(tǒng)元數(shù)據(jù)存到硬盤(pán)里。

4.HDFS的特性：（了解有印象即可，不大好出題，可能會(huì)簡(jiǎn)答，但是過(guò)于簡(jiǎn)單，最好記下幾條）

    高度容錯(cuò)，可擴(kuò)展性及可配置性強(qiáng)。

跨平臺(tái)。使用Java語(yǔ)言開(kāi)發(fā)，以JVM為運(yùn)行環(huán)境，支持多個(gè)主流平臺(tái)的環(huán)境。

    Shell命令接口。HDFS擁有一套文件系統(tǒng)操作的Shell命令，可以用來(lái)直接操作HDFS文件系統(tǒng)。Web管理平臺(tái)。NameNode和DataNode內(nèi)置有Web服務(wù)器，方便用戶檢查集群的當(dāng)前運(yùn)行狀態(tài)。文件權(quán)限管理。Hadoop分布式文件系統(tǒng)實(shí)現(xiàn)了一個(gè)和POSIX系統(tǒng)類似的文件和目錄的權(quán)限模型。每個(gè)文件和目錄有一個(gè)所有者（owner）和一個(gè)組（group）。文件或目錄對(duì)其所有者、同組的其他用戶以及所有其他用戶分別有不同的權(quán)限。機(jī)架感知功能。機(jī)架感知功能使得Hadoop在任務(wù)調(diào)度和分配存儲(chǔ)空間時(shí)系統(tǒng)會(huì)考慮節(jié)點(diǎn)的物理位置，從而實(shí)現(xiàn)高效的訪問(wèn)和計(jì)算。安全模式。安全模式是Hadoop的一種保護(hù)機(jī)制，用于保證集群中的數(shù)據(jù)塊的安全性。集群維護(hù)時(shí)進(jìn)入這種管理模式。當(dāng)集群?jiǎn)?dòng)時(shí)會(huì)首先進(jìn)入安全模式。當(dāng)系統(tǒng)處于安全模式時(shí)會(huì)檢查數(shù)據(jù)塊的完整性。Rebalancer功能。當(dāng)DataNode之間數(shù)據(jù)不均衡時(shí)，可以平衡集群上的數(shù)據(jù)負(fù)載，實(shí)現(xiàn)數(shù)據(jù)負(fù)載均衡。允許升級(jí)和回滾。在軟件更新后有異常情況發(fā)生時(shí)，HDFS允許系統(tǒng)回滾到更新或升級(jí)之前的狀態(tài)。

5.HDFS的設(shè)計(jì)目標(biāo)：（了解有印象即可，不大好出題，可能會(huì)簡(jiǎn)答，但是過(guò)于簡(jiǎn)單，最好記下幾條）

    檢測(cè)和快速恢復(fù)硬件故障：硬件錯(cuò)誤是常態(tài)而不是異常。因此錯(cuò)誤檢測(cè)和快速、自動(dòng)的恢復(fù)是HDFS最核心的架構(gòu)目標(biāo)。流式數(shù)據(jù)訪問(wèn)：運(yùn)行在HDFS上的應(yīng)用和普通的應(yīng)用不同，需要流式訪問(wèn)它們的數(shù)據(jù)集。比之?dāng)?shù)據(jù)訪問(wèn)的低延遲問(wèn)題，更關(guān)鍵的在于數(shù)據(jù)訪問(wèn)的高吞吐量。大規(guī)模數(shù)據(jù)集：運(yùn)行在HDFS上的應(yīng)用具有很大的數(shù)據(jù)集。因此，HDFS被調(diào)節(jié)以支持大文件存儲(chǔ)。簡(jiǎn)化一致的模型：“一次寫(xiě)入多次讀取”的文件訪問(wèn)模型。一個(gè)文件經(jīng)過(guò)創(chuàng)建、寫(xiě)入和關(guān)閉之后就不需要改變。這一假設(shè)簡(jiǎn)化了數(shù)據(jù)一致性問(wèn)題，并且使高吞吐量的數(shù)據(jù)訪問(wèn)成為可能。移動(dòng)計(jì)算的代價(jià)比移動(dòng)數(shù)據(jù)的代價(jià)低：一個(gè)應(yīng)用請(qǐng)求的計(jì)算，離它操作的數(shù)據(jù)越近就越高效，在數(shù)據(jù)達(dá)到海量級(jí)別的時(shí)候更是如此。因?yàn)檫@樣就能降低網(wǎng)絡(luò)阻塞的影響，提高系統(tǒng)數(shù)據(jù)的吞吐量。在不同的軟硬件平臺(tái)間的可移植性：HDFS在設(shè)計(jì)的時(shí)候就考慮到平臺(tái)的可移植性。這種特性方便了HDFS作為大規(guī)模數(shù)據(jù)應(yīng)用平臺(tái)的推廣。健壯性：在出錯(cuò)時(shí)也要保證數(shù)據(jù)存儲(chǔ)的可靠性。標(biāo)準(zhǔn)的通信協(xié)議：所有的HDFS通訊協(xié)議都是建立在TCP/IP協(xié)議之上?？蛻舳送ㄟ^(guò)一個(gè)可配置的TCP端口連接到Namenode，通過(guò)ClientProtocol協(xié)議與Namenode交互。

6.HDFS核心概念：（超級(jí)重點(diǎn)必考全部要背過(guò)，選擇，填空，簡(jiǎn)答都會(huì)考）

（1 數(shù)據(jù)塊：

默認(rèn)為 128MB（Hadoop 2.X）；

可根據(jù)實(shí)際需求進(jìn)行配置，配置 hdfs-site.xml 文件中的 dfs.block.size 屬性；

HDFS上的文件劃分為數(shù)據(jù)塊，作為獨(dú)立的存儲(chǔ)單元，數(shù)據(jù)塊是HDFS文件系統(tǒng)存儲(chǔ)處理數(shù)據(jù)的最小單元；

儲(chǔ)存模式方式看下面你就明白了，200MB文件儲(chǔ)存，200/128=1個(gè)快+72MB,一共占用倆塊，這里需要注意的是HDFS中小于一個(gè)塊大小的文件并不會(huì)占據(jù)整個(gè)塊的空間，可以繼續(xù)用于儲(chǔ)存其他文件。

核心問(wèn)題1：為什么HDFS的數(shù)據(jù)塊如此之大？（理解版：核心問(wèn)題是效率，總時(shí)間=尋址時(shí)間+傳輸時(shí)間，尋址時(shí)間遠(yuǎn)大于傳輸時(shí)間，因此hdfs數(shù)據(jù)塊大。）

HDFS的數(shù)據(jù)塊比磁盤(pán)塊大，以最小化尋址開(kāi)銷。如果塊足夠大，從磁盤(pán)傳輸數(shù)據(jù)的時(shí)間將顯著大于定位塊起始位置的時(shí)間。因此，傳輸一個(gè)由多個(gè)塊組成的文件的時(shí)間主要取決于磁盤(pán)傳輸速率。然而，塊大小也不能過(guò)大，否則任務(wù)數(shù)可能少于集群節(jié)點(diǎn)數(shù)量，從而影響作業(yè)運(yùn)行速度。

例如：要傳輸100MB的數(shù)據(jù)，假設(shè)尋址時(shí)間為10ms，而傳輸?shù)乃俾蕿?00MB/s：如果我們將塊大小設(shè)置為100MB，這時(shí)尋址的時(shí)間僅占傳輸時(shí)間的1%；如果將塊的大小設(shè)置為10MB，這時(shí)尋址的時(shí)間會(huì)占傳輸時(shí)間的10%。所以在允許的范圍內(nèi)，增加塊的大小，可以有效縮短數(shù)據(jù)傳輸?shù)臅r(shí)間。

核心問(wèn)題2：對(duì)分布式文件系統(tǒng)中的塊進(jìn)行抽象會(huì)帶來(lái)什么好處。

1.一個(gè)文件的大小可以大于集群中任意一個(gè)磁盤(pán)的容量

2.簡(jiǎn)化存儲(chǔ)子空間

3.塊還非常適合?于數(shù)據(jù)備份，提供數(shù)據(jù)冗余，進(jìn)而提高數(shù)據(jù)容錯(cuò)能力和提高可 ?性

補(bǔ)充例：

Hadoop2.0中HDFS 默認(rèn) Block Size（C）。
A. 32MB B. 64MB C. 128MB D. 256MB

一個(gè)gzip文件大小75MB，客戶端設(shè)置Block大小為64MB，請(qǐng)問(wèn)其占用幾個(gè)Block？（B）
A、3 B、2 C、4 D、1
如果一個(gè)Hadoop集群中HDFS的默認(rèn)大小是128MB，本地磁盤(pán)有個(gè)HDFS上的目錄包含100個(gè)純文本文件，每個(gè)文件200MB。如果使用TextInputFormat作為輸入格式類，將該目錄作為作業(yè)輸入，將會(huì)啟動(dòng)（C）個(gè)Map。

A. 64 B. 100 C. 200 D. 640

一個(gè)文件大小156MB，在Hadoop2.0中默認(rèn)情況下請(qǐng)問(wèn)其占用幾個(gè)Block（B）？

A. 1 B. 2 C. 3 D. 4

（2 數(shù)據(jù)復(fù)制：

HDFS存儲(chǔ)大數(shù)據(jù)，文件分成等大小塊（除最后一個(gè)），塊默認(rèn)復(fù)制多次以保證數(shù)據(jù)冗余。塊大小和復(fù)制次數(shù)可配置，文件只能寫(xiě)一次，且同時(shí)只能有一個(gè)寫(xiě)入者。

理解例子：

文件/users/sameerp/data/part-0的Replication因子值是2，Block的ID列表包括了1和3，可以看到塊1和塊3分別被冗余復(fù)制了兩份數(shù)據(jù)塊。

文件/users/sameerp/data/part-1的Replication因子值是3，Block的ID列表包括了2、4和5，可以看到塊2、塊4和塊5分別被冗余復(fù)制了三份數(shù)據(jù)塊。

（3 數(shù)據(jù)副本的存放策略：

HDFS默認(rèn)的副本復(fù)制因子是3。

修改副本存放策略。

方法1：修改配置文件hdfs-site.xml。（需要重啟HDFS系統(tǒng)才能生效）

<property><name>dfs.replication</name><value>1</value>
</property>

默認(rèn)dfs.replication的值為3，通過(guò)這種方法雖然更改了配置文件，但是參數(shù)只在文件被寫(xiě)入dfs時(shí)起作用，不會(huì)改變之前寫(xiě)入的文件的備份數(shù)。

方法2：通過(guò)命令更改備份數(shù)。（不需要重啟HDFS系統(tǒng)即可生效）

# bin/hadoop fs -setrep -R 1 /

理解例子：（最好背過(guò)）

第一個(gè)Block副本放在client所在機(jī)架的node里（如果client不在集群范圍內(nèi)，則存放這第一個(gè)Block副本的node是隨機(jī)選取的，當(dāng)然系統(tǒng)會(huì)嘗試不選擇哪些太滿或者太忙的node）。

    第二個(gè)Block副本放置在與第一個(gè)Block副本不同機(jī)架的node中（隨機(jī)選擇）。第三個(gè)Block副本和第二個(gè)Block副本在同一個(gè)機(jī)架，隨機(jī)放在不同的node中。

（4 機(jī)架感知

NameNode管理HDFS文件塊的復(fù)制?；镜母北痉胖貌呗允菍⒏北痉植荚诓煌瑱C(jī)架，以提高系統(tǒng)的可靠性，但這會(huì)增加寫(xiě)副本的成本，因?yàn)樾枰鐧C(jī)架或數(shù)據(jù)中心傳輸數(shù)據(jù)。機(jī)架感知的策略在保證副本分布在不同機(jī)架的可靠性的同時(shí)，優(yōu)化了帶寬使用，通常只需在一個(gè)機(jī)架內(nèi)傳輸數(shù)據(jù)。

    默認(rèn)Hadoop機(jī)架感知是沒(méi)有啟用的，需要在NameNode機(jī)器的<font style="color:#70000D;">core-site.xml</font>里配置。

在沒(méi)有機(jī)架信息的情況下，NameNode默認(rèn)將所有的slaves機(jī)器全部默認(rèn)為在/default-rack下，此時(shí)寫(xiě)B(tài)lock時(shí)，所有DataNode機(jī)器的選擇完全是隨機(jī)的。

當(dāng)Hadoop配置了機(jī)架感知信息后，數(shù)據(jù)副本的存放策略如下：

第一個(gè)副本放在上傳文件的DataNode（如果該DataNode是上傳機(jī)器），或者隨機(jī)選擇一個(gè)DataNode。
第二個(gè)副本放在與第一個(gè)副本不同機(jī)架的隨機(jī)DataNode上。
第三個(gè)副本放在第二個(gè)副本所在機(jī)架的某個(gè)DataNode上，如果前兩個(gè)副本不在同一機(jī)架，則可能放在任一機(jī)架上。
NameNode會(huì)根據(jù)客戶端與DataNode之間的“距離”對(duì)DataNode列表排序。
客戶端（DFSClient）根據(jù)排序后的列表，從最近的DataNode開(kāi)始寫(xiě)入數(shù)據(jù)。
依次寫(xiě)入后續(xù)的DataNode，直到所有副本都寫(xiě)入成功。

示例：

關(guān)于數(shù)據(jù)副本的存放策略正確的有些?（ABCD）

A、第三個(gè)副本:與第一個(gè)副本相同機(jī)架的其他節(jié)點(diǎn)上;

B、更多副本:隨機(jī)節(jié)點(diǎn)。

C、第一個(gè)副本,放置在上傳文件的數(shù)據(jù)節(jié)點(diǎn);

D、第二個(gè)副本,放置在與第一個(gè)副本不同的機(jī)架的節(jié)點(diǎn)上;

（5 安全模式（只列考點(diǎn)

作用：保護(hù)集群數(shù)據(jù)的完整性.

啟動(dòng)方式：NameNode在啟動(dòng)時(shí)會(huì)自動(dòng)進(jìn)入安全模式（SafeMode），也可以手動(dòng)進(jìn)入。

進(jìn)入后，檢查數(shù)據(jù)完整性（數(shù)據(jù)塊的副本數(shù)量是否滿足配置的最小副本比率）。

在hdfs-default.xml文件中，通過(guò)dfs.safemode.threshold.pct屬性設(shè)置最小副本比率閾值。

當(dāng)系統(tǒng)處于安全模式時(shí)，不接受任何對(duì)名稱空間的修改，也不會(huì)對(duì)數(shù)據(jù)塊進(jìn)行復(fù)制或刪除，但是可以瀏覽目錄結(jié)構(gòu)、查看文件內(nèi)容等操作。在安全模式下嘗試進(jìn)行禁止的操作時(shí)，會(huì)拋出SafeModeException。

hadoop dfsadmin -safemode leave //強(qiáng)制退出安全模式
hadoop dfsadmin -safemode enter //進(jìn)入安全模式
hadoop dfsadmin -safemode get //查看安全模式狀態(tài)
hadoop dfsadmin -safemode wait //等待，一直到安全模式結(jié)束

補(bǔ)充例：NameNode在啟動(dòng)時(shí)自動(dòng)進(jìn)入安全模式，在安全模式階段，說(shuō)法錯(cuò)誤的是(D)

A. 安全模式目的是在系統(tǒng)啟動(dòng)時(shí)檢查各個(gè)DataNode上數(shù)據(jù)塊的有效性。

B. 根據(jù)策略對(duì)數(shù)據(jù)塊進(jìn)行必要的復(fù)制或刪除。

C. 當(dāng)數(shù)據(jù)塊最小百分比數(shù)滿足最小副本數(shù)條件時(shí)，會(huì)自動(dòng)退出安全模式。

D. 文件系統(tǒng)允許有修改。

（6 負(fù)載均衡（考的幾率不大）

重新均衡DataNode上的數(shù)據(jù)分布命令：

$ HADOOP_HOME/bin/start-balancer.sh -t 10%

在這個(gè)命令中，-t 參數(shù)后面跟的是 HDFS 達(dá)到平衡狀態(tài)的磁盤(pán)使?率偏差值。如果機(jī)器與機(jī)器之間磁盤(pán)使?率偏差小于 10%，那么我們就認(rèn)為 HDFS 集群已經(jīng)達(dá)到了平衡狀態(tài)。

具體過(guò)程：

① 數(shù)據(jù)均衡服務(wù)( Rebalancing Server) 首先要求 NameNode 生成 DataNode 數(shù)據(jù)分布分析報(bào)告，獲取每個(gè) DataNode磁盤(pán)使用情況。

    ② 數(shù)據(jù)均衡服務(wù)匯總需要移動(dòng)的數(shù)據(jù)塊分布情況，計(jì)算具體數(shù)據(jù)塊遷移路線圖， 確保為網(wǎng)絡(luò)內(nèi)的最短路徑。③ 開(kāi)始數(shù)據(jù)塊遷移任務(wù), Proxy Source DataNode(代理源數(shù)據(jù)節(jié)點(diǎn))復(fù)制一塊需要移動(dòng)的數(shù)據(jù)塊。④ 將復(fù)制的數(shù)據(jù)塊復(fù)制到目標(biāo) DataNode節(jié)點(diǎn)上。⑤ 刪除原始數(shù)據(jù)塊及在 NameNode 上存儲(chǔ)的元信息， 并將新的元信息更新到 NameNode上。⑥目標(biāo) DataNode 向 Proxy Source DataNode 確認(rèn)該數(shù)據(jù)塊遷移完成。⑦ Proxy Source DataNode 向數(shù)據(jù)均衡服務(wù)確認(rèn)本次數(shù)據(jù)塊遷移完成， 然后繼續(xù)執(zhí)行這個(gè)過(guò)程， 直至集群達(dá)到數(shù)據(jù)均衡標(biāo)準(zhǔn)。

（7 心跳機(jī)制（考的幾率不大）

Hadoop 集群節(jié)點(diǎn)之間的通信是通過(guò)心跳機(jī)制實(shí)現(xiàn)的。所謂“心跳”是指的持續(xù)的按照一定頻率在運(yùn)行，執(zhí)行請(qǐng)求和響應(yīng)。當(dāng)長(zhǎng)時(shí)間沒(méi)有發(fā)送心跳時(shí)，NameNode 就判斷 DataNode 的連接已經(jīng)中斷，不能繼續(xù)工作了，就被定性為”dead node”。NameNode 會(huì)檢查"dead node"中的副本數(shù)據(jù)，復(fù)制到其他的 DataNode 中。

Hadoop 的心跳機(jī)制的具體實(shí)現(xiàn)思路是：

（1）當(dāng) master 節(jié)點(diǎn)啟動(dòng)時(shí)，會(huì)開(kāi)一個(gè) rpc server，等待 slave 的心跳連接。

（2） slave 節(jié)點(diǎn)啟動(dòng)時(shí)，會(huì)連接到 master，并開(kāi)始每隔 3 秒鐘主動(dòng)向 master 發(fā)送一個(gè)“心跳”，這個(gè)時(shí)間間隔可以通過(guò) heartbeat.recheck.interval 屬性來(lái)設(shè)置。

（3） slave 通過(guò)“心跳”將自己的狀態(tài)告訴 master，master 返回“心跳”值，向 slave 節(jié)點(diǎn)傳達(dá)指令。

（4） Hadoop 集群中各個(gè)進(jìn)程之間的通信，都是通過(guò)“心跳”這種 RPC 通信來(lái)完成的。

（5）當(dāng) NameNode 長(zhǎng)時(shí)間沒(méi)有接收到 DataNode 發(fā)送的“心跳”時(shí)，NameNode 就判斷DataNode 的連接已經(jīng)中斷，就被定性為”dead node”。NameNode 會(huì)檢查 dead node中的副本數(shù)據(jù)，復(fù)制到其他的 DataNode 中。

7.HDFS體系結(jié)構(gòu)(選擇，填空，簡(jiǎn)答) （這里無(wú)論如何都要背過(guò)，不然后面無(wú)法學(xué))

（1 單NameNode節(jié)點(diǎn)集群架構(gòu)：

單NameNode節(jié)點(diǎn)的HDFS集群是由一個(gè)NameNode和一定數(shù)目的DataNode組成。

NameNode是一個(gè)中心服務(wù)器，負(fù)責(zé)管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問(wèn)。

NameNode執(zhí)行文件系統(tǒng)的命名空間操作，例如打開(kāi)、關(guān)閉、重命名文件和目錄，同時(shí)決定Block到DataNode節(jié)點(diǎn)的映射。

DataNode負(fù)責(zé)處理文件系統(tǒng)的讀寫(xiě)請(qǐng)求，在NameNode的指揮下進(jìn)行Block的創(chuàng)建、刪除等。

一個(gè)文件被分成一個(gè)或多個(gè)Block，這些Block存儲(chǔ)在DataNode集合里。

（2 一個(gè)典型的 HDFS 集群通常由 NameNode、SecondaryNameNode 和 DataNode 三個(gè)節(jié)點(diǎn)組成，其實(shí)就是運(yùn)行在這些節(jié)點(diǎn)服務(wù)器上的進(jìn)程。

節(jié)點(diǎn)名	主要功能	容錯(cuò)機(jī)制
NameNode（命名節(jié)點(diǎn)） (一個(gè)集群通常只有一個(gè)活動(dòng)的NameNode節(jié)點(diǎn)) (決定是否將文件映射到DataNode的副本上)	1. 提供名稱查詢服務(wù)，是一個(gè) Jetty服務(wù)器。 2. 保存元數(shù)據(jù)信息，包括文件的所有者和權(quán)限、文件包含的塊和塊在 DataNode 的位置（通過(guò)“心跳”機(jī)制上報(bào)）。 3. 啟動(dòng)時(shí)加載元數(shù)據(jù)信息到內(nèi)存。	1. 使用 SecondaryNameNode 恢復(fù) NameNode。 2. 利用 NameNode 的高可用（HA）機(jī)制，包括自動(dòng)故障轉(zhuǎn)移和多個(gè)NameNode的配置。
SecondaryNameNode	1. 定期將 Edits 文件中的操作合并到 FsImage 文件中，并清空 Edits 文件。 2. NameNode 重啟時(shí)加載最新的 FsImage 文件，并重新創(chuàng)建 Edits 文件，記錄自上次 FsImage以來(lái)的操作。此機(jī)制減少了重啟時(shí)間并確保 HDFS 系統(tǒng)完整性。
DataNode（數(shù)據(jù)節(jié)點(diǎn)） (負(fù)責(zé)數(shù)據(jù)存儲(chǔ)計(jì)算)	1. 保存數(shù)據(jù)塊，每個(gè)塊對(duì)應(yīng)一個(gè)元數(shù)據(jù)信息文件，描述該塊屬于哪個(gè)文件及其序號(hào)。 2. 啟動(dòng)時(shí)向 NameNode 匯報(bào)塊信息。 3. 通過(guò)發(fā)送心跳保持與 NameNode 的聯(lián)系；若 NameNode 10 分鐘未收到心跳，則認(rèn)為該 DataNode 已失效，并將塊信息復(fù)制到其他 DataNode，以保證副本數(shù)量。	數(shù)據(jù)塊副本在多個(gè) DataNode 上存儲(chǔ)，提供數(shù)據(jù)冗余。如果一個(gè) DataNode 失效，其他 DataNode 上的副本可以被用來(lái)恢復(fù)數(shù)據(jù)。

補(bǔ)充例：

1）HDFS 的 NameNode 負(fù)責(zé)管理文件系統(tǒng)的命名空間，將所有的文件和文件夾的元數(shù)據(jù) 保存在一個(gè)文件系統(tǒng)樹(shù)中，這些信息也會(huì)在硬盤(pán)上保存成以下文件（C）

A．日志 B．命名空間鏡像 C．兩者都是

2）下面哪個(gè)節(jié)點(diǎn)負(fù)責(zé) HDFS 的數(shù)據(jù)存儲(chǔ)（C）。

A、NameNode B、ResourceManager

C、DataNode D、SecondaryNameNode

3）HDFS 的 NameNode 負(fù)責(zé)管理文件系統(tǒng)的命名空間，將所有的文件和文件夾的元數(shù)據(jù) 保存在一個(gè)文件系統(tǒng)樹(shù)中，這些信息也會(huì)在硬盤(pán)上保存成以下文件（C）

A．日志 B．命名空間鏡像 C．兩者都是

4）在Hadoop中，下列哪個(gè)進(jìn)程通常與NameNode在同一節(jié)點(diǎn)上啟動(dòng)（B）。

A、SecondaryNameNode B、Jobtracker

C、DataNode D、TaskTracker

5）在Hadoop中，集群會(huì)啟動(dòng)哪些進(jìn)程，他們的作用分別是什么？

NameNode：這是Hadoop的主節(jié)點(diǎn)，負(fù)責(zé)管理HDFS（Hadoop分布式文件系統(tǒng)）的元數(shù)據(jù)，包括文件系統(tǒng)的目錄結(jié)構(gòu)、文件到數(shù)據(jù)塊的映射以及數(shù)據(jù)塊的位置等。NameNode不存儲(chǔ)數(shù)據(jù)塊的實(shí)際內(nèi)容。

DataNode：這些是HDFS的工作節(jié)點(diǎn)，負(fù)責(zé)存儲(chǔ)實(shí)際的數(shù)據(jù)塊。DataNode周期性地向NameNode發(fā)送心跳信號(hào)和數(shù)據(jù)塊報(bào)告，以確保它們的健康狀態(tài)和數(shù)據(jù)的一致性。

ResourceManager：這是YARN（Yet Another Resource Negotiator）的主節(jié)點(diǎn)，負(fù)責(zé)全局資源管理與調(diào)度。它管理集群資源并協(xié)調(diào)各個(gè)應(yīng)用程序的運(yùn)行。

NodeManager：這是YARN的工作節(jié)點(diǎn)，負(fù)責(zé)具體的資源管理，會(huì)在本地節(jié)點(diǎn)上監(jiān)控容器（Containers）的資源使用情況。NodeManager也負(fù)責(zé)啟動(dòng)和管理應(yīng)用程序的容器。

Secondary NameNode：雖然這個(gè)進(jìn)程的名字包含“NameNode”，但它并不是一個(gè)備份的NameNode。它的主要作用是定期合并NameNode的元數(shù)據(jù)（fsimage和edits文件），以減少NameNode的內(nèi)存使用和提高容錯(cuò)能力。

四 HDFS運(yùn)行機(jī)制（核心）

1.RPC遠(yuǎn)程過(guò)程調(diào)用協(xié)議：（選擇，填空，簡(jiǎn)答）

TCP/IP 協(xié)議（目前網(wǎng)上聊天?）或 UDP（客戶端可靠協(xié)議但是信息傳輸效率不高）。

在OSI網(wǎng)絡(luò)通信模型中，RPC跨域了傳輸層和應(yīng)用層。

（1 一個(gè)完整的RPC架構(gòu)里面包含了四個(gè)核心的組件：（相對(duì)不是那么重要）

    1.客戶端(Client):服務(wù)的調(diào)用方。2.客戶端存根(Client Stub):存放服務(wù)端的地址消息，再將客戶端的請(qǐng)求參數(shù)打包成網(wǎng)絡(luò)消息，然后通過(guò)網(wǎng)絡(luò)遠(yuǎn)程發(fā)送給服務(wù)方。3.服務(wù)端(Server):真正的服務(wù)提供者。4.服務(wù)端存根(Server Stub):接收客戶端發(fā)送過(guò)來(lái)的消息，將消息解包，并調(diào)用本地的方法。

（2 Hadoop的RPC機(jī)制（分為四部分）：（必須背過(guò)）

序列化層：Client與Server端通信傳遞的信息采用Hadoop提供的序列化類或自定義的Writable類型。

函數(shù)調(diào)用層：Hadoop RPC通過(guò)動(dòng)態(tài)代理以及Java反射實(shí)現(xiàn)函數(shù)調(diào)用。

網(wǎng)絡(luò)傳輸層：Hadoop RPC采用了基于TCP/IP的Socket機(jī)制。

服務(wù)器端框架層：RPC Server利用Java NIO以及事件驅(qū)動(dòng)的I/O模型，提高RPC Server并發(fā)處理能力。

補(bǔ)充例：

Hadoop的RPC機(jī)制同其他RPC框架一樣，可分為四個(gè)部分，請(qǐng)簡(jiǎn)述這四層的名稱及各自的實(shí)現(xiàn)機(jī)制。

答案就是上方。

Hadoop RPC的實(shí)現(xiàn)模型主要特點(diǎn)有透明性、高性能和可控性。通過(guò)動(dòng)態(tài)代理、反射——?jiǎng)討B(tài)加載類、序列化、非阻塞的異步IO（NIO）實(shí)現(xiàn)。

Hadoop的RPC總體架構(gòu)：Hadoop RPC = 動(dòng)態(tài)代理 + 定制的二進(jìn)制流。

（再細(xì)9.9成不會(huì)考，但是就怕萬(wàn)一，想再細(xì)了解看：博客）

2.HDFS文件寫(xiě)入（超級(jí)重要，簡(jiǎn)體題必考，所有圖都要背過(guò)！！！！）

（1 HDFS讀取文件流程

① 使用HDFS 提供的 Client, 向遠(yuǎn)程的NameNode 發(fā)起 RPC 讀文件請(qǐng)求。

② NameNode 會(huì)視情況返回文件的部分或者全部數(shù)據(jù)塊列表，對(duì)于每個(gè)數(shù)據(jù)塊， NameNode都會(huì)返回有該數(shù)據(jù)塊副本的 DataNode 地址。

③Client會(huì)選取最近的DataNode來(lái)讀取數(shù)據(jù)塊; 如果 Client本身就是 DataNode, 那么將從本地直接獲取數(shù)據(jù)。

④讀取完當(dāng)前數(shù)據(jù)塊后，關(guān)閉當(dāng)前的 DataNode 連接，并為讀取下一個(gè)數(shù)據(jù)塊尋找最佳的DataNode。

⑤當(dāng)讀完數(shù)據(jù)塊列表后，且文件讀取還沒(méi)有結(jié)束， Client會(huì)繼續(xù)向NameNode 獲取下一批數(shù)據(jù)塊列表。

⑥每讀取完一個(gè)數(shù)據(jù)塊，都會(huì)進(jìn)行校驗(yàn)和驗(yàn)證，如果讀取 DataNode 時(shí)出現(xiàn)錯(cuò)誤， Client會(huì)通知NameNode，然后再?gòu)南乱粋€(gè)擁有該數(shù)據(jù)塊副本的DataNode 繼續(xù)讀取。

（2 寫(xiě)入示例

將64M的block1數(shù)據(jù)塊按64k的package為單位劃分。

然后client將第一個(gè)package發(fā)送給Rack1機(jī)架上的host2結(jié)點(diǎn)。

當(dāng)host2結(jié)點(diǎn)接收完成后，將第一個(gè)package發(fā)送給Rack2機(jī)架上的host1與此同時(shí)client向host2發(fā)送第二個(gè)package。

當(dāng)host1結(jié)點(diǎn)接收完成后，將第一個(gè)package發(fā)送給Rack2機(jī)架上的host3，與此同時(shí)host2向host1發(fā)送第二個(gè)pabckage。

以此類推，直到將block1全部發(fā)送完成。

當(dāng)block1全部發(fā)送完成后，host2，host1，host3向NameNode節(jié)點(diǎn)發(fā)送通知，NameNode記錄并將消息發(fā)送給host2，host2再向client發(fā)送消息通知client數(shù)據(jù)塊block1已經(jīng)發(fā)送完成，NameNode需要等待client確認(rèn)。

client收到host2發(fā)送的消息后，向NameNode發(fā)送確認(rèn)消息，至此，block1才真正完成了寫(xiě)入的過(guò)程。

數(shù)據(jù)塊block1發(fā)送完成后，再向host7，host8，host4發(fā)送block2，發(fā)送的過(guò)程與block1相似，直到全部數(shù)據(jù)塊發(fā)送完成。

（3 使用HDFS API寫(xiě)文件：

public class FileSystemCat {public static void main(String[] args) throws Exception {String localPath = args[0];String dfsPath = args[1];InputStream in = null;OutputStream out = null;Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(dfsPath), conf);try {in = new BufferedInputStream(new FileInputStream(localPath));out = fs.create(new Path(dfsPath), new Progressable() {@Overridepublic void progress() {System.out.print(" . ");}});IOUtils.copyBytes(in, out, 4096, false);} catch (Exception e) {IOUtils.closeStream(in);IOUtils.closeStream(out);}}
}

（4 使用HDFS API讀取文件：

public class FileSystemCat {public static void main(String[] args) throws Exception {String uri = "hdfs://10.10.155.110:9000/output/wordcount/part-r-00000";Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(uri), conf);InputStream in = null;try {in = fs.open(new Path(uri));IOUtils.copyBytes(in, System.out, 4096, false);} catch (Exception e) {e.printStackTrace();IOUtils.closeStream(in);}}
}

補(bǔ)充例：

1）假設(shè)當(dāng)前環(huán)境有NameNode節(jié)點(diǎn)1個(gè)、DataNode節(jié)點(diǎn)3個(gè)、Client Node節(jié)點(diǎn)1個(gè)，請(qǐng)畫(huà)出HDFS文件寫(xiě)入的流程圖。

2）下面代碼片段為使用HDFS API寫(xiě)文件的過(guò)程，請(qǐng)補(bǔ)全代碼的空白處。

public class FileSystemCat {public static void main(String[] args) throws Exception {String localPath = args[0];String dfsPath=args[1];InputStream in = null;OutputStream out=null;__________(1)__________ ;FileSystem fs = ________(2) ________(URI.create(dfsPath), conf);try {in = new BufferedInputStream(________(3) ________);out=fs.create(new Path(dfsPath),new Progressable() {@Overridepublic void progress() {// 反饋寫(xiě)入進(jìn)度 System.out.print(" . ");}});IOUtils. ________(4) ________;} catch (Exception e) {e.printStackTrace();IOUtils.closeStream(in);IOUtils.closeStream(out);}}
}

就是上方代碼

3.HDFS文件的一致模型：（考的概率不大）

所解決的問(wèn)題:寫(xiě)入HDFS的文件內(nèi)容對(duì)其他讀者可能不是立即可見(jiàn)的，即使數(shù)據(jù)已存儲(chǔ)，文件長(zhǎng)度可能仍顯示為0?？鐗K數(shù)據(jù)寫(xiě)入時(shí)，只有完全寫(xiě)入并同步的數(shù)據(jù)塊對(duì)新讀者可見(jiàn)，正在寫(xiě)入的塊不可見(jiàn)。

解決方案：要在HDFS中確保數(shù)據(jù)可見(jiàn)性，可以調(diào)用sync()方法強(qiáng)制數(shù)據(jù)節(jié)點(diǎn)同步緩存數(shù)據(jù)。關(guān)閉文件時(shí)會(huì)自動(dòng)執(zhí)行sync()。不調(diào)用sync()可能導(dǎo)致數(shù)據(jù)丟失。需要根據(jù)應(yīng)用需求平衡數(shù)據(jù)一致性和性能，合理調(diào)用sync()。例如，寫(xiě)入一定數(shù)據(jù)后調(diào)用sync()。創(chuàng)建文件后，需調(diào)用hsync()或close()才能讀取文件信息。

    示例：當(dāng)創(chuàng)建一個(gè)文件后，立即讀取文件信息，此時(shí)文件信息是不存在的。只有當(dāng)調(diào)用hsync()方法或調(diào)用了close()方法后，才能立即讀取到文件信息。

Path p=new Path("/home/temp/a.txt");
FSDataOutputStream out=fs.create(p);
out.write("content".getBytes("UTF-8"));
out.hflush();
out.hsync();
assertThat(fs.getFileStatus(p).getLen(),is(((long)"content".len
gth())));

Path p=new Path("/home/temp/a.txt");
fs.create(p);
assertThat(fs.exists(p),is(true));

Path p=new Path("/home/temp/a.txt");
OutputStream out=fs.create(p);
out.write("content".getBytes("UTF-8"));
out.close();
assertThat(fs.getFileStatus(p).getLen(),is(((long)"content".len
gth())));

HDFS的HA機(jī)制（簡(jiǎn)答）

HDFS 的 HA 機(jī)制 7*24h 運(yùn)行

在 Hadoop 2.x 及以后版本中，新增了對(duì)高可靠性（HA）的支持，實(shí)現(xiàn)方式是：配置了一對(duì)“活動(dòng)－備?”（active - standby）NameNode。當(dāng)活動(dòng)的 NameNode 失效時(shí)，備?的NameNode 就會(huì)接管它的任務(wù)并開(kāi)始服務(wù)于來(lái)自客戶端的請(qǐng)求，而不必中斷整個(gè)服務(wù)。

HDFS NameNode的高可用整體架構(gòu)主要由以下幾個(gè)關(guān)鍵組成部分構(gòu)成：

Active NN 和 Standby NN：主/備 NN，只有主 NN 才能對(duì)外提供讀寫(xiě)服務(wù)。

主備切換控制器 ZKFailoverController：作為獨(dú)立進(jìn)程運(yùn)行，對(duì) NN 的主備切換進(jìn)行總體控制。

ZooKeeper 集群：為主備切換控制器提供主備選舉支持。

共享存儲(chǔ)系統(tǒng)：主備 NN 通過(guò)共享存儲(chǔ)系統(tǒng)實(shí)現(xiàn)元數(shù)據(jù)同步。

DN 節(jié)點(diǎn)：DN 會(huì)同時(shí)向主 NN 和備 NN 上報(bào)數(shù)據(jù)塊的位置信息。

（5 NameNode 的主備切換實(shí)現(xiàn)：（了解即可）

補(bǔ)充例：下面關(guān)于Hadoop HA機(jī)制描述錯(cuò)誤的是（D）。

A、通常由兩個(gè)NameNode組成，一個(gè)處于active狀態(tài)，另一個(gè)處于standby狀態(tài)

B、Active NameNode對(duì)外提供服務(wù)，而Standby NameNode則不對(duì)外提供服務(wù)，僅同步Active NameNode的狀態(tài)

C、需要配合Zookeeper才能實(shí)現(xiàn)HA

D、在NameNode節(jié)點(diǎn)失敗時(shí)，可以快速手動(dòng)進(jìn)行切換

6 Federation機(jī)制（最好背過(guò)，考的概率也不大）

（1 優(yōu)點(diǎn)：

擴(kuò)展性和隔離性：支持多個(gè)NameNode水平擴(kuò)展整個(gè)文件系統(tǒng)的namespace?？砂凑諔?yīng)用程序的用戶和種類分離namespace volume，進(jìn)而增強(qiáng)了隔離性。

通用存儲(chǔ)服務(wù)：Block Pool抽象層為HDFS的架構(gòu)開(kāi)啟了創(chuàng)新之門(mén)。分離block storage layer使得：

新的文件系統(tǒng)（non-HDFS）可以在block storage上構(gòu)建

新的應(yīng)用程序（如HBase）可以直接使用block storage層

分離的block storage層為將來(lái)完全分布式namespace打下基礎(chǔ)

設(shè)計(jì)簡(jiǎn)單：Federation 整個(gè)核心設(shè)計(jì)的大部分改變是在DataNode、Config和Tools中，而NameNode本身的改動(dòng)非常少，這樣NameNode原先的健壯性不會(huì)受到影響。可以迅速滿足需求，另外Federation具有良好的向后兼容性，已有的單NameNode的部署配置不需要任何改變就可以繼續(xù)工作。、

（2 不足：

單點(diǎn)故障問(wèn)題：HDFS Federation并沒(méi)有完全解決單點(diǎn)故障問(wèn)題。如果某個(gè)NameNode掛掉了，其管理的相應(yīng)的文件便不可以訪問(wèn)。Federation中每個(gè)NameNode仍然像之前HDFS上實(shí)現(xiàn)一樣，配有一個(gè)SecondaryNameNode，以便主NameNode掛掉一下，用于還原元數(shù)據(jù)信息。

負(fù)載均衡問(wèn)題：HDFS Federation采用Client Side Mount Table分?jǐn)偽募拓?fù)載，該方法需要人工介入以達(dá)到理想的負(fù)載均衡。

五訪問(wèn)HDFS文件系統(tǒng)（核心）

1.HDFS命令行接口：（選擇，填空，簡(jiǎn)答）又一超級(jí)重點(diǎn)

hadoop fs … / hadoop dfs …

hdfs dfs …（兩種皆可）

下面是常用命令：（黃色背景的一定要記住）

`<font style="background-color:#FBDE28;">hadoop dfs -ls <path></font>`	列出指定路徑的文件或目錄內(nèi)容
`hadoop dfs -lsr <path>`	遞歸地列出指定路徑的目錄內(nèi)容
`hadoop dfs -df <path>`	查看指定路徑的目錄使用情況
`hadoop dfs -du <path>`	顯示指定目錄中所有文件及子目錄的大小
`<font style="background-color:#FBDE28;">hadoop dfs -count [-q] <path></font>`	顯示指定目錄下的目錄數(shù)及文件數(shù)，添加`<font style="background-color:#FBDE28;">-q</font>` 可查看文件索引情況
`<font style="background-color:#FBDE28;">hadoop dfs -mv <src> <dst></font>`	將HDFS上的文件移動(dòng)到目標(biāo)文件夾
`<font style="background-color:#FBDE28;">hadoop dfs -rm [-skipTrash] <path></font>`	刪除HDFS上的文件，移動(dòng)到回收站；`<font style="background-color:#FBDE28;">-skipTrash</font>` 則直接刪除
`hadoop dfs -rmr [-skipTrash] <path>`	刪除HDFS上的目錄及其下文件，移動(dòng)到回收站；`-skipTrash` 則直接刪除
`hadoop dfs -expunge`	清空HDFS回收站
`<font style="background-color:#FBDE28;">hadoop dfs -put <localsrc> <dst></font>`	將本地文件上傳到HDFS的指定目錄
`<font style="background-color:#FBDE28;">hadoop dfs -get [-ignoreCrc] [-crc] <src> <localdst></font>`	將HDFS文件下載到本地，`<font style="background-color:#FBDE28;">-ignoreCrc</font>` 復(fù)制CRC檢驗(yàn)失敗的文件，`<font style="background-color:#FBDE28;">-crc</font>` 復(fù)制CRC信息
`hadoop dfs -copyToLocal [-ignoreCrc] [-crc] <src> <localdst>`	功能類似于`get`
`hadoop dfs -moveToLocal [-crc] <src> <localdst>`	將HDFS文件移動(dòng)到本地目錄，`-crc` 移動(dòng)文件及CRC信息
`<font style="background-color:#FBDE28;">hadoop dfs -mkdir <path></font>`	在HDFS上創(chuàng)建目錄
`hadoop dfs -touchz <path>`	在HDFS上創(chuàng)建一個(gè)0字節(jié)的空文件
`hadoop dfs -text <path>`	輸出HDFS上指定文本文件的內(nèi)容
`<font style="background-color:#FBDE28;">hadoop dfs -cat <path></font>`	瀏覽HDFS上指定文件的內(nèi)容
`hadoop dfs -setrep [-R] [-w] <rep> <path>`	設(shè)置文件的復(fù)制因子，`-R` 表示遞歸
`hadoop dfs -test -[ezd] <path>`	檢查HDFS上的文件：`-e` 檢查文件是否存在，`-z` 檢查文件是否0字節(jié)，`-d` 檢查是否是目錄
`hadoop dfs -stat [format] <path>`	顯示HDFS上文件或目錄的統(tǒng)計(jì)信息
`<font style="background-color:#FBDE28;">hadoop dfs -chmod [-R] <MODE> <path></font>`	改變HDFS上指定文件的權(quán)限，`<font style="background-color:#FBDE28;">-R</font>` 表示遞歸執(zhí)行
`hadoop dfs -chown [-R] [OWNER][:[GROUP]] <path>`	改變HDFS上指定文件的所屬用戶，`-R` 表示遞歸執(zhí)行
`hadoop dfs -chgrp [-R] GROUP <path>`	改變HDFS上指定文件的所屬組別，`-R` 表示遞歸執(zhí)行
`<font style="background-color:#FBDE28;">hadoop dfs -help</font>`	顯示所有`<font style="background-color:#FBDE28;">dfs</font>` 命令的幫助信息
`hadoop dfs -copyFromLocal <localsrc> <dst>`	功能類似于`put`
`hadoop dfs -moveFromLocal <localsrc> <dst>`	將本地文件移動(dòng)到HDFS指定目錄

注意事項(xiàng)- hadoop和hdfs命令在功能上是相似的，但推薦使用hdfs dfs ...命令，因?yàn)樗鼘ｉT(mén)用于HDFS，更加明確。

2.常用API：（簡(jiǎn)答，編程，紅字必背）

（1 Hadoop有一個(gè)抽象的文件系統(tǒng)概念，HDFS只是其中的一個(gè)實(shí)現(xiàn)。類org.apache.hadoop.fs.FileSystem定義了Hadoop中的一個(gè)文件系統(tǒng)接口，并且該抽象類有幾個(gè)具體實(shí)現(xiàn)。

文件系統(tǒng)	URL方案	Java 實(shí)現(xiàn)類	描述
Local file	fs	fs.LocalFileSystem	使用了客戶端校驗(yàn)的本地磁盤(pán)文件系統(tǒng)。
HDFS	hdfs	hdfs.DistributedFileSystem	Hadoop 的分布式文件系統(tǒng)。
HFTP	hftp	hdfs.HftpFileSystem	在 HTTP 上提供對(duì) HDFS只讀訪問(wèn)的文件系統(tǒng)。
HSFTP	hsftp	hdfs.HsftpFileSystem	在 HTTPS 上提供對(duì) HDFS只讀訪問(wèn)的文件系統(tǒng)。
WebHDFS	Webhdfs	hdfs.web.WebHdfsFileSystem	基于 HTTP 對(duì) HDFS 提供安全讀寫(xiě)訪問(wèn)的文件系統(tǒng)。
HAR	har	fs.HarFileSystem	一個(gè)構(gòu)建在其他文件系統(tǒng)之上用于文件存檔的文件系統(tǒng)。
HFS (KFS)	kfs	fs.kfs.KosmosFileSystem	CloudStore 是類似于 HDFS 或 Google 的 GFS 的文件系統(tǒng)，用 C++ 編寫(xiě)。
FTP	ftp	fs.ftp.FTPFileSystem	由 FTP服務(wù)器支持的文件系統(tǒng)。
S3（原生）	S3n	fs.s3native.NativeS3FileSystem	由 Amazon S3 支持的文件系統(tǒng)。

（2 從Hadoop URL中讀取數(shù)據(jù)：

例：以標(biāo)準(zhǔn)輸出方式顯示Hadoop文件系統(tǒng)中的文件。（類似于Unix中的cat命令）

public class URLCat {// 靜態(tài)塊：設(shè)置 URL 的流處理工廠，用于處理 HDFS URLstatic {// 將 Hadoop 的 FsUrlStreamHandlerFactory 綁定到 java.net.URLURL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());}public static void main(String[] args) throws Exception {InputStream in = null; // 定義輸入流，用于讀取數(shù)據(jù)try {// 打開(kāi) HDFS 上的文件，URL 是從命令行參數(shù)傳入的in = new URL(args[0]).openStream();// 使用 IOUtils 工具類，將輸入流內(nèi)容復(fù)制到標(biāo)準(zhǔn)輸出IOUtils.copyBytes(in, System.out, 4096, false);} finally {// 關(guān)閉輸入流，防止內(nèi)存泄漏IOUtils.closeStream(in);}}
}

編譯上述代碼，導(dǎo)出為URLCat.jar文件，拷貝到/home/files目錄下，執(zhí)行下面的命令：

# hadoop jar /home/files/URLCat.jar com.hdfsclient.URLCat hdfs://master:9000/input/sample.txt

（3 通過(guò)FileSystem API讀取數(shù)據(jù)：

雖然從Hadoop URL中讀取數(shù)據(jù)是最簡(jiǎn)單的方式，但是有時(shí)可能無(wú)法在應(yīng)用中設(shè)置URLStreamHandlerFactory實(shí)例，在實(shí)際開(kāi)發(fā)中，訪問(wèn)HDFS最常用的方式還是使用FileSystem API來(lái)讀取數(shù)據(jù)。

public class FileSystemCat {public static void main(String[] args) throws Exception {String uri = "hdfs://master:9000/input/sample.txt";Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(uri), conf);InputStream in = null;try {in = fs.open(new Path(uri));IOUtils.copyBytes(in, System.out, 4096, false);} finally {IOUtils.closeStream(in);}}
}

編譯上述代碼，導(dǎo)出為FileSystemCat.jar文件，拷貝到/home/files目錄下，執(zhí)行下面的命令：

# hadoop jar /home/files/FileSystemCat.jar com.hdfsclient.FileSystemCat

（4 寫(xiě)入數(shù)據(jù)

FileSystem類創(chuàng)建文件的方法，常用的有兩類：create()和append()方法。

例：將本地文件復(fù)制到HDFS文件系統(tǒng)。

public class FileCopyFromLocal {public static void main(String[] args) {String localSrc = "/home/hadoop/files/sample.txt";String dst = "hdfs://master:9000/input/hadoop/sample.txt";InputStream in = null;OutputStream out = null;try {in = new BufferedInputStream(new FileInputStream(localSrc));Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(dst), conf);out = fs.create(new Path(dst), new Progressable() {@Overridepublic void progress() {System.out.print(" . ");}});IOUtils.copyBytes(in, out, 4096, true);} catch (IOException e) {e.printStackTrace();} finally {IOUtils.closeStream(in);IOUtils.closeStream(out);}}
}