中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

企業(yè)網(wǎng)站建設(shè)的目的是什么小學(xué)生一分鐘新聞播報(bào)

企業(yè)網(wǎng)站建設(shè)的目的是什么,小學(xué)生一分鐘新聞播報(bào),開發(fā)一個(gè)平臺(tái)app需要多少錢,上海公司注銷的流程及需提供的材料2023三、Hadoop分布式文件系統(tǒng) 1. 產(chǎn)生背景 數(shù)據(jù)量越來(lái)越大,一臺(tái)獨(dú)立的計(jì)算機(jī)已經(jīng)無(wú)法存儲(chǔ)所有的數(shù)據(jù)---->將大規(guī)模的數(shù)據(jù)存儲(chǔ)到成百上千的計(jì)算機(jī)中------為了解決數(shù)據(jù)管理以及維護(hù)極其繁瑣與低效------>分布式文件系統(tǒng) 分布式文件系統(tǒng)是管理網(wǎng)絡(luò)中跨多臺(tái)計(jì)算機(jī)…

三、Hadoop分布式文件系統(tǒng)

1. 產(chǎn)生背景

  • 數(shù)據(jù)量越來(lái)越大,一臺(tái)獨(dú)立的計(jì)算機(jī)已經(jīng)無(wú)法存儲(chǔ)所有的數(shù)據(jù)---->將大規(guī)模的數(shù)據(jù)存儲(chǔ)到成百上千的計(jì)算機(jī)中------為了解決數(shù)據(jù)管理以及維護(hù)極其繁瑣與低效------>分布式文件系統(tǒng)

  • 分布式文件系統(tǒng)是管理網(wǎng)絡(luò)中跨多臺(tái)計(jì)算機(jī)存儲(chǔ)的文件系統(tǒng)

  • GFS:谷歌公司開發(fā)了第一個(gè)大規(guī)模商業(yè)化應(yīng)用的分布式文件系統(tǒng)

2. 概述

2.1 分布式文件系統(tǒng)簡(jiǎn)介

  • 普通文件系統(tǒng):一般會(huì)把磁盤空間劃分為每512字節(jié)一組,稱為“磁盤塊”,它是文件系統(tǒng)讀寫操作的最小單位,文件系統(tǒng)的塊(Block)通常是磁盤塊的整數(shù)倍,即每次讀寫的數(shù)據(jù)量必須是磁盤塊大小的整數(shù)倍(以塊為單位進(jìn)行讀寫

  • 分布式文件系統(tǒng):也采用了塊的概念,文件被分成若干個(gè)塊進(jìn)行存儲(chǔ),塊是數(shù)據(jù)讀寫的基本單元,只不過(guò)分布式文件系統(tǒng)的塊要比普通文件系統(tǒng)中的塊大很多,比如,HDFS默認(rèn)的一個(gè)塊的大小是64MB,而且與普通文件系統(tǒng)不同的是,在分布式文件系統(tǒng)中,如果一個(gè)文件小于一個(gè)數(shù)據(jù)塊的大小,它不會(huì)占用整個(gè)數(shù)據(jù)塊的儲(chǔ)存空間。(依然是塊為基本單元,但塊更大,同時(shí),不滿一個(gè)塊的文件也不會(huì)占用整塊存儲(chǔ)空間,其他文件依然可以進(jìn)行填充

    • 塊比較大的目的:最小化尋址開銷(HDFS尋址開銷包括:磁盤的尋道開銷和數(shù)據(jù)塊的定位開銷)

    • 也不能太大:會(huì)影響并行的速度

    • 設(shè)計(jì):客戶機(jī)/服務(wù)器(Client/Server)(客戶端以特定的通信協(xié)議通過(guò)網(wǎng)絡(luò)與服務(wù)器建立連接,提出文件訪問(wèn)請(qǐng)求,客戶端和服務(wù)器可以通過(guò)設(shè)置訪問(wèn)權(quán),來(lái)限制請(qǐng)求方對(duì)底層數(shù)據(jù)存儲(chǔ)塊的訪問(wèn))

    • 物理結(jié)構(gòu):由計(jì)算機(jī)集群中的多個(gè)節(jié)點(diǎn)構(gòu)成的(節(jié)點(diǎn)分為兩類)

      • 主節(jié)點(diǎn)(Master Node)/名稱節(jié)點(diǎn)(Name Node):負(fù)責(zé)文件和目錄的創(chuàng)建、刪除和重命名等,同時(shí)管理著數(shù)據(jù)節(jié)點(diǎn)和文件塊的映射關(guān)系
      • 從節(jié)點(diǎn)(Worker Node)/ 數(shù)據(jù)節(jié)點(diǎn)(DataNode):負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和讀取。
    • 存儲(chǔ)方式:多副本存儲(chǔ)(文件被復(fù)制多次被放在不同的位置,從而能夠保障數(shù)據(jù)的完整性)

2.2 HDFS簡(jiǎn)介

  • **HDFS(Hadoop Distribute File System)**是大數(shù)據(jù)領(lǐng)域一種非??煽康拇鎯?chǔ)系統(tǒng),它以分布式方式存儲(chǔ)超大數(shù)據(jù)量文件,但它并不適合存儲(chǔ)大量的小數(shù)據(jù)量文件。
  • HDFS要實(shí)現(xiàn)的目標(biāo):
    • **兼容廉價(jià)的硬件設(shè)備:**實(shí)現(xiàn)在硬件故障的情況下也能保障數(shù)據(jù)的完整性
    • **流數(shù)據(jù)讀寫:**不支持隨機(jī)讀寫的操作
    • **大數(shù)據(jù)集:**數(shù)據(jù)量一般在GB、TB以上的級(jí)別
    • **簡(jiǎn)單的文件模型:**一次寫入、多次讀取
    • **強(qiáng)大的跨平臺(tái)兼容性:**采用Java語(yǔ)言實(shí)現(xiàn)
  • HDFS的局限性:
    • 不適合低延遲數(shù)據(jù)訪問(wèn):HDFS主要是面向大規(guī)模數(shù)據(jù)批量處理而設(shè)計(jì)的,采用流式數(shù)據(jù)讀取,具有很高的數(shù)據(jù)吞吐率,但是,這也意味著較高的延遲,因此,HDFS不適合用在需要較低延遲(如數(shù)十毫秒)的應(yīng)用場(chǎng)合。
    • **無(wú)法高效存儲(chǔ)大量小文件:**小文件是指文件大小小于一個(gè)塊的文件,HDFS無(wú)法高效存儲(chǔ)和處理大量的小文件,過(guò)多小文件會(huì)給系統(tǒng)擴(kuò)展性和性能帶來(lái)諸多問(wèn)題:
      • HDFS采用名稱節(jié)點(diǎn)(NameNode)來(lái)管理文件系統(tǒng)的元數(shù)據(jù),這些元數(shù)據(jù)被保存在內(nèi)存中,使客戶端可以快速獲取文件實(shí)際存儲(chǔ)位置。
      • 用MapReduce處理大量小文件時(shí),會(huì)產(chǎn)生過(guò)多的Map任務(wù),線程管理開銷會(huì)大大增加,因此處理大量小文件的速度遠(yuǎn)遠(yuǎn)低于處理同等大小的大文件的速度;
      • 訪問(wèn)大量小文件的速度遠(yuǎn)遠(yuǎn)低于訪問(wèn)大文件的速度,因?yàn)樵L問(wèn)大量小文件,需要不斷從一個(gè)數(shù)據(jù)節(jié)點(diǎn)跳到另一個(gè)數(shù)據(jù)節(jié)點(diǎn),嚴(yán)重影響性能。
    • 不支持多用戶寫入及任意修改文件:HDFS只允許一個(gè)文件有一個(gè)寫入者,不允許多個(gè)用戶對(duì)同一個(gè)文件執(zhí)行寫操作,而且只允許對(duì)文件執(zhí)行追加操作,不能執(zhí)行隨機(jī)寫操作。

3. HDFS的體系結(jié)構(gòu)

  • 結(jié)構(gòu)模型:主從(Master/Slave)結(jié)構(gòu)模型,一個(gè)HDFS集群包括一個(gè)名稱節(jié)點(diǎn)和若干數(shù)據(jù)節(jié)點(diǎn)
  • 名稱節(jié)點(diǎn)作為中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的命名空間及客戶端對(duì)文件的訪問(wèn)
  • 數(shù)據(jù)節(jié)點(diǎn)負(fù)責(zé)處理文件系統(tǒng)客戶端的讀/寫請(qǐng)求,在名稱節(jié)點(diǎn)的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制等操作
  • 每個(gè)數(shù)據(jù)節(jié)點(diǎn)會(huì)周期性地向名稱節(jié)點(diǎn)發(fā)送**“心跳"信息**,報(bào)告自己的狀態(tài),沒有按時(shí)發(fā)送心跳信息的數(shù)據(jù)節(jié)點(diǎn)會(huì)被標(biāo)記為“宕機(jī)”,不會(huì)再給它分配任何I/O請(qǐng)求。(用來(lái)判斷數(shù)據(jù)節(jié)點(diǎn)是否正常工作的方式)

img

  • 文件存儲(chǔ):一個(gè)文件被分為若干數(shù)據(jù)塊----->若干數(shù)據(jù)塊存儲(chǔ)到若干數(shù)據(jù)節(jié)點(diǎn)上
  • 訪問(wèn):客戶端-----文件名----->名稱節(jié)點(diǎn)------根據(jù)文件名找到------>數(shù)據(jù)塊 ------數(shù)據(jù)塊存儲(chǔ)信息------->數(shù)據(jù)節(jié)點(diǎn)的位置------節(jié)點(diǎn)位置信息------>客戶端 —直接訪問(wèn)對(duì)應(yīng)位置–>獲得數(shù)據(jù)

4. HDFS的存儲(chǔ)原理

4.1 數(shù)據(jù)的冗余存儲(chǔ)

  • 目的:保證系統(tǒng)的容錯(cuò)性可用性
  • 冗余存儲(chǔ)的方式:多副本方式(即一個(gè)數(shù)據(jù)塊的多個(gè)副本會(huì)被分布到不同的數(shù)據(jù)節(jié)點(diǎn)上)

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-FEVeGbzh-1676720254593)(null)]

  • 優(yōu)點(diǎn):
    • 加快數(shù)據(jù)傳輸速度:當(dāng)多個(gè)客戶端需要同時(shí)訪問(wèn)同一個(gè)文件時(shí),可以讓各個(gè)客戶端分別從不同的數(shù)據(jù)塊副本中讀取數(shù)據(jù),這就大大加快了數(shù)據(jù)傳輸速度,實(shí)現(xiàn)了并行操作。
    • 容易檢查數(shù)據(jù)錯(cuò)誤:HDFS的數(shù)據(jù)節(jié)點(diǎn)之間通過(guò)網(wǎng)絡(luò)傳輸數(shù)據(jù),采用多個(gè)副本可以很容易判斷數(shù)據(jù)傳輸是否出錯(cuò)。
    • 保證數(shù)據(jù)的可靠性:即使某個(gè)數(shù)據(jù)節(jié)點(diǎn)出現(xiàn)故障失效,也不會(huì)造成數(shù)據(jù)丟失。

4.2 數(shù)據(jù)存取策略

4.2.1 數(shù)據(jù)存放

  • 采用了以機(jī)架(Rack)為基礎(chǔ)的數(shù)據(jù)存放策略。一個(gè)HDFS集群通常包含多個(gè)機(jī)架,不同機(jī)架之間的數(shù)據(jù)通信需要經(jīng)過(guò)交換機(jī)或路由器,同一機(jī)架的不同機(jī)器之間數(shù)據(jù)通信不需要交換機(jī)或路由器,因此同一機(jī)架中不同機(jī)器之間的通信要比不同機(jī)架之間機(jī)器的通信帶寬大。

  • HDFS默認(rèn)每個(gè)數(shù)據(jù)節(jié)點(diǎn)都是在不同機(jī)架上的

    • 缺點(diǎn):
      • 寫入數(shù)據(jù)的時(shí)候不能充分利用同一機(jī)架內(nèi)部機(jī)器之間的帶寬
    • 優(yōu)點(diǎn)
      • 可以獲得很高的數(shù)據(jù)可靠性,即使一個(gè)機(jī)架發(fā)生故障,位于其他機(jī)架上的數(shù)據(jù)副本仍然可用
      • 在讀數(shù)據(jù)的時(shí)候,可以在多個(gè)機(jī)架上并行讀取數(shù)據(jù),大大提高了數(shù)據(jù)讀取速度。
      • 可以更容易實(shí)現(xiàn)系統(tǒng)內(nèi)部負(fù)載均衡和錯(cuò)誤糾正。
  • HDFS默認(rèn)的冗余復(fù)制因子是 3,每一個(gè)文件會(huì)被同時(shí)保存到 3 個(gè)地方,其中兩份副本放在同一個(gè)機(jī)架的不同機(jī)器上面,第三個(gè)副本放在不同機(jī)架的機(jī)器上面。

  • HDFS副本的存放策略是:

    • 如果是在集群內(nèi)發(fā)起寫操作請(qǐng)求,則把第1個(gè)副本放置在發(fā)起寫操作請(qǐng)求的數(shù)據(jù)節(jié)點(diǎn)上,實(shí)現(xiàn)就近寫入數(shù)據(jù)。如果是來(lái)自集群外部的寫操作,則從集群內(nèi)部挑選一臺(tái)磁盤空間較為充足、CPU不太忙的數(shù)據(jù)節(jié)點(diǎn),作為第1個(gè)副本的存放地。
    • 第2個(gè)副本會(huì)被放置在與第1個(gè)副本不同的機(jī)架的數(shù)據(jù)節(jié)點(diǎn)上。
    • 第3個(gè)副本會(huì)被放置在與第1個(gè)副本相同的機(jī)架的其他節(jié)點(diǎn)上。
    • 如果還有更多的副本,則繼續(xù)從集群中隨機(jī)選擇數(shù)據(jù)節(jié)點(diǎn)進(jìn)行存放

4.2.2 數(shù)據(jù)讀取

  • HDFS提供了一個(gè)API,用于確定一個(gè)數(shù)據(jù)節(jié)點(diǎn)所屬的機(jī)架的ID,客戶端可以調(diào)用該API獲取自己所屬機(jī)架的ID。

4.2.3 數(shù)據(jù)復(fù)制

  • 流水線復(fù)制:當(dāng)客戶端要向HDFS中寫入一個(gè)文件時(shí),這個(gè)文件會(huì)首先被寫入本地,并被切分成若干個(gè)塊,每個(gè)塊的大小是由HDFS的設(shè)定值來(lái)決定。每個(gè)塊都向HDFS集群中的名稱節(jié)點(diǎn)發(fā)起寫請(qǐng)求,名稱節(jié)點(diǎn)會(huì)根據(jù)系統(tǒng)中各個(gè)數(shù)據(jù)節(jié)點(diǎn)的使用情況,選擇一個(gè)數(shù)據(jù)節(jié)點(diǎn)列表返回給客戶端,然后客戶端就把數(shù)據(jù)首先寫入列表中的第1個(gè)數(shù)據(jù)節(jié)點(diǎn),同時(shí)把列表傳給第1個(gè)數(shù)據(jù)節(jié)點(diǎn),當(dāng)?shù)?個(gè)數(shù)據(jù)節(jié)點(diǎn)接收到一個(gè)塊的數(shù)據(jù)的時(shí)候,將其寫入本地,并且向列表中的第2個(gè)數(shù)據(jù)節(jié)點(diǎn)發(fā)起連接請(qǐng)求,把自己已經(jīng)接收到的數(shù)據(jù)和列表傳給第2個(gè)數(shù)據(jù)節(jié)點(diǎn),當(dāng)?shù)?個(gè)數(shù)據(jù)節(jié)點(diǎn)接收到數(shù)據(jù)的時(shí)候,將其寫入本地,并且向列表中的第3個(gè)數(shù)據(jù)節(jié)點(diǎn)發(fā)起連接請(qǐng)求,依次類推,列表中的多個(gè)數(shù)據(jù)節(jié)點(diǎn)形成一條數(shù)據(jù)復(fù)制的流水線。最后,當(dāng)文件寫完的時(shí)候,數(shù)據(jù)復(fù)制也同時(shí)完成。

4.3 數(shù)據(jù)錯(cuò)誤與恢復(fù)

4.3.1 名稱節(jié)點(diǎn)出錯(cuò)

  • 保證名稱節(jié)點(diǎn)安全的方式:
    • 把名稱節(jié)點(diǎn)上的元數(shù)據(jù)信息同步存儲(chǔ)到其他文件系統(tǒng)中
    • 運(yùn)行一個(gè)第二名稱節(jié)點(diǎn),當(dāng)名稱節(jié)點(diǎn)宕機(jī)以后,利用第二名稱節(jié)點(diǎn)中的元數(shù)據(jù)信息進(jìn)行系統(tǒng)恢復(fù)(仍然會(huì)丟失部分?jǐn)?shù)據(jù))
  • 一般是兩者結(jié)合使用,當(dāng)名稱節(jié)點(diǎn)宕機(jī)時(shí),首先到遠(yuǎn)程掛載的網(wǎng)絡(luò)文件系統(tǒng)中獲取備份的元數(shù)據(jù)信息,放到第二名稱節(jié)點(diǎn)上進(jìn)行恢復(fù),并把第二名稱節(jié)點(diǎn)作為名稱節(jié)點(diǎn)來(lái)使用。

4.3.2 數(shù)據(jù)節(jié)點(diǎn)出錯(cuò)

  • 每個(gè)數(shù)據(jù)節(jié)點(diǎn)會(huì)定期向名稱節(jié)點(diǎn)發(fā)送“心跳”信息,向名稱節(jié)點(diǎn)報(bào)告自己的狀態(tài)。當(dāng)數(shù)據(jù)節(jié)點(diǎn)發(fā)生故障,或者網(wǎng)絡(luò)發(fā)生斷網(wǎng)時(shí),名稱節(jié)點(diǎn)就無(wú)法收到來(lái)自這些節(jié)點(diǎn)的“心跳”信息,這時(shí),這些節(jié)點(diǎn)就會(huì)被標(biāo)記為“宕機(jī)”,節(jié)點(diǎn)上面的數(shù)據(jù)都會(huì)被標(biāo)記為“不可讀”,名稱節(jié)點(diǎn)不會(huì)再給它們發(fā)送任何I/O請(qǐng)求(與HDFS的體系結(jié)構(gòu)下的內(nèi)容一致

4.3.3 數(shù)據(jù)出錯(cuò)

  • 網(wǎng)絡(luò)傳輸磁盤錯(cuò)誤等因素都會(huì)造成數(shù)據(jù)錯(cuò)誤??蛻舳嗽谧x取到數(shù)據(jù)后,會(huì)采用md5sha1對(duì)數(shù)據(jù)塊進(jìn)行校驗(yàn),以確保讀取到正確的數(shù)據(jù)。在文件被創(chuàng)建時(shí),客戶端會(huì)對(duì)每一個(gè)文件塊進(jìn)行信息摘錄,并把這些信息寫入到同一個(gè)路徑的隱藏文件里面。
  • 當(dāng)客戶端讀取文件的時(shí)候,會(huì)先讀取該信息文件,然后,利用該信息文件對(duì)每個(gè)讀取的數(shù)據(jù)塊進(jìn)行校驗(yàn)。如果校驗(yàn)出錯(cuò),客戶端就會(huì)請(qǐng)求到另外一個(gè)數(shù)據(jù)節(jié)點(diǎn)讀取該文件塊,并且向名稱節(jié)點(diǎn)報(bào)告這個(gè)文件塊有錯(cuò)誤,名稱節(jié)點(diǎn)會(huì)定期檢查并且重新復(fù)制這個(gè)塊。

5. HDFS的數(shù)據(jù)讀取過(guò)程

  • 參考此鏈接

6. 編程實(shí)戰(zhàn)(之后會(huì)統(tǒng)一完成)

參考自DataWhale學(xué)習(xí)資料

http://www.risenshineclean.com/news/2198.html

相關(guān)文章:

  • 廣州做網(wǎng)站好的公司廣告主資源哪里找
  • 訪問(wèn)網(wǎng)站有音樂(lè)背景怎么做網(wǎng)站推廣計(jì)劃
  • 培訓(xùn)平臺(tái)網(wǎng)站營(yíng)銷策劃公司簡(jiǎn)介
  • 通橋小學(xué)的網(wǎng)站建設(shè)巨量引擎官網(wǎng)
  • 科學(xué)做視頻網(wǎng)站數(shù)據(jù)網(wǎng)站
  • 有域名怎么免費(fèi)建站百度公司招聘條件
  • axure網(wǎng)站返回頂部按鈕怎么做西安網(wǎng)站排名優(yōu)化培訓(xùn)
  • 網(wǎng)站主要盈利模式上海百度推廣平臺(tái)
  • 宣傳軟文范例優(yōu)化快速排名教程
  • 和小學(xué)生做的黃色網(wǎng)站網(wǎng)絡(luò)營(yíng)銷產(chǎn)品推廣方案
  • 如何做網(wǎng)站的cdn搜索引擎營(yíng)銷
  • 東莞最新通報(bào)最新深圳網(wǎng)站快速排名優(yōu)化
  • 第一ppt網(wǎng)seo點(diǎn)石論壇
  • 南山做網(wǎng)站公司互聯(lián)網(wǎng)營(yíng)銷案例分析
  • 成都最新規(guī)劃官方消息seo排名優(yōu)化公司價(jià)格
  • 網(wǎng)站被模仿怎么辦百度競(jìng)價(jià)排名事件分析
  • 網(wǎng)站建設(shè)推廣方案jsurl中文轉(zhuǎn)碼
  • WordPress 團(tuán)隊(duì)管理系統(tǒng)郴州seo外包
  • 自適應(yīng)網(wǎng)站制作類似互推商盟的推廣平臺(tái)
  • 做私房蛋糕在哪些網(wǎng)站寫東西關(guān)鍵詞競(jìng)價(jià)排名是什么意思
  • 成都人才網(wǎng)seo關(guān)鍵詞排名系統(tǒng)
  • 邢臺(tái)今天的招工信息上海搜索引擎關(guān)鍵詞優(yōu)化
  • 信息服務(wù)類網(wǎng)站怎么做黑馬培訓(xùn)
  • 深圳網(wǎng)站維護(hù)公司企拓客軟件多少錢
  • 安卓手機(jī)應(yīng)用商店杭州seo網(wǎng)站
  • 短網(wǎng)址生成源碼下載seo優(yōu)化一般多少錢
  • 找源碼的網(wǎng)站數(shù)字營(yíng)銷服務(wù)商seo
  • 國(guó)外做電商網(wǎng)站有哪些網(wǎng)絡(luò)營(yíng)銷帶來(lái)的效果
  • 室內(nèi)設(shè)計(jì)風(fēng)格東莞seo優(yōu)化公司
  • 江蘇環(huán)泰建設(shè)有限公司網(wǎng)站西安seo主管