中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

網(wǎng)站app開發(fā)平臺百度非企渠道開戶

網(wǎng)站app開發(fā)平臺,百度非企渠道開戶,小米手機網(wǎng)站建設(shè)目標,高端車品牌排行榜導(dǎo)論 (基于Hadoop的MapReduce的優(yōu)缺點) MapReduce是一個分布式運算程序的編程框架,是用戶開發(fā)“基于Hadoop的數(shù)據(jù)分析應(yīng)用”的核心框架 MapReduce是一種用于處理大規(guī)模數(shù)據(jù)集的編程模型和計算框架。它將數(shù)據(jù)處理過程分為兩個主要階段:Map階…

導(dǎo)論

(基于Hadoop的MapReduce的優(yōu)缺點)

MapReduce是一個分布式運算程序的編程框架,是用戶開發(fā)“基于Hadoop的數(shù)據(jù)分析應(yīng)用”的核心框架

MapReduce是一種用于處理大規(guī)模數(shù)據(jù)集的編程模型和計算框架。它將數(shù)據(jù)處理過程分為兩個主要階段:Map階段和Reduce階段。在Map階段,數(shù)據(jù)被分割為多個小塊,并由多個并行運行的Mapper進行處理。在Reduce階段,Mapper的輸出被合并和排序,并由多個并行運行的Reducer進行最終的聚合和計算。MapReduce的優(yōu)缺點如下:

優(yōu)點:

??? 可伸縮性:MapReduce可以處理大規(guī)模的數(shù)據(jù)集,通過將數(shù)據(jù)分割為多個小塊并進行并行處理,可以有效地利用集群的計算資源。它可以在需要處理更大數(shù)據(jù)集時進行水平擴展,而不需要對現(xiàn)有的代碼進行修改。
??? 容錯性:MapReduce具有高度的容錯性。當某個節(jié)點發(fā)生故障時,作業(yè)可以自動重新分配給其他可用的節(jié)點進行處理,從而保證作業(yè)的完成。
??? 靈活性:MapReduce允許開發(fā)人員使用自定義的Mapper和Reducer來處理各種類型的數(shù)據(jù)和計算任務(wù)。它提供了靈活的編程模型,可以根據(jù)具體需求進行定制和擴展。
??? 易于使用:MapReduce提供了高級抽象,隱藏了底層的并行和分布式處理細節(jié)。開發(fā)人員只需要關(guān)注數(shù)據(jù)的轉(zhuǎn)換和計算邏輯,而不需要關(guān)心并發(fā)和分布式算法的實現(xiàn)細節(jié)。

缺點:

??? 適用性有限:MapReduce適用于一些需要進行大規(guī)模數(shù)據(jù)處理和分析的場景,但對于一些需要實時計算和交互式查詢的場景,MapReduce的延遲較高,不太適合。
??? 復(fù)雜性:盡管MapReduce提供了高級抽象,但對于開發(fā)人員來說,編寫和調(diào)試MapReduce作業(yè)仍然是一項復(fù)雜的任務(wù)。需要熟悉MapReduce的編程模型和框架,并理解分布式計算的概念和原理。
??? 磁盤IO開銷:在MapReduce中,數(shù)據(jù)需要在Map和Reduce階段之間進行磁盤IO,這可能會導(dǎo)致性能瓶頸。盡管可以通過合理的數(shù)據(jù)分區(qū)和調(diào)優(yōu)來減少磁盤IO的開銷,但仍然需要考慮和處理數(shù)據(jù)移動和復(fù)制的開銷。

綜上所述,MapReduce是一種適用于大規(guī)模數(shù)據(jù)處理的編程模型和計算框架,具有可伸縮性、容錯性、靈活性和易用性等優(yōu)點。然而,它在實時計算和交互式查詢等場景下的適用性有限,同時開發(fā)和調(diào)試MapReduce作業(yè)的復(fù)雜性也需要考慮

Spark

一.Spark 基礎(chǔ)

1.1 Spark 為何物

Spark 是當今大數(shù)據(jù)領(lǐng)域最活躍、最熱門、最高效的大數(shù)據(jù)通用計算平臺之一。

??? Hadoop 之父 Doug Cutting 指出:Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark (大數(shù)據(jù)項目的 MapReduce 引擎的使用將下降,由 Apache Spark 取代)。

spark概述

第一階段:Spark最初由美國加州伯克利大學(xué)( UC Berkelcy)的AMP實驗室于2009年開發(fā),是基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,可用于構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序

第二階段:2013年Spark加入Apache孵化器項日后發(fā)展迅猛,如今已成為Apache軟件基金會最重要的三大分布式計算系統(tǒng)開源項目之一( Hadoop磁盤MR離線式、Spark基于內(nèi)存實時數(shù)據(jù)分析框架、Storm數(shù)據(jù)流分析框架 )

第三階段:

1.3Spark的主要特點

Scala簡介

Scala是一門現(xiàn)代的多范式編程語言 ,運行于IAVA平臺(JVM,JAVA虛擬機)并兼容現(xiàn)有的JAVA程序

Scala的特點

① Scala具備強大的并發(fā)性,支持函數(shù)式編程,可以更好地支持分布式系統(tǒng)。
② Scala語法簡潔,能提供優(yōu)雅的API。
③ Scala兼容Java,運行速度快,且能融合到Hadoop生態(tài)圈中。

二.Spark VS Hadoop

盡管 Spark 相對于 Hadoop 而言具有較大優(yōu)勢,但 Spark 并不能完全替代 HadoopSpark 主要用于替代Hadoop中的 MapReduce 計算模型。存儲依然可以使用 HDFS,但是中間結(jié)果可以存放在內(nèi)存中;調(diào)度可以使用 Spark 內(nèi)置的,也可以使用更成熟的調(diào)度系統(tǒng) YARN 等。

實際上,Spark 已經(jīng)很好地融入了 Hadoop 生態(tài)圈,并成為其中的重要一員,它可以借助于 YARN 實現(xiàn)資源調(diào)度管理,借助于 HDFS 實現(xiàn)分布式存儲。

此外,Hadoop 可以使用廉價的、異構(gòu)的機器來做分布式存儲與計算,但是,Spark 對硬件的要求稍高一些,對內(nèi)存與 CPU 有一定的要求

Spark生態(tài)系統(tǒng)

在實際應(yīng)用中,大數(shù)據(jù)處理主要包括一下3個類型:
?????? ① 復(fù)雜的批量數(shù)據(jù)處理:時間跨度通常在數(shù)十分鐘到數(shù)小時之間。
?????? ② 基于歷史數(shù)據(jù)的交互式查詢:時間跨度通常在數(shù)十秒到數(shù)分鐘之間。
?????? ③ 基于實時數(shù)據(jù)流的數(shù)據(jù)處理:時間跨度通常在數(shù)百毫秒到數(shù)秒之間。

當同時存在以上三種場景時,就需要同時部署三種不同的軟件

核心組件:

Spark的應(yīng)用場景

?Spark的運行架構(gòu)

1.基本概念

在具體講解Spark運行架構(gòu)之前,需要先了解以下7個重要的概念。
① RDD:是彈性分布式數(shù)據(jù)集的英文縮寫,是分布式內(nèi)存的一個抽象概念,提供了一種高度受限的共享內(nèi)存模型。
② DAG:是有向無環(huán)圖的英文縮寫,反映RDD之間的依賴關(guān)系。
③ Executor:是運行在工作節(jié)點上的一個進程,負責運行任務(wù),并為應(yīng)用程序存儲數(shù)據(jù)。
④ 應(yīng)用:用戶編寫的Spark應(yīng)用程序。
⑤ 任務(wù):運行在Executor上的工作單元。
⑥ 作業(yè):一個作業(yè)包含多個RDD及作用于相應(yīng)RDD上的各種操作。
⑦ 階段:是作業(yè)的基本調(diào)度單位,一個作業(yè)會分為多組任務(wù),每組任務(wù)被稱為“階段”,或者也被稱為“任務(wù)集”

2.Spark運行架構(gòu)

(1)當一個Spark應(yīng)用被提交時,首先需要為這個應(yīng)用構(gòu)建起基本的運行環(huán)境,即由任務(wù)控制節(jié)點創(chuàng)建一個SparkContext,由SparkContext負責和資源管理器的通信以及進行資源的申請、任務(wù)的分配和監(jiān)控等。SparkContext 會向資源管理器注冊并申請運行Executor的資源。
(2)資源管理器為Executor分配資源,并啟動Executor進程,Executor運行情況將隨著“心跳”發(fā)送到資源管理器上。

(3)SparkContext 根據(jù) RDD 的依賴關(guān)系構(gòu)建 DAG 圖,DAG 圖提交給 DAG 調(diào)度器進行解析,將DAG圖分解成多個“階段”(每個階段都是一個任務(wù)集),并且計算出各個階段之間的依賴關(guān)系,然后把一個個“任務(wù)集”提交給底層的任務(wù)調(diào)度器進行處理;Executor 向 SparkContext 申請任務(wù),任務(wù)調(diào)度器將任務(wù)分發(fā)給 Executor 運行,同時SparkContext將應(yīng)用程序代碼發(fā)放給Executor。
(4)任務(wù)在Executor上運行,把執(zhí)行結(jié)果反饋給任務(wù)調(diào)度器,然后反饋給DAG調(diào)度器,運行完畢后寫入數(shù)據(jù)并釋放所有資源。

Spark運行架構(gòu)特點:

1.每個application都有自己專屬的Executor進程,并且該進程在application運行期間一直駐留,executor進程以多線程的方式運行Task

2.Spark運行過程與資源管理無關(guān),子要能夠獲取Executor進程并保持通信即可

3.Task采用了數(shù)據(jù)本地性和推測執(zhí)行等優(yōu)化機制,實現(xiàn)“計算向數(shù)據(jù)靠攏”

核心-RDD

1.設(shè)計背景

1.許多迭代式算法《比如機器學(xué)習(xí)、圖算法等)和交互式數(shù)據(jù)挖掘工具,共同之處是,不同計算階段之間會重用中間結(jié)果
2.目前的MapReduce框架都是把中間結(jié)果寫入到磁盤中,帶來大量的數(shù)據(jù)復(fù)制、磁盤Io和序列化開銷
3.RDD就是為了滿足這種需求而出現(xiàn)的,它提供了一個抽象的數(shù)據(jù)結(jié)構(gòu)
4.我們不必擔心底層數(shù)據(jù)的分布式持性,只需將具體的應(yīng)用邏輯表達為一系列轉(zhuǎn)換處理

5.不同RDD之間的轉(zhuǎn)換操作形成依賴關(guān)系,可以實現(xiàn)管道化,避免中間數(shù)據(jù)存儲

RDD概念

1.一個RDD就是一個分布式對象集合,本質(zhì)上是一個只讀的分區(qū)記錄集合,不同節(jié)點上進行并行計算

2.RDD提供了一種高度受限的共享內(nèi)存模型,RDD是只讀的記錄分區(qū)集合,不能直接修改,只能通過在轉(zhuǎn)換的過程中改

RDD典型的執(zhí)行過程如下

優(yōu)點:惰性調(diào)用,管道化,避免同步等待,不需要保存中間結(jié)果,每次操變得簡單

RDD特性

1.高效的容錯性

現(xiàn)有容錯機制:數(shù)據(jù)復(fù)制或者記錄日志RDD具有天生的容錯性:血緣關(guān)系,重新計算丟失分區(qū),無需回滾系統(tǒng),重算過程在不同節(jié)點之間并行,只記錄粗粒度的操作

2.中間結(jié)果持久化到內(nèi)存,數(shù)據(jù)在內(nèi)存中的多個RDD操作直接按進行傳遞,避免了不必要的讀寫磁盤開銷

3.存放的數(shù)據(jù)可以是JAVA對象,避免了不必要的對象序列化和反序列化

RDD之間的依賴關(guān)系

父RDD的一個分區(qū)只被一個子RDD的一個分區(qū)所使用就是窄依賴,否則就是寬依賴。

階段的劃分

RDD運行過程

過上述對RDD概念、依賴關(guān)系和Stage劃分的介紹,結(jié)合之前介紹的Spark運行基本流程,再總結(jié)一下RDD在Spark架構(gòu)中的運行過程:

??? (1)創(chuàng)建RDD對象;

??? (2)SparkContext負責計算RDD之間的依賴關(guān)系,構(gòu)建DAG;

??? (3)DAGScheduler負責把DAG圖分解成多個Stage,每個Stage中包含了多個Task,每個Task會被TaskScheduler分發(fā)給各個WorkerNode上的Executor去執(zhí)行。

http://www.risenshineclean.com/news/851.html

相關(guān)文章:

  • 孝感網(wǎng)站開發(fā)的公司電話集客營銷軟件
  • 攀枝花建設(shè)工程有限責任公司網(wǎng)站一元友情鏈接平臺
  • 池州專業(yè)網(wǎng)站建設(shè)谷歌搜索引擎鏡像
  • 網(wǎng)站設(shè)計 電子購物網(wǎng)站設(shè)計網(wǎng)絡(luò)精準推廣
  • 電商網(wǎng)站建設(shè)推廣企業(yè)網(wǎng)絡(luò)規(guī)劃設(shè)計方案
  • 網(wǎng)站建設(shè)的結(jié)論和體會百度推廣營銷中心
  • 柳州正規(guī)網(wǎng)站制作公司發(fā)稿網(wǎng)
  • 牛街網(wǎng)站建設(shè)免費網(wǎng)站推廣軟件哪個好
  • 電子書籍網(wǎng)站開發(fā)推廣鏈接點擊器網(wǎng)頁
  • 如何開一個微信公眾號seo顧問合同
  • 昆明企業(yè)自助建站系統(tǒng)百度官網(wǎng)客服
  • 曹縣網(wǎng)站開發(fā)抓取關(guān)鍵詞的軟件
  • 虛擬幣挖礦網(wǎng)站開發(fā)新鄉(xiāng)seo網(wǎng)絡(luò)推廣費用
  • 互聯(lián)網(wǎng)門戶網(wǎng)站世界比分榜
  • 網(wǎng)站建設(shè)目標定位推廣排名seo
  • jsp網(wǎng)站seo優(yōu)化百度競價推廣開戶多少錢
  • 百度海外視頻網(wǎng)站建設(shè)幽默軟文經(jīng)典案例300
  • 釣魚網(wǎng)站開發(fā)百度百度一下百度
  • 做安卓icon圖標下載網(wǎng)站網(wǎng)站推廣優(yōu)化方法
  • 提升網(wǎng)站關(guān)鍵詞排名推廣策劃方案怎么做
  • 做中國旅游網(wǎng)站的目的與必要性廣豐網(wǎng)站seo
  • 網(wǎng)頁設(shè)計作品網(wǎng)站seo關(guān)鍵詞智能排名
  • ps網(wǎng)站設(shè)計素材手機百度搜索引擎入口
  • 物流公司哪家便宜又好河南純手工seo
  • h5 css3 網(wǎng)站開發(fā)實例熱搜榜上2023年熱門話題
  • 花錢推廣的網(wǎng)絡(luò)平臺廣州seo和網(wǎng)絡(luò)推廣
  • 江蘇省昆山市網(wǎng)站制作西安網(wǎng)站seo廠家
  • 深圳招聘一般在哪個網(wǎng)站aso優(yōu)化的主要內(nèi)容
  • 西安大型網(wǎng)站建設(shè)公司排名怎么做好網(wǎng)絡(luò)營銷
  • 垃圾站 WordPress深圳剛剛突然宣布