網(wǎng)站建設(shè)學(xué)習(xí)流程seo查詢在線
🥇🥇【大數(shù)據(jù)學(xué)習(xí)記錄篇】-持續(xù)更新中~🥇🥇
點擊傳送:大數(shù)據(jù)學(xué)習(xí)專欄
持續(xù)更新中,感謝各位前輩朋友們支持學(xué)習(xí)~
文章目錄
- 1.Spark on Yarn集群模式介紹
- 2.搭建環(huán)境準(zhǔn)備
- 3.搭建步驟
1.Spark on Yarn集群模式介紹
Apache Spark是一個快速的、通用的大數(shù)據(jù)處理框架,它支持在各種環(huán)境中進行分布式數(shù)據(jù)處理和分析。在Yarn集群模式下搭建Spark環(huán)境可以充分利用Hadoop的資源管理和調(diào)度能力。
本文將介紹如何搭建Spark on Yarn集群模式環(huán)境,步驟詳細(xì),代碼量大,準(zhǔn)備發(fā)車~
2.搭建環(huán)境準(zhǔn)備
本次用到的環(huán)境有:
Java 1.8.0_191
Spark-2.2.0-bin-hadoop2.7
Hadoop 2.7.4
Oracle Linux 7.4
3.搭建步驟
1.解壓Spark壓縮文件至/opt目錄下
tar -zxvf ~/experiment/file/spark-2.2.0-bin-hadoop2.7.tgz -C /opt
2.修改解壓后為文件名為spark
mv /opt/spark-2.2.0-bin-hadoop2.7 /opt/spark
3.復(fù)制spark配置文件,首先在主節(jié)點(Master)上,進入Spark安裝目錄下的配置文件目錄{ $SPARK_HOME/conf },并復(fù)制spark-env.sh配置文件:
cd /opt/spark/conf
cp spark-env.sh.template spark-env.sh
4.Vim編輯器打開spark配置文件
vim spark-env.sh
5.按鍵Shift+g鍵定位到最后一行,按鍵 i 切換到輸入模式下,添加如下代碼,注意:“=”附近無空格:
export JAVA_HOME=/usr/lib/java-1.8
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
6.復(fù)制一份spark的slaves配置文件
cp slaves.template slaves
7.修改spark的slaves配置文件
vim slaves
8.每一行添加工作節(jié)點(Worker)名稱,按鍵Shift+g鍵定位到最后一行,按鍵 i 切換到輸入模式下,添加如下代碼
slave1
slave2
按鍵Esc,按鍵:wq保存退出
9.復(fù)制spark-defaults.conf
cp spark-defaults.conf.template spark-defaults.conf
10.通過遠(yuǎn)程scp指令將Master主節(jié)點的Spark安裝包分發(fā)至各個從節(jié)點,即slave1和slave2節(jié)點
scp -r /opt/spark/ root@slave1:/opt/
scp -r /opt/spark/ root@slave2:/opt/
11.配置環(huán)境變量:分別在master,slave1和slave2節(jié)點上配置環(huán)境變量,修改【/etc/profile】,在文件尾部追加以下內(nèi)容
vim /etc/profile
按鍵Shift+g鍵定位到最后一行,按鍵 i 切換到輸入模式下,添加如下代碼
#spark install
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
主節(jié)點(master)上執(zhí)行截圖,如下:
從節(jié)點1(Slave1)上執(zhí)行截圖,如下:
從節(jié)點2(Slave2)上執(zhí)行截圖,如下:
12.按鍵Esc,按鍵:wq保存退出
13.分別在Slave1和Slave2上,刷新配置文件
source /etc/profile
14.綁定Hadoop配置目錄(在主節(jié)點),Spark搭建On YARN模式,只需修改spark-env.sh配置文件的HADOOP_CONF_DIR屬性,指向Hadoop安裝目錄中配置文件目錄,具體操作如下
vim /opt/spark/conf/spark-env.sh
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
15.按鍵Esc,按鍵:wq保存退出
16.在主節(jié)點修改完配置文件后,一定要將【/opt/spark/conf/spark-env.sh】文件同步分發(fā)至所有從節(jié)點,命令如下
scp -r /opt/spark/conf/spark-env.sh root@slave1:/opt/spark/conf/
scp -r /opt/spark/conf/spark-env.sh root@slave2:/opt/spark/conf/
17.注意事項,如不修改此項,可能在提交作業(yè)時拋相關(guān)異常,Yarn的資源調(diào)用超出上限,需修在文件最后添加屬性改默認(rèn)校驗屬性,修改文件為
{HADOOP_HOME/etc/hadoop}/yarn-site.xml
vim /opt/hadoop/etc/hadoop/yarn-site.xml
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property>
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>
18.修改完成后分發(fā)至集群其它節(jié)點:
scp /opt/hadoop/etc/hadoop/yarn-site.xml root@slave1:/opt/hadoop/etc/hadoop/
scp /opt/hadoop/etc/hadoop/yarn-site.xml root@slave2:/opt/hadoop/etc/hadoop/
19.開啟Hadoop集群,在開啟Spark On Yarn集群之前必須首先開啟Hadoop集群,指令如下:
start-dfs.sh
start-yarn.sh
20.開啟spark shell會話
spark-shell --master yarn-client
21.查看三臺節(jié)點的后臺守護進程
jps
22.查看查看WebUI界面,應(yīng)用提交后,進入Hadoop的Yarn資源調(diào)度頁面http://master:8088,查看應(yīng)用的運行情況,如圖所示
所有配置完成,如果本篇文章對你有幫助,記得點贊關(guān)注+收藏哦~