景區(qū)網站建設網絡營銷的步驟
Standalone集群搭建與Spark on Yarn配置
1、Standalone
Standalone集群是Spark自帶的資源調度框架,支持分布式搭建,這里建議搭建Standalone節(jié)點數為3臺,1臺master節(jié)點,2臺worker節(jié)點,這虛擬機中每臺節(jié)點的內存至少給2G和2個core,這樣才能保證后期Spark基于Standalone的正常運行。搭建Standalone集群的步驟如下:
1)、下載安裝包,解壓
登錄Spark官網下載Spark,官網地址:Spark官網鏈接
點擊“Download”找到“?Spark release archives”找到對應的Spark版本下載。這里選擇Spark2.3.1版本下載。
將下載好的Spark安裝包上傳到Spark Master節(jié)點,解壓:
2)、改名
3)、進入安裝包的conf目錄下,修改或者復制slaves.template文件,去掉template后綴,在新的slaves文件中添加從節(jié)點。保存。
在slaves中配置worker節(jié)點:
4)、復制$SPARK_HOME/conf/spark-env.sh.template 為spark-env.sh,修改spark-env.sh內容:
SPARK_MASTER_HOST:master的ip
SPARK_MASTER_PORT:提交任務的端口,默認是7077
SPARK_WORKER_CORES:每個worker從節(jié)點能夠支配的core的個數
SPARK_WORKER_MEMORY:每個worker從節(jié)點能夠支配的內存數
JAVA_HOME:java的home,這里需要jdk8
5)、同步到其他節(jié)點上
6)、啟動集群
進入sbin目錄下,執(zhí)行當前目錄下的./start-all.sh
7)、搭建客戶端
將spark安裝包原封不動的拷貝到一個新的節(jié)點上,然后,在新的節(jié)點上提交任務即可。
注意:
- 8080是Spark WEBUI界面的端口,7077是Spark任務提交的端口。
- 修改master的WEBUI端口:
- 修改$SPARK_HOME/conf/spark-env.sh即可【建議使用】:
- 修改start-master.sh即可。
- 也可以在Master節(jié)點上導入臨時環(huán)境變量,只是作用于之后的程序,重啟就無效了。
刪除臨時環(huán)境變量:
2、yarn
Spark 也可以基于Yarn進行任務調度,這就是所謂的Spark on Yarn,Spark基于Yarn進行任務調度只需要在Spark客戶端做如下配置即可:
同時這里需要在每臺NodeManager節(jié)點中將每臺NodeManager的虛擬內存關閉,在每臺NodeManager節(jié)點的$HADOOP_HOME/etc/hadoop/yarn-site.xml中加入如下配置:
<!-- 關閉虛擬內存檢查 -->
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>
二、Spark Pi任務測試
Spark PI案例:
Standalone提交命令:
./spark-submit --master spark://mynode1:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100
Spark on YARN提交命令:
./spark-submit --master yarn --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100