恒網(wǎng)做的網(wǎng)站網(wǎng)站排名優(yōu)化服務(wù)公司
在LSF集群運行過程中,有主機狀態(tài)變?yōu)?unreach。熟悉LSF的朋友都知道主機狀態(tài)為 unreach 表示主機上的 SBD 服務(wù)中斷服務(wù)了,但其它服務(wù) LIM 和 RES 還在正常運行。
影響分析
那么主機上的 SBD 服務(wù)中斷的影響是什么呢?
我們需要先明白 SBD 服務(wù)的功能是什么。主機上 SBD 服務(wù)的功能主要是從MBD接收派發(fā)到主機上的任務(wù)并運行任務(wù)、向MBD報告任務(wù)的資源使用情況、監(jiān)控任務(wù)運行狀態(tài)。
因此,如果 SBD 服務(wù)中斷的影響有如下幾項:
1. 主機不再接收新的任務(wù),調(diào)度器發(fā)現(xiàn)主機狀態(tài)異常后不會再向主機派發(fā)任務(wù),從而造成計算資源浪費;
2. 任務(wù)的資源使用情況不能及時收集到,會影響到資源使用的統(tǒng)計分析功能,從而影響資源使用計費等;
3. 任務(wù)的狀態(tài)不能及時收集;
4. 不能控制任務(wù),比如掛起任務(wù)、恢復(fù)任務(wù)、終止任務(wù)等;
原因分析
主機狀態(tài)成為 unreach 的原因有以下幾項:
1. 誤操作終止了 SBD 服務(wù);
2. /tmp 空間滿了;SBD 運行過程中需要在 /tmp 下創(chuàng)建臨時文件,如果 /tmp 沒有可用空間則會導(dǎo)致 SBD 服務(wù)終止;
解決方法
對于 /tmp 空間不足的問題,需要先清理空間,或增加存儲空間,然后再啟動 SBD 服務(wù)。
如果 /tmp 空間充足,則只需要重啟 SBD 服務(wù)。
以 root 身份登錄主機,并運行以下命令啟動 SBD 服務(wù)。
# badmin hstartup
或者在管理節(jié)點上運行如下命令,記得將 host_name 替換為主機名稱。
# badmin hstartup host_name