廣州建設(shè)工程交易中心改版seo推廣公司排名
集群服務(wù)器--LSF作業(yè)調(diào)度系統(tǒng)使用
- 0 Introdutction
- 1 命令
- 1.1 bsub--作業(yè)提交命令
- 1.1.1 $ bqueues --查看現(xiàn)有隊(duì)列信息;
- 1.1.2 $lsload --查看各節(jié)點(diǎn)運(yùn)行情況
- 1.1.3 $bhosts --查看各節(jié)點(diǎn)空閑情況
- 1.1.4 $busers --查看用戶信息
- 1.2 bsub --提交作業(yè)
- 1.2.1 bsub OMP_NUM_THREADS 指明需要共享內(nèi)存
- 1.2.2 bsub -R 指明需要某種資源作業(yè)
- 1.2.3 bsub -x 運(yùn)行排他性運(yùn)行作業(yè)
- 1.2.4 bsub -Is 運(yùn)行交互式作業(yè)
- 1.2.5 bsub -w 滿足依賴關(guān)系運(yùn)行作業(yè)
- 1.2.6 bsub -b time
- 1.3 bjobs --查看作業(yè)排隊(duì)和運(yùn)行情況
- 1.4 bkill --終止作業(yè)
- 1.5 bstop --掛起作業(yè)
- 1.6 bresume --繼續(xù)運(yùn)行刮起的作業(yè)
前天組織考試了LSF和SVN的使用,結(jié)果掛在了LSF的考試上–Failed;
0 Introdutction
LSF:是IBM公司開發(fā)的對超算集群服務(wù)器的作業(yè)統(tǒng)一調(diào)度系統(tǒng);
主要有:
- 資源管理器:管理超算集群服務(wù)器的硬件資源;
- 隊(duì)列管理器:管理當(dāng)前已經(jīng)提交但還未完成的作業(yè);
- 作業(yè)調(diào)度器:為作業(yè)分配合適的硬件資源(計(jì)算+存儲);
作用:
- 根據(jù)用戶提交的計(jì)算作業(yè)分配相應(yīng)的資源節(jié)點(diǎn);
- 避免作業(yè)之間無序干擾,盡量讓整個系統(tǒng)負(fù)載一致;
1 命令
概念:
登陸節(jié)點(diǎn):主要用于日常操作,如提交作業(yè)、查看作業(yè)運(yùn)行情況、編
輯、編譯、壓縮/解壓縮等常用命令;
不要在登陸節(jié)點(diǎn)運(yùn)行作業(yè),即必須通過bsub提交作業(yè);
作業(yè)節(jié)點(diǎn):即真實(shí)作業(yè)提交運(yùn)算節(jié)點(diǎn);
1.1 bsub–作業(yè)提交命令
所有需要運(yùn)行的作業(yè)均必須通過作業(yè)提交命令bsub提交;
1.1.1 $ bqueues --查看現(xiàn)有隊(duì)列信息;
會看到列名:QUEUE_NAME PRIO. STATUS
2.$ bqueues -l dfbdv
進(jìn)行查看隊(duì)列的詳細(xì)信息;
CPU計(jì)算隊(duì)列:
GPU計(jì)算隊(duì)列:
Principle:非GPU作業(yè)不得使用GPU計(jì)算隊(duì)列**
申請核數(shù)盡量以 8或者其他的倍數(shù),以為能獨(dú)占單個節(jié)點(diǎn),避免作業(yè)間相互干擾;
3.
1.1.2 $lsload --查看各節(jié)點(diǎn)運(yùn)行情況
1.$ lsload
ut表示利用率
2.$ lsload node --查看某節(jié)點(diǎn)運(yùn)行情況;
1.1.3 $bhosts --查看各節(jié)點(diǎn)空閑情況
類似lsload 命令
1.1.4 $busers --查看用戶信息
1.2 bsub --提交作業(yè)
bsub [options] command [arguments]
command之前的options:設(shè)置隊(duì)列、CPU核數(shù)等LSF的選項(xiàng)
command之后的arguments:設(shè)置具體作業(yè)的可執(zhí)行程序本身所需要
的參數(shù);
For understanding:
為了用戶作業(yè)間不相互干擾,申請的核數(shù)最好為系統(tǒng)節(jié)點(diǎn)內(nèi)CPU核
數(shù)的整數(shù)倍,以便同一個作業(yè)占據(jù)整個節(jié)點(diǎn)
比如對每個節(jié)點(diǎn)為8核的系統(tǒng),申請核數(shù)為8的整數(shù)倍,節(jié)點(diǎn)核數(shù)
為12的系統(tǒng),申請核數(shù)為12的整數(shù)倍
曙光TC4600百萬億次超級計(jì)算系統(tǒng):每個節(jié)點(diǎn)24 CPU核
ChinaGrid高性能計(jì)算集群:每個節(jié)點(diǎn)16 CPU核
聯(lián)想1800和7000G GPU集群:每個節(jié)點(diǎn)8 CPU核
1.2.1 bsub OMP_NUM_THREADS 指明需要共享內(nèi)存
需求:OpenMP等共享內(nèi)存作業(yè)提交,則需要保證在同一個節(jié)點(diǎn)上運(yùn)行;程序啟動前利用OMP_NUM_THREADS設(shè)定指定的線程數(shù),一般應(yīng)
與申請的核數(shù)一致;-R ‘‘span[hosts=1]’’保證在同一個節(jié)點(diǎn)內(nèi)。
bsub -q normal -n 8 -R ‘‘span[hosts=1]’’ OMP_NUM_THREADS=8 exec
1.2.2 bsub -R 指明需要某種資源作業(yè)
1.2.3 bsub -x 運(yùn)行排他性運(yùn)行作業(yè)
排他性運(yùn)行在運(yùn)行期間,不允許其余的作業(yè)提交到運(yùn)行此作業(yè)的節(jié)
點(diǎn),并且只有在某節(jié)點(diǎn)沒有任何其余的作業(yè)在運(yùn)行時才會提交到此
節(jié)點(diǎn)上運(yùn)行;
另外使用排他性運(yùn)行時,哪怕只使用某節(jié)點(diǎn)內(nèi)的一個CPU核,也將按
照此節(jié)點(diǎn)內(nèi)的所有CPU核數(shù)進(jìn)行機(jī)時計(jì)算;
1.2.4 bsub -Is 運(yùn)行交互式作業(yè)
即運(yùn)行期間手動輸入?yún)?shù);
1.2.5 bsub -w 滿足依賴關(guān)系運(yùn)行作業(yè)
done(job_ID |“job_name” …):作業(yè)結(jié)束時狀態(tài)為DONE時運(yùn)行
ended(job_ID | “job_name”):作業(yè)結(jié)束時狀態(tài)為DONE或EXIT時運(yùn)行
exit(job_ID | “job_name” [,[operator] exit_code]):作業(yè)結(jié)束時狀態(tài)
為EXIT,且退出代碼滿足一定條件時運(yùn)行
external(job_ID | “job_name”, “status_text”):作業(yè)狀態(tài)變?yōu)槟碃顟B(tài)時運(yùn)
行,如變?yōu)镾USP
· · · · · ·
支持的條件之間的條件表達(dá)式:&&(和)、||(或)、!(否)
支持的條件內(nèi)的條件算子:>、>=、<、<=、==、!=
Eg: :bsub -w ‘‘done(1456)’’
1.2.6 bsub -b time
利用-b [[year:][month:]day:]hour:minute可以使得新提交的作業(yè)在特
定時間運(yùn)行;
1.3 bjobs --查看作業(yè)排隊(duì)和運(yùn)行情況
利用bjobs可以查看作業(yè)的運(yùn)行情況;
bjobs -l job_id. 查看詳細(xì)信息;
bjobs -p 查看作業(yè)仍在排隊(duì)等待的原因;
1.4 bkill --終止作業(yè)
利用bkill命令可以終止某個運(yùn)行中或排隊(duì)中的作業(yè);
1.5 bstop --掛起作業(yè)
加 job_id 即可;
1.6 bresume --繼續(xù)運(yùn)行刮起的作業(yè)
接 job_id即可;