pc端移動(dòng)端網(wǎng)站開發(fā)太原網(wǎng)站快速排名提升
服務(wù)器GPU掛掉
跑深度學(xué)習(xí)的代碼的時(shí)候發(fā)現(xiàn)中斷了。通過命令查看:
nvidia-smi
顯示
Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error。
感覺很莫名其妙。通過重啟大法之后,又能用一段時(shí)間。
shutdown -r now
但是過了一個(gè)小時(shí)左右又會(huì)掛掉。不能從根本解決問題。那么到底為什么GPU會(huì)自己掛掉呢?
問題排查
通過查看日志定位錯(cuò)誤原因:
nvidia-bug-report.sh
在當(dāng)前目錄下生成了nvidia-bug-report.log日志文件。查看到日志文件的內(nèi)容如下:
網(wǎng)上查找一下這個(gè)報(bào)錯(cuò)碼79https://forums.developer.nvidia.com/t/gpu-has-fallen-of-the-bus/122124發(fā)現(xiàn)要么是電源問題,要么是溫度過高問題。
重現(xiàn)問題,查看溫度日志
如果判斷是否是GPU溫度過高呢?需要打一個(gè)溫度日志,再運(yùn)行一下代碼,看GPU溫度是否超過了shutdown 溫度(GPU溫度過高會(huì)自動(dòng)掉線保護(hù)GPU)。命令如下:
nvidia-smi -q -l 2 -d TEMPERATURE -f nvidiatemp.log
代碼繼續(xù)跑,等待問題重現(xiàn)后查看溫度日志就可以確定是否是溫度過高導(dǎo)致GPU自動(dòng)掉線了。
果然,當(dāng)GPU掉線后,查看溫度日志:
上圖中CurrentTemp表示當(dāng)前溫度,Shutdown Temp表示超過這個(gè)溫度GPU會(huì)自動(dòng)掉線。Target Temp表示目標(biāo)溫度(GPU比較合適的溫度)。
找到問題了!就是溫度過熱導(dǎo)致GPU掉線!
解決問題
溫度過熱?
多半是散熱不行,果然,發(fā)現(xiàn)一個(gè)風(fēng)扇明顯轉(zhuǎn)的較慢。猜測(cè)可能是那個(gè)風(fēng)扇壞掉了。
于是將顯卡風(fēng)扇拆下來。通過撥動(dòng)發(fā)現(xiàn)其中一個(gè)風(fēng)扇沒另一個(gè)風(fēng)扇靈活。拆開發(fā)現(xiàn)轉(zhuǎn)軸有點(diǎn)雜質(zhì),增大了風(fēng)扇阻力,清理了一下,上了點(diǎn)潤(rùn)滑油。(當(dāng)然直接換風(fēng)扇最為方便!!!免得擔(dān)心風(fēng)扇被拆壞掉)
裝上后發(fā)現(xiàn)能正常工作,溫度再也沒有超負(fù)荷過!問題完美解決!
參考鏈接
gpu-has-fallen-of-the-bus