CentOS GPU ERR! 解决方案

CentOS GPU ERR! 解决方案

DFEEDC950A082318BF3A510A62905641

根据英伟达的说明,出现这种状况的原因是过热或电源设置不当

0CFA182E86AEF87283D75438049F8055

通常是因为过热,所以解决方法是限制GPU功率和加大风扇转速

首先限制GPU功率

sudo nvidia-smi -pm 1 #开启常驻模式,否则无法修改功率
sudo nvidia-smi -pl 150 #功率限制到150w,自己调整这个值

然后通过一个脚本设置风扇恒定转速

X :2 & #以后台方式启动一个X图形进程
export DISPLAY=:2 #临时设置显示进程号
for((i=0;i<=2;i++))
do
    for((j=0;j<=4;j++))
    do
        nvidia-settings -a "[gpu:$i]/GPUFanControlState=1" -a "[fan:$j]/GPUTargetFanSpeed=90" # 设置风扇转速
    done
done
killall X #关闭X进程

参考资料:

https://www.jianshu.com/p/182d0c8abae4

也感谢我未曾谋面的师姐留下的代码

补充:最后这块卡还是gg了,换了块新的


文章作者: keevinzha
版权声明: 咳咳想白嫖文章?本文章著作权归作者所有,任何形式的转载都请注明出处。 https://www.keevinzha.com !
  目录