CentOS GPU ERR! 解决方案
根据英伟达的说明,出现这种状况的原因是过热或电源设置不当
通常是因为过热,所以解决方法是限制GPU功率和加大风扇转速
首先限制GPU功率
sudo nvidia-smi -pm 1 #开启常驻模式,否则无法修改功率
sudo nvidia-smi -pl 150 #功率限制到150w,自己调整这个值
然后通过一个脚本设置风扇恒定转速
X :2 & #以后台方式启动一个X图形进程
export DISPLAY=:2 #临时设置显示进程号
for((i=0;i<=2;i++))
do
for((j=0;j<=4;j++))
do
nvidia-settings -a "[gpu:$i]/GPUFanControlState=1" -a "[fan:$j]/GPUTargetFanSpeed=90" # 设置风扇转速
done
done
killall X #关闭X进程
参考资料:
https://www.jianshu.com/p/182d0c8abae4
也感谢我未曾谋面的师姐留下的代码
补充:最后这块卡还是gg了,换了块新的