昨天在运行深度学习训练模型的时候,nvidia-smi
指令发现显卡并没有被占用,CPU全部被跑满
感觉有些不惑,目测前几天显卡还在正常运行,怎么今天就不行了
立马开了一个python交互界面,输入如下指令:
import torch
torch.cuda.is_available()
返回值果然为False
查看nvcc -V
,显示正常,说明我的cuda还在
查看nvidia-smi
,显示正常,说明我的显卡驱动还在
经过一番网上折腾,发现是显卡驱动的版本与cuda版本不匹配
我的显卡驱动版本是384.130,跟目前的cuda 10.0.130不匹配
之前本来是匹配的,前两天显卡驱动突然没了,用了ubuntu的软件中心推荐安装了384.130。当时还沾沾自喜,以为快速解决了问题,没想到给今天留了一个坑。
之前同事帮忙装cuda时的显卡驱动430.14版本安装包被我找到了,接下来就是重装显卡驱动的过程
1. 卸载老的显卡驱动
sudo apt-get remove --purge nvidia-cuda-*
sudo apt-get remove --purge nvidia-*
因为我这里是384.130版本,所以后缀带384的两个包我都卸掉了
2.系统进入命令行模式
这个时候还不能之间运行显卡驱动安装文件,否则会遇到经典的下面这个问题
you appear to be running an x server pleaseexit x before installing
在命令行模式下用root账户关闭x server之后,重新安装驱动
首先注销当前账户,在注销后的登录界面按ctrl+alt+f1进入纯命令行界面
sudo service lightdm stop
sudo service lightdm status
3.安装下载好的显卡驱动
sudo ./NVIDIA-Linux-x86_64-430.14.run
安装过程中有几个选项包,我都选了yes
4.重启机器
reboot
依然是熟悉的分辨率,熟悉的桌面
运行torch.cuda.is_available()
显示为True了
大功告成
参考资料:
ubuntu安装、更新显卡驱动
ubuntu安装nvida驱动时出现:you appear to be running an x server please exit x before installing