GPU训练环境的安装主要涉及三个方面,1. 英伟达显卡的驱动的安装;2. CUDA Toolkit的安装;3. CUdnn的配置
1.驱动指NVIDIA Driver,它就是一个驱动软件和其他的驱动软件一样是一种计算机系统与硬件设备之间交互的软件程序
2.CUDA是NVIDIA推出的用于自家GPU的并行计算框架,也就是说CUDA只能在NVIDIA的GPU上运行,而且只有当要解决的计算问题是可以大量并行计算的时候才能发挥CUDA的作用。CUDA的本质是一个工具包(ToolKit)官方说法CUDA是一个并行计算平台和编程模型,能够使得使用GPU进行通用计算变得简单优雅
3.CUdnn是一个专门为深度学习计算设计的软件库,里面提供了很多专门的计算函数
一:Nvidia Drive安装:
1.1查看显卡的版本号
lspci | grep NVIDIA
查询到的是十六进制数字代码,无法直接的区官网下载驱动,需要借助工具找到具体的显卡型号,使用下面的网址将查询到的十六进制的数字输入
http://pci-ids.ucw.cz/mods/PC/10de?action=help?help=pci
可以看出我这边的是四张T4的卡
也可以使用nvidia-smi
查看显卡的型号
1.2 根据对应的显卡下载显卡的驱动
找到自己的显卡,选择Linux版本进行下载,下载的是.run文件
显卡驱动下载地址
二:安装cuda
2.1下载对应版本的CUDA Toolkit
安装前需先确定显卡驱动、CUDA、cuDNN等之间的对应关系,cat /proc/driver/nvidia/version
命令可以查看当前服务器版本号
可以看出驱动的版本号是435.21
查询对应关系
根据对应关系下载对应的toolkit版本号
cuda toolkit下载地址
可以从图片中看出下载和安装的命令
2.2 安装CUDA Toolkit
根据图片给出的安装命令执行安装操作
首先必须要先accept一堆没空看的协议,
按空格根据需要选择要安装的模块,有“X”的表示安装,没有的表示不安装,按A键可以选择进入,注意驱动已经安装过了我们可以选择不安装
其他的要是不想配的话可以直接不管了,直接进入选择install选项
默认会安装到/usr/local/cuda目录下
三:配置cuDNN
cuDNN是用于深度神经网络的训练的加速库。从官网上下载的cuDNN是一个压缩包,解压缩以后对应三个文件夹。我们的目的是将这三个文件夹中的文件对应的放到CUDA的文件目录下。主要是一些头文件和库文件啥的,所以也称不上为安装
3.1 下载cuDNN
选择一个与cuda对应的包下载下来
tar -xzvf +下载的cudnn包.tar
3.2 配置cuDNN
将头文件和动态链接库放到之前安装的cuda时候的文件夹/usr/local/cuda下对应的目录里
sudo cp ./cuda//include/cudnn.h /usr/local/cuda/include/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo cp ./cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
修改个人用户目录下的.bashrc文件(用vi ~/.bashrc编辑)
export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
执行指令指令source .bashrc
使配置生效
四:查看是否安装成功
执行nvcc -V
执行
nvidia-smi
参考:
https://blog.csdn.net/hizengbiao/article/details/88625044
https://www.cnblogs.com/marsggbo/p/11838823.html
https://www.cnblogs.com/marsggbo/p/11838823.html