实验室需要搭建多人共用的GPU服务器, 参考
基于LXD搭建多人共用GPU服务器,简单易用,全网最详细!比特桃的博客-CSDN博客带gpu的服务器
最终选择DELL T640塔式服务器,过程中遇到很多问题,记录下来,避免重复踩坑
同时附上配置中看到的一些好的解决方案方便查找
1.机器到货配置情况
戴尔T640塔式服务器
2个 英特尔至强 金牌 6226R
4个 内存:64GB
3个 硬盘:2TB
1个 固态:960G
1个 阵列卡:H750
2个 显卡:RTX3090
1个 套件:GPU套件
2个 电源:1100W
未安装操作系统
2.噪音问题解决方法
T640到货后,发现机器噪音很大,达到90分贝,无法忍受
参考程灵狐Dell PowerEdge T640 风扇噪音问题的解决 - 知乎 (zhihu.com)
3090不是官方认证显卡型号,服务器识别错误导致无法根据GPU温度自动调节风扇转速
尝试后可行的解决方案
- 更新idrac到4.40以及以下的版本
IDRAC简介:iDRAC卡相当于是附加在服务器上的一台小电脑,通过与服务器主板上的管理芯片BMC进行通信,监控与管理服务器的硬件状态信息。它拥有自己的系统和IP地址,与服务器上的OS无关。
a.IDRAC远程控制卡的配置与连接:参考戴尔中国服务公众号 玩转服务器(二)| Polaris(14G) 服务器IDRAC 9的IP配制方法 (qq.com)
b.配置IDRAC的IP地址相关信息后需要将笔记本与服务器用网线连接并配置笔记本IP
IP地址修改方法参考win10电脑怎么修改ip地址? - 系统之家 (xitongzhijia.net)
c.登录IDRAC管理界面更新IDRAC
更新方法参考戴尔中国服务公众号 14G服务器如何在IDRAC下更新BIOS (qq.com)
iDRAC驱动下载地址iDRAC 4.40.00.00 | 驱动程序详情 | Dell 中国
注:原始用户名为root原始,密码为calvin - 调节散热配置
只进行IDRAC更新还不够,还需要对散热配置进行修改
搜索散热配置->将自动风扇转速改为最小功率(每瓦性能已优化)->阈值:PWM形式最小风扇转速自定义为较小数值 - 该方法缺陷
机器重启后会重新回到高噪音状态,需要重新更新一边IDRAC版本,目前未成功尝试其他方法
3.Ubuntu系统安装
供货商已经对RAID进行了配置,直接进行系统安装
- Ubuntu20.04启动盘制作
参考(30条消息) 我奶奶不戴眼镜都能学会的服务器配置教程-----基于DELL T640(一)Ubuntu系统安装_Lees_HN的博客-CSDN博客
阿里云开源镜像 阿里云开源镜像站资源目录 (aliyun.com) -
系统安装
注:键盘布局已经自动选择无须更改
装系统过程中犯了一个很愚蠢的错误,在BIOS中将USB禁掉导致键鼠无法控制
解决方案是打开侧面的机箱盖,拿出显卡后抠掉主板的纽扣电池
4.尝试连接服务器
- Xshell连接
通过Xshell使用账号密码登录 参考 xshell远程连接服务器 - 知乎 (zhihu.com)
Xshell下载地址家庭/学校免费 - NetSarang Website (xshell.com) - 通过 pub key免密码登录
参考 ssh之pub-key登陆服务器_后端大佬-明哥哥的博客-CSDN博客_pubkey
5.英伟达驱动安装
参考Ubuntu20.04安装NVIDIA显卡驱动+cuda+cudnn配置深度学习环境 | 机器学习之路 (mlzhilu.com)
Nouveau为ubuntu原装开源驱动需要禁用
安装之前需要进入英伟达官网下载相应驱动
非常奇怪的是装好驱动以后ubuntu的图形界面打不来了
重装lightdm和ubuntu-desktop后解决问题
6.后续
基本参考
基于LXD搭建多人共用GPU服务器,简单易用,全网最详细!比特桃的博客-CSDN博客带gpu的服务器
使用 LXD 搭建多人使用的 GPU 服务器 | XUNGE's Blog (xungejiang.com)
最终成功实现