私人服务器配置

前一阵子苦于没有GPU服务器用,再加上博客的腾讯云服务器过期了,续费价格非常贵,想了想决定自己在家组一台私有GPU服务器

多图警告

整个过程踩了不少坑,也了解收获到不少东西

首先是准系统平台,一般GPU服务器有Pcie的和SXM平台的,PCIe平台可选择产品非常多,但考虑到我主要是V100计算卡,V100 SXM版本比Pcie版本便宜不少,就直接选了SXM平台。

这一块其实踩坑了,Titan V跟V100是一个核心,现价2800,显存12G,Pcie准系统平台还便宜。

但SXM平台支持NVLINK,后续四卡V100 32有一定性能优势,这块一言难尽,反正在SXM范围内选择

显卡SXM接口有两种选择,一般主板加NVLINK扩展版,或者直接买SXM准系统,最后考虑到NVLINK扩展版不好买,买了也不一定兼容,就直接买了SXM的准系统,最后敲定买回来一台戴尔C4140

卖家说全新,其实工业产品也不在乎是不是全新,能用就行。

可扩展性这块还是比较满意,支持二代至强可扩展。SXM2接口最后也能上四块V100 32G。

对于自己平时做推理,部署些小玩意是完全够了,甚至可以支持一些任务的训练。

处理器受制于预算,没有选择二代志强,也没有选常用的6148,选了两块6138.

这个U主频2Ghz 20核心 40线程,够用,毕竟一颗只要600块钱。

6148一颗就1200了,二代至强几千了,等后续企业换代降价再换也不迟。

按道理也可以选一些二代U的测试版,但是因为刚装机,不想因为兼容性或者别的原因来回折腾,排查,就直接上了正式版,后续也有提升空间

内存上了三星 2666 32G 4条,每个U分配两条。总内存到了128G,暂时够用。

存储这块也踩了坑。手上有一块2T 的SATA 机械硬盘。装了Ubuntu觉得比较慢。后面就买了M2 Nvme固态,但买了固态也不能用,需要转接卡。

当时买固态时候顺手淘宝买了一般转接卡,结果发现不光识别不了硬盘,还把BIOS卡死了

后面研究发现,这块服务器的Riser1的2号槽是专门给Boss卡准备的,于是买了一个Nvme的Pcie转接Boss卡

结果上了这个boss卡,明明两个槽上都有固态,只能读出一块我也是服了,pcie拆分也打开了,还是发现只能识别一块

这bug至今没解决,装了硬盘得装系统吧

装系统过程挺顺利,就是装好的系统怎么都进不去

尝试了很多方法,好比如/boot /EFI分区放到机械,各种手段都进不去

后续查戴尔社区,发现这款设备不支持PCIE 转接M2的系统引导

然后我觉得奇怪,BIOS里明明不是有NVME设备设置吗?

后来多查资料才知道,服务器不是不能用NVME,是不能用M2接口的NVME

M2是消费级的,U2才是企业级的

服务器应该用的是U2口的Nvme硬盘,企业级U2硬盘容量更大,寿命更长,拆机件更便宜。

然后就是显卡选择环节,SXM2接口下可以用P100,上可以用A100核心的某些特殊SXM2版。SXM2版P100 ebay600块,国内闲鱼卖1800,找一个卖家谈到了1200一块,买了一块。

后续上A100可能性太小(太贵),等后面V100 32G降价之后搞V100才比较现实,现在暂时P100凑活着用

这卡的双精度算力还可以。

最后就是亮机调试环节,一次亮机没成功,各种内存处理下了又上,发现第一次买的2块U有一块好像不兼容,退回去让卖家重发了一块。

一开始没法进去BIOS,怎么办呢,好在戴尔机器有个iDRAC,连接iDRAC,通过Web直接管理服务器各项设置。还能看到硬件状态,这个确实点个赞,比较好用。

先后排查了处理器问题,内存插槽问题, 固态不能装系统问题后,终于装好系统可以开机了。

开机后就是些常见配置。先配置SSH,再配置VNC

服务器先通过华为路由器,再通过电信网关,再才到公网。

因为不是专线,电信说只能提供动态公网IP,动态公网IP每次重启路由器就变了

为了解决这个问题,我把腾讯云的二级域名解析到了服务器,同时设置ddns脚本,间隔一段时间自动检测公网Ip, ip发生变化自动使用Token修改腾讯云的域名解析,最后也解决了这问题。

为了使用SSH,分别在路由器和网关设置端口映射,映射22端口

为了使用VNC,映射5900端口,没什么效果,怀疑5900端口被电信封了,那不能使用VNC怎么办

当然是SSH,直接用SSH 隧道转发5900端口,也解决了VNC问题。

后续装好显卡驱动,做好设置,配好开发环境,服务器就完工了。

这几天装服务器,也是苦了我的表弟,天天使唤来给我干活,服务器装好了先跑个stable-diffusion

这是服务器做简单图像处理时候的htop,80个线程全部都用到了

又开了新坑,GPU服务器配完想配存储服务器了,服务器配完想买交换机了,烧不起

后续想买个光口交换机回来,在家里做一个40G带宽的超级光内网,想想就无敌

什么,你问我这个大内网有什么实际用处?不许问!