跳到主要内容

算盘GPU主机安装(CentOS7)

准备工作

  • 从国内镜像下载CentOS-7-x86_64-DVD-1810.iso,约4.27GB。
  • 下载Universal USB Installer,用于制作USB安装盘,约1.7MB。打开连接单击如下按键下载。

  • 准备一个至少8GB空间的U盘。建议使用USB3.0接口的U盘,读写速度更快。
  • GPU主机、显示器和硬盘,主机硬盘建议配置256GB以上空间的SSD固态硬盘。GPU指的是英伟达公司出品的支持CUDA加速的显卡,比如GTX,RTX,Tesla等系列的显卡。

制作启动U盘

启动下载的Universal-USB-Installer可执行文件,
选择CentOS Installer,单击Browse,选择您下载的iso文件,然后选择您的U盘,勾选Fat32 Format,单击Create。
下个界面单击 “是”。
等待完成,大约10分钟左右,然后弹出U盘。

安装CentOS

将制作的启动U盘插入GPU主机一个USB接口,如果是USB3.0的U盘,建议插入USB3.0的接口,读写速度更快。
启动键启动主机,根据启动界面或主板说明书中说明的按键进入BIOS界面,比如F2按键。
进入后选择U盘启动,然后保存退出BIOS界面继续使用U盘启动。
选择GNOME Desktop,
设置时区
键盘Layout增加中文。
设置Host name
设置用户名和密码

语音增加中文支持。

安装Docker

要求安装docker版本>= 1.12
官方文档 建议通过SSH方式连接到GPU机器,方便指令的复制粘贴。如果你的机器上还没有安装SSH客户端,可以考虑下载Termius,用来组织、访问和连接到你的Linux机器。
运行如下几条指令安装docker,注意如果您的用户名不是“sz”,请对应的修改下面最后一条指令。

sudo yum install -y yum-utils \
device-mapper-persistent-data \
lvm2
sudo yum-config-manager \
--add-repo \
https://download.docker.com/linux/centos/docker-ce.repo
sudo yum install -y docker-ce docker-ce-cli containerd.io
sudo systemctl start docker
sudo usermod -aG docker sz

安装NVIDIA 驱动

驱动版本>=361.93,参考链接
此链接下载驱动安装包,比如:NVIDIA-Linux-x86_64-430.34.run
启动一个命令行,输入如下指令停止GUI界面,

service gdm stop

安装gcc 以及 对应内核版本的kernel-devel, dkms

yum -y install gcc kernel-devel "kernel-devel-uname-r == $(uname -r)" dkms

安装驱动
参考:https://linuxconfig.org/how-to-install-the-nvidia-drivers-on-centos-7-linux nvidia_driver.png

sudo bash ./NVIDIA-Linux-x86_64-430.34.run

此次建议选择 No , 则不使用GPU来调用X

安装安装Nvidia-docker 2.0

注意:如果安装的docker版本是19.03之前的版本,则按照此步骤来执行。
如果是19.03之后的版本,docker原生支持nvidia-docker,参考下面安装nvidia-container-runtime
参考链接 配置库

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | \
sudo tee /etc/yum.repos.d/nvidia-docker.repo

更新存库密钥

DIST=$(sed -n 's/releasever=//p' /etc/yum.conf)
DIST=${DIST:-$(. /etc/os-release; echo $VERSION_ID)}
sudo rpm -e gpg-pubkey-f796ecb0
sudo gpg --homedir /var/lib/yum/repos/$(uname -m)/$DIST/nvidia-docker/gpgdir --delete-key f796ecb0
sudo yum makecache -y
sudo yum install -y nvidia-docker2
sudo pkill -SIGHUP dockerd

安装nvidia-container-runtime

参考: https://github.com/NVIDIA/nvidia-container-runtime CentOS7安装完成docker 19.03 版本之后,默认不会安装nvidia-container-runtime,需要执行下面命令安装

sudo yum install nvidia-container-runtime

在安装的过程中可能会有一些yum源的问题导致install不了: image.png 可以在install之前先操作如下命令:

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-runtime.repo

安装完成之后会在/usr/bin/目录下面安装好nvidia-container-runtime image.png

配置Docker默认Runtime为nvidia

sudo vim /etc/docker/daemon.json

修改/etc/docker/daemon.json文件,输入下面内容

{
"default-runtime": "nvidia",
"runtimes": {
"nvidia": {
"path": "/usr/bin/nvidia-container-runtime",
"runtimeArgs": []
}
}
}

执行下面命令使之生效:

sudo systemctl daemon-reload
sudo systemctl restart docker

测试运行一个GPU docker container。

docker run -it --rm -v /dev:/dev registry.cn-shanghai.aliyuncs.com/shuzhi/horovod_docker_base:3.6 bash

在其中输入

nvcc --version

显示如下内容则代表安装配置成功。

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130

安装算盘个人版

将下载下来的算盘安装文件(spctl_v1.1.sh)放在一个指定的目录下,比如/root/suanpan。 请保证磁盘至少有超过20g的剩余空间。
进入到算盘安装文件所在的目录。如:
cd /root/suanpan/
执行下面命令启动算盘:

sudo su -
cd /root/suanpan
chmod a+x spctl_v1.1.sh
./spctl_v1.1.sh start

等待安装启动完成,会看到最后输出

...
2019-07-16 15:16:00: initializing suanpan...63%
2019-07-16 15:16:00: initializing suanpan...100%
Suanpan IP is: 10.88.34.145
updating local suanpan FQDN splocal.xuelangyun.com in /etc/hosts file...
Now you can access suanpan from http://splocal.xuelangyun.com:30000
Deploying suanpan finished at: 2019-07-16 15:16:00

浏览器自动打开地址 http://splocal.xuelangyun.com:30000 访问算盘,您也可以通过ip地址方式在其他机器访问算盘,比如上列中打印出来的IP地址,http://10.88.34.145:30000。 如果使用完毕,需要停止算盘,执行下面命令停止算盘:

sudo su -./spctl_v1.1.sh stop

如果使用完毕,需要删除算盘,执行下面命令删除算盘关联的文件:

./spctl_v1.1.sh delete

在停止以后,删除整个安装目录即可。

下一步

运行算盘个人版深度学习模板