从零开始搭建深度学习服务器: 基础环境配置（Ubuntu + GTX 1080 TI + CUDA + cuDNN）

作者52nlp

11 月 3, 2017 1080TI, 1080TI 显卡, CUDA, CUDA8, CUDA8.0, CUDA8.0下载, CUDA8.0安装, CUDA8下载, CUDA8安装, CUDA9, CUDA9.0, CUDA9.0下载, CUDA9.0安装, CUDA9下载, CUDA9安装, CUDA下载, CUDA安装, cuDNN, cuDNN6, cuDNN6.0, cuDNN6.0下载, cuDNN6.0安装, cuDNN6下载, cuDNN6安装, cuDNN7, cuDNN7.0, cuDNN7.0下载, cuDNN7.0安装, cuDNN7安装, cuDNN下载, cuDNN安装, GTX 1080, GTX 1080TI, ubuntu, Ubuntu16.04, Ubuntu17.04, 从零开始搭建深度学习主机, 从零开始搭建深度学习工作站, 从零开始搭建深度学习服务器, 深度学习, 深度学习主机, 深度学习主机DIY, 深度学习显卡, 深度学习服务器, 深度学习服务器搭建, 深度学习服务器组建, 深度学习机器

这个系列写了好几篇文章，这是相关文章的索引，仅供参考：

去年上半年配置了一台GTX1080深度学习主机：深度学习主机攒机小记，然后分别写了两篇深度学习环境配置的文章：深度学习主机环境配置: Ubuntu16.04+Nvidia GTX 1080+CUDA8.0 和深度学习主机环境配置: Ubuntu16.04+GeForce GTX 1080+TensorFlow，得到了很多同学留言，不过这个一年多以前完成的深度学习环境配置方案显得有些落伍了。这一年里，深度学习领域继续高歌猛进，包括 Andrew Ng 也离开百度出来创业了，他的第一个项目是deeplearning.ai，和Coursera合作推出了一个深度学习专项课程系列: Andrew Ng 深度学习课程小记。另外GTX1080的升级版1080TI显卡的发售也刺激了深度学习服务器的配置升级，我也机缘巧合的配置了3台1080TI深度学习服务器：从零开始搭建深度学习服务器：硬件选择。同时深度学习工具的开发迭代速度也惊人，Theano在完成了自己的历史使命后选择了停止更新，以这样的方式了退出了深度学习的舞台，而 TensorFlow，Torch，Pytorch 等工具和周边也发展迅猛。因为一次偶然事件，我又一次为老机器重装了系统环境，并且选则了最新的cuda9, cudnn7.0等基础工具版本: 深度学习服务器环境配置: Ubuntu17.04+Nvidia GTX 1080+CUDA 9.0+cuDNN 7.0+TensorFlow 1.3。不过回过头来，发现这种源代码方式编译 TensorFlow GPU 版本的方式在国内的网络环境下并不方便，而我更喜欢 CUDA8 + cuDNN6 + Tensorflow + Pytorch + Torch 的安装方案，简明扼要并且比较方便，于是在新的深度学习主机里我分别在Ubunu17.04和Ubuntu16.04的系统环境下配置了这样的深度学习服务器环境，下面就是相关的安装记录，希望这能成为一份简单的深度学习服务器环境配置指南。

1. 安装Ubuntu系统: Ubuntu16.04 或者 Ubuntu17.04

从Ubuntu官方直接下载Ubuntu镜像（Ubuntu16.04或者Ubuntu17.04，采用的是desktop amd64版本)，用U盘和Ubuntu镜像制作安装盘。在MAC下制作 Ubuntu USB 安装盘的方法可参考: 在MAC下使用ISO制作Linux的安装USB盘，之后通过Bios引导U盘启动安装Ubuntu系统。如果安装的时候出现类似黑屏或者类似 "nouveau ... fifo ..."之类的报错信息，重启电脑，进入安装界面时候长按e，进入图形界面，按F6，选择 nomodeset 或者手动添加，进行Ubuntu系统的安装。参考《深度学习主机环境配置: Ubuntu16.04+Nvidia GTX 1080+CUDA8.0》。

2. Source源和Pip源设置：

系统安装完毕后建议设置一下source源和pip源，这样可以加速安装相关的工具包。

cd /etc/apt/
sudo cp sources.list sources.list.bak
sudo vi sources.list

对于Ubuntu16.04，我用的是阿里云的源，把下面的这些源添加到source.list文件头部：

deb-src http://archive.ubuntu.com/ubuntu xenial main restricted #Added by software-properties
deb http://mirrors.aliyun.com/ubuntu/ xenial main restricted
deb-src http://mirrors.aliyun.com/ubuntu/ xenial main restricted multiverse universe #Added by software-properties
deb http://mirrors.aliyun.com/ubuntu/ xenial-updates main restricted
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-updates main restricted multiverse universe #Added by software-properties
deb http://mirrors.aliyun.com/ubuntu/ xenial universe
deb http://mirrors.aliyun.com/ubuntu/ xenial-updates universe
deb http://mirrors.aliyun.com/ubuntu/ xenial multiverse
deb http://mirrors.aliyun.com/ubuntu/ xenial-updates multiverse
deb http://mirrors.aliyun.com/ubuntu/ xenial-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-backports main restricted universe multiverse #Added by software-properties
deb http://archive.canonical.com/ubuntu xenial partner
deb-src http://archive.canonical.com/ubuntu xenial partner
deb http://mirrors.aliyun.com/ubuntu/ xenial-security main restricted
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-security main restricted multiverse universe #Added by software-properties
deb http://mirrors.aliyun.com/ubuntu/ xenial-security universe
deb http://mirrors.aliyun.com/ubuntu/ xenial-security multiverse

对于Ubuntu17.04，我使用的是网易的源：

deb http://mirrors.163.com/ubuntu/ zesty main restricted universe multiverse
deb http://mirrors.163.com/ubuntu/ zesty-security main restricted universe multiverse
deb http://mirrors.163.com/ubuntu/ zesty-updates main restricted universe multiverse
deb http://mirrors.163.com/ubuntu/ zesty-proposed main restricted universe multiverse
deb http://mirrors.163.com/ubuntu/ zesty-backports main restricted universe multiverse
deb-src http://mirrors.163.com/ubuntu/ zesty main restricted universe multiverse
deb-src http://mirrors.163.com/ubuntu/ zesty-security main restricted universe multiverse
deb-src http://mirrors.163.com/ubuntu/ zesty-updates main restricted universe multiverse
deb-src http://mirrors.163.com/ubuntu/ zesty-proposed main restricted universe multiverse
deb-src http://mirrors.163.com/ubuntu/ zesty-backports main restricted universe multiverse

最后更新一下：

sudo apt-get update
sudo apt-get upgrade

另外一个事情是将pip源指向阿里云的源镜像：http://mirrors.aliyun.com/help/pypi，具体添加一个 ~/.config/pip/pip.conf 文件，设置为：

[global]
trusted-host =  mirrors.aliyun.com
index-url = http://mirrors.aliyun.com/pypi/simple

或者清华的pip源，刚好安装的那两天清华的pip源抽风，所以就换阿里云的了。

3. 安装1080TI显卡驱动:

sudo apt-get purge nvidia*
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update && sudo apt-get install nvidia-384 nvidia-settings

安装完毕后重启机器，运行 nvidia-smi，看看生效的显卡驱动：

4. 安装CUDA:

因为Tensorflow和Pytorch目前官方提供的PIP版本只支持CUDA8, 所以我选择了安装CUDA8.0。不过目前英文达官方网站的 CUDA-TOOLKIT页面默认提供的是CUDA9.0的下载，所以需要在英文达官方提供的另一个 CUDA Toolkit Archive 页面选择CUDA8，这个页面包含了CUDA所有的历史版本和当前的CUDA9.0版本。点击 CUDA Toolkit 8.0 GA2 (Feb 2017) 这个页面，选择"cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb" 和 "cuBLAS Patch Update to CUDA 8":

sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda

如果之前没有安装上述"cuBLAS Patch Update to CUDA 8"，可以用如下方式安装更新：

sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-cublas-performance-update_8.0.61-1_amd64.deb
sudo apt-get update  
sudo apt-get upgrade cuda

在 ~/.bashrc 中设置环境变量：

export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export CUDA_HOME=/usr/local/cuda

运行 source ~/.bashrc 使其生效

4. 安装cuDNN:

cuDNN7.0 虽然出来了，但是 CUDA8 的最佳拍档依然是cuDNN6.0，在NIVIDA开发者官网上，找到cudnn的下载页面: https://developer.nvidia.com/rdp/cudnn-download ，选择"Download cuDNN v6.0 (April 27, 2017), for CUDA 8.0" 中的 "cuDNN v6.0 Library for Linux":

下载后安装非常简单，就是解压然后拷贝到相应的系统CUDA路径下，注意最后一行拷贝时 "-d"不能少，否则会提示.so不是symbol link:

tar -zxvf cudnn-8.0-linux-x64-v6.0.tgz 
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ -d

以上是安装均在Ubunt16.04和Ubuntu17.04环境下测试通过，最后鉴于最近一些相关文章评论有同学留言无法从官方下载CUDA和cuDNN，亲测可能与国内环境有关，我将cuda8.0, cuda9.0, cudnn6.0, cudnn7.0的相关工具包上传到了百度网盘，提供两个下载地址:

CUDA8.0 & CUDA9.0下载地址：链接: https://pan.baidu.com/s/1gfaS4lt 密码 ddji ，包括：

1) CUDA8.0 for Ubuntu16.04: cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
2) CUDA8.0 for Ubuntu16.04 更新: cuda-repo-ubuntu1604-8-0-local-cublas-performance-update_8.0.61-1_amd64
3) CUDA9.0 for Ubuntu16.04: cuda-repo-ubuntu1604-9-0-local_9.0.176-1_amd64.deb
4) CUDA9.0 for Ubuntu17.04: cuda-repo-ubuntu1704-9-0-local_9.0.176-1_amd64

cuDNN6.0 & cuDNN7.0下载地址：链接: https://pan.baidu.com/s/1dIwHgOHah3LAbhoebfBSRw 提取码: yfy9

1) cudnn6.0 for CUDA8: cudnn-8.0-linux-x64-v6.0.tgz
2) cudnn7.0 for CUDA8: cudnn-8.0-linux-x64-v7.tgz
3) cudnn7.0 for CUDA9: cudnn-9.0-linux-x64-v7.tgz

注：原创文章，转载请注明出处及保留链接“我爱自然语言处理”：https://www.52nlp.cn

本文链接地址：从零开始搭建深度学习服务器: 基础环境配置（Ubuntu + GTX 1080 TI + CUDA + cuDNN） https://www.52nlp.cn/?p=9823

作者 52nlp

MIT自然语言处理人工智能深度学习聊天机器人自然语言处理自然语言生成

《从零开始搭建深度学习服务器: 基础环境配置（Ubuntu + GTX 1080 TI + CUDA + cuDNN）》有17条评论

pensz说道：

2017年11月7号 19:16

楼主，问下 ppa:graphics-drivers/ppa 这个仓库的驱动，和 ubuntu 默认库里面的驱动有什么区别呢？

另外，需要禁用 security boot 吗？

[回复]
52nlp 回复:
7 11 月, 2017 at 20:48
关于1我不太确定，最早follow一个国外的文章安装驱动的；关于2，貌似不需要。

[回复]
pensz 回复:
8 11 月, 2017 at 14:56
好的，谢谢！

装了 ubuntu 默认库里面的 nvidia-384 ，就无法进入x界面了，登录界面输入密码后，闪了一下，还是回到登录的界面。不知道楼主遇到没有？

[回复]
52nlp 回复:
8 11 月, 2017 at 16:15
没有遇到这种情况
Michaele Chong说道：

2017年11月9号 21:41

感谢，简直是看着 52nlp 的教程长大的，年初的时候 1080 的机器，现在马上也要换 2x 1080 Ti 啦

[回复]
52nlp 回复:
10 11 月, 2017 at 10:20
哈哈，握手

[回复]
pensz说道：

2017年11月12号 22:28

cuBLAS Patch Update to CUDA 8

这一步不需要做了吧，这样做还会导致系统所有的软件都会被更新。

[回复]
52nlp 回复:
13 11 月, 2017 at 10:57
自己决定，不做影响不大

[回复]
Ants说道：

2017年11月13号 15:40

向大神学习~非常不错

[回复]
allen zhang说道：

2018年01月12号 15:34

你好，我根据你的教程给三台机器都配置好了环境。每台机器都是4张GTX1080ti，
但是现在的需求是将三台环境组成一个类似"私有云"，可以用到每台机器上的GPU，请问应该怎么实现

[回复]
52nlp 回复:
12 1 月, 2018 at 16:46
抱歉，这个我不太清楚

[回复]
HT说道：

2018年03月6号 17:34

额。。百度云链接失效

[回复]
52nlp 回复:
9 3 月, 2018 at 08:27
cuda链接: https://pan.baidu.com/s/1IoSh6dLuJHRgq6Dn0_LW3w 密码: tvqy

cudnn链接: https://pan.baidu.com/s/1nrbcpseBfonRuOQQFkE5aw 密码: taxt

[回复]
李皓说道：

2018年10月8号 15:45

请问我在安装titan X的显卡驱动时出现这个错误（驱动版本是384.130），ERROR: an error occurred while performing the step: building kernel modules，这位是为什么？？？

[回复]
52nlp 回复:
8 10 月, 2018 at 17:10
抱歉，这个我没遇到过，不太清楚，不过google了一下，你参考这篇文章试试：https://blog.csdn.net/jiuliang1916/article/details/79133072

[回复]
王超说道：

2018年11月27号 21:58

你好，请问ubuntu内核的版本影响nvidia的驱动吗

[回复]
52nlp 回复:
27 11 月, 2018 at 22:11
可能有些影响，但是应该不大

[回复]

从零开始搭建深度学习服务器: 基础环境配置（Ubuntu + GTX 1080 TI + CUDA + cuDNN）

作者52nlp

作者 52nlp

相关文章

复旦邱锡鹏：深度剖析 ChatGPT 类大语言模型的关键技术

知识图谱增强下的智能推荐系统与应用-于敬

Transformer中的缓存机制

《从零开始搭建深度学习服务器: 基础环境配置（Ubuntu + GTX 1080 TI + CUDA + cuDNN）》有17条评论

发表回复

You missed

新浪张俊林：大语言模型的涌现能力——现象与解释

中科院张家俊：ChatGPT中的提示与指令学习

“国产类 ChatGPT ”所存在的差距与挑战-专家圆桌

探索大语言模型垂直化训练技术和应用-陈运文

作者52nlp

相关文章：

作者 52nlp

相关文章

《从零开始搭建深度学习服务器: 基础环境配置（Ubuntu + GTX 1080 TI + CUDA + cuDNN）》有17条评论

发表回复

You missed