在阿里云服务器上安装 CUDA,主要适用于配备了 NVIDIA GPU 的实例(如 vgn 系列、gn 系列等)。以下是详细的安装步骤:
✅ 一、前提条件
-
选择支持 GPU 的实例类型
如:gn6i,gn6v,gn7,vgn7i等,这些实例搭载了 NVIDIA Tesla T4、V100、A10 等 GPU。 -
操作系统支持
推荐使用官方支持的 Linux 发行版,如:- Ubuntu 18.04 / 20.04 / 22.04
- CentOS 7 / 8
- Alibaba Cloud Linux 3
-
确保实例已绑定公网 IP 或配置了 VPC 内网源
✅ 二、安装步骤(以 Ubuntu 20.04 为例)
1. 更新系统
sudo apt update && sudo apt upgrade -y
2. 安装必要的工具
sudo apt install -y build-essential gcc make
3. 安装 NVIDIA 驱动(可选:推荐使用阿里云提供的自动安装脚本)
阿里云提供了 GPU 驱动自动化安装脚本,简化流程。
# 下载并运行阿里云 GPU 驱动安装脚本
wget https://ecs-image-utils.oss-cn-hangzhou.aliyuncs.com/NVIDIA/install_gpu_driver.sh --no-check-certificate
chmod +x install_gpu_driver.sh
sudo bash install_gpu_driver.sh
✅ 该脚本会自动检测 GPU 型号并安装合适的驱动。
4. 验证驱动是否安装成功
nvidia-smi
如果看到 GPU 信息和驱动版本,说明驱动安装成功。
5. 安装 CUDA Toolkit
你可以选择两种方式:NVIDIA 官方方式 或 阿里云镜像X_X方式
方法一:使用 NVIDIA 官方仓库(推荐)
# 下载 CUDA 官方仓库密钥和包
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
# 安装 CUDA
sudo apt update
sudo apt install -y cuda
方法二:使用阿里云镜像X_X(更快)
# 备份原 sources.list
sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak
# 添加阿里云 CUDA 镜像(以 Ubuntu 20.04 为例)
cat << EOF | sudo tee /etc/apt/sources.list.d/cuda.list
deb https://mirrors.aliyun.com/nvidia-cuda/ubuntu2004/x86_64/ ./
EOF
# 添加密钥
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
# 安装 CUDA
sudo apt update
sudo apt install -y cuda
6. 配置环境变量
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
7. 验证 CUDA 是否安装成功
nvcc --version
输出类似:
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Mon_Apr__3_12:16:04_PDT_2023
Cuda compilation tools, release 12.1, V12.1.105
8. (可选)运行 CUDA 示例程序
# 复制示例到家目录
cp -r /usr/local/cuda/samples ~/cuda-samples
cd ~/cuda-samples
# 编译设备查询示例
make -C 1_Utilities/deviceQuery
# 运行
./1_Utilities/deviceQuery/deviceQuery
如果输出中显示 Result = PASS,说明 CUDA 正常工作。
✅ 三、常见问题
| 问题 | 解决方法 |
|---|---|
nvidia-smi 找不到命令 |
驱动未安装,运行阿里云安装脚本 |
nvcc not found |
检查 CUDA 是否安装,以及 PATH 是否配置 |
| 驱动与 CUDA 版本不兼容 | 使用 nvidia-smi 查看支持的最高 CUDA 版本 |
| 安装慢 | 使用阿里云镜像源替代官方源 |
✅ 四、推荐配置组合(2024年)
| 组件 | 推荐版本 |
|---|---|
| OS | Ubuntu 20.04 LTS / Alibaba Cloud Linux 3 |
| NVIDIA Driver | 535 或以上 |
| CUDA | 12.1 / 12.4 |
| cuDNN | 8.9+(用于深度学习) |
✅ 五、后续(深度学习框架)
安装完 CUDA 后,可以继续安装:
- cuDNN(需注册 NVIDIA 开发者)
- PyTorch:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 - TensorFlow:
pip install tensorflow[and-cuda]
如有具体实例型号或用途(如 PyTorch、Stable Diffusion 等),可提供更定制化建议。欢迎继续提问!
秒懂云