阿里云服务器怎么装cuda?

在阿里云服务器上安装 CUDA,主要适用于配备了 NVIDIA GPU 的实例(如 vgn 系列、gn 系列等)。以下是详细的安装步骤:


✅ 一、前提条件

  1. 选择支持 GPU 的实例类型
    如:gn6i, gn6v, gn7, vgn7i 等,这些实例搭载了 NVIDIA Tesla T4、V100、A10 等 GPU。

  2. 操作系统支持
    推荐使用官方支持的 Linux 发行版,如:

    • Ubuntu 18.04 / 20.04 / 22.04
    • CentOS 7 / 8
    • Alibaba Cloud Linux 3
  3. 确保实例已绑定公网 IP 或配置了 VPC 内网源


✅ 二、安装步骤(以 Ubuntu 20.04 为例)

1. 更新系统

sudo apt update && sudo apt upgrade -y

2. 安装必要的工具

sudo apt install -y build-essential gcc make

3. 安装 NVIDIA 驱动(可选:推荐使用阿里云提供的自动安装脚本)

阿里云提供了 GPU 驱动自动化安装脚本,简化流程。

# 下载并运行阿里云 GPU 驱动安装脚本
wget https://ecs-image-utils.oss-cn-hangzhou.aliyuncs.com/NVIDIA/install_gpu_driver.sh --no-check-certificate
chmod +x install_gpu_driver.sh
sudo bash install_gpu_driver.sh

✅ 该脚本会自动检测 GPU 型号并安装合适的驱动。

4. 验证驱动是否安装成功

nvidia-smi

如果看到 GPU 信息和驱动版本,说明驱动安装成功。


5. 安装 CUDA Toolkit

你可以选择两种方式:NVIDIA 官方方式阿里云镜像X_X方式

方法一:使用 NVIDIA 官方仓库(推荐)
# 下载 CUDA 官方仓库密钥和包
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb

# 安装 CUDA
sudo apt update
sudo apt install -y cuda
方法二:使用阿里云镜像X_X(更快)
# 备份原 sources.list
sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak

# 添加阿里云 CUDA 镜像(以 Ubuntu 20.04 为例)
cat << EOF | sudo tee /etc/apt/sources.list.d/cuda.list
deb https://mirrors.aliyun.com/nvidia-cuda/ubuntu2004/x86_64/ ./
EOF

# 添加密钥
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub

# 安装 CUDA
sudo apt update
sudo apt install -y cuda

6. 配置环境变量

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

7. 验证 CUDA 是否安装成功

nvcc --version

输出类似:

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Mon_Apr__3_12:16:04_PDT_2023
Cuda compilation tools, release 12.1, V12.1.105

8. (可选)运行 CUDA 示例程序

# 复制示例到家目录
cp -r /usr/local/cuda/samples ~/cuda-samples
cd ~/cuda-samples

# 编译设备查询示例
make -C 1_Utilities/deviceQuery

# 运行
./1_Utilities/deviceQuery/deviceQuery

如果输出中显示 Result = PASS,说明 CUDA 正常工作。


✅ 三、常见问题

问题 解决方法
nvidia-smi 找不到命令 驱动未安装,运行阿里云安装脚本
nvcc not found 检查 CUDA 是否安装,以及 PATH 是否配置
驱动与 CUDA 版本不兼容 使用 nvidia-smi 查看支持的最高 CUDA 版本
安装慢 使用阿里云镜像源替代官方源

✅ 四、推荐配置组合(2024年)

组件 推荐版本
OS Ubuntu 20.04 LTS / Alibaba Cloud Linux 3
NVIDIA Driver 535 或以上
CUDA 12.1 / 12.4
cuDNN 8.9+(用于深度学习)

✅ 五、后续(深度学习框架)

安装完 CUDA 后,可以继续安装:

  • cuDNN(需注册 NVIDIA 开发者)
  • PyTorch: pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
  • TensorFlow: pip install tensorflow[and-cuda]

如有具体实例型号或用途(如 PyTorch、Stable Diffusion 等),可提供更定制化建议。欢迎继续提问!

未经允许不得转载:秒懂云 » 阿里云服务器怎么装cuda?