如何用阿里云服务器跑深度学习代码?

使用阿里云服务器运行深度学习代码是一个非常常见且高效的选择。以下是详细的步骤指南,帮助你从零开始在阿里云服务器上部署和运行深度学习代码。


一、准备工作

1. 注册阿里云账号

  • 访问 阿里云官网
  • 注册并完成实名认证

2. 开通ECS(弹性计算服务)

  • 登录阿里云控制台
  • 进入 ECS 管理控制台
  • 点击“创建实例”

二、选择合适的服务器配置

深度学习对计算资源要求较高,建议选择:

配置项 推荐配置
实例类型 GPU 实例(如 ecs.gn6i-c8g1.2xlarge
GPU NVIDIA T4、V100、A10 等
操作系统 Ubuntu 20.04/22.04 LTS(推荐)
系统盘 ≥100GB SSD
内存 ≥16GB(建议32GB以上)
带宽 1-5Mbps(根据数据上传需求)

💡 提示:首次使用可选择按量付费(小时计费),测试后再转包年包月。


三、连接服务器(SSH)

  1. 创建实例后,获取公网 IP 地址
  2. 使用 SSH 连接(Linux/Mac):
ssh root@<你的公网IP>

Windows 用户可使用 PuTTYWindows Terminal + WSL


四、安装必要环境

1. 更新系统

sudo apt update && sudo apt upgrade -y

2. 安装 NVIDIA 驱动(GPU 实例已预装,可跳过或验证)

nvidia-smi

若显示 GPU 信息,则驱动已就绪。

3. 安装 CUDA 和 cuDNN(可选)

  • 通常阿里云 GPU 镜像已预装 CUDA
  • 检查版本:nvcc --version
  • 如需特定版本,可手动安装(参考 NVIDIA 官网)

4. 安装 Anaconda / Miniconda(推荐)

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
# 按提示安装,重启终端或 source ~/.bashrc

5. 创建虚拟环境并安装深度学习框架

conda create -n dl python=3.9
conda activate dl

安装 PyTorch(示例):

# 查看官网命令,例如:
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

或安装 TensorFlow:

pip install tensorflow[and-cuda]

验证 GPU 是否可用:

import torch
print(torch.cuda.is_available())  # 应输出 True
print(torch.cuda.get_device_name(0))

五、上传和运行深度学习代码

方法 1:使用 SCP 上传代码(推荐)

本地终端执行:

scp -r your_project root@<公网IP>:/root/

方法 2:使用 Git

git clone https://github.com/your-repo/deep-learning-project.git

方法 3:使用 Jupyter Notebook(推荐交互式开发)

pip install jupyter
jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root

然后在浏览器访问:

http://<你的公网IP>:8888

⚠️ 注意:需在阿里云安全组中开放 8888 端口


六、安全组配置(关键!)

在 ECS 控制台中:

  1. 进入“安全组”配置
  2. 添加规则:
    • 协议类型:自定义 TCP
    • 端口范围:22(SSH)、8888(Jupyter)、或其他需要的端口
    • 授权对象:0.0.0.0/0(或你的 IP)

七、运行代码

cd /root/your_project
python train.py

建议使用 screentmux 防止 SSH 断开导致中断:

screen -S dl_train
python train.py
# 按 Ctrl+A, 再按 D 脱离会话
# 重新连接:screen -r dl_train

八、进阶建议

  1. 使用 NAS 或 OSS 存储数据集,避免系统盘空间不足
  2. 使用容器(Docker):阿里云支持 GPU Docker,便于环境管理
  3. 使用 PAI 平台:阿里云机器学习平台(PAI)提供更高级的训练任务管理
  4. 监控资源:使用 nvidia-smi 查看 GPU 利用率

九、费用优化建议

  • 使用 抢占式实例(价格低,适合实验)
  • 用完及时 释放实例停止计费
  • 使用 镜像 保存环境,避免重复配置

总结

✅ 步骤总结:

  1. 创建 GPU ECS 实例(Ubuntu)
  2. SSH 登录
  3. 安装 Anaconda、PyTorch/TensorFlow
  4. 上传代码(SCP/Git)
  5. 开放安全组端口
  6. 运行训练(建议用 screen)

如果你提供具体的深度学习框架(如 PyTorch、TensorFlow)或任务类型(图像分类、NLP等),我可以给出更详细的配置脚本和优化建议。欢迎继续提问!

未经允许不得转载:秒懂云 » 如何用阿里云服务器跑深度学习代码?