使用阿里云服务器运行深度学习代码是一个非常常见且高效的选择。以下是详细的步骤指南,帮助你从零开始在阿里云服务器上部署和运行深度学习代码。
一、准备工作
1. 注册阿里云账号
- 访问 阿里云官网
- 注册并完成实名认证
2. 开通ECS(弹性计算服务)
- 登录阿里云控制台
- 进入 ECS 管理控制台
- 点击“创建实例”
二、选择合适的服务器配置
深度学习对计算资源要求较高,建议选择:
| 配置项 | 推荐配置 |
|---|---|
| 实例类型 | GPU 实例(如 ecs.gn6i-c8g1.2xlarge) |
| GPU | NVIDIA T4、V100、A10 等 |
| 操作系统 | Ubuntu 20.04/22.04 LTS(推荐) |
| 系统盘 | ≥100GB SSD |
| 内存 | ≥16GB(建议32GB以上) |
| 带宽 | 1-5Mbps(根据数据上传需求) |
💡 提示:首次使用可选择按量付费(小时计费),测试后再转包年包月。
三、连接服务器(SSH)
- 创建实例后,获取公网 IP 地址
- 使用 SSH 连接(Linux/Mac):
ssh root@<你的公网IP>
Windows 用户可使用 PuTTY 或 Windows Terminal + WSL。
四、安装必要环境
1. 更新系统
sudo apt update && sudo apt upgrade -y
2. 安装 NVIDIA 驱动(GPU 实例已预装,可跳过或验证)
nvidia-smi
若显示 GPU 信息,则驱动已就绪。
3. 安装 CUDA 和 cuDNN(可选)
- 通常阿里云 GPU 镜像已预装 CUDA
- 检查版本:
nvcc --version - 如需特定版本,可手动安装(参考 NVIDIA 官网)
4. 安装 Anaconda / Miniconda(推荐)
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
# 按提示安装,重启终端或 source ~/.bashrc
5. 创建虚拟环境并安装深度学习框架
conda create -n dl python=3.9
conda activate dl
安装 PyTorch(示例):
# 查看官网命令,例如:
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
或安装 TensorFlow:
pip install tensorflow[and-cuda]
验证 GPU 是否可用:
import torch
print(torch.cuda.is_available()) # 应输出 True
print(torch.cuda.get_device_name(0))
五、上传和运行深度学习代码
方法 1:使用 SCP 上传代码(推荐)
本地终端执行:
scp -r your_project root@<公网IP>:/root/
方法 2:使用 Git
git clone https://github.com/your-repo/deep-learning-project.git
方法 3:使用 Jupyter Notebook(推荐交互式开发)
pip install jupyter
jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root
然后在浏览器访问:
http://<你的公网IP>:8888
⚠️ 注意:需在阿里云安全组中开放 8888 端口
六、安全组配置(关键!)
在 ECS 控制台中:
- 进入“安全组”配置
- 添加规则:
- 协议类型:
自定义 TCP - 端口范围:
22(SSH)、8888(Jupyter)、或其他需要的端口 - 授权对象:
0.0.0.0/0(或你的 IP)
- 协议类型:
七、运行代码
cd /root/your_project
python train.py
建议使用 screen 或 tmux 防止 SSH 断开导致中断:
screen -S dl_train
python train.py
# 按 Ctrl+A, 再按 D 脱离会话
# 重新连接:screen -r dl_train
八、进阶建议
- 使用 NAS 或 OSS 存储数据集,避免系统盘空间不足
- 使用容器(Docker):阿里云支持 GPU Docker,便于环境管理
- 使用 PAI 平台:阿里云机器学习平台(PAI)提供更高级的训练任务管理
- 监控资源:使用
nvidia-smi查看 GPU 利用率
九、费用优化建议
- 使用 抢占式实例(价格低,适合实验)
- 用完及时 释放实例 或 停止计费
- 使用 镜像 保存环境,避免重复配置
总结
✅ 步骤总结:
- 创建 GPU ECS 实例(Ubuntu)
- SSH 登录
- 安装 Anaconda、PyTorch/TensorFlow
- 上传代码(SCP/Git)
- 开放安全组端口
- 运行训练(建议用 screen)
如果你提供具体的深度学习框架(如 PyTorch、TensorFlow)或任务类型(图像分类、NLP等),我可以给出更详细的配置脚本和优化建议。欢迎继续提问!
秒懂云