如何用阿里云服务器跑深度学习代码？-秒懂云

使用阿里云服务器运行深度学习代码是一个非常常见且高效的选择。以下是详细的步骤指南，帮助你从零开始在阿里云服务器上部署和运行深度学习代码。

深度学习对计算资源要求较高，建议选择：

💡 提示：首次使用可选择按量付费（小时计费），测试后再转包年包月。

ssh root@<你的公网IP>

Windows 用户可使用 PuTTY 或 Windows Terminal + WSL。

sudo apt update && sudo apt upgrade -y

nvidia-smi

若显示 GPU 信息，则驱动已就绪。

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
# 按提示安装，重启终端或 source ~/.bashrc

conda create -n dl python=3.9
conda activate dl

安装 PyTorch（示例）：

# 查看官网命令，例如：
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

或安装 TensorFlow：

pip install tensorflow[and-cuda]

验证 GPU 是否可用：

import torch
print(torch.cuda.is_available())  # 应输出 True
print(torch.cuda.get_device_name(0))

本地终端执行：

scp -r your_project root@<公网IP>:/root/

git clone https://github.com/your-repo/deep-learning-project.git

pip install jupyter
jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root

然后在浏览器访问：

http://<你的公网IP>:8888

⚠️ 注意：需在阿里云安全组中开放 8888 端口

在 ECS 控制台中：

进入“安全组”配置
添加规则：
- 协议类型：自定义 TCP
- 端口范围：22（SSH）、8888（Jupyter）、或其他需要的端口
- 授权对象：0.0.0.0/0（或你的 IP）

cd /root/your_project
python train.py

建议使用 screen 或 tmux 防止 SSH 断开导致中断：

screen -S dl_train
python train.py
# 按 Ctrl+A, 再按 D 脱离会话
# 重新连接：screen -r dl_train

✅ 步骤总结：

如果你提供具体的深度学习框架（如 PyTorch、TensorFlow）或任务类型（图像分类、NLP等），我可以给出更详细的配置脚本和优化建议。欢迎继续提问！