使用阿里云GPU运行深度学习任务可以分为以下几个步骤,从环境准备到任务部署:
1. 创建GPU实例
- 登录阿里云控制台
访问ECS控制台,选择“实例” > “创建实例”。 - 选择GPU机型
- 实例规格:选择GPU计算型实例(如
ecs.gn6i-c4g1.xlarge或ecs.gn7i-c8g1.2xlarge,根据需求选择)。 - 镜像:推荐选择预装环境的镜像(如 Ubuntu 20.04 + CUDA 11.3 或阿里云提供的“深度学习镜像”)。
- 实例规格:选择GPU计算型实例(如
- 配置存储
根据数据集大小选择云盘(建议SSD,至少100GB)。 - 安全组设置
开放必要的端口(如SSH的22端口、Jupyter Notebook的8888端口等)。
2. 连接GPU实例
- SSH连接
ssh root@<实例公网IP> - 验证GPU驱动
安装NVIDIA驱动和CUDA(如果镜像未预装):nvidia-smi # 查看GPU状态 nvcc --version # 查看CUDA版本
3. 配置深度学习环境
选项1:使用阿里云深度学习镜像
阿里云提供预装环境的镜像(如PyTorch、TensorFlow):
- 创建实例时选择“镜像市场” > 搜索“深度学习镜像”。
- 无需手动安装CUDA/cuDNN。
选项2:手动安装环境
- 安装CUDA/cuDNN
参考NVIDIA官方文档(需匹配GPU驱动版本):wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /" sudo apt-get update sudo apt-get -y install cuda - 安装深度学习框架
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 pip install tensorflow-gpu
4. 上传数据和代码
- 通过SCP上传
scp -r /local/path/to/data root@<实例IP>:/remote/path - 使用OSS(对象存储)
如果数据在阿里云OSS中,通过SDK或命令行工具(ossutil)下载到实例:ossutil cp oss://your-bucket/data.zip /root/data/
5. 运行深度学习任务
- 直接运行Python脚本
python train.py --gpu 0 - 使用Jupyter Notebook
启动Jupyter并远程访问:jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser浏览器访问
http://<实例公网IP>:8888,输入Token。
6. 监控与优化
- GPU监控
watch -n 1 nvidia-smi # 实时查看GPU利用率 - 成本控制
- 按需使用(完成后释放实例)。
- 选择抢占式实例(价格更低,但可能被回收)。
7. 释放资源(避免持续计费)
- 保存结果到OSS
ossutil cp /root/results/ oss://your-bucket/results/ - 释放实例
在ECS控制台停止或释放实例。
常见问题
- CUDA版本不匹配
确保框架、CUDA、驱动版本兼容(如TensorFlow 2.10需CUDA 11.2)。 - GPU未调用
在代码中指定GPU设备:import torch device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") - 磁盘空间不足
扩容云盘或挂载NAS。
通过以上步骤,你可以快速在阿里云GPU实例上部署深度学习任务。如果需要更高效的管理,可以结合阿里云AI开发工具(如PAI)进行自动化训练。
云服务器