在阿里云ECS上使用CentOS系统搭建机器学习环境,主要涉及以下几个步骤:配置系统、安装Python环境、安装GPU驱动(如有)、安装深度学习框架等。以下是详细的操作指南:
✅ 一、准备工作
-
购买并登录ECS实例
- 选择 CentOS 7.x 或 CentOS 8.x 镜像
- 推荐配置:
- CPU:至少4核
- 内存:8GB以上
- 系统盘:建议50GB以上
- 若需GPU提速,选择支持GPU的实例(如
ecs.gn6i-c8g1.2xlarge)
- 使用 SSH 登录实例:
ssh root@<你的ECS公网IP>
-
更新系统
sudo yum update -y
✅ 二、安装基础工具
sudo yum install -y epel-release
sudo yum install -y gcc gcc-c++ make wget git vim python3 python3-pip
注意:CentOS 默认可能没有
python3,建议使用yum install python3安装。
✅ 三、配置Python虚拟环境(推荐)
# 创建项目目录
mkdir ~/ml_project && cd ~/ml_project
# 创建虚拟环境
python3 -m venv ml_env
# 激活虚拟环境
source ml_env/bin/activate
激活后,后续命令都在该环境中执行。
✅ 四、升级pip并安装常用机器学习库
pip install --upgrade pip
# 安装核心库
pip install numpy pandas matplotlib scikit-learn jupyter notebook
# 可选:深度学习框架
# TensorFlow
pip install tensorflow
# 或 PyTorch(根据CUDA版本选择)
# 查看官网 https://pytorch.org/get-started/locally/
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
📌 注:若你使用的是 GPU 实例,需要安装 NVIDIA 驱动和 CUDA。
✅ 五、【可选】GPU 支持配置(适用于GPU实例)
1. 安装 EPEL 和开发工具
sudo yum groupinstall "Development Tools" -y
sudo yum install -y kernel-devel kernel-headers
2. 添加ELRepo源(用于NVIDIA驱动)
sudo yum install -y https://www.elrepo.org/elrepo-release-7.0-4.el7.elrepo.noarch.rpm
3. 安装NVIDIA驱动
sudo yum --disablerepo="*" --enablerepo="elrepo" install kmod-nvidia-dkms -y
或从NVIDIA官网下载
.run文件手动安装(更灵活):wget http://us.download.nvidia.com/XFree86/Linux-x86_64/<version>/NVIDIA-Linux-x86_64-<version>.run chmod +x NVIDIA-Linux-x86_64-<version>.run sudo ./NVIDIA-Linux-x86_64-<version>.run
4. 安装 CUDA Toolkit
参考 NVIDIA 官网:
https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=7
示例(CentOS 7):
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-rhel7-11-8-local-11.8.89-1.x86_64.rpm
sudo rpm -i cuda-repo-rhel7-11-8-local-11.8.89-1.x86_64.rpm
sudo yum clean all
sudo yum -y install cuda
5. 设置环境变量
编辑 ~/.bashrc:
export PATH=/usr/local/cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH
生效:
source ~/.bashrc
6. 验证GPU
nvidia-smi
应显示GPU信息。
PyTorch验证:
import torch
print(torch.cuda.is_available()) # 应输出 True
✅ 六、启动Jupyter Notebook(远程访问)
-
生成配置文件:
jupyter notebook --generate-config -
生成密码(可选,推荐)
from notebook.auth import passwd passwd()输入密码,复制生成的 hash 值。
-
编辑配置:
vim ~/.jupyter/jupyter_notebook_config.py添加以下内容:
c.NotebookApp.ip = '0.0.0.0' c.NotebookApp.port = 8888 c.NotebookApp.open_browser = False c.NotebookApp.password = 'sha256:...' # 替换为上面生成的hash c.NotebookApp.allow_root = True -
启动服务:
nohup jupyter notebook --allow-root & -
安全组设置
- 登录阿里云控制台
- 找到该ECS实例的安全组
- 添加入方向规则:端口
8888,授权IP可设为0.0.0.0/0(测试用)或你的IP
-
访问:
http://<ECS公网IP>:8888
✅ 七、其他优化建议
- 使用
tmux或screen防止SSH断开导致进程终止 - 安装
conda(替代pip)管理复杂环境:wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh - 定期备份数据到OSS
✅ 总结:常用命令一览
| 功能 | 命令 |
|---|---|
| 更新系统 | sudo yum update -y |
| 安装Python3 | sudo yum install python3 python3-pip |
| 创建虚拟环境 | python3 -m venv ml_env && source ml_env/bin/activate |
| 安装ML库 | pip install numpy pandas scikit-learn tensorflow torch |
| 启动Jupyter | jupyter notebook --allow-root |
| 查看GPU | nvidia-smi |
如你希望使用 Docker 方式部署(更便捷),也可以使用官方镜像:
docker run -it -p 8888:8888 tensorflow/tensorflow:latest-jupyter
如有具体需求(如YOLO、Stable Diffusion等),可进一步定制环境。欢迎补充应用场景!
云服务器