奋斗
努力

阿里云ECS CentOS系统如何搭建机器学习环境?

云计算

在阿里云ECS上使用CentOS系统搭建机器学习环境,主要涉及以下几个步骤:配置系统、安装Python环境、安装GPU驱动(如有)、安装深度学习框架等。以下是详细的操作指南:


✅ 一、准备工作

  1. 购买并登录ECS实例

    • 选择 CentOS 7.x 或 CentOS 8.x 镜像
    • 推荐配置:
      • CPU:至少4核
      • 内存:8GB以上
      • 系统盘:建议50GB以上
      • 若需GPU提速,选择支持GPU的实例(如 ecs.gn6i-c8g1.2xlarge
    • 使用 SSH 登录实例:
      ssh root@<你的ECS公网IP>
  2. 更新系统

    sudo yum update -y

✅ 二、安装基础工具

sudo yum install -y epel-release
sudo yum install -y gcc gcc-c++ make wget git vim python3 python3-pip

注意:CentOS 默认可能没有 python3,建议使用 yum install python3 安装。


✅ 三、配置Python虚拟环境(推荐)

# 创建项目目录
mkdir ~/ml_project && cd ~/ml_project

# 创建虚拟环境
python3 -m venv ml_env

# 激活虚拟环境
source ml_env/bin/activate

激活后,后续命令都在该环境中执行。


✅ 四、升级pip并安装常用机器学习库

pip install --upgrade pip

# 安装核心库
pip install numpy pandas matplotlib scikit-learn jupyter notebook

# 可选:深度学习框架
# TensorFlow
pip install tensorflow

# 或 PyTorch(根据CUDA版本选择)
# 查看官网 https://pytorch.org/get-started/locally/
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

📌 注:若你使用的是 GPU 实例,需要安装 NVIDIA 驱动和 CUDA。


✅ 五、【可选】GPU 支持配置(适用于GPU实例)

1. 安装 EPEL 和开发工具

sudo yum groupinstall "Development Tools" -y
sudo yum install -y kernel-devel kernel-headers

2. 添加ELRepo源(用于NVIDIA驱动)

sudo yum install -y https://www.elrepo.org/elrepo-release-7.0-4.el7.elrepo.noarch.rpm

3. 安装NVIDIA驱动

sudo yum --disablerepo="*" --enablerepo="elrepo" install kmod-nvidia-dkms -y

或从NVIDIA官网下载 .run 文件手动安装(更灵活):

wget http://us.download.nvidia.com/XFree86/Linux-x86_64/<version>/NVIDIA-Linux-x86_64-<version>.run
chmod +x NVIDIA-Linux-x86_64-<version>.run
sudo ./NVIDIA-Linux-x86_64-<version>.run

4. 安装 CUDA Toolkit

参考 NVIDIA 官网:
https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=7

示例(CentOS 7):

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-rhel7-11-8-local-11.8.89-1.x86_64.rpm
sudo rpm -i cuda-repo-rhel7-11-8-local-11.8.89-1.x86_64.rpm
sudo yum clean all
sudo yum -y install cuda

5. 设置环境变量

编辑 ~/.bashrc

export PATH=/usr/local/cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

生效:

source ~/.bashrc

6. 验证GPU

nvidia-smi

应显示GPU信息。

PyTorch验证:

import torch
print(torch.cuda.is_available())  # 应输出 True

✅ 六、启动Jupyter Notebook(远程访问)

  1. 生成配置文件:

    jupyter notebook --generate-config
  2. 生成密码(可选,推荐)

    from notebook.auth import passwd
    passwd()

    输入密码,复制生成的 hash 值。

  3. 编辑配置:

    vim ~/.jupyter/jupyter_notebook_config.py

    添加以下内容:

    c.NotebookApp.ip = '0.0.0.0'
    c.NotebookApp.port = 8888
    c.NotebookApp.open_browser = False
    c.NotebookApp.password = 'sha256:...'  # 替换为上面生成的hash
    c.NotebookApp.allow_root = True
  4. 启动服务:

    nohup jupyter notebook --allow-root &
  5. 安全组设置

    • 登录阿里云控制台
    • 找到该ECS实例的安全组
    • 添加入方向规则:端口 8888,授权IP可设为 0.0.0.0/0(测试用)或你的IP
  6. 访问:

    http://<ECS公网IP>:8888

✅ 七、其他优化建议

  • 使用 tmuxscreen 防止SSH断开导致进程终止
  • 安装 conda(替代pip)管理复杂环境:
    wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
    bash Miniconda3-latest-Linux-x86_64.sh
  • 定期备份数据到OSS

✅ 总结:常用命令一览

功能 命令
更新系统 sudo yum update -y
安装Python3 sudo yum install python3 python3-pip
创建虚拟环境 python3 -m venv ml_env && source ml_env/bin/activate
安装ML库 pip install numpy pandas scikit-learn tensorflow torch
启动Jupyter jupyter notebook --allow-root
查看GPU nvidia-smi

如你希望使用 Docker 方式部署(更便捷),也可以使用官方镜像:

docker run -it -p 8888:8888 tensorflow/tensorflow:latest-jupyter

如有具体需求(如YOLO、Stable Diffusion等),可进一步定制环境。欢迎补充应用场景!

未经允许不得转载:云服务器 » 阿里云ECS CentOS系统如何搭建机器学习环境?