奋斗
努力

阿里云服务器怎么装cuda?

云计算

在阿里云服务器上安装 CUDA,主要步骤如下。前提是你的阿里云服务器实例必须是 配备了 NVIDIA GPU 的实例类型(如 gn6ign6vgn7 等),否则无法安装和使用 CUDA。


✅ 一、确认前提条件

  1. 选择 GPU 实例

    • 购买或启动一个支持 GPU 的实例(例如:ecs.gn6i-c4g1.xlarge
    • 确保实例已绑定公网 IP 或可通过 VPC 访问
  2. 操作系统支持

    • 推荐使用 Ubuntu 18.04/20.04/22.04CentOS 7/8
    • 这里以 Ubuntu 20.04 为例
  3. 登录服务器

    ssh root@<your-server-ip>

✅ 二、安装 NVIDIA 驱动(如果未预装)

阿里云部分 GPU 实例默认已安装驱动,可跳过此步。先检查:

nvidia-smi
  • 如果显示 GPU 信息,则驱动已安装,直接跳到第三步。
  • 如果提示命令未找到,则需手动安装。

方法 1:使用阿里云官方推荐驱动(推荐)

阿里云提供了 GPU 驱动安装脚本:

wget https://ecs-image-utils.oss-cn-hangzhou.aliyuncs.com/NVIDIA/install_gpu_driver.sh?spm=example&file=install_gpu_driver.sh
bash install_gpu_driver.sh

脚本会自动检测系统并安装合适的驱动。

方法 2:手动安装官方驱动

  1. 添加显卡 PPA(Ubuntu):

    sudo add-apt-repository ppa:graphics-drivers/ppa
    sudo apt update
  2. 查看推荐驱动版本:

    ubuntu-drivers devices
  3. 安装驱动(例如推荐版本是 470):

    sudo apt install nvidia-driver-470
  4. 重启:

    sudo reboot
  5. 再次运行 nvidia-smi 确认驱动正常。


✅ 三、安装 CUDA Toolkit

方式一:通过 NVIDIA 官方仓库安装(推荐)

  1. 下载 CUDA 安装包(以 CUDA 11.8 为例,支持大多数场景):

    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
    sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
    wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-ubuntu2004-11-8-local_11.8.89-1_amd64.deb
    sudo dpkg -i cuda-repo-ubuntu2004-11-8-local_11.8.89-1_amd64.deb
    sudo apt-key add /var/cuda-repo-ubuntu2004-11-8-local/7fa2af80.pub
    sudo apt update
    sudo apt install cuda-11-8
  2. 添加环境变量:

    echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc
    echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
    source ~/.bashrc

⚠️ 注意:版本号根据你安装的 CUDA 版本调整(如 12.2、11.7 等)

方式二:使用 runfile 安装(可选)

参考 NVIDIA 官网下载 .run 文件,但需注意:

  • 需关闭图形界面(阿里云无图形界面,通常安全)
  • 不推荐与系统包管理冲突

✅ 四、验证安装

nvcc --version

输出应类似:

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:33:58_PDT_2022
Cuda compilation tools, release 11.8, V11.8.89

同时再次运行:

nvidia-smi

确保显示驱动版本和 CUDA 版本。


✅ 五、(可选)安装 cuDNN

cuDNN 需要注册 NVIDIA 开发者账号下载:

  1. 登录 https://developer.nvidia.com/cudnn
  2. 下载对应 CUDA 版本的 cuDNN(如 cuDNN v8.7.0 for CUDA 11.8
  3. 上传到服务器并解压:

    tar -xzvf cudnn-linux-x86_64-8.7.0.84_cuda11.8-archive.tar.xz
    sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
    sudo cp cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
    sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

✅ 六、测试 CUDA 示例(可选)

  1. 安装 samples(可选):

    sudo apt install cuda-samples-11-8
    cp -r /usr/local/cuda-11.8/samples ~/cuda-samples
    cd ~/cuda-samples/1_Utilities/deviceQuery
    make
    ./deviceQuery

    输出 Result = PASS 表示成功。


❗常见问题

问题 解决方法
nvidia-smi 找不到 未安装驱动,或实例不是 GPU 型号
nvcc not found 未安装 CUDA Toolkit 或未配置 PATH
驱动与 CUDA 版本不兼容 查看 CUDA 兼容性表
安装失败 检查系统版本、内核更新、secure boot(一般阿里云已关闭)

✅ 推荐组合(稳定)

组件 推荐版本
操作系统 Ubuntu 20.04 LTS
NVIDIA 驱动 525 或 470
CUDA Toolkit 11.8
cuDNN 8.7.0

🔗 参考资料

  • 阿里云官方文档:GPU 实例驱动安装
  • NVIDIA CUDA 下载:https://developer.nvidia.com/cuda-downloads

如果你提供具体的 实例规格、操作系统、用途(如跑 PyTorch/TensorFlow),我可以给出更精准的安装命令。

未经允许不得转载:云服务器 » 阿里云服务器怎么装cuda?