在阿里云的4核8G服务器上部署 Ollama 是可行的,但具体性能和可运行的模型大小会受到硬件资源(尤其是内存)的限制。以下是一个完整的部署指南,帮助你在阿里云 ECS 实例上成功部署 Ollama。
✅ 一、环境准备
1. 购买或选择阿里云ECS实例
- 推荐配置:4核CPU、8GB内存、系统盘建议 ≥50GB(SSD)
- 操作系统:Ubuntu 22.04 LTS(推荐,兼容性好)
- 安全组设置:
- 开放 SSH(22端口)
- 若需远程访问Ollama API,开放
11434端口 - 可选:开放 HTTP 端口(如80/443)用于反向X_X
✅ 二、登录服务器并更新系统
ssh root@你的公网IP
更新系统包:
sudo apt update && sudo apt upgrade -y
✅ 三、安装 Docker(推荐方式)
Ollama 官方支持直接运行,但使用 Docker 更便于管理。
1. 安装 Docker
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER
注:执行后建议重新登录终端以应用用户组变更。
2. 安装 Docker Compose(可选)
sudo curl -L "https://github.com/docker/compose/releases/latest/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
sudo chmod +x /usr/local/bin/docker-compose
✅ 四、安装 Ollama
方法一:直接安装(官方推荐)
curl -fsSL https://ollama.com/install.sh | sh
该脚本会自动下载并安装 ollama 到 /usr/bin/ollama
✅ 五、配置 Ollama 自启动(systemd)
创建 systemd 服务文件:
sudo tee /etc/systemd/system/ollama.service <<EOF
[Unit]
Description=Ollama Service
After=network.target
[Service]
ExecStart=/usr/bin/ollama serve
Restart=always
User=root
Environment=OLLAMA_HOST=0.0.0.0:11434
Environment=OLLAMA_NUM_PARALLEL=1
Environment=OLLAMA_MAX_LOADED_MODELS=1
[Install]
WantedBy=multi-user.target
EOF
启用并启动服务:
sudo systemctl enable ollama
sudo systemctl start ollama
查看状态:
sudo systemctl status ollama
✅ 六、开放防火墙端口
确保阿里云控制台的安全组规则允许入站流量到 11434 端口。
或者本地防火墙(如有):
sudo ufw allow 11434
✅ 七、拉取并运行模型
示例:运行 qwen2(通义千问)
ollama run qwen2
支持的模型可在 https://ollama.com/library 查看。
推荐适合 8G 内存的模型:
| 模型 | 参数量 | 是否推荐 |
|---|---|---|
qwen2:0.5b 或 qwen2:1.5b |
0.5B ~ 1.5B | ✅ 强烈推荐 |
phi3 |
3.8B | ⚠️ 可运行,较慢 |
tinyllama |
1.1B | ✅ 推荐 |
llama3:8b |
8B | ❌ 不推荐(显存不足) |
💡 注意:Ollama 使用 CPU 推理时,大模型会非常慢且占用大量内存。8G RAM 建议只运行 ≤3B 的小模型。
✅ 八、远程调用 API
在浏览器或客户端访问:
http://<你的公网IP>:11434/api/generate
示例请求:
curl http://localhost:11434/api/generate -d '{
"model": "qwen2",
"prompt":"你好,请介绍一下你自己"
}'
✅ 九、优化建议(针对4核8G)
- 限制并发:避免同时加载多个模型
- 关闭无用服务:节省内存
- 使用 swap(虚拟内存)(可选):
sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
添加到 /etc/fstab 永久生效。
✅ 十、常见问题
| 问题 | 解决方案 |
|---|---|
Error: cannot allocate memory |
模型太大,换更小的(如 qwen2:0.5b) |
| 无法远程访问 | 检查安全组是否开放 11434 端口 |
| Ollama 启动失败 | 查看日志 journalctl -u ollama -f |
✅ 总结
- ✅ 阿里云 4核8G 可以部署 Ollama
- ✅ 推荐运行 1B~3B 小模型(如
qwen2,phi3,tinyllama) - ✅ 使用 systemd 管理服务,确保开机自启
- ⚠️ 不建议运行 7B 及以上模型(内存不足、响应极慢)
如果你希望提供 Web UI,还可以配合以下工具:
- Open WebUI(原Ollama WebUI)
- 使用 Nginx 反向X_X + HTTPS
需要我帮你写一个 docker-compose.yml 来集成 Open WebUI 吗?
云服务器