Skip to content
共绩算力文档中心

容器化部署通用推理镜像 Ollama 篇

该方式部署模型可能需要一定经验。如无特殊需求,建议使用其他预制镜像

目前平台提供三种通用镜像:vLLM, SGLang ,Ollama。三种镜像均提供 OpenAI 兼容接口。可供多种客户端调用。目前模型默认通过 modelscope 在运行时下载 (ollama 需要指定 modelscope.cn/组织/仓库下载)。

🎨

关于镜像选择的简单建议:
高并发 -> vLLM (稳定), SGLang (前沿)
GGUF 模型 -> Ollama

对于 Ollama 这里推荐选择 GGUF 模型 比如这里的

https://modelscope.cn/models/Qwen/Qwen3-8B-GGUF

此时模型 id 为 Qwen/Qwen3-8B-GGUF

进入 https://console.suanli.cn/serverless/create

选择 GPU 型号(推荐 4090)也可以根据需求选择其他型号。

下拉至服务配置部分区域。

选择自定义服务->镜像 URL harbor.suanleme.cn/laiaqwq/ollama:2025-10-13 ->

端口配置 11434

运行命令

/bin/bash

运行参数

-c

ollama serve & sleep 5 && ollama pull modelscope.cn/Qwen/Qwen3-8B-GGUF && wait

具体启动命令请参考:Ollama 加载 ModelScope 模型 https://modelscope.cn/docs/models/advanced-usage/ollama-integration

或是 ollama 文档 https://github.com/ollama/ollama/tree/main/docs

下拉到最下方点击部署服务,等待镜像拉取,模型下载后。即可使用。

启动后

链接/v1 (https://****.550c.cloud/v1) 即为 URL

key 随便填

可以看到服务已经正常启动。