Skip to content
共绩算力文档中心

容器化部署通用推理镜像 vLLM 篇

该方式部署模型可能需要一定经验。如无特殊需求,建议使用其他预制镜像

目前平台提供三种通用镜像:vLLM, SGLang ,Ollama。三种镜像均提供 OpenAI 兼容接口。可供多种客户端调用。目前模型默认通过 modelscope 在运行时下载 (ollama 需要指定 modelscope.cn/组织/仓库下载)。

🎨

关于镜像选择的简单建议:hor
高并发 -> vLLM (稳定), SGLang (前沿)
GGUF 模型 -> Ollama

确认模型 id -> 配置部署服务 -> 配置启动参数 -> 启动服务 -> 等待服务初始化 -> 开始使用

要部署模型,我们首先要知道,我们要部署的是那个模型,比如 Qwen3-8B-FP8 https://modelscope.cn/models/Qwen/Qwen3-8B-FP8

该模型 id 为 Qwen/Qwen3-8B-FP8 (平台默认从 modelscope 下载模型) 记录下这个 id

进入 https://console.suanli.cn/serverless/create

选择显卡,这里推荐 4090。

下拉到服务配置->选择自定义服务->镜像配置 harbor.suanleme.cn/laiaqwq/vllm-openai:2025-10-13 ->

端口 8000

添加启动命令 运行命令

vllm

运行参数

serve
Qwen/Qwen3-8B-FP8 #上面记录的模型 id
--max-model-len
16K #最大输入上下文
--max-num-seqs
2 #最大输入序列

更多参数可参照 https://docs.vllm.ai/en/latest/configuration/engine_args.html#modelconfig

配置完成后启动即可

等待镜像拉取,模型下载,CUDA 图编译。

启动完成后即可通过 OpenAI Completion API 调用服务。

💡

小 Tips

  • 可以创建共享存储卷挂载到 /root/.cache 上。防止模型重复下载