Skip to content

容器化部署通用推理镜像 vLLM 篇

该方式部署模型可能需要一定经验。如无特殊需求，建议使用其他预制镜像

目前平台提供三种通用镜像：vLLM, SGLang ,Ollama。三种镜像均提供 OpenAI 兼容接口。可供多种客户端调用。目前模型默认通过 modelscope 在运行时下载 (ollama 需要指定 modelscope.cn/组织/仓库下载)。

🎨

关于镜像选择的简单建议：hor
高并发 -> vLLM (稳定), SGLang (前沿)
GGUF 模型 -> Ollama

部署流程

确认模型 id -> 配置部署服务 -> 配置启动参数 -> 启动服务 -> 等待服务初始化 -> 开始使用

确认模型 id

要部署模型，我们首先要知道，我们要部署的是那个模型，比如 Qwen3-8B-FP8 https://modelscope.cn/models/Qwen/Qwen3-8B-FP8

该模型 id 为 Qwen/Qwen3-8B-FP8 (平台默认从 modelscope 下载模型) 记录下这个 id

配置部署服务

进入 https://console.suanli.cn/serverless/create

选择显卡，这里推荐 4090。

下拉到服务配置->选择自定义服务->镜像配置 harbor.suanleme.cn/laiaqwq/vllm-openai:2025-10-13 ->

端口 8000

添加启动命令运行命令

vllm

运行参数

serve
Qwen/Qwen3-8B-FP8 #上面记录的模型 id
--max-model-len
16K #最大输入上下文
--max-num-seqs
2 #最大输入序列

更多参数可参照 https://docs.vllm.ai/en/latest/configuration/engine_args.html#modelconfig

配置完成后启动即可

等待服务启动

等待镜像拉取，模型下载，CUDA 图编译。

启动完成后即可通过 OpenAI Completion API 调用服务。

💡

小 Tips

可以创建共享存储卷挂载到 /root/.cache 上。防止模型重复下载

弹性部署服务

概览常见问题 3 步上手

功能使用说明

计费说明镜像仓库健康检测 K8S YAML 导入对象存储加速通过 API 实现弹性节点扩缩容弹性部署服务推理性能调优任务创建接口与多容器部署指南

最佳实践

弹性部署 Serverless 基础认识容器化部署 Ollama+Qwen3 容器化部署 Ollama+Qwen3+Open WebUI 容器化部署 JupyterLab 容器化部署 Flux.1-dev 文生图模型应用容器化部署 FramePack-F1 图生视频框架容器化部署 StableDiffusion1.5-WebUI 应用容器化部署 StableDiffusion2.1-WebUI 应用容器化部署 StableDiffusion-3.5-large 文生图模型应用容器化部署 DailyHot 容器化部署 PDFMathTranslate 容器化部署 ACE-Step 容器化部署 HivisionIDPhotos 容器化部署 CosyVoice 容器化部署 Flux.1 Kontext Dev 图片编辑模型应用容器化部署 minicpm4 容器化部署 minerU 容器化部署 HunyuanPortrait 容器化部署 CodeFormer 容器化部署 Whisper 容器化部署 FunASR 容器化部署 WAN2.2 5B 模型容器化部署 Flux.1 Krea[dev] 容器化部署 Qwen Image 容器化部署 Qwen-Image-Edit IndexTTS2 弹性部署实践 GPT-OSS-20B 弹性部署容器化部署 FaceFusion 脸部融合容器化部署 ComfyUI-ReActor 并通过 api 调用容器化部署通用推理镜像 vLLM 篇容器化部署通用推理镜像 Ollama 篇

Open API

Open API 使用文档 Open API RSA 模式使用指南