Skip to content

容器化部署通用推理镜像 Ollama 篇

该方式部署模型可能需要一定经验。如无特殊需求，建议使用其他预制镜像

目前平台提供三种通用镜像：vLLM, SGLang ,Ollama。三种镜像均提供 OpenAI 兼容接口。可供多种客户端调用。目前模型默认通过 modelscope 在运行时下载 (ollama 需要指定 modelscope.cn/组织/仓库下载)。

🎨

关于镜像选择的简单建议：
高并发 -> vLLM (稳定), SGLang (前沿)
GGUF 模型 -> Ollama

选择模型

对于 Ollama 这里推荐选择 GGUF 模型比如这里的

https://modelscope.cn/models/Qwen/Qwen3-8B-GGUF

此时模型 id 为 Qwen/Qwen3-8B-GGUF

配置服务

进入 https://console.suanli.cn/serverless/create

选择 GPU 型号（推荐 4090）也可以根据需求选择其他型号。

下拉至服务配置部分区域。

选择自定义服务->镜像 URL harbor.suanleme.cn/laiaqwq/ollama:2025-10-13 ->

端口配置 11434

配置推理服务

运行命令

/bin/bash

运行参数

-c

ollama serve & sleep 5 && ollama pull modelscope.cn/Qwen/Qwen3-8B-GGUF && wait

具体启动命令请参考：Ollama 加载 ModelScope 模型 https://modelscope.cn/docs/models/advanced-usage/ollama-integration

或是 ollama 文档 https://github.com/ollama/ollama/tree/main/docs

部署服务

下拉到最下方点击部署服务，等待镜像拉取，模型下载后。即可使用。

启动后

链接/v1 (https://****.550c.cloud/v1) 即为 URL

key 随便填

可以看到服务已经正常启动。

弹性部署服务

概览常见问题 3 步上手

功能使用说明

计费说明镜像仓库健康检测 K8S YAML 导入对象存储加速通过 API 实现弹性节点扩缩容弹性部署服务推理性能调优任务创建接口与多容器部署指南

最佳实践

弹性部署 Serverless 基础认识容器化部署 Ollama+Qwen3 容器化部署 Ollama+Qwen3+Open WebUI 容器化部署 JupyterLab 容器化部署 Flux.1-dev 文生图模型应用容器化部署 FramePack-F1 图生视频框架容器化部署 StableDiffusion1.5-WebUI 应用容器化部署 StableDiffusion2.1-WebUI 应用容器化部署 StableDiffusion-3.5-large 文生图模型应用容器化部署 DailyHot 容器化部署 PDFMathTranslate 容器化部署 ACE-Step 容器化部署 HivisionIDPhotos 容器化部署 CosyVoice 容器化部署 Flux.1 Kontext Dev 图片编辑模型应用容器化部署 minicpm4 容器化部署 minerU 容器化部署 HunyuanPortrait 容器化部署 CodeFormer 容器化部署 Whisper 容器化部署 FunASR 容器化部署 WAN2.2 5B 模型容器化部署 Flux.1 Krea[dev] 容器化部署 Qwen Image 容器化部署 Qwen-Image-Edit IndexTTS2 弹性部署实践 GPT-OSS-20B 弹性部署容器化部署 FaceFusion 脸部融合容器化部署 ComfyUI-ReActor 并通过 api 调用容器化部署通用推理镜像 vLLM 篇容器化部署通用推理镜像 Ollama 篇

Open API

Open API 使用文档 Open API RSA 模式使用指南