对象存储加速
1. 功能简介
Section titled “1. 功能简介”本功能支持用户将 S3 兼容对象存储(如阿里云 OSS、腾讯云 COS 等国内)挂载到平台,实现模型或数据的高效访问和加速。通过 JuiceFS 缓存机制,大幅提升模型加载和数据读取速度。
2. 操作流程
Section titled “2. 操作流程”2.1. 存储加速配置
Section titled “2.1. 存储加速配置”1、进入存储加速管理页面在左侧菜单点击”对象存储加速”,进入管理页面。

2.2. 配置对象存储
Section titled “2.2. 配置对象存储”2.2.1. 权限说明
Section titled “2.2.1. 权限说明”- region 必须与 ak、sk 以及 endpoint 相匹配。
- bucket 应具备读写双向权限。
2.2.2. 阿里云 OSS
Section titled “2.2.2. 阿里云 OSS”进入对象存储的控制台,找到 Access Key 入口:

创建一个 Access Key 用于挂载:

2.2.3. 腾讯云 COS
Section titled “2.2.3. 腾讯云 COS”Secret ID(AccessKey)和 Secret Key 需要在 API 密钥管理 中查看或创建。

2、点击”新增对象存储配置”按钮,选择云服务商,填写以下信息:
- 配置名称
- 对象存储:服务商、地域、Endpoint、AccessKey、SecretKey、Bucket 名称
- 加速目录:Bucket 中需进行加速处理的目录(不建议挂载根目录,因这会致使根目录下所有文件被缓存,占用大量空间,且不利于业务的合理分割)

3、当执行保存配置操作时,系统会自动对配置的可用性进行检测。只有在校验通过之后,配置才可成功保存。在列表中查找到相应配置后,点击“开始加速”选项,接着选择加速区域,此时系统将自动对 JuiceFS 文件系统进行初始化(此过程约需 1 - 2 分钟,期间状态会从蓝色转变为绿色,状态为绿色时已可以挂载此存储桶)。同时,系统还会执行提前预热操作(此操作需从云端将文件下载至本地,因此需等待一定时长。例如,若文件大小为 6.6 G,下载完成大约需要 30 分钟)。



2.2. 任务发布时挂载 S3 存储
Section titled “2.2. 任务发布时挂载 S3 存储”4、先选择 GPU、GPU 区域(需要与对象存储选择的加速区域一致)。我的对象存储加速了“浙江一区”,所以我选择“浙江一区”的 4090 GPU。

5、然后在任务发布页面的”存储配置”区域,选择已配置并加速的 S3 存储桶(当前状态为绿色时,可以直接挂载。集群内第一次使用需要等待从云端拉取文件到集群。此操作需从云端将文件下载至本地,因此需等待一定时长。例如,若文件大小为 6.6 G,下载完成大约需要 30 分钟。集群第二次挂载则会直接从本地拉取模型文件)。

6、为每个对象存储加速目录填写容器内的挂载路径(如 /mnt/my_model_data
),路径需以 /
开头。需要注意两个目录的对应关系。
我这里将对象存储 Bucket 中的 /qwen1-5/hub/
挂载到了容器中的 /root/.cache/huggingface
目录中
7、提交任务后,容器启动时会自动挂载所选 S3 存储。待容器启动完成后,可进入容器并验证挂载。查看挂载目录下的文件是否存在。

2.3. 存储加速释放与管理
Section titled “2.3. 存储加速释放与管理”- 手动释放:在存储加速管理页面可手动释放缓存,释放后 JuiceFS 文件系统和缓存会被清除,会清除加速用量,但对象存储的配置信息仍保留。
- 自动释放:若 15 天内无任务挂载该存储,加速服务会自动释放,配置数据保留,可随时重新激活。
3. 功能效果
Section titled “3. 功能效果”冷启动定义:模型服务从零实例状态(缩放到 0)接收请求到准备处理第一个请求的时间间隔,是影响部署响应能力、服务等级协议(SLA)和成本控制的关键因素。为了优化冷启动,我们将介绍以下策略:对象存储加速,它通过提前将 S3 数据缓存到本地,从而提高性能。
性能提升显著
冷启动带来的挑战:
- 用户体验:首次请求响应时间长,影响用户满意度
- 成本控制:频繁冷启动导致资源浪费和成本增加
- 服务可用性:冷启动时间过长可能导致服务超时
S3 存储加速的优化策略:
- 预取机制:利用 JuiceFS 预取功能,后台线程提前下载模型权重和数据
- 分布式缓存:将模型权重缓存在分布式文件系统中,避免重复下载
- 智能预热:对高频访问的模型进行预热处理
部署方式 | 冷启动时间 | 性能提升 |
传统方式 | 数分钟(如 Stable Diffusion XL) | |
S3 加速 | 10 秒以内 | 提升 90% 以上 |
资源利用优化
- 读取加速:本地缓存机制提供接近本地磁盘的读取速度
- 并行下载:多线程并行下载,充分利用网络带宽
- 智能缓存:自动管理缓存空间,优先缓存高频访问数据
- 按需加载:仅在首次访问时从云端拉取数据,避免重复下载
- 空间复用:多个任务可共享同一份缓存数据,节省存储空间
4. 应用场景
Section titled “4. 应用场景”4.1. 模型版本管理与无停机更新
Section titled “4.1. 模型版本管理与无停机更新”在生产环境中,AI 模型需要频繁更新迭代,传统方式需要重新构建和发布 Docker 镜像,过程繁琐且耗时。
S3 存储加速解决方案:
- 解耦模型与镜像:将模型文件存储在 S3 中,Docker 镜像只包含运行环境,实现模型与代码的分离
- 快速模型切换:通过更新 S3 中的模型文件,无需重建镜像即可完成模型更新
- A/B 测试:可同时挂载多个模型版本,方便进行对比测试
实际效果:
- 模型更新时间:从数小时缩短至几分钟
- 运维效率:提升 80% 以上
4.2. 弹性扩容与负载均衡
Section titled “4.2. 弹性扩容与负载均衡”在业务高峰期或突发流量场景下,需要快速扩容计算节点以应对负载增长。
S3 存储加速解决方案:
- 快速节点启动:新扩容的节点可直接使用缓存的模型数据,避免重复下载
- 智能缓存预热:新节点启动时自动预热常用模型,减少首次访问延迟
- 跨区域部署:支持在不同区域快速部署节点,提升服务覆盖范围
实际效果:
- 扩容时间:从传统的 10-30 分钟缩短至 1-3 分钟
- 资源利用率:提升 60% 以上
- 服务稳定性:显著提升,支持平滑扩缩容
5. 操作流程一览
Section titled “5. 操作流程一览”
6. 状态说明
Section titled “6. 状态说明”事件名称 | 事件描述 | 状态变化 |
创建配置 | 用户创建新的 S3 存储配置 | |
编辑配置 | 用户修改现有 S3 存储配置 | |
连接校验 | 系统验证 S3 连接信息 | |
开始加速 | 系统建立 JuiceFS 文件系统、开始回源 | 未加速 → 回源中 |
回源完成 | 系统完成数据回源同步 | 回源中 → 加速中 |
手动释放 | 用户手动释放存储缓存 | 加速中 → 未加速 |
开始倒计时 | 存储无任务挂载超过阈值 | 加速中 → 即将释放 |
倒计时结束 | 倒计时达到 15 天 | 即将释放 → 未加速 |
重新挂载 | 任务重新挂载存储 | 即将释放 → 回源中 |
7. 常见操作
Section titled “7. 常见操作”状态 | 可执行操作 |
加速中 | 释放存储缓存 |
未加速 | 编辑配置、开始同步、删除配置 |
即将释放 | 释放存储缓存 |
同步中 | 无 |
8. 注意事项
Section titled “8. 注意事项”- 存储内容更新需手动点击”回源上游”按钮,不会自动同步。
- 存储加速仅支持只读访问,适合模型或数据文件的高效读取。
- 释放后的配置仍保留,可随时重新激活。