Skip to content

对象存储加速

本功能支持用户将 S3 兼容对象存储(如阿里云 OSS、腾讯云 COS 等国内)挂载到平台,实现模型或数据的高效访问和加速。通过 JuiceFS 缓存机制,大幅提升模型加载和数据读取速度。

1、进入存储加速管理页面在左侧菜单点击”对象存储加速”,进入管理页面。

2、点击”新增对象存储配置”按钮,选择云服务商,填写以下信息:

  • 配置名称
  • AccessKey、SecretKey
  • Endpoint
  • Bucket 名称
  • 地域
  • Bucket 中需要加速的目录(不推荐挂根目录)

3、当执行保存配置操作时,系统会自动对配置的可用性进行检测。只有在校验通过之后,配置才可成功保存。在列表中查找到相应配置后,点击“开始加速”选项,接着选择加速区域,此时系统将自动对 JuiceFS 文件系统进行初始化(此过程约需 1 - 2 分钟,期间状态会从蓝色转变为绿色,状态为绿色时已可以挂载此存储桶)。同时,系统还会执行提前预热操作(此操作需从云端将文件下载至本地,因此需等待一定时长。例如,若文件大小为 6.6 G,下载完成大约需要 30 分钟)。


4、先选择 GPU、GPU 区域(需要与对象存储选择的加速区域一致)。

5、然后在任务发布页面的”存储配置”区域,选择已配置并加速的 S3 存储桶(当前状态为绿色时,可以直接挂载。集群内第一次使用需要等待从云端拉取文件到集群。此操作需从云端将文件下载至本地,因此需等待一定时长。例如,若文件大小为 6.6 G,下载完成大约需要 30 分钟。集群第二次挂载则会直接从本地拉取模型文件)。

6、为每个 S3 存储桶填写容器内的挂载路径(如 /mnt/my_model_data),路径需以 / 开头。

7、提交任务后,容器启动时会自动挂载所选 S3 存储。待容器启动完成后,可进入容器并验证挂载。查看挂载目录下的文件是否存在。


  • 手动释放:在存储加速管理页面可手动释放缓存,释放后 JuiceFS 文件系统和缓存会被清除,但配置仍保留。
  • 自动释放:若 15 天内无任务挂载该存储,加速服务会自动释放,配置数据保留,可随时重新激活。

冷启动定义:模型服务从零实例状态(缩放到 0)接收请求到准备处理第一个请求的时间间隔,是影响部署响应能力、服务等级协议(SLA)和成本控制的关键因素。为了优化冷启动,我们将介绍以下策略:对象存储加速,它通过提前将 S3 数据缓存到本地,从而提高性能。

性能提升显著

冷启动带来的挑战:

  • 用户体验:首次请求响应时间长,影响用户满意度
  • 成本控制:频繁冷启动导致资源浪费和成本增加
  • 服务可用性:冷启动时间过长可能导致服务超时

S3 存储加速的优化策略:

  1. 预取机制:利用 JuiceFS 预取功能,后台线程提前下载模型权重和数据
  2. 分布式缓存:将模型权重缓存在分布式文件系统中,避免重复下载
  3. 智能预热:对高频访问的模型进行预热处理

部署方式

冷启动时间

性能提升

传统方式

数分钟(如 Stable Diffusion XL)

S3 加速

10 秒以内

提升 90% 以上

资源利用优化

  • 读取加速:本地缓存机制提供接近本地磁盘的读取速度
  • 并行下载:多线程并行下载,充分利用网络带宽
  • 智能缓存:自动管理缓存空间,优先缓存高频访问数据
  • 按需加载:仅在首次访问时从云端拉取数据,避免重复下载
  • 空间复用:多个任务可共享同一份缓存数据,节省存储空间

在生产环境中,AI 模型需要频繁更新迭代,传统方式需要重新构建和发布 Docker 镜像,过程繁琐且耗时。

S3 存储加速解决方案:

  • 解耦模型与镜像:将模型文件存储在 S3 中,Docker 镜像只包含运行环境,实现模型与代码的分离
  • 快速模型切换:通过更新 S3 中的模型文件,无需重建镜像即可完成模型更新
  • A/B 测试:可同时挂载多个模型版本,方便进行对比测试

实际效果:

  • 模型更新时间:从数小时缩短至几分钟
  • 运维效率:提升 80% 以上

在业务高峰期或突发流量场景下,需要快速扩容计算节点以应对负载增长。

S3 存储加速解决方案:

  • 快速节点启动:新扩容的节点可直接使用缓存的模型数据,避免重复下载
  • 智能缓存预热:新节点启动时自动预热常用模型,减少首次访问延迟
  • 跨区域部署:支持在不同区域快速部署节点,提升服务覆盖范围

实际效果:

  • 扩容时间:从传统的 10-30 分钟缩短至 1-3 分钟
  • 资源利用率:提升 60% 以上
  • 服务稳定性:显著提升,支持平滑扩缩容

事件名称

事件描述

状态变化

创建配置

用户创建新的 S3 存储配置

编辑配置

用户修改现有 S3 存储配置

连接校验

系统验证 S3 连接信息

开始加速

系统建立 JuiceFS 文件系统、开始回源

未加速 → 回源中

回源完成

系统完成数据回源同步

回源中 → 加速中

手动释放

用户手动释放存储缓存

加速中 → 未加速

开始倒计时

存储无任务挂载超过阈值

加速中 → 即将释放

倒计时结束

倒计时达到 15 天

即将释放 → 未加速

重新挂载

任务重新挂载存储

即将释放 → 回源中


状态

可执行操作

加速中

释放存储缓存

未加速

编辑配置、开始同步、删除配置

即将释放

释放存储缓存

同步中


  • 存储内容更新需手动点击”回源上游”按钮,不会自动同步。
  • 存储加速仅支持只读访问,适合模型或数据文件的高效读取。
  • 释放后的配置仍保留,可随时重新激活。