Skip to content
共绩算力文档中心

快速上手 Job 批处理任务

请先在共绩算力云控制台完成注册并登录:https://console.suanli.cn

Job 批处理是一项专为离线计算、海量数据跑批处理的托管服务。与需要持续在线的“弹性部署”服务不同,Job 任务的核心逻辑是“跑完即焚”——代码执行完毕(成功或失败)后,系统会自动释放 GPU 资源并停止计费。

目前,Job 批处理服务专为极客与企业开发者设计,仅支持使用用户自定义镜像(自由镜像仓库) 发布任务。

在【Job 批处理】页面中点击右上角的 【新增 Job 批处理】

  • 计费模式

    • 按量计费(推荐生产环境):资源独占,运行绝不中断。
    • 抢占式计费(Spot,低成本推荐):利用闲置算力,价格大幅折扣,若选择此模式,请务必根据您的业务逻辑填写 “单元预估时长”。适合容忍被抢占的任务
  • 选择计算资源 (卡型)

根据算法模型的实际渴求进行物理资源选型,包括:

GPU 型号、显存大小、单节点卡数。

  • 新手/常规跑批推荐配置

    • GPU 型号:4090
    • 节点卡数:1 卡(如果需要多节点并发,将在后续策略中设置)
    • 区域:不限区域(自动匹配最快可用的算力节点)
  • 注:选择抢占式计费后,页面下方会动态展示当前规格的库存状态(“库存充足”或“库存紧张”)。即使紧张也可提交,系统将为您自动排队。

  • 3.1 填写镜像地址:支持 Docker Hub、阿里云镜像仓库等第三方公共仓库,或共绩平台的私有仓库。

    • 示例地址:registry.cn-hangzhou.aliyuncs.com/my-workspace/offline-train:v1.2
  • 3.2 私有凭证配置:若为私有仓库,请务必在“镜像拉取凭证”中绑定相应的密钥。

Step 4:Job(按量计费) 任务策略配置

Section titled “Step 4:Job(按量计费) 任务策略配置”

决定任务的规模与面对异常时的应对姿态。

4.1 规模与并发设置

  • 批量创建数(极力推荐):如果您有大量独立的数据文件或需要跑多次独立的参数实验,请保持“并行节点数”为 1,并将“批量创建数”设置为您需要的总数(例如 100)。系统将为您瞬间下发 100 个互相独立、互不干扰的单节点 Job 任务。这能最大程度保障单个任务崩溃不会牵连其他任务。
  • 并行节点数:如果您单任务需要同时让多个节点处理多份数据,可将节点数调高(例如 10 个)。

4.2 运行时长控制

  • 任务超时时间(必填项,单位:分钟):设置任务允许运行的最长物理时间。若任务运行超过此设定的分钟数仍未结束,系统将强制终止整个任务并释放资源,有效防止因代码死循环导致的费用失控。

4.3 容错与重试策略

  • 普通模式:您可以自由配置“容器重启策略”(失败时重启/从不重启)以及全局的“任务重试次数”。
  • K8s 索引模式(高级并发):开启索引模式后,系统会为每个节点分配一个唯一的身份编号,并通过自动注入环境变量的方式传递给您的代码: 👉 JOB_COMPLETION_INDEX(值为 0并行节点数 - 1) 系统会强制锁定容器重启策略为“从不重启”,此时您需要精细化配置以下两个专属参数:
    • 单索引重试次数:当某个特定编号的节点(如负责处理第一批数据的 0 号节点)彻底死机时,系统专门为该编号重新拉起新机器的最大尝试次数。
    • 最大允许失败节点数:大规模并发时的“熔断器”。若设为 5,当累计有 5 个不同编号的节点耗尽重试次数彻底死亡后,系统将强制掐断所有剩余仍在运行的节点,及时止损。

Step 5:Job(抢占式计费) 任务策略配置

Section titled “Step 5:Job(抢占式计费) 任务策略配置”

单元预估时长(仅 Spot 抢占模式可见,单位:分钟):向调度系统声明您预期该任务跑完需要多久。填写的时长越短,系统越容易在繁忙的集群中为您找到资源缝隙并秒级启动;但若实际运行超时,被高优任务驱逐的风险也会相应增加。

配置完成后,点击页面最下方的 【部署服务】 提交任务。

任务发布后,系统将跳转至任务列表页。您可以实时观察任务从 启动中 -> 运行中 -> 已停止 的状态流转。点击进入详情,即可查看每个并行节点的实时日志,掌控任务进度。