快速上手 Job 批处理任务

请先在共绩算力云控制台完成注册并登录：https://console.suanli.cn

Job 批处理是一项专为离线计算、海量数据跑批处理的托管服务。与需要持续在线的“弹性部署”服务不同，Job 任务的核心逻辑是“跑完即焚”——代码执行完毕（成功或失败）后，系统会自动释放 GPU 资源并停止计费。

目前，Job 批处理服务专为极客与企业开发者设计，仅支持使用用户自定义镜像（自由镜像仓库） 发布任务。

在【Job 批处理】页面中点击右上角的 【新增 Job 批处理】。

计费模式：
- 按量计费（推荐生产环境）：资源独占，运行绝不中断。
- 抢占式计费（Spot，低成本推荐）：利用闲置算力，价格大幅折扣，若选择此模式，请务必根据您的业务逻辑填写 “单元预估时长”。适合容忍被抢占的任务
选择计算资源 (卡型)

根据算法模型的实际渴求进行物理资源选型，包括：

GPU 型号、显存大小、单节点卡数。

新手/常规跑批推荐配置：
- GPU 型号：4090
- 节点卡数：1 卡（如果需要多节点并发，将在后续策略中设置）
- 区域：不限区域（自动匹配最快可用的算力节点）
注：选择抢占式计费后，页面下方会动态展示当前规格的库存状态（“库存充足”或“库存紧张”）。即使紧张也可提交，系统将为您自动排队。

3.1 填写镜像地址：支持 Docker Hub、阿里云镜像仓库等第三方公共仓库，或共绩平台的私有仓库。
- 示例地址：registry.cn-hangzhou.aliyuncs.com/my-workspace/offline-train:v1.2
3.2 私有凭证配置：若为私有仓库，请务必在“镜像拉取凭证”中绑定相应的密钥。

决定任务的规模与面对异常时的应对姿态。

4.1 规模与并发设置：

批量创建数（极力推荐）：如果您有大量独立的数据文件或需要跑多次独立的参数实验，请保持“并行节点数”为 1，并将“批量创建数”设置为您需要的总数（例如 100）。系统将为您瞬间下发 100 个互相独立、互不干扰的单节点 Job 任务。这能最大程度保障单个任务崩溃不会牵连其他任务。
并行节点数：如果您单任务需要同时让多个节点处理多份数据，可将节点数调高（例如 10 个）。

4.2 运行时长控制：

任务超时时间（必填项，单位：分钟）：设置任务允许运行的最长物理时间。若任务运行超过此设定的分钟数仍未结束，系统将强制终止整个任务并释放资源，有效防止因代码死循环导致的费用失控。

4.3 容错与重试策略：

普通模式：您可以自由配置“容器重启策略”（失败时重启/从不重启）以及全局的“任务重试次数”。
K8s 索引模式（高级并发）：开启索引模式后，系统会为每个节点分配一个唯一的身份编号，并通过自动注入环境变量的方式传递给您的代码： 👉 JOB_COMPLETION_INDEX（值为 0 到 并行节点数 - 1）系统会强制锁定容器重启策略为“从不重启”，此时您需要精细化配置以下两个专属参数：
- 单索引重试次数：当某个特定编号的节点（如负责处理第一批数据的 0 号节点）彻底死机时，系统专门为该编号重新拉起新机器的最大尝试次数。
- 最大允许失败节点数：大规模并发时的“熔断器”。若设为 5，当累计有 5 个不同编号的节点耗尽重试次数彻底死亡后，系统将强制掐断所有剩余仍在运行的节点，及时止损。

单元预估时长（仅 Spot 抢占模式可见，单位：分钟）：向调度系统声明您预期该任务跑完需要多久。填写的时长越短，系统越容易在繁忙的集群中为您找到资源缝隙并秒级启动；但若实际运行超时，被高优任务驱逐的风险也会相应增加。

配置完成后，点击页面最下方的 【部署服务】 提交任务。

任务发布后，系统将跳转至任务列表页。您可以实时观察任务从 启动中 -> 运行中 -> 已停止 的状态流转。点击进入详情，即可查看每个并行节点的实时日志，掌控任务进度。