快速上手 Job 批处理任务
请先在共绩算力云控制台完成注册并登录:https://console.suanli.cn
Job 批处理是一项专为离线计算、海量数据跑批处理的托管服务。与需要持续在线的“弹性部署”服务不同,Job 任务的核心逻辑是“跑完即焚”——代码执行完毕(成功或失败)后,系统会自动释放 GPU 资源并停止计费。
目前,Job 批处理服务专为极客与企业开发者设计,仅支持使用用户自定义镜像(自由镜像仓库) 发布任务。
发布任务流程
Section titled “发布任务流程”Step 1:新增 Job 批处理任务
Section titled “Step 1:新增 Job 批处理任务”在【Job 批处理】页面中点击右上角的 【新增 Job 批处理】。
Step 2:选择计费模式和开行
Section titled “Step 2:选择计费模式和开行”-
计费模式:
- 按量计费(推荐生产环境):资源独占,运行绝不中断。
- 抢占式计费(Spot,低成本推荐):利用闲置算力,价格大幅折扣,若选择此模式,请务必根据您的业务逻辑填写 “单元预估时长”。适合容忍被抢占的任务
-
选择计算资源 (卡型)
根据算法模型的实际渴求进行物理资源选型,包括:
GPU 型号、显存大小、单节点卡数。
-
新手/常规跑批推荐配置:
- GPU 型号:4090
- 节点卡数:1 卡(如果需要多节点并发,将在后续策略中设置)
- 区域:不限区域(自动匹配最快可用的算力节点)
-
注:选择抢占式计费后,页面下方会动态展示当前规格的库存状态(“库存充足”或“库存紧张”)。即使紧张也可提交,系统将为您自动排队。
Step 3:定义容器与自定义镜像
Section titled “Step 3:定义容器与自定义镜像”-
3.1 填写镜像地址:支持 Docker Hub、阿里云镜像仓库等第三方公共仓库,或共绩平台的私有仓库。
- 示例地址:
registry.cn-hangzhou.aliyuncs.com/my-workspace/offline-train:v1.2
- 示例地址:
-
3.2 私有凭证配置:若为私有仓库,请务必在“镜像拉取凭证”中绑定相应的密钥。
Step 4:Job(按量计费) 任务策略配置
Section titled “Step 4:Job(按量计费) 任务策略配置”决定任务的规模与面对异常时的应对姿态。
4.1 规模与并发设置:
- 批量创建数(极力推荐):如果您有大量独立的数据文件或需要跑多次独立的参数实验,请保持“并行节点数”为 1,并将“批量创建数”设置为您需要的总数(例如 100)。系统将为您瞬间下发 100 个互相独立、互不干扰的单节点 Job 任务。这能最大程度保障单个任务崩溃不会牵连其他任务。
- 并行节点数:如果您单任务需要同时让多个节点处理多份数据,可将节点数调高(例如 10 个)。
4.2 运行时长控制:
- 任务超时时间(必填项,单位:分钟):设置任务允许运行的最长物理时间。若任务运行超过此设定的分钟数仍未结束,系统将强制终止整个任务并释放资源,有效防止因代码死循环导致的费用失控。
4.3 容错与重试策略:
- 普通模式:您可以自由配置“容器重启策略”(失败时重启/从不重启)以及全局的“任务重试次数”。
- K8s 索引模式(高级并发):开启索引模式后,系统会为每个节点分配一个唯一的身份编号,并通过自动注入环境变量的方式传递给您的代码: 👉 JOB_COMPLETION_INDEX(值为
0到并行节点数 - 1) 系统会强制锁定容器重启策略为“从不重启”,此时您需要精细化配置以下两个专属参数:- 单索引重试次数:当某个特定编号的节点(如负责处理第一批数据的 0 号节点)彻底死机时,系统专门为该编号重新拉起新机器的最大尝试次数。
- 最大允许失败节点数:大规模并发时的“熔断器”。若设为 5,当累计有 5 个不同编号的节点耗尽重试次数彻底死亡后,系统将强制掐断所有剩余仍在运行的节点,及时止损。
Step 5:Job(抢占式计费) 任务策略配置
Section titled “Step 5:Job(抢占式计费) 任务策略配置”单元预估时长(仅 Spot 抢占模式可见,单位:分钟):向调度系统声明您预期该任务跑完需要多久。填写的时长越短,系统越容易在繁忙的集群中为您找到资源缝隙并秒级启动;但若实际运行超时,被高优任务驱逐的风险也会相应增加。
Step 6:提交与查看状态
Section titled “Step 6:提交与查看状态”配置完成后,点击页面最下方的 【部署服务】 提交任务。
任务发布后,系统将跳转至任务列表页。您可以实时观察任务从 启动中 -> 运行中 -> 已停止 的状态流转。点击进入详情,即可查看每个并行节点的实时日志,掌控任务进度。