Skip to content
共绩算力文档中心

功能概览

平台支持基于业务需求的计算节点并发配置:

  • 根据数据量或计算复杂度自定义并行节点数
  • 支持成百上千个节点的瞬间并发拉起
  • 成倍缩短海量数据的处理与离线计算周期

实现大规模计算任务的高效分发与执行。

平台为分布式任务提供深度定制的索引模式能力:

  • 为每个并行节点自动注入全局唯一索引(0 至 N-1)
  • 计算节点可根据索引精准认领并处理不同的数据分片
  • 适配多机多卡分布式训练

提供更细粒度、无重复的数据协同

平台提供满足不同业务诉求的算力调度模式:

  • 支持按量计费(On-Demand),保障核心生产任务的算力独占与绝对稳定
  • 支持抢占式计费(Spot),智能调度闲置算力以提供极低成本的计算方案
  • 结合单元预估时长,实现任务启动速度与运行稳定性的最佳平衡

适用于从对时效极度敏感的模型训练,到追求极致性价比的离线数据清洗。

平台内置专为大规模离线计算设计的健壮容错机制:

  • 支持容器级从不/失败时重启策略,快速应对偶发性进程崩溃
  • 提供任务级重试调度,在底层硬件或网络故障时自动跨机拉起新节点续跑
  • 允许配置最大失败节点数作为全局财务熔断器,防止异常任务持续扣费

极大提升大规模批处理任务的成功率并有效控制资金风险。

平台支持对象存储的加速挂载能力:

  • 将对象存储以挂载方式接入运行环境
  • 提升数据访问效率
  • 简化数据读取与管理流程

适用于需要频繁访问数据的业务场景。

支持共享存储卷挂载:

  • 多个实例可共享同一存储数据
  • 实现数据的统一管理与访问
  • 支持分布式任务的数据协同

适用于需要数据共享与协同处理的场景。