Skip to content
共绩算力文档中心

弹性部署常见问题

按量(使用时长)计费,精确到秒。镜像上传拉取过程不收费,服务成功部署后再计费 卡时单价、机型详见:https://www.gongjiyun.com/pricing.html

支持随时根据服务负载情况修改 GPU 数量。设置办法:

  1. 服务部署阶段,选择合适的节点数量(推荐先选一个,后续再根据需要随时添加)
  2. 在对应服务页面,点击左侧边栏的【设置】,修改服务运行的节点数量。节点越多,性能越好,但也会增加成本
  3. 通过 API 控制,API 文档:https://www.gongjiyun.com/docs/platform/openapi/zx3iwhbv1i8sxdkeiapcprxhn8d/

什么是 Serverless 与无状态?为什么不提供 SSH?

Section titled “什么是 Serverless 与无状态?为什么不提供 SSH?”

本系统采用 Serverless 无状态部署方式。默认情况下,平台不会对历史状态及数据进行存储。这具体体现在:

  1. 无状态运行:服务实例会随负载变化动态创建或销毁。一旦容器因缩容、重启或调度迁移而释放,所有运行期间产生的临时文件、手动安装的依赖、终端命令修改的配置均会即刻且永久丢失。
  2. 无 SSH / 无页面终端:正是基于上述无状态设计,平台不提供 SSH 登录权限及持久化的页面终端。您需要在制作镜像时,将启动命令写入 CMDENTRYPOINT;调试主要依赖控制台的【服务日志】查看标准输出。
  3. 适用场景:该部署方式更适用于推理场景,上线后能高效响应生产请求。对于训练及科学计算研发等需要频繁交互、保存中间状态的需求,请依据实际情况判断是否适用。

弹性部署与其他平台的容器实例(或虚拟机)有什么区别?

Section titled “弹性部署与其他平台的容器实例(或虚拟机)有什么区别?”
  1. 我们并未采用直接租赁实例这一常规方式,而是基于系统负载均衡机制,为用户动态的节点分配策略。在此过程中,流量自特定来源汇聚,随后被导向不同的目的地。
  1. 容器实例或虚拟机在关机后,存在一段数据保留期。然而,弹性部署的容器在关机后会即刻释放数据,并无数据保留情况。

拉取镜像时间长,不知道拉取完了没

Section titled “拉取镜像时间长,不知道拉取完了没”

根据镜像的规模大小,首次拉取或许会耗费一定的下载时长。您能够查看节点详情中的事件记录,确认是否存在拉取镜像的相关事件。若长时间未能成功拉取,且事件呈现异常状态,建议您与技术人员取得联系,以便他们为您进行排查与处理。

upstream connect error or disconnect/reset before headers. retried and the latest reset reason: remote connection failure, transport failure reason: delayed connect error: Connection refused

当前域名解析可能尚未生效。请等待数秒后,刷新页面并再次尝试。

为什么发任务不能超过 10 个节点?

Section titled “为什么发任务不能超过 10 个节点?”

为防止平台被滥用,我们针对每个账号设定了基础限制。若需提高上限,请与我们的销售团队进行沟通。

https://www.gongjiyun.com/docs/about/contact.html#%E9%94%80%E5%94%AE%E5%92%A8%E8%AF%A2

点击快捷访问端口后出现no healthy upstream

Section titled “点击快捷访问端口后出现no healthy upstream”

该错误表明 API 网关或负载均衡器无法找到可用的健康后端服务实例来处理请求。

解决措施:

  1. 检查后端服务状态
  • 确认服务是否运行
  • 查看服务日志:通过日志定位崩溃原因
  1. 验证健康检查配置
  • 检查健康检查接口
  • 调整健康检查参数:在网关配置中增加健康检查的超时时间或重试次数(避免因短暂延迟误判)

鉴于 Hugging Face 服务器位于海外,而我们自身的服务器处于国内环境。建议您参照以下文章内容,对 Hugging Face 加速代理源进行配置。完成配置后,即可实现模型的高速下载。

https://zhuanlan.zhihu.com/p/663712983