弹性部署常见问题
怎么计费的?
Section titled “怎么计费的?”按量(使用时长)计费,精确到秒。镜像上传拉取过程不收费,服务成功部署后再计费 卡时单价、机型详见:https://www.gongjiyun.com/pricing.html
如何实现弹性扩缩容?
Section titled “如何实现弹性扩缩容?”支持随时根据服务负载情况修改 GPU 数量。设置办法:
- 服务部署阶段,选择合适的节点数量(推荐先选一个,后续再根据需要随时添加)
- 在对应服务页面,点击左侧边栏的【设置】,修改服务运行的节点数量。节点越多,性能越好,但也会增加成本
- 通过 API 控制,API 文档:https://www.gongjiyun.com/docs/platform/openapi/zx3iwhbv1i8sxdkeiapcprxhn8d/
什么是 Serverless 与无状态?为什么不提供 SSH?
Section titled “什么是 Serverless 与无状态?为什么不提供 SSH?”本系统采用 Serverless 无状态部署方式。默认情况下,平台不会对历史状态及数据进行存储。这具体体现在:
- 无状态运行:服务实例会随负载变化动态创建或销毁。一旦容器因缩容、重启或调度迁移而释放,所有运行期间产生的临时文件、手动安装的依赖、终端命令修改的配置均会即刻且永久丢失。
- 无 SSH / 无页面终端:正是基于上述无状态设计,平台不提供 SSH 登录权限及持久化的页面终端。您需要在制作镜像时,将启动命令写入
CMD或ENTRYPOINT;调试主要依赖控制台的【服务日志】查看标准输出。 - 适用场景:该部署方式更适用于推理场景,上线后能高效响应生产请求。对于训练及科学计算研发等需要频繁交互、保存中间状态的需求,请依据实际情况判断是否适用。
弹性部署与其他平台的容器实例(或虚拟机)有什么区别?
Section titled “弹性部署与其他平台的容器实例(或虚拟机)有什么区别?”- 我们并未采用直接租赁实例这一常规方式,而是基于系统负载均衡机制,为用户动态的节点分配策略。在此过程中,流量自特定来源汇聚,随后被导向不同的目的地。
- 容器实例或虚拟机在关机后,存在一段数据保留期。然而,弹性部署的容器在关机后会即刻释放数据,并无数据保留情况。
拉取镜像时间长,不知道拉取完了没
Section titled “拉取镜像时间长,不知道拉取完了没”根据镜像的规模大小,首次拉取或许会耗费一定的下载时长。您能够查看节点详情中的事件记录,确认是否存在拉取镜像的相关事件。若长时间未能成功拉取,且事件呈现异常状态,建议您与技术人员取得联系,以便他们为您进行排查与处理。
快捷访问点开后域名链接报错
Section titled “快捷访问点开后域名链接报错”upstream connect error or disconnect/reset before headers. retried and the latest reset reason: remote connection failure, transport failure reason: delayed connect error: Connection refused
当前域名解析可能尚未生效。请等待数秒后,刷新页面并再次尝试。
为什么发任务不能超过 10 个节点?
Section titled “为什么发任务不能超过 10 个节点?”为防止平台被滥用,我们针对每个账号设定了基础限制。若需提高上限,请与我们的销售团队进行沟通。
https://www.gongjiyun.com/docs/about/contact.html#%E9%94%80%E5%94%AE%E5%92%A8%E8%AF%A2
点击快捷访问端口后出现no healthy upstream
Section titled “点击快捷访问端口后出现no healthy upstream”
该错误表明 API 网关或负载均衡器无法找到可用的健康后端服务实例来处理请求。
解决措施:
- 检查后端服务状态
- 确认服务是否运行
- 查看服务日志:通过日志定位崩溃原因
- 验证健康检查配置
- 检查健康检查接口
- 调整健康检查参数:在网关配置中增加健康检查的超时时间或重试次数(避免因短暂延迟误判)
Huggingface 下载太慢了怎么办?
Section titled “Huggingface 下载太慢了怎么办?”鉴于 Hugging Face 服务器位于海外,而我们自身的服务器处于国内环境。建议您参照以下文章内容,对 Hugging Face 加速代理源进行配置。完成配置后,即可实现模型的高速下载。