平台使用常见问题
1.快速上手相关问题
Section titled “1.快速上手相关问题”问题:新手用户如何快速上手平台?有操作文档吗?
Section titled “问题:新手用户如何快速上手平台?有操作文档吗?”解决方案:参考新手快速入门文档(仅需 3 步即可快速部署服务),链接:新手快速入门;官网还提供弹性部署服务基本概念、最佳实践、镜像上传等补充文档。
2.镜像相关问题
Section titled “2.镜像相关问题”问题:镜像上传和拉取过程是否收费?
Section titled “问题:镜像上传和拉取过程是否收费?”镜像上传和拉取过程不收费,服务成功部署后才开始计费。
问题:镜像拉取时间很长怎么办?如何判断拉取状态?
Section titled “问题:镜像拉取时间很长怎么办?如何判断拉取状态?”①拉取时间取决于镜像大小和网络条件;
②刷新下方事件可查看拉取进度和状态;
问题:如何制作和上传镜像?支持哪些镜像仓库?
Section titled “问题:如何制作和上传镜像?支持哪些镜像仓库?”- 解决方案:参考官方镜像教程,支持阿里云镜像和免费私有镜像仓库存储服务,链接:镜像使用指南。
- 制作可以参考相关博客教程:https://www.gongjiyun.com/blog/2025/2025/v4wuwmhnmitlxmkstxwcwzbbnuh/
3.计费相关问题
Section titled “3.计费相关问题”问题:平台的计费模式和价格是怎样的?
Section titled “问题:平台的计费模式和价格是怎样的?”- ①计费模式:按量(使用时长)计费,精确到秒;
- ②镜像上传拉取不收费,服务部署后计费;
- ③卡时单价、机型详见:卡时单价与机型;
问题:停止服务后还会继续收费吗?GPU 会被预留吗?
Section titled “问题:停止服务后还会继续收费吗?GPU 会被预留吗?”服务停止后立即终止计费,GPU 不会预留。
4.弹性扩缩容相关问题
Section titled “4.弹性扩缩容相关问题”问题:如何调整节点数量,实现弹性扩缩容?
Section titled “问题:如何调整节点数量,实现弹性扩缩容?”①部署阶段选择节点数量(推荐先选 1 个,后续添加);
②服务页面左侧边栏【设置】修改节点数量;
③通过 API 接口自动化管理(链接:API 文档)节点越多性能越好,但成本增加。
问题:节点缩减时的关闭顺序是怎样的?
Section titled “问题:节点缩减时的关闭顺序是怎样的?”空闲超时时间:无活跃请求时节点继续运行的最长时间。过短会增加冷启动,过长会增加成本。
默认值:300 秒,最小值:1 秒。
5.服务状态相关问题
Section titled “5.服务状态相关问题”问题:无状态服务(serverless)有什么影响?停止服务后数据会丢失吗?
Section titled “问题:无状态服务(serverless)有什么影响?停止服务后数据会丢失吗?”①无状态服务不保存历史状态和缓存数据;
②服务停止后 GPU 立即释放,数据会丢失;
③适合推理场景,如需保存状态需自行准备云存储。
问题:任务暂停后如何恢复?恢复速度受什么影响?
Section titled “问题:任务暂停后如何恢复?恢复速度受什么影响?”①暂停会终止所有节点,恢复速度取决于缓存命中情况(命中节点缓存秒级、集群缓存取决于镜像大小、无缓存回源看网络);
②暂停后数据会丢失。
问题:服务停止后 GPU 资源如何处理?
Section titled “问题:服务停止后 GPU 资源如何处理?”服务停止后 GPU立即释放,不会预留。
6.网络与访问相关问题
Section titled “6.网络与访问相关问题”问题:github、huggingface 访问不了或速度慢怎么办?
Section titled “问题:github、huggingface 访问不了或速度慢怎么办?”①huggingface:用环境变量配置 HF_ENDPOINT=https://hf-mirror.com;
②GitHub:连接不稳定可多尝试几次。
问题:jupyterlab 访问入口找不到怎么办?
Section titled “问题:jupyterlab 访问入口找不到怎么办?”解决方案:从云主机 - 基础镜像启动即可找到访问入口。
8.稳定性相关问题
Section titled “8.稳定性相关问题”问题:平台如何保障节点稳定性?
Section titled “问题:平台如何保障节点稳定性?”①定时收集节点信息,对不合格节点打污点并转移负载;
②分析节点历史行为评分,优先调度高质量节点。