在云主机上部署 CosyVoice 应用
1 部署步骤
Section titled “1 部署步骤”我们提供了构建完毕的 CosyVoice 镜像,您可以直接部署使用。
镜像地址:harbor.suanleme.cn/huang5876/cosyvoice:v2.0.0
1.1 访问云主机控制台 https://console.suanli.cn/server/instances,点击创建云主机
Section titled “1.1 访问云主机控制台 https://console.suanli.cn/server/instances,点击创建云主机”
1.2 基于自身需要进行配置,参考配置为单卡 4090 和 1 个节点(初次使用进行调试)。
Section titled “1.2 基于自身需要进行配置,参考配置为单卡 4090 和 1 个节点(初次使用进行调试)。”
1.3 在我的镜像中填入完整镜像 url
Section titled “1.3 在我的镜像中填入完整镜像 url”镜像地址:harbor.suanleme.cn/huang5876/cosyvoice:v2.0.0
添加端口:7865

1.4 点击创建实例,耐心等待节点拉取镜像并启动。
Section titled “1.4 点击创建实例,耐心等待节点拉取镜像并启动。”1.5 节点启动后,你所在“任务详情页”中看到的内容可能如下:
Section titled “1.5 节点启动后,你所在“任务详情页”中看到的内容可能如下:”
部署完成后,在“快捷访问”中找到端口为 7865 的公网访问链接,点击即可在浏览器中使用 CosyVoice 的 Web 界面,或通过该地址调用 API 服务。
2.快速上手
Section titled “2.快速上手”使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。
各模块功能如下:

3.API 调用指南
Section titled “3.API 调用指南”CosyVoice 提供完整的 API 接口体系,支持通过编程方式实现音乐创作全流程自动化。以下为核心接口详解与调用示范:


使用前请确保已安装 gradio_client
包:
pip install gradio_client
3.1 基础调用流程
Section titled “3.1 基础调用流程”from gradio_client import Client, file
client = Client("https://d06251924-cosyvoicev200-318-qiwq719d-7860.550c.cloud/")
seed = client.predict(api_name="/generate_seed")[0]
instruction = client.predict( mode_checkbox_group="预训练音色", api_name="/change_instruction")[0]
result = client.predict( tts_text="这里是需要合成的文本内容", mode_checkbox_group="预训练音色", sft_dropdown="default", # 替换为实际音色名 seed=seed, prompt_wav_upload=file("/本地路径/参考音频.wav"), prompt_wav_record=file("/本地路径/参考音频.wav"), stream="false", api_name="/generate_audio")audio_path = result[0] # 获取生成音频路径
3.2 参数使用说明
Section titled “3.2 参数使用说明”3.3 音频生成注意事项
Section titled “3.3 音频生成注意事项”-
文件要求:参考音频需满足:
- 采样率 ≥16kHz
- WAV 格式最佳
- 长度根据模式调整(“3s 极速复刻”需 5 秒素材)
-
跨语种模式:
result = client.predict( tts_text="Hello world", mode_checkbox_group="跨语种复刻", prompt_text="英文发音提示词", api_name="/generate_audio")
- 流式生成(适用长内容):
stream = "true"
3.4 错误处理建议
Section titled “3.4 错误处理建议”- 音色加载失败 → 检查
sft_dropdown
值是否有效 - 音频生成中断 → 降低
speed
数值(1.0 为原速) - 跨语种发音异常 → 补充
prompt_text
发音提示
3.5 输出结果示例
Section titled “3.5 输出结果示例”print(result)
import shutilshutil.copyfile('/tmp/gradio/synth_audio.wav', '最终成品.wav')
实际调用时请根据业务场景调整模式选择和音频参数,预置音色列表可通过 Web 界面查看或在调用/change_instruction
时获取关联值。