在云主机上部署 CosyVoice 应用

1 部署步骤

我们提供了构建完毕的 CosyVoice 镜像，您可以直接部署使用。

镜像地址：harbor.suanleme.cn/huang5876/cosyvoice:v2.0.0

1.1 访问云主机控制台 https://console.suanli.cn/server/instances，点击创建云主机

1.2 基于自身需要进行配置，参考配置为单卡 4090 和 1 个节点（初次使用进行调试）。

1.3 在我的镜像中填入完整镜像 url

镜像地址：harbor.suanleme.cn/huang5876/cosyvoice:v2.0.0

添加端口：7865

1.4 点击创建实例，耐心等待节点拉取镜像并启动。

1.5 节点启动后，你所在“任务详情页”中看到的内容可能如下：

部署完成后，在“快捷访问”中找到端口为 7865 的公网访问链接，点击即可在浏览器中使用 CosyVoice 的 Web 界面，或通过该地址调用 API 服务。

2.快速上手

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

各模块功能如下：

3.API 调用指南

CosyVoice 提供完整的 API 接口体系，支持通过编程方式实现音乐创作全流程自动化。以下为核心接口详解与调用示范：

使用前请确保已安装 gradio_client 包：

pip install gradio_client

3.1 基础调用流程

from gradio_client import Client, file


client = Client("https://d06251924-cosyvoicev200-318-qiwq719d-7860.550c.cloud/")


seed = client.predict(api_name="/generate_seed")[0]


instruction = client.predict(
    mode_checkbox_group="预训练音色",
    api_name="/change_instruction"
)[0]


result = client.predict(
    tts_text="这里是需要合成的文本内容",
    mode_checkbox_group="预训练音色",
    sft_dropdown="default",  # 替换为实际音色名
    seed=seed,
    prompt_wav_upload=file("/本地路径/参考音频.wav"),
    prompt_wav_record=file("/本地路径/参考音频.wav"),
    stream="false",
    api_name="/generate_audio"
)
audio_path = result[0]  # 获取生成音频路径

3.2 参数使用说明

3.3 音频生成注意事项

文件要求：参考音频需满足：
- 采样率 ≥16kHz
- WAV 格式最佳
- 长度根据模式调整（“3s 极速复刻”需 5 秒素材）
跨语种模式：

result = client.predict(
    tts_text="Hello world",
    mode_checkbox_group="跨语种复刻",
    prompt_text="英文发音提示词",
    api_name="/generate_audio"
)

流式生成（适用长内容）：

stream = "true"

3.4 错误处理建议

音色加载失败 → 检查sft_dropdown值是否有效
音频生成中断 → 降低speed数值（1.0 为原速）
跨语种发音异常 → 补充prompt_text发音提示

3.5 输出结果示例

print(result)



import shutil
shutil.copyfile('/tmp/gradio/synth_audio.wav', '最终成品.wav')

实际调用时请根据业务场景调整模式选择和音频参数，预置音色列表可通过 Web 界面查看或在调用/change_instruction时获取关联值。