CosyVoice:阿里巴巴开源的多语言大语音生成模型

37次阅读

共计 410 个字符，预计需要花费 2 分钟才能阅读完成。

CosyVoice 是一个多语言的大型语音生成模型，提供推理、训练和部署的全栈能力。以下是该项目的一些关键信息：

安装：提供了克隆仓库和安装依赖的步骤，包括使用 conda 创建环境和安装所需的 Python 包。
模型下载 ：推荐下载预训练模型，如CosyVoice-300M、CosyVoice-300M-SFT、CosyVoice-300M-Instruct 和CosyVoice-ttsfrd资源。
基本使用：介绍了如何使用不同模型进行零样本推理、SFT 推理、跨语言推理和指令推理。
Web 演示：提供了一个 Web 演示页面，以便快速熟悉 CosyVoice，并支持 SFT、零样本、跨语言和指令推理。
高级使用：为高级用户提供了训练和推理脚本。
部署构建：如果用户想要使用 grpc 进行服务部署，提供了相应的 Docker 构建和运行步骤。

此处含有隐藏内容，请提交评论并审核通过刷新后即可查看！

正文完

发表至：工具

2024-08-27

0

ScreenPipe:全天候录制您的屏幕和麦克风

DETECT-2B:音频深度伪造检测工具

Tetos：多文本到语音服务的统一接口，多个文本转语音 (TTS) 提供商的统一接口封装

M3U8 Downloader – 视频下载的得力助手，一键下载视频的便捷工具

使用GPT自建站教程（零基础小白实操版）

SOU磁力:电影、电视剧、动漫磁力搜索

评论（没有评论）