Moshi – 一个实时对话的语音-文本基础模型和全双工口语对话框架

40次阅读
没有评论

共计 697 个字符,预计需要花费 2 分钟才能阅读完成。

Moshi - 一个实时对话的语音 - 文本基础模型和全双工口语对话框架

Moshi 是一个实时对话的语音 - 文本基础模型和全双工口语对话框架,使用先进的流式神经音频编解码器 Mimi。Mimi 能够以 1.1kbps 的带宽处理 24kHz 的音频,实现 12.5Hz 的表示,并且性能优于现有的非流式编解码器。Moshi 通过预测文本标记来改善生成质量,同时使用小型深度变换器和大型 7B 参数时间变换器来处理时间依赖性。Moshi 在 L4 GPU 上的实际整体延迟低至 200ms。该框架支持 Python 和 Rust 版本,并提供了三个模型:Mimi、Moshiko 和 Moshika。

特点说明

  • Moshi 介绍 : Moshi 是一个实时对话的语音 - 文本基础模型,使用 Mimi 编解码器,以 80ms 的延迟处理音频,预测文本标记,提升生成质量。
  • 技术细节 : Mimi 基于之前的神经音频编解码器,通过 Transformer 编码器和解码器,实现 12.5Hz 的帧率,减少 Moshi 中的自回归步骤。
  • 版本和模型 : 存储库中包含 Python(PyTorch 和 MLX)和 Rust 版本的 Moshi 推理栈,以及客户端代码。发布了三个模型:Mimi、Moshiko 和 Moshika。
  • 安装和使用 : 需要 Python 3.10 或更高版本,可以通过 pip 安装 PyTorch 和 MLX 客户端。对于 Rust 后端,需要安装 CUDA 和 nvcc。
  • 开发和贡献 : 克隆存储库后,可以使用 pip 安装开发依赖,并运行本地服务器进行交互式模式测试。
  • 许可证 : Python 部分采用 MIT 许可证,Rust 后端采用 Apache 许可证,模型权重采用 CC-BY 4.0 许可证。

Moshi 地址

  此处含有隐藏内容,请提交评论并审核通过刷新后即可查看!
正文完
 0
评论(没有评论)