SenseVoice:具有音频理解能力的音频基础模型

13次阅读
没有评论

共计 878 个字符,预计需要花费 3 分钟才能阅读完成。

SenseVoice:具有音频理解能力的音频基础模型

这是一个多语言语音理解模型,具有以下特点和功能:

简介

  • SenseVoice 是一个包含多种语音理解能力的语音基础模型,涵盖自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。

亮点

  • 专注于高精度多语言语音识别、语音情感识别和音频事件检测。
  • 支持超过50种语言,识别性能超越了Whisper模型。
  • 具备出色的情感识别能力,并且在测试数据上达到了当前最佳情感识别模型的效能。
  • 提供声音事件检测能力,支持检测多种常见的声音事件。
  • 高效的推理能力,SenseVoice-Small模型使用非自回归端到端框架,推理延迟极低。
  • 提供便捷的微调脚本和策略,便于用户根据业务场景解决长尾样本问题。
  • 提供服务部署流程,支持多并发请求。

最新更新

  • 2024年7月,开源了SenseVoice-Small语音理解模型,支持普通话、粤语、英语、日语和韩语的高精度多语言语音识别、情感识别和音频事件检测。
  • 介绍了CosyVoice,这是一个自然语音生成工具,具有多语言、音色和情感控制功能。
  • 介绍了FunASR,这是一个基础语音识别工具包,包含多种功能。

基准测试

  • 在多语言语音识别方面,SenseVoice与Whisper在开源基准数据集上进行了性能比较。
  • 在语音情感识别方面,由于缺乏广泛使用的基准和方法,SenseVoice在多个测试集上进行了评估,并与多个最新基准的结果进行了全面比较。
  • 在音频事件检测方面,尽管SenseVoice仅在语音数据上训练,但仍然可以作为独立的事件检测模型。

计算效率

  • SenseVoice-Small模型的推理速度非常快,比Whisper-Small快5倍,比Whisper-Large快15倍。

使用方法

  • 提供了Python代码示例,展示如何使用SenseVoice模型进行推理。

微调

  • 提供了微调的代码示例和数据准备指南。

该项目是一个开源项目,由FunAudioLLM组织维护,提供了丰富的文档和代码示例,以帮助用户使用和微调模型。

 此处含有隐藏内容,请提交评论并审核通过刷新后即可查看!
正文完
 0
评论(没有评论)