共计 878 个字符,预计需要花费 3 分钟才能阅读完成。
这是一个多语言语音理解模型,具有以下特点和功能:
简介
- SenseVoice 是一个包含多种语音理解能力的语音基础模型,涵盖自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。
亮点
- 专注于高精度多语言语音识别、语音情感识别和音频事件检测。
- 支持超过 50 种语言,识别性能超越了 Whisper 模型。
- 具备出色的情感识别能力,并且在测试数据上达到了当前最佳情感识别模型的效能。
- 提供声音事件检测能力,支持检测多种常见的声音事件。
- 高效的推理能力,SenseVoice-Small 模型使用非自回归端到端框架,推理延迟极低。
- 提供便捷的微调脚本和策略,便于用户根据业务场景解决长尾样本问题。
- 提供服务部署流程,支持多并发请求。
最新更新
- 2024 年 7 月,开源了 SenseVoice-Small 语音理解模型,支持普通话、粤语、英语、日语和韩语的高精度多语言语音识别、情感识别和音频事件检测。
- 介绍了 CosyVoice,这是一个自然语音生成工具,具有多语言、音色和情感控制功能。
- 介绍了 FunASR,这是一个基础语音识别工具包,包含多种功能。
基准测试
- 在多语言语音识别方面,SenseVoice 与 Whisper 在开源基准数据集上进行了性能比较。
- 在语音情感识别方面,由于缺乏广泛使用的基准和方法,SenseVoice 在多个测试集上进行了评估,并与多个最新基准的结果进行了全面比较。
- 在音频事件检测方面,尽管 SenseVoice 仅在语音数据上训练,但仍然可以作为独立的事件检测模型。
计算效率
- SenseVoice-Small 模型的推理速度非常快,比 Whisper-Small 快 5 倍,比 Whisper-Large 快 15 倍。
使用方法
- 提供了 Python 代码示例,展示如何使用 SenseVoice 模型进行推理。
微调
- 提供了微调的代码示例和数据准备指南。
该项目是一个开源项目,由 FunAudioLLM 组织维护,提供了丰富的文档和代码示例,以帮助用户使用和微调模型。
此处含有隐藏内容,请提交评论并审核通过刷新后即可查看!
正文完