SenseVoice:具有音频理解能力的音频基础模型

39次阅读

共计 878 个字符，预计需要花费 3 分钟才能阅读完成。

这是一个多语言语音理解模型，具有以下特点和功能：

SenseVoice 是一个包含多种语音理解能力的语音基础模型，涵盖自动语音识别（ASR）、口语语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）。

专注于高精度多语言语音识别、语音情感识别和音频事件检测。
支持超过 50 种语言，识别性能超越了 Whisper 模型。
具备出色的情感识别能力，并且在测试数据上达到了当前最佳情感识别模型的效能。
提供声音事件检测能力，支持检测多种常见的声音事件。
高效的推理能力，SenseVoice-Small 模型使用非自回归端到端框架，推理延迟极低。
提供便捷的微调脚本和策略，便于用户根据业务场景解决长尾样本问题。
提供服务部署流程，支持多并发请求。

2024 年 7 月，开源了 SenseVoice-Small 语音理解模型，支持普通话、粤语、英语、日语和韩语的高精度多语言语音识别、情感识别和音频事件检测。
介绍了 CosyVoice，这是一个自然语音生成工具，具有多语言、音色和情感控制功能。
介绍了 FunASR，这是一个基础语音识别工具包，包含多种功能。

在多语言语音识别方面，SenseVoice 与 Whisper 在开源基准数据集上进行了性能比较。
在语音情感识别方面，由于缺乏广泛使用的基准和方法，SenseVoice 在多个测试集上进行了评估，并与多个最新基准的结果进行了全面比较。
在音频事件检测方面，尽管 SenseVoice 仅在语音数据上训练，但仍然可以作为独立的事件检测模型。

SenseVoice-Small 模型的推理速度非常快，比 Whisper-Small 快 5 倍，比 Whisper-Large 快 15 倍。

提供了 Python 代码示例，展示如何使用 SenseVoice 模型进行推理。

提供了微调的代码示例和数据准备指南。

该项目是一个开源项目，由 FunAudioLLM 组织维护，提供了丰富的文档和代码示例，以帮助用户使用和微调模型。

此处含有隐藏内容，请提交评论并审核通过刷新后即可查看！

正文完

发表至：工具

2024-08-27

0

文颜：一键解决多平台写作排版问题

CodeFormer：图像超分辨率与图片修复工具

Personal Card Share：智能简历卡片生成器，将文本信息转换成视觉吸引的社交卡片

Real-Address-Generator：生成真实地址信息，真实地址生成器

TransAgents:腾讯推出的翻译多智能体框架

ShotEasy:在线截图工具

评论（没有评论）