什么是 PaddleSpeech?
PaddleSpeech 是由百度飞桨(PaddlePaddle)团队开发的一套开源语音处理工具包,旨在为开发者提供端到端的语音识别(ASR)、语音合成(TTS)、关键词检测(KWS)、说话人日志(Speaker Diarization)等能力。
它支持多种主流语音模型,兼容中文与英文场景,适用于智能客服、语音助手、会议转录、无障碍技术等多种应用场景。
核心功能
- 语音识别(ASR):将语音转换为文字,支持流式与非流式识别。
- 语音合成(TTS):将文本合成为自然流畅的语音。
- 关键词检测(KWS):实时检测特定唤醒词或关键词。
- 说话人日志:区分不同说话人并标注其发言时间段。
- 预训练模型丰富:提供多个 SOTA 模型,开箱即用。
快速开始
通过 pip 安装 PaddleSpeech:
pip install paddlespeech
更多使用方法请参考 官方 GitHub 仓库。