Speech Mcp

Speech Mcp

🚀 语音 MCP 文档

语音 MCP 是一个支持语音交互的工具,提供文本转语音和语音转文本功能,支持多语言和多种语音引擎,能满足不同场景的语音交互需求。

🚀 快速开始

使用语音 MCP 前,请确保系统及 Python 版本符合要求,然后按照安装步骤完成安装。安装完成后,可通过基本的命令启动并使用语音控制功能。

✨ 主要特性

  • 多系统支持:兼容 Windows、macOS 和 Linux(Ubuntu 20.04+)系统。
  • 多引擎支持:文本转语音支持 pyttsx3 和 Kokoro TTS 等引擎;语音转文本使用 faster-whisper 引擎。
  • 多语言支持:支持中英文混杂输入和识别。
  • 自定义模型:用户可自行下载并添加额外的语音模型。

📦 安装指南

兼容性

  • 操作系统:支持 Windows、macOS 和 Linux(Ubuntu 20.04+)
  • Python 版本:Python 3.6+

安装步骤

  1. 使用 pip 安装依赖项:
    pip install speech-mcp
    
  2. 下载并安装 PortAudio 库:
    • macOS
      brew install portaudio
      export LDFLAGS="-L/usr/local/lib"
      export CPPFLAGS="-I/usr/local/include"
      pip install pyaudio
      
    • Linux(以 Ubuntu 为例):
      sudo apt-get update && sudo apt-get install portaudio19-dev python3-dev
      pip install pyaudio
      

📚 详细文档

配置指南

默认配置文件路径

  • 用户配置文件~/.config/speech-mcp/config.json

环境变量设置

  • SPEECH_MCP_TTS_VOICE:设置默认的文本转语音(TTS)引擎。
  • SPEECH_MCP_STT_MODEL:设置默认的语音转文本(STT)模型。

功能概述

文本转语音 (TTS)

支持多种 TTS 引擎:

  1. 默认引擎:pyttsx3
    • 使用系统内置语音。
    • 支持多语言和语音风格。
  2. 可选引擎:Kokoro TTS(需额外安装)
    • 高质量神经网络驱动的语音合成。
    • 多种语言和语音风格支持。

语音转文本 (STT)

  • 使用 faster-whisper 引擎进行本地语音识别。
  • 支持多种音频格式,包括 WAV、MP3 和 FLAC。

💻 使用示例

基础用法

  1. 启动语音 MCP:
    speech-mcp start
    
  2. 通过语音控制设备:
    • 说 "让我们开始使用语音" 或类似指令启动语音模式。
    • 系统会自动切换到语音输入界面。

高级用法

  • 多语言支持:支持中英文混杂输入和识别。
  • 自定义语音模型:用户可自行下载并添加额外的语音模型。

🔧 技术细节

内部工作原理

  • 使用 faster-whisper 引擎进行语音识别。
  • 通过 pyttsx3 或 Kokoro TTS 实现文本转语音功能。

性能优化建议

  1. 硬件加速
    • 使用 GPU 加速(如支持 CUDA 的设备)以提高推理速度。
  2. 模型选择
    • 根据需求选择轻量级或高性能的语音模型。

📚 故障排除

常见问题

  1. 音频设备未检测到

    • 确保麦克风已正确连接且系统能识别。
    • 在代码中指定具体设备索引(如有多个设备)。
  2. PortAudio 安装失败

    • 检查系统日志或重新安装相关依赖。

📄 许可证

文中未提及项目的许可证信息,如需了解可进一步查阅项目相关资料。

📄 更新日志

详细更新记录请参考项目文档中的 变更日志。

  • 0 关注
  • 0 收藏,36 浏览
  • system 提出于 2025-10-07 06:42

相似服务问题

相关AI产品