语音录音 MCP 服务器可用于录音,并借助 OpenAI 的 Whisper 模型对音频进行转录。它既可以作为 Goose AI 代理的自定义扩展运行,也能作为独立的 MCP 服务器使用。
语音录音 MCP 服务器功能强大,能满足多种音频处理需求。你可以根据自身需求,将其作为独立服务器运行,或集成到 Goose AI 代理中使用。
# 从源代码安装
git clone https://github.com/DefiBax/voice-recorder-mcp.git
cd voice-recorder-mcp
pip install -e .
# 使用默认设置运行(base.en 模型)
voice-recorder-mcp
# 使用特定的 Whisper 模型
voice-recorder-mcp --model medium.en
# 调整采样率
voice-recorder-mcp --sample-rate 44100
MCP 检查器提供一个交互界面用于测试服务器:
# 安装 MCP 检查器
npm install -g @modelcontextprotocol/inspector
# 运行检查器并连接到服务器
npx @modelcontextprotocol/inspector voice-recorder-mcp
打开 Goose 并转到设置 > 扩展 > 添加 > 命令行扩展。
设置名称为 voice-recorder。
在命令字段中输入语音录音器 MCP 可执行文件的完整路径:
/full/path/to/voice-recorder-mcp
或指定模型:
/full/path/to/voice-recorder-mcp --model medium.en
查找路径方法:
which voice-recorder-mcp
基本功能无需设置环境变量。
启动与 Goose 的对话,并通过以下指令引入录音器: "我希望您能根据语音录音器返回的转录文本执行操作。例如,当我 dictation 一个计算如 1+1,请返回结果。"
此服务器提供了一些可用工具,方便用户进行音频录制和转录操作:
start_recording:开始从默认麦克风录制音频。stop_and_transcribe:停止录音并转录音频为文本。record_and_transcribe:按指定时长录音并转录。此扩展支持多种 Whisper 模型:
| 属性 | 详情 |
|---|---|
| 模型名称 | base.en(基础英语模型)、medium.en(中等大小的英语模型)、large.en(大型英语模型) |
| 详细信息 | 不同大小的英语模型,可根据需求选择 |
通过环境变量配置服务器行为:
# 示例配置命令:
export VOICE_RECORDER_API_KEY=your_api_key_here
常见问题及解决方法:
参与项目的方法:
语音录音 MCP 服务器依赖 Python 3.6+ 环境运行,通过调用 OpenAI 的 Whisper 模型实现音频转录功能。它支持通过环境变量配置服务器行为,并且可以与 Goose AI 代理集成,为用户提供更加便捷的音频处理体验。
项目使用 MIT 许可证,详细信息见 LICENSE 文件。