本项目借助 Google 的 Agent Development Kit (ADK) 与 ElevenLabs 的 MCP 服务器,构建了一个文本转语音(TTS)的语音播报智能体,为文本语音转换提供了高效的解决方案。
git clone
python3.11 -m venv venv
source venv/bin/activate # 在 Windows 上:venv\Scripts\activate
pip install -r requirements.txt
.env 文件,并添加您的 ElevenLabs 和 Gemini API 密钥。ELEVENLABS_API_KEY=your_api_key_here
GOOGLE_API_KEY = your_api_key_here
source venv/bin/activate
cd agents
adk web
智能体将连接到 ElevenLabs 的 MCP 服务器,并准备好处理文本转语音请求(以及其他由 MCP 服务器提供的其他服务工具)
该语音播报智能体通过 uvx 连接到 ElevenLabs 的 MCP 服务器,提供文本转语音功能。它使用了以下技术:
详细的安装步骤已在“快速开始”部分的“设置步骤”中说明,这里不再赘述。
google-adk-sample/
├── agents/
│ └── speaker/
│ ├── agent.py # 主智能体实现
│ └── __init__.py
├── .env # 环境变量
└── requirements.txt # 项目依赖项
如果遇到任何问题,可以按照以下步骤排查:
.env 文件中的 API 密钥是否正确设置