这是一个基于模型上下文协议(MCP)的服务器,借助Minimax AI API实现语音生成功能。该服务器可将文本转换为语音,并自动将生成的音频文件上传至亚马逊S3,方便访问和共享。
git clone
cd voice-gen-mcp
python3 -m venv venv
source venv/bin/activate # 在Windows上:venv\Scripts\activate
pip install -r requirements.txt
cp env.example .env
# 使用实际配置值编辑.env文件
docker build -t voice-gen-mcp .
cp env.example .env
# 使用配置信息编辑.env文件
docker-compose up -d
基于env.example文件创建一个.env文件,并设置以下必需变量:
VOICE_GEN_API_GROUP_ID=your_minimax_group_id
VOICE_GEN_API_KEY=your_minimax_api_key
S3_BUCKET_NAME=your_s3_bucket_name
S3_REGION=us-east-1
S3_ACCESS_KEY_ID=your_s3_access_key_id
S3_SECRET_ACCESS_KEY=your_s3_secret_access_key
S3_ENDPOINT=https://s3.amazonaws.com
S3_PREFIX=voice-gen/
python3 server.py
docker run -d \
--name voice-gen-mcp \
-p 8000:8000 \
--env-file .env \
voice-gen-mcp
docker-compose up -d
服务器支持多种传输模式:
http://localhost:8000/mcphttp://localhost:8000/ssegenerate_voice将文本转换为语音并上传至S3。
参数:
text(字符串,必需):要转换为语音的文本。model(字符串,可选):要使用的模型(默认:"speech-2.5-hd-preview")。voice_id(字符串,可选):要使用的语音ID(默认:"mylxsw_voice_1")。speed(浮点数,可选):语音速度(默认:1.0,通常为0.5 - 2.0)。返回值:
示例:
{
"text": "Hello, this is a test of the voice generation system.",
"model": "speech-2.5-hd-preview",
"voice_id": "mylxsw_voice_1",
"speed": 1.2
}
速度控制:
speed = 0.5:半速(较慢的语音)。speed = 1.0:正常速度(默认)。speed = 1.5:1.5倍速(较快的语音)。speed = 2.0:双倍速(非常快的语音)。MIT许可证