GLM-4.5V MCP 服务器具备多模态能力,可提供图像处理、视觉查询和文件处理等功能,为用户在相关领域的操作提供便利。
GLM-4.5V MCP 服务器可帮助你轻松实现图像处理、视觉查询和文件处理。以下是使用该服务器的基本步骤:
npm install
复制环境变量文件:
cp .env.example .env
编辑 .env 文件,填入你的 GLM API Key:
GLM_API_KEY=your_api_key_here
GLM_BASE_URL=https://open.bigmodel.cn/api/paas/v4/chat/completions
npm run build
npm start
或使用启动脚本:
./start-mcp.sh
npm run dev
创建测试文件并验证功能:
node scripts/test-file-processing.js
读取图片并返回 base64 编码的 dataURL。
参数:
| 参数 | 详情 |
|---|---|
path |
图片路径或 URL(必需) |
maxSide |
最大边长,用于缩放(可选) |
使用 GLM-4.5V 分析图片。
参数:
| 参数 | 详情 |
|---|---|
path |
图片路径或 URL(必需) |
prompt |
查询提示词(必需) |
mode |
查询模式 ("describe", "ocr", "qa", "detect")(可选) |
returnJson |
是否返回 JSON 格式结果(可选) |
使用 GLM-4.5V 处理文件,支持多种格式的文件上传和内容提取。
支持的文件格式:
文件大小限制:
参数:
| 参数 | 详情 |
|---|---|
filePath |
本地文件路径(必需) |
extractPrompt |
内容提取提示词,用于指导如何提取文件内容(可选) |
返回结果:
{
"ok": true,
"fileId": "file-xxx",
"content": "提取的文件内容...",
"fileType": "PDF文档",
"filename": "document.pdf",
"metadata": {
"uploadTime": 1234567890,
"fileSize": 1024000,
"processingTime": 5000
}
}
# 通过 MCP 调用
{
"tool": "process_file",
"arguments": {
"filePath": "./documents/report.pdf",
"extractPrompt": "请提取文档中的主要内容和关键信息"
}
}
{
"tool": "process_file",
"arguments": {
"filePath": "./data/sales.xlsx",
"extractPrompt": "请分析表格数据并总结销售趋势"
}
}