Multimodel MCP

Multimodel MCP

🚀 GLM-4.5V MCP 服务器

GLM-4.5V MCP 服务器具备多模态能力,可提供图像处理、视觉查询和文件处理等功能,为用户在相关领域的操作提供便利。

🚀 快速开始

GLM-4.5V MCP 服务器可帮助你轻松实现图像处理、视觉查询和文件处理。以下是使用该服务器的基本步骤:

  1. 安装依赖
  2. 配置环境变量
  3. 构建项目
  4. 启动服务器

✨ 主要特性

  • read_image:能读取本地或 URL 图片,并返回 dataURL 与尺寸信息。
  • vision_query:可调用 GLM-4.5V 对图片进行 OCR、问答、检测等操作。
  • process_file:使用 GLM-4.5V 处理文件,支持文件上传并提取内容。

📦 安装指南

安装依赖

npm install

配置环境变量

复制环境变量文件:

cp .env.example .env

编辑 .env 文件,填入你的 GLM API Key:

GLM_API_KEY=your_api_key_here
GLM_BASE_URL=https://open.bigmodel.cn/api/paas/v4/chat/completions

构建项目

npm run build

启动服务器

npm start

或使用启动脚本:

./start-mcp.sh

开发模式

npm run dev

测试功能

创建测试文件并验证功能:

node scripts/test-file-processing.js

📚 详细文档

read_image

读取图片并返回 base64 编码的 dataURL。

参数

参数 详情
path 图片路径或 URL(必需)
maxSide 最大边长,用于缩放(可选)

vision_query

使用 GLM-4.5V 分析图片。

参数

参数 详情
path 图片路径或 URL(必需)
prompt 查询提示词(必需)
mode 查询模式 ("describe", "ocr", "qa", "detect")(可选)
returnJson 是否返回 JSON 格式结果(可选)

process_file

使用 GLM-4.5V 处理文件,支持多种格式的文件上传和内容提取。

支持的文件格式

  • 文档:PDF、DOCX、DOC、XLS、XLSX、PPT、PPTX、CSV、TXT
  • 图片:PNG、JPG、JPEG

文件大小限制

  • 图片文件:最大 5MB
  • 其他文件:最大 50MB

参数

参数 详情
filePath 本地文件路径(必需)
extractPrompt 内容提取提示词,用于指导如何提取文件内容(可选)

返回结果

{
"ok": true,
"fileId": "file-xxx",
"content": "提取的文件内容...",
"fileType": "PDF文档",
"filename": "document.pdf",
"metadata": {
"uploadTime": 1234567890,
"fileSize": 1024000,
"processingTime": 5000
}
}

💻 使用示例

基础用法

处理 PDF 文档

# 通过 MCP 调用
{
"tool": "process_file",
"arguments": {
"filePath": "./documents/report.pdf",
"extractPrompt": "请提取文档中的主要内容和关键信息"
}
}

处理 Excel 表格

{
"tool": "process_file",
"arguments": {
"filePath": "./data/sales.xlsx",
"extractPrompt": "请分析表格数据并总结销售趋势"
}
}
  • 0 关注
  • 0 收藏,28 浏览
  • system 提出于 2025-10-01 11:36

相似服务问题

相关AI产品