Mcp Server Ai Vision

Mcp Server Ai Vision

🚀 AI 视觉 MCP 服务器

这是一个提供 AI 视觉分析功能的 MCP(模型上下文协议)服务器,支持 Claude 和其他兼容 MCP 的 AI 助手。它能为用户提供强大的视觉分析能力,助力高效完成各类视觉相关任务。

✨ 主要特性

  • 截图 URL:可通过提供 URL 捕获任意网站的屏幕快照。
  • 视觉分析:对屏幕快照中的 UI 元素、布局和内容进行分析。
  • 文件操作:能够按行精确读取和修改文件。
  • 报告生成:创建全面的 UI/UX 分析报告。
  • 调试会话:在多个分析步骤之间维护上下文。

📦 安装指南

# 克隆仓库
git clone https://github.com/samihalawa/mcp-server-ai-vision.git
cd mcp-server-ai-vision

# 安装依赖
npm install

# 构建服务器
npm run build

💻 使用示例

启动服务器

npm start

配置

将服务器添加到您的 MCP 配置中:

{
"servers": {
"ai-vision": {
"command": "/path/to/node",
"args": ["/path/to/mcp-server-ai-vision/build/index.js"],
"enabled": true,
"port": 3005,
"environment": {
"NODE_PATH": "/path/to/node_modules",
"PATH": "/usr/local/bin:/usr/bin:/bin",
"GEMINI_API_KEY": "your-gemini-api-key"
}
}
}
}

可用工具

screenshot_url

使用网络浏览器捕获 URL 的屏幕快照。

  • 参数
    • url (字符串,必需):要捕获屏幕快照的 URL(例如 http://localhost:4999, https://google.com)
    • fullPage (布尔值,可选):是否捕获整页还是仅视图端口。默认:false
    • waitForSelector (字符串,可选):在捕获屏幕快照前等待的 CSS 选择器
    • waitTime (数字,可选):等待的时间(以毫秒为单位)。默认:1000

analyze_screen

使用 AI 视觉分析屏幕快照。

  • 参数:无(使用最新的屏幕快照)

read_file

读取文件指定行号之间的内容。

  • 参数
    • path (字符串):文件路径
    • startLine (数字):起始行号(1-based)
    • endLine (数字):结束行号(1-based)

modify_file

修改文件指定行号之间的内容。

  • 参数
    • path (字符串):文件路径
    • startLine (数字):要替换的起始行号(1-based)
    • endLine (数字):要替换的结束行号(1-based)
    • content (字符串):新的内容以替换指定的行

generate_report

生成全面的 UI/UX 分析报告。

  • 参数
    • testUrl (字符串):正在测试的应用程序 URL
    • appName (字符串,可选):正在分析的应用程序名称
    • date (字符串,可选):分析日期(格式 YYYY - MM - DD)
    • observations (对象):结构化的观察结果,按组件、数据状态和交互等分类

示例工作流程

  1. 捕获网站屏幕快照:
    screenshot_url(url: "https://example.com")
    
  2. 分析屏幕快照:
    analyze_screen()
    
  3. 根据分析生成报告:
    generate_report(testUrl: "https://example.com", observations: {...})
    

📚 详细文档

要求

  • Node.js 14+
  • Playwright 用于浏览器自动化
  • Gemini API 密钥用于 AI 视觉分析

📄 许可证

MIT

  • 0 关注
  • 0 收藏,20 浏览
  • system 提出于 2025-10-01 02:00

相似服务问题

相关AI产品