Desktop Automation

Desktop Automation

🚀 桌面自动化服务器

桌面自动化服务器是一个提供桌面自动化功能的模型上下文协议(MCP)服务器,它结合了RobotJS和截图功能。该服务器为大语言模型(LLMs)赋予了控制鼠标移动、键盘输入的能力,还能捕获桌面环境的屏幕截图,极大地拓展了大语言模型与桌面交互的可能性。

🚀 快速开始

配置Claude Desktop以使用MCP桌面自动化服务器

以下是使用NPX命令进行配置的具体方法:

{
"mcpServers": {
"desktop-automation": {
"command": "npx",
"args": ["-y", "mcp-desktop-automation"]
}
}
}

权限要求

此服务器需要系统级权限来执行以下操作:

  • 捕获屏幕截图
  • 控制鼠标移动和点击
  • 模拟键盘输入

当首次运行Claude Desktop并使用此服务器时,可能需要在操作系统的安全设置中授予这些权限。

✨ 主要特性

多组件支持

该服务器提供了丰富的工具组件,以实现多样化的桌面自动化操作:

  • get_screen_size:获取屏幕尺寸,无需输入参数。
  • screen_capture:捕获当前屏幕内容,无需输入参数。
  • keyboard_press:按下键盘上的一个键或组合键。输入参数包括 key(字符串,必需,要按下的键,例如 “enter”,“a”,“control”)和 modifiers(字符串数组,可选,按下时需要保持的修饰键,可能值:“control”,“shift”,“alt”,“command”)。
  • keyboard_type:在当前光标位置输入文本,输入参数为 text(字符串,必需,要输入的文本)。
  • mouse_click:执行鼠标点击。输入参数包括 button(字符串,可选,默认值:“left”,要点击的鼠标按钮,可能值:“left”,“right”,“middle”)和 double(布尔值,可选,默认值:false,是否执行双击)。
  • mouse_move:将鼠标移动到指定坐标。输入参数包括 x(数字,必需,X坐标)和 y(数字,必需,Y坐标)。

资源访问便利

该服务器提供对屏幕截图的访问:

  1. 屏幕截图列表 (screenshot://list):列出所有可用屏幕截图的名称。
  2. 屏幕截图内容 (screenshot://{id}):屏幕截图的PNG图像,通过屏幕截图ID(基于时间戳命名)即可访问。

🔧 技术细节

系统要求

  • Node.js(>=14.x)

限制

尽管该服务器可以与各种MCP客户端一起使用,但它主要经过测试与Claude Desktop兼容。

⚠️ 重要提示

当前实现有一个1MB的响应大小限制。对于屏幕截图来说,这意味着:

  • 高分辨率的截图可能会超出此限制并导致失败。
  • 测试表明800x600分辨率可靠工作。
  • 如果遇到问题,请考虑降低屏幕分辨率或捕获特定区域的屏幕。
  • 0 关注
  • 0 收藏,29 浏览
  • system 提出于 2025-09-25 08:15

相似服务问题

相关AI产品