桌面自动化服务器是一个提供桌面自动化功能的模型上下文协议(MCP)服务器,它结合了RobotJS和截图功能。该服务器为大语言模型(LLMs)赋予了控制鼠标移动、键盘输入的能力,还能捕获桌面环境的屏幕截图,极大地拓展了大语言模型与桌面交互的可能性。
以下是使用NPX命令进行配置的具体方法:
{
"mcpServers": {
"desktop-automation": {
"command": "npx",
"args": ["-y", "mcp-desktop-automation"]
}
}
}
此服务器需要系统级权限来执行以下操作:
当首次运行Claude Desktop并使用此服务器时,可能需要在操作系统的安全设置中授予这些权限。
该服务器提供了丰富的工具组件,以实现多样化的桌面自动化操作:
key(字符串,必需,要按下的键,例如 “enter”,“a”,“control”)和 modifiers(字符串数组,可选,按下时需要保持的修饰键,可能值:“control”,“shift”,“alt”,“command”)。text(字符串,必需,要输入的文本)。button(字符串,可选,默认值:“left”,要点击的鼠标按钮,可能值:“left”,“right”,“middle”)和 double(布尔值,可选,默认值:false,是否执行双击)。x(数字,必需,X坐标)和 y(数字,必需,Y坐标)。该服务器提供对屏幕截图的访问:
screenshot://list):列出所有可用屏幕截图的名称。screenshot://{id}):屏幕截图的PNG图像,通过屏幕截图ID(基于时间戳命名)即可访问。尽管该服务器可以与各种MCP客户端一起使用,但它主要经过测试与Claude Desktop兼容。
⚠️ 重要提示
当前实现有一个1MB的响应大小限制。对于屏幕截图来说,这意味着: