OmniParser AutoGUI

OmniParser AutoGUI

🚀 omniparser-autogui-mcp

这是一个借助 OmniParser 对屏幕进行分析,并自动操作 GUI 的 MCP 服务器。经确认,该项目在 Windows 系统上可正常使用。(点击查看日文版)

🚀 快速开始

本项目是使用 OmniParser 分析屏幕并自动操作 GUI 的 MCP 服务器,在 Windows 系统上可用。

📦 安装指南

步骤一:克隆仓库并下载模型

请按照以下步骤进行操作:

git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync
set OCR_LANG=en
uv run download_models.py

📌 注意

  • 非 Windows 系统,请使用 export 替代 set
  • 如果希望 langchain_example.py 正常运行,请使用 uv sync --extra langchain

步骤二:配置 claude_desktop_config.json 文件

将以下内容添加到您的 claude_desktop_config.json 文件中:

{
"mcpServers": {
"omniparser_autogui_mcp": {
"command": "uv",
"args": [
"--directory",
"D:\\CLONED_PATH\\omniparser-autogui-mcp",
"run",
"omniparser-autogui-mcp"
],
"env": {
"PYTHONIOENCODING": "utf-8",
"OCR_LANG": "en"
}
}
}
}

📌 注意:请将 D:\\CLONED_PATH\\omniparser-autogui-mcp 替换为您实际克隆的路径。

额外配置说明

env 允许以下额外配置:

  • OMNI_PARSER_BACKEND_LOAD:如果与其他客户端(如 LibreChat)冲突,请指定 1
  • TARGET_WINDOW_NAME:如果您想指定要操作的窗口,请指定窗口名称。未指定时,默认对整个屏幕进行操作。
  • OMNI_PARSER_SERVER:如果希望 OmniParser 的处理在另一台设备上执行,请指定服务器地址和端口,例如 127.0.0.1:8000。服务器可以通过 uv run omniparserserver 启动。
  • SSE_HOST, SSE_PORT:如果指定,则通信将通过 SSE 而非标准输入输出进行。
  • SOM_MODEL_PATH, CAPTION_MODEL_NAME, CAPTION_MODEL_PATH, OMNI_PARSER_DEVICE, BOX_TRESHOLD:这些用于 OmniParser 的配置。通常情况下,不需要手动设置。

💻 使用示例

基础用法

在屏幕上的浏览器中搜索“MCP 服务器”。

📄 许可证

本项目采用 MIT 许可证,但不包括子模块和子包。
OmniParser 仓库使用 CC-BY-4.0 许可证。
每个 OmniParser 模型具有不同的许可(参考)。

  • 0 关注
  • 0 收藏,29 浏览
  • system 提出于 2025-09-25 03:27

相似服务问题

相关AI产品