Omniparser Autogui Mcp

Omniparser Autogui Mcp

🚀 omniparser-autogui-mcp

这是一个基于 MCP 协议的服务器项目,借助 OmniParser 实现屏幕分析与图形用户界面(GUI)的自动操作。该项目已在 Windows 系统上完成验证。

🚀 快速开始

本项目是基于 MCP 协议的服务器,利用 OmniParser 分析屏幕并自动操作图形用户界面(GUI),已在 Windows 上验证通过。

📦 安装指南

步骤一:克隆仓库并下载模型

请按照以下步骤操作:

git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync
set OCR_LANG=en
uv run download_models.py

⚠️ 重要提示

  • 非 Windows 系统,请将set替换为export
  • 如果希望langchain_example.py正常运行,则使用uv sync --extra langchain

步骤二:配置 claude_desktop_config.json 文件

将以下内容添加到你的claude_desktop_config.json文件中:

{
"mcpServers": {
"omniparser_autogui_mcp": {
"command": "uv",
"args": [
"--directory",
"D:\\CLONED_PATH\\omniparser-autogui-mcp",
"run",
"omniparser-autogui-mcp"
],
"env": {
"PYTHONIOENCODING": "utf-8",
"OCR_LANG": "en"
}
}
}
}

⚠️ 重要提示

请将D:\\CLONED_PATH\\omniparser-autogui-mcp替换为你克隆的实际路径。

额外配置说明

允许以下额外配置:
- ``OMNI_PARSER_BACKEND_LOAD``
如果与其他客户端(如[LibreChat](https://github.com/danny-avila/LibreChat))冲突,请指定值为`1`。

- ``TARGET_WINDOW_NAME``
如果你希望指定要操作的窗口,请指定窗口名称。
未指定时,默认对整个屏幕进行操作。

- ``OMNI_PARSER_SERVER``
如果你希望OmniParser的处理在另一台设备上完成,请指定服务器的地址和端口,例如`127.0.0.1:8000`。
服务器可以通过`uv run omniparserserver`启动。

- ``SSE_HOST``, ``SSE_PORT``
如果指定,则通信将通过SSE(Server-Sent Events)而非标准输入输出进行。

- ``SOM_MODEL_PATH``, ``CAPTION_MODEL_NAME``, ``CAPTION_MODEL_PATH``, ``OMNI_PARSER_DEVICE``, ``BOX_TRESHOLD``
这些选项用于OmniParser的配置。
通常情况下,可能不需要调整这些参数。

📄 许可证

本项目采用 MIT 许可证,但不包括子模块和子包。
OmniParser 仓库使用的是 CC - BY - 4.0 协议。
每个 OmniParser 模型具有不同的许可协议(参考)。

  • 0 关注
  • 0 收藏,28 浏览
  • system 提出于 2025-09-25 02:45

相似服务问题

相关AI产品