Paint Ai Agent

Paint Ai Agent

🚀 画图绘制代理

画图绘制代理是一个基于Python的自动化工具,它借助Google的Gemini AI,让用户可以通过自然语言指令来控制Microsoft Paint。用户只需使用简单的英文指令,就能在MS Paint中绘制各种形状、插入文本,还能进行颜色管理,极大地提升了绘图的便捷性。

🚀 快速开始

先决条件

  • Windows 10或更高版本
  • Python 3.8+
  • Microsoft Paint (mspaint.exe)
  • Google Cloud API密钥用于Gemini AI

安装步骤

  1. 克隆仓库:
git clone [仓库地址]
cd paint-drawing-agent
  1. 安装所需的依赖项:
pip install -r requirements.txt
  1. 在项目根目录中创建一个.env文件,并添加您的Google API密钥:
GOOGLE_API_KEY=your_api_key_here

启动程序

  1. 启动画图绘制代理:
python talk2mcp.py
  1. 输入自然语言指令,例如:
  • "在中心画一个红色的圆"
  • "在顶部写'Hello World'并用黑色显示"
  • "在右侧绘制一个蓝色矩形"
  1. 要退出程序,请输入'quit'

✨ 主要特性

  • 自然语言控制MS Paint,让绘图操作更简单。
  • 自动绘制形状,如圆形、矩形、直线。
  • 支持文本插入,并能进行位置控制。
  • 可进行颜色选择和管理。
  • 具备窗口管理和画布定位功能。
  • 详细日志记录和错误处理,方便排查问题。
  • 拥有位置校准系统,确保绘图位置准确。

📦 安装指南

克隆仓库

git clone [仓库地址]
cd paint-drawing-agent

安装依赖

pip install -r requirements.txt

配置API密钥

在项目根目录中创建一个.env文件,并添加您的Google API密钥:

GOOGLE_API_KEY=your_api_key_here

💻 使用示例

基础用法

python talk2mcp.py

输入以下指令即可开始绘图:

> 在中心画一个红色的圆
> 在顶部写'Hello World'并用黑色显示
> 在坐标400,300处绘制一个蓝色矩形
> 从顶部到底部画一条绿色直线

高级用法

若遇到绘制位置不准确的问题,可重新校准系统:

  1. 运行校准脚本:
python enhanced_calibrate.py
  1. 按照屏幕上的指示进行工具位置校准

📚 详细文档

项目结构

paint-drawing-agent/
├── talk2mcp.py           # 主应用程序文件
├── tools/                # 核心自动化工具
│   ├── __init__.py
│   └── paint_commands.py # Paint自动化命令
├── calibration_profiles/ # 存储的校准数据
├── LLM_LOGS/            # AI交互日志
├── logs/                # 应用程序日志
└── requirements.txt     # 项目依赖项

校准

系统使用校准系统来精确定位Paint界面元素。要重新校准:

  1. 运行校准脚本:
python enhanced_calibrate.py
  1. 按照屏幕上的指示进行工具位置校准

日志记录

系统维护多种类型的日志:

  • 应用程序日志:/logs/paint_agent_[时间戳].log
  • AI交互日志:/LLM_LOGS/session_log.json
  • 校准日志:/calibration_profiles/

错误处理

系统包含全面的错误处理功能,包括:

  • 窗口管理问题
  • 绘制操作失败
  • AI通信错误
  • 位置校准问题

贡献指南

  1. 叉克隆仓库
  2. 创建功能分支
  3. 提交您的更改
  4. 推送到分支
  5. 创建拉取请求

故障排除

常见问题及解决方案:

  1. 未找到Paint窗口

    • 确保MS Paint已安装
    • 先手动运行Paint再试一次
  2. 绘制位置问题

    • 重新运行校准程序
    • 检查屏幕分辨率与校准是否匹配
  3. AI通信错误

    • 验证.env文件中的API密钥
    • 检查互联网连接

🔧 技术细节

该项目利用Google的Gemini AI进行自然语言处理,将用户输入的英文指令转换为可执行的绘图操作。同时,使用PyAutoGUI进行GUI自动化,Win32GUI进行Windows交互,实现对Microsoft Paint的控制。通过位置校准系统,确保绘图位置的准确性。详细日志记录和全面的错误处理功能,方便用户排查和解决问题。

📄 许可证

[此处放置您的许可证信息]

致谢

  • Google Gemini AI用于自然语言处理
  • PyAutoGUI用于GUI自动化
  • Win32GUI用于Windows交互
  • 0 关注
  • 0 收藏,24 浏览
  • system 提出于 2025-10-01 00:33

相似服务问题

相关AI产品