Openai Ocr Mcp

Openai Ocr Mcp

🚀 OpenAI OCR MCP 服务器

本项目是一个具备光学字符识别(OCR)功能的模型上下文协议(MCP)服务器,借助 OpenAI 的视觉能力,与 Cursor IDE 集成,可实现从图像中无缝提取文本。

🚀 快速开始

本服务器与 Cursor IDE 集成,能实现从图像中无缝提取文本。只需在 Cursor 设置中配置 MCP 服务器,即可通过命令面板使用 OCR 工具。

✨ 主要特性

  • 图像文字提取:借助 OpenAI 的 GPT - 4.1 - mini 模型,可从 JPG、PNG、GIF 和 WebP 等多种图像格式中精准提取文本。
  • 自动创建文本文件:自动将提取的文本与源图像一同保存,方便后续查看。
  • 基于内容的文件命名:采用唯一的内容哈希进行文件管理,使文件组织更加有序。
  • 强大的错误处理:具备全面的验证和错误报告机制,能有效应对各种异常情况。
  • 详细的日志记录:提供调试友好的日志记录,便于进行故障排查。

📦 安装指南

  1. 克隆仓库。
  2. 安装依赖:
    npm install
    
  3. 构建 TypeScript 代码:
    npm run build
    
  4. .env 文件中设置 OpenAI API 密钥:
    OPENAI_API_KEY=your_api_key_here
    

💻 使用示例

基础用法

在 Cursor IDE 中

  1. 在 Cursor 设置中配置 MCP 服务器。
  2. 通过 Cursor 的命令面板使用 OCR 工具。
  3. 选择要处理的图像文件。
  4. 提取的文本将:
    • 显示在 Cursor 中。
    • 与图像一起保存为文本文件。

文本文件输出

对于每个处理过的图像,服务器创建一个文本文件,采用以下命名约定:

{原始图像名称}-{内容哈希}.txt

示例:

  • 输入图像:document.jpg
  • 输出文件:document-a1b2c3d4.txt

content_hash 是从提取的文本中生成的独特 8 字符哈希,确保:

  • 不同文本内容的独特文件名。
  • 源图像与提取文本之间的轻松匹配。
  • 当同一图像产生不同结果时进行版本跟踪。

高级用法

本服务器支持多种图像格式,包括 JPEG/JPG、PNG、GIF 和 WebP。同时,建立了文件大小验证机制,最大文件大小限制为 5MB,超过此限制的文件将被拒绝并显示错误消息。

🔧 技术细节

视觉模型

  • 使用 OpenAI 的 GPT - 4.1 - mini 模型,该模型经过优化,可用于从图像中提取文本,支持高详细度的图像分析,并通过 OpenAI 的视觉 API 处理图像。
  • 支持高详细度的图像分析。
  • 通过 OpenAI 的视觉 API 处理图像。

文件处理

  • 自动创建文本文件。
  • 进行内容哈希生成。
  • 支持多种图像格式。
  • 建立在文件大小验证基础上。

📄 许可证

本项目采用 MIT License。

  • 0 关注
  • 0 收藏,24 浏览
  • system 提出于 2025-10-01 09:09

相似服务问题

相关AI产品