Openai Ocr Mcp

开发官方认证 TypeScript

🚀 OpenAI OCR MCP 服务器

本项目是一个具备光学字符识别（OCR）功能的模型上下文协议（MCP）服务器，借助 OpenAI 的视觉能力，与 Cursor IDE 集成，可实现从图像中无缝提取文本。

本服务器与 Cursor IDE 集成，能实现从图像中无缝提取文本。只需在 Cursor 设置中配置 MCP 服务器，即可通过命令面板使用 OCR 工具。

图像文字提取：借助 OpenAI 的 GPT - 4.1 - mini 模型，可从 JPG、PNG、GIF 和 WebP 等多种图像格式中精准提取文本。
自动创建文本文件：自动将提取的文本与源图像一同保存，方便后续查看。
基于内容的文件命名：采用唯一的内容哈希进行文件管理，使文件组织更加有序。
强大的错误处理：具备全面的验证和错误报告机制，能有效应对各种异常情况。
详细的日志记录：提供调试友好的日志记录，便于进行故障排查。

对于每个处理过的图像，服务器创建一个文本文件，采用以下命名约定：

{原始图像名称}-{内容哈希}.txt

示例：

content_hash 是从提取的文本中生成的独特 8 字符哈希，确保：

本服务器支持多种图像格式，包括 JPEG/JPG、PNG、GIF 和 WebP。同时，建立了文件大小验证机制，最大文件大小限制为 5MB，超过此限制的文件将被拒绝并显示错误消息。

使用 OpenAI 的 GPT - 4.1 - mini 模型，该模型经过优化，可用于从图像中提取文本，支持高详细度的图像分析，并通过 OpenAI 的视觉 API 处理图像。
支持高详细度的图像分析。
通过 OpenAI 的视觉 API 处理图像。

本项目采用 MIT License。