🚀 OpenAI OCR MCP 服务器
本项目是一个具备光学字符识别(OCR)功能的模型上下文协议(MCP)服务器,借助 OpenAI 的视觉能力,与 Cursor IDE 集成,可实现从图像中无缝提取文本。
🚀 快速开始
本服务器与 Cursor IDE 集成,能实现从图像中无缝提取文本。只需在 Cursor 设置中配置 MCP 服务器,即可通过命令面板使用 OCR 工具。
✨ 主要特性
- 图像文字提取:借助 OpenAI 的 GPT - 4.1 - mini 模型,可从 JPG、PNG、GIF 和 WebP 等多种图像格式中精准提取文本。
- 自动创建文本文件:自动将提取的文本与源图像一同保存,方便后续查看。
- 基于内容的文件命名:采用唯一的内容哈希进行文件管理,使文件组织更加有序。
- 强大的错误处理:具备全面的验证和错误报告机制,能有效应对各种异常情况。
- 详细的日志记录:提供调试友好的日志记录,便于进行故障排查。
📦 安装指南
- 克隆仓库。
- 安装依赖:
npm install
- 构建 TypeScript 代码:
npm run build
- 在
.env 文件中设置 OpenAI API 密钥:OPENAI_API_KEY=your_api_key_here
💻 使用示例
基础用法
在 Cursor IDE 中
- 在 Cursor 设置中配置 MCP 服务器。
- 通过 Cursor 的命令面板使用 OCR 工具。
- 选择要处理的图像文件。
- 提取的文本将:
- 显示在 Cursor 中。
- 与图像一起保存为文本文件。
文本文件输出
对于每个处理过的图像,服务器创建一个文本文件,采用以下命名约定:
{原始图像名称}-{内容哈希}.txt
示例:
- 输入图像:
document.jpg
- 输出文件:
document-a1b2c3d4.txt
content_hash 是从提取的文本中生成的独特 8 字符哈希,确保:
- 不同文本内容的独特文件名。
- 源图像与提取文本之间的轻松匹配。
- 当同一图像产生不同结果时进行版本跟踪。
高级用法
本服务器支持多种图像格式,包括 JPEG/JPG、PNG、GIF 和 WebP。同时,建立了文件大小验证机制,最大文件大小限制为 5MB,超过此限制的文件将被拒绝并显示错误消息。
🔧 技术细节
视觉模型
- 使用 OpenAI 的 GPT - 4.1 - mini 模型,该模型经过优化,可用于从图像中提取文本,支持高详细度的图像分析,并通过 OpenAI 的视觉 API 处理图像。
- 支持高详细度的图像分析。
- 通过 OpenAI 的视觉 API 处理图像。
文件处理
- 自动创建文本文件。
- 进行内容哈希生成。
- 支持多种图像格式。
- 建立在文件大小验证基础上。
📄 许可证
本项目采用 MIT License。