🚀 MCP-PDF2MD 服务
这是一个基于MCP的高性能PDF转Markdown转换服务,由MinerU API提供支持。它可以实现本地文件和URL链接的批量处理,并输出结构化结果,能高效满足大量PDF文件的转换需求。
🚀 快速开始
- 克隆仓库并进入目录:
git clone https://github.com/FutureUnreal/mcp-pdf2md.git
cd mcp-pdf2md
- 创建虚拟环境并安装依赖:
Linux/macOS:
uv venv
source .venv/bin/activate
uv pip install -e .
Windows:
uv venv
.venv\Scripts\activate
uv pip install -e .
- 配置环境变量:
在项目根目录下创建一个
.env文件,并设置以下环境变量:
MINERU_API_BASE=https://mineru.net/api/v4/extract/task
MINERU_BATCH_API=https://
✨ 主要特性
- 格式转换:将PDF文件转换为带有结构的Markdown格式。
- 多源支持:支持同时处理本地PDF文件和网络URL链接。
- 智能处理:自动选择最佳处理方式。
- 批处理支持:可批量处理多个文件,高效应对大量PDF文件的处理需求。
- MCP集成:与Claude Desktop等大语言模型客户端无缝对接。
- 结构保留:保持原文档结构,包括标题、段落、列表等内容。
- 智能排版:输出符合人类阅读习惯的文字顺序,支持单列、多列及复杂版式。
- 公式转换:自动识别并转换文档中的公式为LaTeX格式。
- 表格提取:自动识别并转换文档中的表格为结构化格式。
- 清理优化:删除页眉、页脚、注释、页码等,确保语义连贯。
- 高质量提取:高质量提取PDF文档中的文字、图片和排版信息。
📦 安装指南
系统要求