Mcp_pdf_processor

搜索 Python

🚀 PDF处理器MCP服务器

这是一个模型上下文协议（MCP）服务器，用于处理PDF文档，具备包括LaTeX公式提取在内的高级功能。该服务器能让Claude获取、处理PDF文档并从中提取信息，包括LaTeX数学公式。

🚀 快速开始

此服务器可独立运行，也可与Claude集成使用。独立运行时，执行以下命令：

python pdf_tool_server.py

与Claude集成时，需先完成安装步骤，安装完成后，可向Claude提出如下请求：

"获取并分析[URL]处的PDF文件"
"从[URL]处的PDF文件中提取LaTeX公式"
"总结[URL]处PDF文件的内容"

✨ 主要特性

从URL获取PDF文件
从PDF文件中提取文本
识别并提取LaTeX公式
通过MCP与Claude集成

📦 安装指南

标准安装

pip install -e .

为Claude桌面版/Claude代码版安装

若要将此MCP服务器与Claude桌面版或Claude代码版结合使用，请按以下步骤操作：

若尚未安装MCP命令行工具，请进行安装：
```
pip install "mcp[cli]"
```

使用MCP命令行工具安装服务器：

mcp install /path/to/pdf_tool_server.py --with-editable /path/to/mcp_pdf_processor

例如，若将此仓库克隆到了~/mcp_pdf_processor，则执行：

mcp install ~/mcp_pdf_processor/pdf_tool_server.py --with-editable ~/mcp_pdf_processor

若要使用MCP检查器进行开发：

mcp dev /path/to/pdf_tool_server.py --with-editable /path/to/mcp_pdf_processor

在Claude桌面版中，现在可以在对话中使用以下命令调用PDF_TOOLS服务器：

/mcp PDF_TOOLS fetch_pdf url=https://example.com/document.pdf
/mcp PDF_TOOLS process_pdf hash_id= extract_latex=true
/mcp PDF_TOOLS read_processed_pdf filename=

环境变量

OUTPUT_DIR：用于存储处理后的PDF文件的目录（默认：llm_output）
PYTHONPATH：设置为包含mcp_pdf_processor包的目录

💻 使用示例

基础用法

以下是一个使用PDF处理器与Claude桌面版的完整示例工作流程：

# 1. 获取PDF文件但不读取
/mcp PDF_TOOLS fetch_pdf url=https://arxiv.org/pdf/2505.05522

# 此命令会返回一个哈希ID，用于下一步操作

# 2. 处理PDF文件并提取LaTeX公式
/mcp PDF_TOOLS process_pdf hash_id= extract_latex=true

# 此命令会返回处理后输出文件的文件名

# 3. 读取处理后的内容
/mcp PDF_TOOLS read_processed_pdf filename=

# 现在Claude可以分析PDF内容，包括其中的LaTeX公式

📚 详细文档

依赖要求

服务器需要以下主要依赖项：

Python 3.9或更高版本
pymupdf：用于PDF处理和文本提取
mcp：提供模型上下文协议支持
pydantic：用于数据验证和序列化
aiohttp：异步HTTP客户端/服务器
torch：用于LaTeX公式提取（可选）
pix2tex：用于LaTeX公式识别（可选）

完整的依赖项列表和版本要求请参考pyproject.toml文件。

📄 许可证

本项目采用MIT许可证。

0 条评论
分类：搜索