Mcp_pdf_processor

Mcp_pdf_processor

🚀 PDF处理器MCP服务器

这是一个模型上下文协议(MCP)服务器,用于处理PDF文档,具备包括LaTeX公式提取在内的高级功能。该服务器能让Claude获取、处理PDF文档并从中提取信息,包括LaTeX数学公式。

🚀 快速开始

此服务器可独立运行,也可与Claude集成使用。独立运行时,执行以下命令:

python pdf_tool_server.py

与Claude集成时,需先完成安装步骤,安装完成后,可向Claude提出如下请求:

  • "获取并分析[URL]处的PDF文件"
  • "从[URL]处的PDF文件中提取LaTeX公式"
  • "总结[URL]处PDF文件的内容"

✨ 主要特性

  • 从URL获取PDF文件
  • 从PDF文件中提取文本
  • 识别并提取LaTeX公式
  • 通过MCP与Claude集成

📦 安装指南

标准安装

pip install -e .

为Claude桌面版/Claude代码版安装

若要将此MCP服务器与Claude桌面版或Claude代码版结合使用,请按以下步骤操作:

  1. 若尚未安装MCP命令行工具,请进行安装:

    pip install "mcp[cli]"
    
  2. 使用MCP命令行工具安装服务器:

    mcp install /path/to/pdf_tool_server.py --with-editable /path/to/mcp_pdf_processor
    

    例如,若将此仓库克隆到了~/mcp_pdf_processor,则执行:

    mcp install ~/mcp_pdf_processor/pdf_tool_server.py --with-editable ~/mcp_pdf_processor
    
  3. 若要使用MCP检查器进行开发:

    mcp dev /path/to/pdf_tool_server.py --with-editable /path/to/mcp_pdf_processor
    
  4. 在Claude桌面版中,现在可以在对话中使用以下命令调用PDF_TOOLS服务器:

    /mcp PDF_TOOLS fetch_pdf url=https://example.com/document.pdf
    /mcp PDF_TOOLS process_pdf hash_id= extract_latex=true
    /mcp PDF_TOOLS read_processed_pdf filename=
    

环境变量

  • OUTPUT_DIR:用于存储处理后的PDF文件的目录(默认:llm_output
  • PYTHONPATH:设置为包含mcp_pdf_processor包的目录

💻 使用示例

基础用法

以下是一个使用PDF处理器与Claude桌面版的完整示例工作流程:

# 1. 获取PDF文件但不读取
/mcp PDF_TOOLS fetch_pdf url=https://arxiv.org/pdf/2505.05522

# 此命令会返回一个哈希ID,用于下一步操作

# 2. 处理PDF文件并提取LaTeX公式
/mcp PDF_TOOLS process_pdf hash_id= extract_latex=true

# 此命令会返回处理后输出文件的文件名

# 3. 读取处理后的内容
/mcp PDF_TOOLS read_processed_pdf filename=

# 现在Claude可以分析PDF内容,包括其中的LaTeX公式

📚 详细文档

依赖要求

服务器需要以下主要依赖项:

  • Python 3.9或更高版本
  • pymupdf:用于PDF处理和文本提取
  • mcp:提供模型上下文协议支持
  • pydantic:用于数据验证和序列化
  • aiohttp:异步HTTP客户端/服务器
  • torch:用于LaTeX公式提取(可选)
  • pix2tex:用于LaTeX公式识别(可选)

完整的依赖项列表和版本要求请参考pyproject.toml文件。

📄 许可证

本项目采用MIT许可证。

  • 0 关注
  • 0 收藏,28 浏览
  • system 提出于 2025-10-02 09:48

相似服务问题

相关AI产品