这是一个模型上下文协议(MCP)服务器,用于处理PDF文档,具备包括LaTeX公式提取在内的高级功能。该服务器能让Claude获取、处理PDF文档并从中提取信息,包括LaTeX数学公式。
此服务器可独立运行,也可与Claude集成使用。独立运行时,执行以下命令:
python pdf_tool_server.py
与Claude集成时,需先完成安装步骤,安装完成后,可向Claude提出如下请求:
pip install -e .
若要将此MCP服务器与Claude桌面版或Claude代码版结合使用,请按以下步骤操作:
若尚未安装MCP命令行工具,请进行安装:
pip install "mcp[cli]"
使用MCP命令行工具安装服务器:
mcp install /path/to/pdf_tool_server.py --with-editable /path/to/mcp_pdf_processor
例如,若将此仓库克隆到了~/mcp_pdf_processor,则执行:
mcp install ~/mcp_pdf_processor/pdf_tool_server.py --with-editable ~/mcp_pdf_processor
若要使用MCP检查器进行开发:
mcp dev /path/to/pdf_tool_server.py --with-editable /path/to/mcp_pdf_processor
在Claude桌面版中,现在可以在对话中使用以下命令调用PDF_TOOLS服务器:
/mcp PDF_TOOLS fetch_pdf url=https://example.com/document.pdf
/mcp PDF_TOOLS process_pdf hash_id= extract_latex=true
/mcp PDF_TOOLS read_processed_pdf filename=
OUTPUT_DIR:用于存储处理后的PDF文件的目录(默认:llm_output)PYTHONPATH:设置为包含mcp_pdf_processor包的目录以下是一个使用PDF处理器与Claude桌面版的完整示例工作流程:
# 1. 获取PDF文件但不读取
/mcp PDF_TOOLS fetch_pdf url=https://arxiv.org/pdf/2505.05522
# 此命令会返回一个哈希ID,用于下一步操作
# 2. 处理PDF文件并提取LaTeX公式
/mcp PDF_TOOLS process_pdf hash_id= extract_latex=true
# 此命令会返回处理后输出文件的文件名
# 3. 读取处理后的内容
/mcp PDF_TOOLS read_processed_pdf filename=
# 现在Claude可以分析PDF内容,包括其中的LaTeX公式
服务器需要以下主要依赖项:
pymupdf:用于PDF处理和文本提取mcp:提供模型上下文协议支持pydantic:用于数据验证和序列化aiohttp:异步HTTP客户端/服务器torch:用于LaTeX公式提取(可选)pix2tex:用于LaTeX公式识别(可选)完整的依赖项列表和版本要求请参考pyproject.toml文件。
本项目采用MIT许可证。