Pdfco Mcp

开发 Python

🚀 PDF.co MCP

PDF.co MCP 服务器通过模型上下文协议（MCP）提供 PDF.co API 功能，使 AI 助手能够轻松执行各种 PDF 处理任务。

🚀 快速开始

PDF.co MCP 服务器借助模型上下文协议（MCP），为 AI 助手赋予强大的 PDF 处理能力。你可以通过一系列简单步骤，快速上手使用该服务器，开启高效的 PDF 处理之旅。

✨ 主要特性

📄 PDF 转换工具

PDF → 多种格式：将 PDF 转换为 JSON、CSV、文本、Excel（XLS/XLSX）、XML、HTML、图像（JPG/PNG/WebP/TIFF）。
多种格式 → PDF：将文档（DOC/DOCX/RTF/TXT）、电子表格（CSV/XLS/XLSX）、图像、网页、HTML、电子邮件（MSG/EML）转换为 PDF。
Excel 转换：将 Excel 文件转换为 CSV、JSON、HTML、TXT、XML、PDF。

🛠️ PDF 编辑与修改

PDF 合并：将多个 PDF 文件合并为一个。
PDF 拆分：按特定页面或页面范围拆分 PDF。
添加注释和图像：向 PDF 中添加文本、链接、图像、形状。
表单操作：读取 PDF 表单字段信息、填写表单、创建新的表单元素。

🔍 PDF 搜索与分析

文本搜索：在 PDF 中搜索文本（支持正则表达式）。
表格检测：查找 PDF 中表格的位置和坐标。
AI 发票解析器：使用 AI 提取发票数据。
PDF 信息：获取详细信息，包括元数据、页面数量、安全信息。

🔒 安全与可访问性

密码保护：为 PDF 添加/移除密码保护。
可搜索性：通过 OCR 使 PDF 可搜索或移除文本层。
附件提取：从 PDF 中提取附件。

💼 文件管理

文件上传：将本地文件上传到 PDF.co 服务器。
任务状态跟踪：监控异步操作的进度和结果。

⚙️ 配置

🔑 获取 API 密钥

在 PDF.co 网站注册。
从仪表盘获取你的 API 密钥。

📦 安装 UV

要使用此 MCP 服务器，你需要安装 UV（一个快速的 Python 打包工具）：

macOS 和 Linux

curl -LsSf https://astral.sh/uv/install.sh | sh

Windows

powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

其他安装方法

Homebrew：brew install uv
使用 pipx 从 PyPI 安装：pipx install uv
使用 pip 从 PyPI 安装：pip install uv

更多安装选项和详细信息，请参阅 UV 安装指南。

MCP 服务器设置

Cursor IDE 配置

将以下内容添加到你的 .cursor/mcp.json 文件中：

{
"mcpServers": {
"pdfco": {
"command": "uvx",
"args": ["pdfco-mcp"],
"env": {
"X_API_KEY": "YOUR_API_KEY_HERE"
}
}
}
}

Claude Desktop 配置

将以下内容添加到你的 claude_desktop_config.json 文件中：

{
"mcpServers": {
"pdfco": {
"command": "uvx",
"args": ["pdfco-mcp"],
"env": {
"X_API_KEY": "YOUR_API_KEY_HERE"
}
}
}
}

🔧 可用工具

PDF 转换工具

pdf_to_json：将 PDF 和扫描图像转换为 JSON 表示，保留文本、字体、图像、矢量和格式。
pdf_to_csv：将 PDF 和扫描图像转换为 CSV 表示，保留布局、列、行和表格。
pdf_to_text：将 PDF 和扫描图像转换为文本，保留布局。
pdf_to_xls：将 PDF 和扫描图像转换为 XLS（Excel 97 - 2003）格式。
pdf_to_xlsx：将 PDF 和扫描图像转换为 XLSX（Excel 2007+）格式。
pdf_to_xml：将 PDF 和扫描图像转换为 XML 格式。
pdf_to_html：将 PDF 和扫描图像转换为 HTML 格式。
pdf_to_image：将 PDF 和扫描图像转换为各种图像格式（JPG、PNG、WebP、TIFF）。

文档转 PDF 工具

document_to_pdf：将各种文档类型（DOC、DOCX、RTF、TXT、XLS、XLSX、CSV、HTML、JPG、PNG、TIFF、WEBP）转换为 PDF。
csv_to_pdf：将 CSV 或电子表格文件（XLS、XLSX）转换为 PDF。
image_to_pdf：将各种图像格式（JPG、PNG、TIFF）转换为 PDF。
webpage_to_pdf：将外部网页 URL 转换为 PDF。
html_to_pdf：将 HTML 转换为 PDF。
email_to_pdf：将电子邮件转换为 PDF。

Excel 转换工具

excel_to_csv：将 Excel（XLS、XLSX）转换为 CSV。
excel_to_json：将 Excel（XLS、XLSX）转换为 JSON。
excel_to_html：将 Excel（XLS、XLSX）转换为 HTML。
excel_to_txt：将 Excel（XLS、XLSX）转换为 TXT。
excel_to_xml：将 Excel（XLS、XLSX）转换为 XML。
excel_to_pdf：将 Excel（XLS、XLSX）转换为 PDF。

PDF 编辑工具

pdf_add_annotations_images_fields：添加文本、图像、表单、其他 PDF、填写表单、链接到外部网站和外部 PDF 文件。你可以更新或修改 PDF 和扫描的 PDF 文件。
pdf_merge：将两个或多个 PDF、DOC、XLS、图像，甚至包含文档和图像的 ZIP 文件合并为一个新的 PDF。
pdf_split：使用页面索引或页面范围将一个 PDF 拆分为多个 PDF 文件。

PDF 表单工具

read_pdf_forms_info：从输入的 PDF 文件中提取可填写 PDF 字段的信息。
fill_pdf_forms：填写 PDF 文档中现有的表单字段。
create_fillable_forms：在 PDF 文档中创建新的可填写表单元素。

PDF 搜索工具

find_text：在 PDF 中查找文本并获取坐标。支持正则表达式。
find_table：在 PDF 中查找表格并获取其坐标。

PDF 分析工具

ai_invoice_parser：AI 发票解析器：使用 AI 从发票中提取数据。
extract_attachments：从源 PDF 文件中提取附件。
pdf_info_reader：获取 PDF 文档的详细信息 - 页数、元数据、安全性、表单字段等。

PDF 安全工具

pdf_add_password：为 PDF 文件添加密码保护。
pdf_remove_password：移除 PDF 文件的密码保护。

PDF 可搜索性工具

pdf_make_searchable：将扫描的 PDF 文档或图像文件转换为可文本搜索的 PDF。运行 OCR 并添加可用于文本搜索的不可见文本层。
pdf_make_unsearchable：通过移除文本层使现有的 PDF 文档不可搜索。

文件管理工具

upload_file：将文件上传到 PDF.co API。
get_job_check：检查任务的状态和结果。状态可以是：正在处理、成功、失败、中止或未知。
wait_job_completion：等待任务完成。

💻 使用示例

基础用法

将 PDF 转换为文本

Convert this PDF file to text: https://example.com/document.pdf

合并多个图像为 PDF

Create a PDF from these images: image1.jpg, image2.png, image3.jpg

在 PDF 中搜索特定文本

Find the word "contract" in this PDF document

填写 PDF 表单字段

Fill the name field in this PDF form with "John Doe"

将网页转换为 PDF

Convert https://example.com webpage to PDF

提取发票数据

Extract invoice information from this PDF using AI

添加密码保护

Add password protection to this PDF file

📖 详细文档

你可以通过以下链接获取更多详细信息：

PDF.co：https://pdf.co
PDF.co API 文档：https://developer.pdf.co
问题报告：请通过 GitHub Issues 报告问题。

📄 许可证

本项目根据 MIT 许可证进行分发。

⚠️ 重要提示

使用此工具需要有效的 PDF.co API 密钥。请在 PDF.co 创建免费账户以获取你的 API 密钥。

0 条评论
分类：开发