Mcp Docling

Mcp Docling

🚀 MCP 文档处理服务器

MCP 文档处理服务器借助 Docling 库,为用户提供强大的文档处理功能,满足多样化的文档处理需求。

🚀 快速开始

安装

你可以使用 pip 进行安装:

pip install -e .

启动服务器

使用标准输入输出(默认)或 SSE 传输启动服务器:

# 使用 stdio 传输(默认)
mcp-server-lls

# 使用 SSE 传输和自定义端口
mcp-server-lls --transport sse --port 8000

如果你使用 uv,可以直接运行服务器而不需安装:

# 使用 stdio 传输(默认)
uv run mcp-server-lls

# 使用 SSE 传输和自定义端口
uv run mcp-server-lls --transport sse --port 8000

✨ 主要特性

  • 支持多种文档处理工具,涵盖文档格式转换、表格提取、批量处理等功能。
  • 可与 Llama Stack 结合使用,为大语言模型应用提供文档处理能力。
  • 具备缓存机制,在 ~/.cache/mcp-docling/ 目录下缓存处理过的文档,提升重复请求性能。

💻 使用示例

基础用法

结合 Llama Stack 使用

你可以将此服务器与 Llama Stack 结合使用,为你的大语言模型应用提供文档处理功能。确保有一个运行中的 Llama Stack 实例。

# 以下是一个示例代码:
_summary_and_qna('https://arxiv.org/pdf/2004.07606')

📚 详细文档

可用工具

服务器公开了以下工具:

  1. convert_document:将来自 URL 或本地路径的文档转换为 Markdown 格式

    • source:文档的 URL 或本地文件路径(必需)
    • enable_ocr:是否启用 OCR 处理扫描件(可选,默认:false)
    • ocr_language:OCR 语言代码列表,例如 ["en", "fr"](可选)
  2. convert_document_with_images:转换文档并提取嵌入的图片

    • source:文档的 URL 或本地文件路径(必需)
    • enable_ocr:是否启用 OCR 处理扫描件(可选,默认:false)
    • ocr_language:OCR 语言代码列表(可选)
  3. extract_tables:提取文档中的表格并以结构化数据形式返回

    • source:文档的 URL 或本地文件路径(必需)
  4. convert_batch:批量处理多个文档

    • sources:文档 URL 或文件路径的列表(必需)
    • enable_ocr:是否启用 OCR 处理扫描件(可选,默认:false)
    • ocr_language:OCR 语言代码列表(可选)
  5. qna_from_document:将文档转换为 YAML 格式的 Q&A 文件

    • source:文档的 URL 或本地文件路径(必需)
    • no_of_qnas:预期问答对的数量(可选,默认:5)

    ⚠️ 重要提示

    此工具需要 IBM Watson X 凭证,设置环境变量:

    • WATSONX_PROJECT_ID:你的 Watson X 项目 ID
    • WATSONX_APIKEY:你的 IBM Cloud API Key
    • WATSONX_URL:Watson X API 地址(默认:https://us-south.ml.cloud.ibm.com)
  6. get_system_info:获取系统配置和加速状态的信息

缓存

服务器在 ~/.cache/mcp-docling/ 目录下缓存处理过的文档,以提高重复请求的性能。

  • 0 关注
  • 0 收藏,31 浏览
  • system 提出于 2025-10-02 02:00

相似服务问题

相关AI产品