Mcp Doc Scraper

Mcp Doc Scraper

🚀 文档抓取器 MCP 服务器

本项目是一个提供文档抓取功能的 Model Context Protocol (MCP) 服务器,它借助 jina.ai 的转换服务,能够将基于网络的文档转换为 Markdown 格式,为文档处理提供了便利。

🚀 快速开始

使用 Python 运行服务器:

python -m mcp_doc_scraper

✨ 主要特性

  • 从任何网页 URL 抓取文档
  • 将 HTML 文档转换为 Markdown 格式
  • 将转换后的文档保存到指定输出路径
  • 集成 Model Context Protocol (MCP)

📦 安装指南

使用 Smithery 安装

通过 Smithery 自动安装 Claude Desktop 的 Doc Scraper:

npx -y @smithery/cli install @askjohngeorge/mcp-doc-scraper --client claude

手动安装

  1. 克隆仓库:
git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper
  1. 创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate  # 在 Windows 上使用: venv\Scripts\activate
  1. 安装依赖项:
pip install -e .

💻 使用示例

基础用法

该服务器提供一个工具:

  • 名称scrape_docs
  • 描述:从 URL 抓取文档并保存为 Markdown 文件
  • 输入参数
    • url:要抓取的文档 URL
    • output_path:要保存 Markdown 文件的路径

📚 详细文档

项目结构

doc_scraper/
├── __init__.py
├── __main__.py
└── server.py

依赖项

属性 详情
依赖项 aiohttp、mcp、pydantic

开发

  1. 安装开发依赖项:
pip install -r requirements.txt
  1. 该服务器使用 Model Context Protocol。请熟悉 MCP 文档

📄 许可证

本项目采用 MIT License 进行许可。

  • 0 关注
  • 0 收藏,33 浏览
  • system 提出于 2025-09-19 09:30

相似服务问题

相关AI产品