Web Crawler

Web Crawler

🚀 网页爬虫 MCP 服务器部署指南

本项目旨在提供一个网页爬虫 MCP 服务器的部署方案,帮助用户快速搭建并使用网页爬虫服务,通过配置不同参数实现多样化的网页爬取需求。

🚀 快速开始

先决条件

  • Node.js (v18+)
  • npm (v9+)

📦 安装指南

  1. 克隆仓库:

    git clone https://github.com/jitsmaster/web-crawler-mcp.git
    cd web-crawler-mcp
    
  2. 安装依赖项:

    npm install
    
  3. 构建项目:

    npm run build
    

📚 详细文档

配置

创建一个 .env 文件,并添加以下环境变量:

CRAWL_LINKS=false
MAX_DEPTH=3
REQUEST_DELAY=1000
TIMEOUT=5000
MAX_CONCURRENT=5

运行服务器

启动 MCP 服务器:

npm start

MCP 配置

在你的 MCP 设置文件中添加以下内容:

{
"mcpServers": {
"web-crawler": {
"command": "node",
"args": ["/path/to/web-crawler/build/index.js"],
"env": {
"CRAWL_LINKS": "false",
"MAX_DEPTH": "3",
"REQUEST_DELAY": "1000",
"TIMEOUT": "5000",
"MAX_CONCURRENT": "5"
}
}
}
}

使用方法

服务器提供了一个 crawl 工具,可以通过 MCP 访问。示例用法:

{
"url": "https://example.com",
"depth": 1
}

配置选项

属性 详情
环境变量 详情
CRAWL_LINKS 是否跟随链接,默认值为 false
MAX_DEPTH 最大爬取深度,默认值为 3
REQUEST_DELAY 请求之间的延迟(毫秒),默认值为 1000
TIMEOUT 请求超时时间(毫秒),默认值为 5000
MAX_CONCURRENT 最大并发请求数,默认值为 5
  • 0 关注
  • 0 收藏,21 浏览
  • system 提出于 2025-09-22 03:33

相似服务问题

相关AI产品