Web Crawler

开发官方认证远程 TypeScript

🚀 网页爬虫 MCP 服务器部署指南

本项目旨在提供一个网页爬虫 MCP 服务器的部署方案，帮助用户快速搭建并使用网页爬虫服务，通过配置不同参数实现多样化的网页爬取需求。

🚀 快速开始

先决条件

Node.js (v18+)
npm (v9+)

📦 安装指南

克隆仓库:

git clone https://github.com/jitsmaster/web-crawler-mcp.git
cd web-crawler-mcp

安装依赖项:
```
npm install
```
构建项目:
```
npm run build
```

📚 详细文档

配置

创建一个 .env 文件，并添加以下环境变量:

CRAWL_LINKS=false
MAX_DEPTH=3
REQUEST_DELAY=1000
TIMEOUT=5000
MAX_CONCURRENT=5

运行服务器

启动 MCP 服务器:

npm start

MCP 配置

在你的 MCP 设置文件中添加以下内容:

{
"mcpServers": {
"web-crawler": {
"command": "node",
"args": ["/path/to/web-crawler/build/index.js"],
"env": {
"CRAWL_LINKS": "false",
"MAX_DEPTH": "3",
"REQUEST_DELAY": "1000",
"TIMEOUT": "5000",
"MAX_CONCURRENT": "5"
}
}
}
}

使用方法

服务器提供了一个 crawl 工具，可以通过 MCP 访问。示例用法:

{
"url": "https://example.com",
"depth": 1
}

配置选项

属性	详情
环境变量	详情
CRAWL_LINKS	是否跟随链接，默认值为 false
MAX_DEPTH	最大爬取深度，默认值为 3
REQUEST_DELAY	请求之间的延迟（毫秒），默认值为 1000
TIMEOUT	请求超时时间（毫秒），默认值为 5000
MAX_CONCURRENT	最大并发请求数，默认值为 5

0 条评论
分类：开发

Web Crawler

🚀 网页爬虫 MCP 服务器部署指南

🚀 快速开始

先决条件

📦 安装指南

📚 详细文档

配置

运行服务器

MCP 配置

使用方法

配置选项

0 个评论

相似服务问题

相关AI产品

热议话题 »