本项目旨在提供一个网页爬虫 MCP 服务器的部署方案,帮助用户快速搭建并使用网页爬虫服务,通过配置不同参数实现多样化的网页爬取需求。
克隆仓库:
git clone https://github.com/jitsmaster/web-crawler-mcp.git
cd web-crawler-mcp
安装依赖项:
npm install
构建项目:
npm run build
创建一个 .env 文件,并添加以下环境变量:
CRAWL_LINKS=false
MAX_DEPTH=3
REQUEST_DELAY=1000
TIMEOUT=5000
MAX_CONCURRENT=5
启动 MCP 服务器:
npm start
在你的 MCP 设置文件中添加以下内容:
{
"mcpServers": {
"web-crawler": {
"command": "node",
"args": ["/path/to/web-crawler/build/index.js"],
"env": {
"CRAWL_LINKS": "false",
"MAX_DEPTH": "3",
"REQUEST_DELAY": "1000",
"TIMEOUT": "5000",
"MAX_CONCURRENT": "5"
}
}
}
}
服务器提供了一个 crawl 工具,可以通过 MCP 访问。示例用法:
{
"url": "https://example.com",
"depth": 1
}
| 属性 | 详情 |
|---|---|
| 环境变量 | 详情 |
| CRAWL_LINKS | 是否跟随链接,默认值为 false |
| MAX_DEPTH | 最大爬取深度,默认值为 3 |
| REQUEST_DELAY | 请求之间的延迟(毫秒),默认值为 1000 |
| TIMEOUT | 请求超时时间(毫秒),默认值为 5000 |
| MAX_CONCURRENT | 最大并发请求数,默认值为 5 |