MCP 网页扫描服务器是一个用于网页内容抓取、分析和信息提取的模型上下文协议(MCP)服务器。它提供了一系列实用工具,能够高效地获取、分析和提取网页中的信息,助力用户更好地处理网页数据。
# 克隆仓库
git clone
cd mcp-server-webscan
# 安装依赖
npm install
# 构建项目
npm run build
npm start
该服务器运行在 stdio 传输协议上,因此与 Claire 桌面等 MCP 客户端兼容。
fetch_page
url(必需):要抓取的页面 URL。selector(可选):用于指定内容目标的 CSS 选择器。extract_links
url(必需):要分析的页面 URL。baseUrl(可选):用于过滤链接的基础 URL。crawl_site
url(必需):爬取的起始 URL。maxDepth(可选,默认值为 2):最大爬取深度。check_links
url(必需):要检查链接的页面 URL。find_patterns
url(必需):要搜索的 URL。pattern(必需):用于匹配 URL 的正则表达式。generate_sitemap
url(必需):站点地图的基础 URL。maxUrls(可选,默认值为 100):站点地图中包含的最大链接数。在 Claire 桌面设置中配置服务器:
{
"mcpServers": {
"webscan": {
"command": "node",
"args": ["path/to/mcp-server-webscan/dist/index.js"],
"env": {
"NODE_ENV": "development"
}
}
}
}
你能抓取 https://example.com 的内容并将其转换为 Markdown 格式吗?
mcp-server-webscan/
├── src/
│ └── index.ts # 主服务器实现文件
├── dist/ # 编译后的 JavaScript 文件
├── package.json
└── tsconfig.json
npm run build
npm run dev
该服务器实现了全面的错误处理机制,可处理以下类型的错误:
所有错误均按照 MCP 规范进行处理。
文档未提及相关内容,故跳过该章节。
感谢您使用本项目!如果在使用过程中有任何问题或建议,请随时与我们联系。