Bsmi021_mcp Server Webscan

Bsmi021_mcp Server Webscan

🚀 MCP 网页扫描服务器

MCP 网页扫描服务器是一个用于网页内容抓取、分析和信息提取的模型上下文协议(MCP)服务器。它提供了一系列实用工具,能够高效地获取、分析和提取网页中的信息,助力用户更好地处理网页数据。

✨ 主要特性

  • 页面抓取:可将网页转换为 Markdown 格式,方便后续分析。
  • 链接提取:从网页中提取并分析所有链接,洞察网页的链接结构。
  • 网站爬取:递归爬取网站内容,深入挖掘更多有价值的信息。
  • 链接检查:精准识别网页中的死链,确保链接的有效性。
  • 模式匹配:查找与特定模式匹配的 URL,满足特定的搜索需求。
  • 站点地图生成:为网站生成 XML 站点地图,便于搜索引擎抓取。

📦 安装指南

# 克隆仓库
git clone 
cd mcp-server-webscan

# 安装依赖
npm install

# 构建项目
npm run build

💻 使用示例

启动服务器

npm start

该服务器运行在 stdio 传输协议上,因此与 Claire 桌面等 MCP 客户端兼容。

可用工具

  1. fetch_page
    • 功能:抓取网页并将其转换为 Markdown 格式。
    • 参数
      • url(必需):要抓取的页面 URL。
      • selector(可选):用于指定内容目标的 CSS 选择器。
  2. extract_links
    • 功能:从网页中提取所有链接及其文本。
    • 参数
      • url(必需):要分析的页面 URL。
      • baseUrl(可选):用于过滤链接的基础 URL。
  3. crawl_site
    • 功能:递归爬取网站内容,最多爬取指定深度。
    • 参数
      • url(必需):爬取的起始 URL。
      • maxDepth(可选,默认值为 2):最大爬取深度。
  4. check_links
    • 功能:检查页面中的所有链接是否有效。
    • 参数
      • url(必需):要检查链接的页面 URL。
  5. find_patterns
    • 功能:查找与特定模式匹配的 URL。
    • 参数
      • url(必需):要搜索的 URL。
      • pattern(必需):用于匹配 URL 的正则表达式。
  6. generate_sitemap
    • 功能:生成简单的 XML 站点地图。
    • 参数
      • url(必需):站点地图的基础 URL。
      • maxUrls(可选,默认值为 100):站点地图中包含的最大链接数。

示例使用方法(以 Claire 桌面为例)

配置服务器

在 Claire 桌面设置中配置服务器:

{
"mcpServers": {
"webscan": {
"command": "node",
"args": ["path/to/mcp-server-webscan/dist/index.js"],
"env": {
"NODE_ENV": "development"
}
}
}
}

在对话中使用工具

你能抓取 https://example.com 的内容并将其转换为 Markdown 格式吗?

📚 详细文档

开发

先决条件

  • Node.js >= 18
  • npm

项目结构

mcp-server-webscan/
├── src/
│   └── index.ts    # 主服务器实现文件
├── dist/           # 编译后的 JavaScript 文件
├── package.json
└── tsconfig.json

构建

npm run build

开发模式

npm run dev

错误处理

该服务器实现了全面的错误处理机制,可处理以下类型的错误:

  • 参数无效
  • 网络错误
  • 内容解析错误
  • URL 验证错误

所有错误均按照 MCP 规范进行处理。

📄 许可证

文档未提及相关内容,故跳过该章节。

感谢您使用本项目!如果在使用过程中有任何问题或建议,请随时与我们联系。

  • 0 关注
  • 0 收藏,21 浏览
  • system 提出于 2025-09-22 12:51

相似服务问题

相关AI产品