Bsmi021_mcp Server Webscan

开发官方认证远程 TypeScript

🚀 MCP 网页扫描服务器

MCP 网页扫描服务器是一个用于网页内容抓取、分析和信息提取的模型上下文协议（MCP）服务器。它提供了一系列实用工具，能够高效地获取、分析和提取网页中的信息，助力用户更好地处理网页数据。

✨ 主要特性

页面抓取：可将网页转换为 Markdown 格式，方便后续分析。
链接提取：从网页中提取并分析所有链接，洞察网页的链接结构。
网站爬取：递归爬取网站内容，深入挖掘更多有价值的信息。
链接检查：精准识别网页中的死链，确保链接的有效性。
模式匹配：查找与特定模式匹配的 URL，满足特定的搜索需求。
站点地图生成：为网站生成 XML 站点地图，便于搜索引擎抓取。

📦 安装指南

# 克隆仓库
git clone 
cd mcp-server-webscan

# 安装依赖
npm install

# 构建项目
npm run build

💻 使用示例

启动服务器

npm start

该服务器运行在 stdio 传输协议上，因此与 Claire 桌面等 MCP 客户端兼容。

可用工具

fetch_page
- 功能：抓取网页并将其转换为 Markdown 格式。
- 参数：
  - url（必需）：要抓取的页面 URL。
  - selector（可选）：用于指定内容目标的 CSS 选择器。
extract_links
- 功能：从网页中提取所有链接及其文本。
- 参数：
  - url（必需）：要分析的页面 URL。
  - baseUrl（可选）：用于过滤链接的基础 URL。
crawl_site
- 功能：递归爬取网站内容，最多爬取指定深度。
- 参数：
  - url（必需）：爬取的起始 URL。
  - maxDepth（可选，默认值为 2）：最大爬取深度。
check_links
- 功能：检查页面中的所有链接是否有效。
- 参数：
  - url（必需）：要检查链接的页面 URL。
find_patterns
- 功能：查找与特定模式匹配的 URL。
- 参数：
  - url（必需）：要搜索的 URL。
  - pattern（必需）：用于匹配 URL 的正则表达式。
generate_sitemap
- 功能：生成简单的 XML 站点地图。
- 参数：
  - url（必需）：站点地图的基础 URL。
  - maxUrls（可选，默认值为 100）：站点地图中包含的最大链接数。

示例使用方法（以 Claire 桌面为例）

配置服务器

在 Claire 桌面设置中配置服务器：

{
"mcpServers": {
"webscan": {
"command": "node",
"args": ["path/to/mcp-server-webscan/dist/index.js"],
"env": {
"NODE_ENV": "development"
}
}
}
}

在对话中使用工具

你能抓取 https://example.com 的内容并将其转换为 Markdown 格式吗？

📚 详细文档

开发

先决条件

Node.js >= 18
npm

项目结构

mcp-server-webscan/
├── src/
│   └── index.ts    # 主服务器实现文件
├── dist/           # 编译后的 JavaScript 文件
├── package.json
└── tsconfig.json

构建

npm run build

开发模式

npm run dev

错误处理

该服务器实现了全面的错误处理机制，可处理以下类型的错误：

参数无效
网络错误
内容解析错误
URL 验证错误

所有错误均按照 MCP 规范进行处理。

📄 许可证

文档未提及相关内容，故跳过该章节。

感谢您使用本项目！如果在使用过程中有任何问题或建议，请随时与我们联系。

0 条评论
分类：开发