文档抓取 MCP 服务器是一个用于抓取网页内容的工具,具备递归探索能力。它能让大型语言模型(LLMs)自主探索网页和文档,进而学习特定主题。
若你想让大型语言模型通过探索网页和文档学习特定主题,可使用此服务器。按以下步骤操作:
git clone https://github.com/wolfyy970/docs-fetch-mcp.git
cd docs-fetch-mcp
npm install
npm run build
{
"mcpServers": {
"docs-fetch": {
"command": "node",
"args": [
"/path/to/docs-fetch-mcp/build/index.js"
],
"env": {
"MCP_TRANSPORT": "pipe"
}
}
}
}
服务器公开了一个单一的 MCP 工具:fetch_doc_content,用于抓取网页内容并具备递归探索链接页面的功能。
{
"rootUrl": "https://example.com/docs",
"explorationDepth": 2,
"pagesExplored": 5,
"content": [
{
"url": "https://example.com/docs",
"title": "Documentation",
"content": "Main page content...",
"links": [
{
"url": "https://example.com/docs/topic1",
"text": "Topic 1"
}
]
}
]
}
参数说明:
url (字符串, 必填): 要抓取的网页 URL。depth (数字, 可选, 默认值: 1): 目录/链接探索的最大深度(1 - 5)。git clone https://github.com/wolfyy970/docs-fetch-mcp.git
cd docs-fetch-mcp
npm install
npm run build
{
"mcpServers": {
"docs-fetch": {
"command": "node",
"args": [
"/path/to/docs-fetch-mcp/build/index.js"
],
"env": {
"MCP_TRANSPORT": "pipe"
}
}
}
}
文档抓取 MCP 服务器提供了一种简单而强大的方法,用于检索和探索网页内容。它使得:
此工具特别适用于用户希望 LLM 通过探索文档或网页内容来学习特定主题的情况。
| 属性 | 详情 |
|---|---|
| 依赖项 | 此项目依赖于 @modelcontextprotocol/sdk(MCP 服务器 SDK)、puppeteer(无头浏览器用于网页交互)和 axios(HTTP 客户端用于发送请求)。 |
要以开发模式运行服务器,可使用以下命令:
npm run dev
本项目采用 MIT 许可证。