Crawl4AI MCP 服务器是一个将 Crawl4AI 集成到 Cursor AI 中的 Model Context Protocol (MCP) 服务器实现。它为大语言模型(LLM)在 Cursor Composer 的代理模式中提供网络抓取和爬虫功能,极大地拓展了 LLM 的信息获取能力。
在使用 Crawl4AI MCP 服务器之前,需要确保系统满足一定要求,然后按照安装说明进行操作。
基本设置说明也在 官方文档 MCP 服务器快速入门 中提供。以下是详细的安装步骤:
首先,安装 uv 并设置 Python 项目和环境:
curl -LsSf https://astral.sh/uv/install.sh | sh
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
确保之后重新启动终端,以便 uv 命令被识别。
# 进入 crawl4ai-mcp 目录
cd crawl4ai-mcp
# 安装依赖项 (仅第一次)
uv venv
uv sync
# 激活虚拟环境
source .venv/bin/activate
# 运行服务器
python main.py
uv 可执行文件的完整路径。可以通过运行 which uv 在 MacOS/Linux 或 where uv 在 Windows 上获得。{
"mcpServers": {
"Crawl4AI": {
"command": "uv",
"args": [
"--directory",
"/ABSOLUTE/PATH/TO/PARENT/FOLDER/crawl4ai-mcp",
"run",
"main.py"
]
}
}
}
以下是如何使用提供的工具进行单页抓取和网站爬取的示例:
# 单页抓取示例
import crawl4ai_mcp
# 抓取指定网页
result = crawl4ai_mcp.scrape_webpage("https://example.com")
print(result)
# 网站爬取示例
result = crawl4ai_mcp.crawl_website("https://example.com", crawl_depth=2, max_pages=10)
print(result)
此 MCP 服务器为 LLM 提供以下工具:
scrape_webpage(url: str)url (字符串,必需):要抓取的网页 URL。TextContent 对象的列表,该对象包含以 Markdown 格式为主的抓取内容作为 JSON。crawl_website(url: str, crawl_depth: int = 1, max_pages: int = 5)url (字符串,必需):要开始爬取的起始 URL。crawl_depth (整数,可选,默认值为 1):相对于起始 URL 的最大爬取深度。max_pages (整数,可选,默认值为 5):爬取过程中抓取的最大页面数量。TextContent 对象的列表,该对象包含 JSON 数组结果,表示爬取的页面信息(包括 URL、成功状态、Markdown 内容或错误)。