Crawl4AI (Web Scraping & Crawling)

Crawl4AI (Web Scraping & Crawling)

🚀 Crawl4AI MCP 服务器

Crawl4AI MCP 服务器是一个将 Crawl4AI 集成到 Cursor AI 中的 Model Context Protocol (MCP) 服务器实现。它为大语言模型(LLM)在 Cursor Composer 的代理模式中提供网络抓取和爬虫功能,极大地拓展了 LLM 的信息获取能力。

🚀 快速开始

在使用 Crawl4AI MCP 服务器之前,需要确保系统满足一定要求,然后按照安装说明进行操作。

系统要求

  • 安装了 Python 3.10 或更高版本。

安装说明

基本设置说明也在 官方文档 MCP 服务器快速入门 中提供。以下是详细的安装步骤:

设置您的环境

首先,安装 uv 并设置 Python 项目和环境:

  • MacOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh
  • Windows
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

确保之后重新启动终端,以便 uv 命令被识别。

完成安装步骤

  1. 克隆仓库。
  2. 使用 UV 安装依赖项(仅第一次):
# 进入 crawl4ai-mcp 目录
cd crawl4ai-mcp

# 安装依赖项 (仅第一次)
uv venv
uv sync

# 激活虚拟环境
source .venv/bin/activate

# 运行服务器
python main.py
  1. 添加到 Cursor 的 MCP 服务器或 Claude 的 MCP 服务器中。 您可能需要在命令字段中提供 uv 可执行文件的完整路径。可以通过运行 which uv 在 MacOS/Linux 或 where uv 在 Windows 上获得。
{
"mcpServers": {
"Crawl4AI": {
"command": "uv",
"args": [
"--directory",
"/ABSOLUTE/PATH/TO/PARENT/FOLDER/crawl4ai-mcp",
"run",
"main.py"
]
}
}
}

✨ 主要特性

  • 单页抓取:能够精准抓取指定网页的内容和元数据。
  • 网站爬取:可以从指定 URL 开始进行爬虫活动,并根据要求限制爬取深度和页面数量。

💻 使用示例

基础用法

以下是如何使用提供的工具进行单页抓取和网站爬取的示例:

# 单页抓取示例
import crawl4ai_mcp

# 抓取指定网页
result = crawl4ai_mcp.scrape_webpage("https://example.com")
print(result)

# 网站爬取示例
result = crawl4ai_mcp.crawl_website("https://example.com", crawl_depth=2, max_pages=10)
print(result)

📚 详细文档

提供的工具

此 MCP 服务器为 LLM 提供以下工具:

scrape_webpage(url: str)

  • 描述:使用 Crawl4AI 抓取指定网页的内容和元数据。
  • 参数
    • url (字符串,必需):要抓取的网页 URL。
  • 返回:包含一个 TextContent 对象的列表,该对象包含以 Markdown 格式为主的抓取内容作为 JSON。

crawl_website(url: str, crawl_depth: int = 1, max_pages: int = 5)

  • 描述:使用 Crawl4AI 从指定 URL 开始进行爬虫活动,深度和页面数量根据要求限制。
  • 参数
    • url (字符串,必需):要开始爬取的起始 URL。
    • crawl_depth (整数,可选,默认值为 1):相对于起始 URL 的最大爬取深度。
    • max_pages (整数,可选,默认值为 5):爬取过程中抓取的最大页面数量。
  • 返回:包含一个 TextContent 对象的列表,该对象包含 JSON 数组结果,表示爬取的页面信息(包括 URL、成功状态、Markdown 内容或错误)。
  • 0 关注
  • 0 收藏,16 浏览
  • system 提出于 2025-09-21 02:21

相似服务问题

相关AI产品