Crawlab

开发官方认证 Python

🚀 爬虫实验室 MCP 服务器

爬虫实验室 MCP 服务器是专为爬虫实验室（Crawlab）设计的模型上下文协议（MCP）服务器，它能让 AI 应用程序与 Crawlab 的各项功能进行交互，为数据抓取和管理提供了便捷的途径。

🚀 快速开始

MCP 服务器提供了一种标准方式，供 AI 应用程序访问 Crawlab 的功能，包括爬虫管理、任务管理、文件管理和资源访问等。以下是使用前的安装与配置步骤：

📦 安装指南

安装 MCP 服务器

pip install crawlab-mcp-server

初始化数据库

crawlab init_db

启动 MCP 服务器

uvicorn --host 0.0.0.0 --port 8000 crawlab_mcp_server.app:app

✨ 主要特性

MCP 服务器允许 AI 应用程序与 Crawlab 的功能交互，其提供的标准访问方式涵盖了以下主要功能：

爬虫管理（创建、读取、更新、删除）
任务管理（运行、取消、重启）
文件管理（读取、写入）
资源访问（爬虫、任务）

🔧 技术细节

架构

MCP Server/Client 架构实现了 AI 应用程序与 Crawlab 之间的通信，具体架构图如下：

graph TB
User[用户] --> Client[MCP 客户端]
Client --> LLM[LLM 提供商]
Client <--> Server[MCP 服务器]
Server <--> Crawlab[Crawlab API]

subgraph "MCP 系统"
Client
Server
end

subgraph "Crawlab 系统"
Crawlab
DB[(数据库)]
Crawlab <--> DB
end

class User,LLM,Crawlab,DB 外部;
class Client,Server 内部;

%% 流注释
LLM -.-> |工具调用| Client
Client -.-> |执行工具调用| Server
Server -.-> |API 请求| Crawlab
Crawlab -.-> |API 响应| Server
Server -.-> |工具结果| Client
Client -.-> |人类可读的响应| User

classDef 外部 fill:#f9f9f9,stroke:#333,stroke-width:1px;
classDef 内部 fill:#d9edf7,stroke:#31708f,stroke-width:1px;

通信流程

用户查询：用户发送自然语言查询到 MCP 客户端。
LLM 处理：客户端将查询转发给 LLM 提供商（例如，Claude、OpenAI）。
工具选择：LLM 识别意图并调用创建爬虫工具。
MCP 服务器执行：服务器向 Crawlab API 发送命令。
完成操作：爬虫或任务被执行，结果返回给用户。

💻 使用示例

基础用法

创建爬虫

用户：创建一个名为“产品抓取器”的新爬虫，用于电子商务项目。
↓
LLM 调用 create_spider 工具
↓
MCP 服务器向 Crawlab API 发送命令
↓
爬虫创建完成并返回详细信息给用户

运行任务

用户：运行“产品抓取器”爬虫在所有可用节点上。
↓
LLM 调用 run_spider 工具
↓
MCP 服务器向 Crawlab API 发送命令
↓
任务启动并确认返回给用户

📚 详细文档

可用命令

用户可以通过自然语言与系统交互，例如：

“列出所有我的爬虫”
“创建一个新的爬虫，并根据这些说明配置它...”
“显示名为 X 的爬虫代码”
“将此代码保存到爬虫 X 的 main.py 文件中”
“运行爬虫 X 并在完成时通知我”
“显示爬虫 X 上一次运行的结果”

可用资源和工具

以下是支持自然语言交互的底层工具：

资源

spiders：列出所有爬虫。
tasks：列出所有任务。

工具

爬虫管理

get_spider：获取特定爬虫的详细信息。
create_spider：创建新爬虫。
update_spider：更新现有爬虫。
delete_spider：删除爬虫。

任务管理

get_task：获取特定任务的详细信息。
run_spider：运行爬虫。
cancel_task：取消正在运行的任务。
restart_task：重启任务。
get_task_logs：获取任务日志。

0 条评论
分类：开发