Crawl4AI 是一款 MCP(模型 - 控制器 - 处理器)服务器,专注于智能网络爬取和人工智能内容分析。它提供简单易用的 API,支持从网站抓取数据,并借助 Claude AI 模型对内容进行处理,为特定网站内容的深入分析提供有力支持。
Crawl4AI 主要面向需要深入分析特定网站内容的个人和组织。与通用搜索引擎或人工智能助手提供的广泛但浅层的结果不同,它能提供针对具体目标网站的深度洞察。
与通用搜索和人工智能工具相比,Crawl4AI 具有显著优势:
git clone https://github.com/yourusername/crawl4ai.git
cd crawl4ai
npm install
配置环境变量:
PORT 为服务器运行的端口,默认为 3000。ANTHROPIC_API_KEY 为你在 Anthropic 获得的 API 密钥。启动服务:
npm start
curl -X POST http://localhost:3000/api/crawl \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com",
"depth": 1,
"aiProcessing": {
"task": "summarize"
}
}'
curl -X POST http://localhost:3000/api/crawl \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/blog/post",
"depth": 2,
"aiProcessing": {
"task": "summarize",
"options": {
"length": "short"
}
}
}'
curl -X POST http://localhost:3000/api/crawl \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product",
"depth": 1,
"aiProcessing": {
"task": "classify",
"model": "content_classifier"
}
}'
| 属性 | 详情 |
|---|---|
PORT |
服务器监听的端口,默认为 3000 |
ANTHROPIC_API_KEY |
Anthropic 提供的人工智能 API 访问密钥 |
DEBUG |
设置为 "true" 可以启用调试日志输出 |
本项目采用 MIT 许可证。
该项目使用以下优秀库: