Crawl4ai Mcp Server

Crawl4ai Mcp Server

🚀 Crawl4AI MCP 服务器

Crawl4AI MCP 服务器是一个基于 MCP(模型上下文协议)的智能信息获取服务器。它为 AI 助手系统赋予强大的搜索能力,同时具备面向大语言模型优化的网页内容理解功能。通过多引擎搜索与智能内容提取,能助力 AI 系统高效获取并理解互联网信息,且支持以 markdown_with_citations 格式输出,方便大语言模型引用与处理。

🚀 快速开始

本服务器能为 AI 系统提供高效的信息获取与理解能力。你可按以下步骤进行安装与使用。

✨ 主要特性

  • 多引擎搜索:默认集成 DuckDuckGo 搜索引擎,还支持扩展 Google 搜索(需配置)。
  • LLM 优化内容提取:专为大语言模型设计内容过滤与提取机制,自动去除导航栏、广告等无用信息,保留关键内容和 URL 引用。
  • 专注信息价值:通过最小词数阈值(10)过滤无效片段,确保输出内容高质量、高相关。

📦 安装指南

常规安装

# 创建虚拟环境并激活
python -m venv env
source env/bin/activate  # 在macOS/Linux下
env\Scripts\activate      # 在Windows下

# 安装依赖项
pip install -r requirements.txt

# 配置服务器
cp config_demo.json config.json

# 启动服务器
python src/index.py

Claude 客户端插件安装

# 使用smithery CLI安装到Claude Sonnet 3.5
smithery plugin install @weidwonder/crawl4ai-mcp-server --development

💻 使用示例

基础用法

搜索功能(search

示例请求:

curl -X POST "http://localhost:8000/api/search" \
-H "Content-Type: application/json" \
-d '{"query":"AI技术发展历史","gl":null,"hl":null}'

输出格式:

  • 支持 markdown_with_citations 和 plaintext 两种格式,默认为 markdown_with_citations。
  • 每个结果包含标题、内容摘录、原始 URL 和相关性评分。

内容提取与处理(read_url

示例请求:

curl -X POST "http://localhost:8000/api/read_url" \
-H "Content-Type: application/json" \
-d '{"url":"https://example.com"}'

📚 详细文档

项目结构

crawl4ai_mcp_server/
├── src/
│   ├── index.py      # 服务器主实现
│   └── search.py     # 搜索功能实现
├── config_demo.json  # 配置文件示例
├── pyproject.toml    # 项目配置
├── requirements.txt  # 依赖列表
└── README.md         # 项目文档

配置说明

  1. 复制配置模板:

    cp config_demo.json config.json
    
  2. 配置 Google 搜索(可选):

    • config.json中添加以下内容:
      {
      "google": {
      "api_key": "your_google_api_key",
      "cse_id": "your_google_cse_id"
      }
      }
      

📄 更新日志

  • 2025.02.08:新增搜索功能,支持 DuckDuckGo(默认)和 Google 搜索。
  • 2025.02.07:重构项目结构,采用 FastMCP 实现,优化依赖管理。
  • 2025.02.07:优化内容过滤配置,提升 token 效率并保持 URL 完整性。

📄 许可证

本项目遵循 MIT License 协议。

🤝 贡献指南

欢迎提交问题和 Pull Request! GitHub 仓库地址:https://github.com/weidwonder/crawl4ai-mcp-server

👨‍💻 作者信息

  • 项目负责人:weidwonder
  • 主要开发者:Claude Sonnet 3.5
    • 完全由 Claude 编写代码。耗时总计约 3 小时,其中编码 0.5 小时,环境准备 0.5 小时,调试 2 小时。

🙏 致谢

感谢所有为项目贡献力量的开发者!

特别鸣谢:

  • Crawl4ai 项目提供的优秀网页内容提取技术支持
  • 0 关注
  • 0 收藏,23 浏览
  • system 提出于 2025-09-22 16:48

相似服务问题

相关AI产品