本项目是一个基于MCP协议的网络爬虫系统,支持通过Docker容器部署或本地运行,为用户提供了便捷的网页数据抓取解决方案。
本项目支持两种部署方式,你可以根据自己的需求选择Docker部署或者本地运行。
docker build -t your-image-name .
docker run --env-file .env -p 8002:8002 your-image-name
--env-file .env:加载环境变量文件。-p 8002:8002:将宿主机的8002端口映射到容器内的8002端口。http://localhost:8002/sse访问服务。配置MCP客户端(如LangChain代理)连接到该地址。python -m venv venv
source venv/bin/activate # Linux/macOS
# venv\Scripts\activate # Windows
pip install -r requirements.txt
.env的文件,并添加以下内容(根据实际API密钥填写):GOOGLE_API_KEY=your_api_key_here
python your_server_script_name.py
项目使用的环境变量如下(通常从.env文件加载):
| 属性 | 详情 |
|---|---|
| GOOGLE_API_KEY | 必需,用于smart_extract功能(使用Google Gemini)。请在Google AI Studio获取。 |
| OPENAI_API_KEY | 未被当前版本的工具使用,但已检查是否存在。 |
| MISTRAL_API_KEY | 同上。 |
# 使用代理CLI进行以下操作:
You: scrape_url https://example.com
Agent: 思考中...
[代理调用scrape_url工具]
Agent: [example.com的Markdown内容]
---
You: 从https://en.wikipedia.org/wiki/Web_scraping提取包含“ethical considerations”的文本
Agent: 思考中...
[代理调用extract_text_by_query工具]
Agent: 在页面上找到X个匹配项。以下是相关段落:
匹配1:
... 文本片段 ...
---
匹配2:
... 文本片段 ...
---
You: 使用smart_extract分析https://blog.google/technology/ai/google-gemini-ai/,获取Gemini模型的主要要点
Agent: 思考中...
[代理调用smart_extract工具]
Agent: Gemini是Google开发的先进AI模型,具备多语言和跨领域理解能力。它能够通过互联网访问最新的信息,并支持上下文感知对话。
Dockerfile:用于构建Docker镜像。requirements.txt:项目的Python依赖项。.env:环境变量配置文件。本项目提供了一个基于MCP协议的网络爬虫系统,支持通过Docker或本地方式运行。通过简单的配置和环境变量设置,即可快速部署并使用相关功能。