Browser Scraping & Search

Browser Scraping & Search

🚀 浏览器自动化代理

浏览器自动化代理是一款功能强大的工具,它借助MCP(模型控制程序)搭建而成,集成了网络抓取和LLM智能功能。该代理能够在Google上进行搜索、访问网页,还能从GitHub、Stack Overflow和各类文档网站中智能抓取所需内容。

🚀 快速开始

浏览器自动化代理可帮助你高效地进行网络搜索和内容抓取。以下是使用该工具的基本步骤:

  1. 完成安装(具体安装步骤见“📦 安装指南”)。
  2. 分别运行服务端和客户端(具体操作见“📋 使用方法”)。
  3. 在客户端提示时输入查询内容,代理将自动完成搜索、抓取和内容保存等操作。

✨ 主要特性

  • 🔍 Google搜索集成:可查找并检索任意查询的顶部搜索结果。
  • 🕸️ 智能网络抓取:依据不同网站类型定制抓取策略,涵盖GitHub仓库、Stack Overflow问答、文档页面以及通用网站。
  • 🧠 AI驱动处理:运用Mistral AI理解并处理抓取到的内容。
  • 🥷 简单模式:实施浏览器指纹保护,避免被检测。
  • 💾 内容保存:自动保存抓取页面的屏幕截图和文本内容。

📦 安装指南

克隆仓库

git clone https://github.com/yourusername/browser-automation-agent.git
cd browser-automation-agent

安装依赖项

pip install -r requirements.txt

安装Playwright浏览器

playwright install

配置API密钥

在项目根目录中创建.env文件,并添加你的Mistral AI API密钥:

MISTRAL_API_KEY=your_api_key_here

💻 使用示例

基础用法

运行服务端

python main.py

运行客户端

python client.py

示例交互

当服务端和客户端都在运行时:

  1. 在提示时输入您的查询。
  2. 代理将执行以下操作:
    • 🔍 在Google中搜索相关信息。
    • 🧭 导航到顶部结果。
    • 📊 根据网站类型抓取内容。
    • 📸 保存页面截图和文本内容到文件。
    • 📤 返回处理后信息。

高级用法

该工具提供了多个实用的工具功能,可根据具体需求调用不同的函数:

get_top_google_url

🔍 搜索Google并返回给定查询的顶部结果URL。

browse_and_scrape

🌐 访问一个URL并根据网站类型抓取内容。

scrape_github

📂 专门从GitHub仓库提取README内容和代码块。

scrape_stackoverflow

💬 提取Stack Overflow页面中的问题、答案、评论和代码块。

scrape_documentation

📚 优化以提取文档内容和代码示例。

scrape_generic

🌐 提取通用网站的段落文本和代码块。

📚 详细文档

🏗️ 架构

该项目采用基于MCP的客户端 - 服务器架构:

  • 🖥️ 服务端:负责处理浏览器自动化和网络抓取任务。
  • 👤 客户端:提供AI接口,使用Mistral AI和LangGraph。
  • 📡 通信:通过标准I/O实现客户端与服务端的交互。

⚙️ 需求

  • 🐍 Python 3.8+
  • 🎭 Playwright
  • 🧩 MCP(模型控制程序)
  • 🔑 Mistral AI API密钥

📁 文件结构

browser-automation-agent/
├── main.py            # MCP服务端实现
├── client.py          # Mistral AI客户端实现
├── requirements.txt   # 项目依赖项
├── .env               # 环境变量(API密钥)
└── README.md          # 项目文档

📥 内容保存

  • browser automation:通过PhantomBuster批量处理LinkedIn请求,发送连接邀请。
  • network research:从Indeed、Glassdoor和LinkedIn获取公司信息和薪资数据。
  • data analysis:分析CSV文件中的联系人列表,识别潜在客户并分类。
  • crm integration:将抓取的数据直接导入Salesforce或其他CRM系统。

⚠️ 注意事项

⚠️ 重要提示

  • 确保所有操作遵守目标网站的robots.txt规则和相关法律法规。
  • 保持API密钥安全,避免泄露。
  • 定期更新工具以确保与最新网站结构兼容。

如果有任何问题或反馈,请随时联系支持团队。

  • 0 关注
  • 0 收藏,25 浏览
  • system 提出于 2025-10-04 19:54

相似服务问题

相关AI产品