AI Cursor Scraping Assistant

AI Cursor Scraping Assistant

🚀 AI-Cursor-Scraping-Assistant

AI-Cursor-Scraping-Assistant是一款强大的工具,它借助Cursor AI和MCP(模型上下文协议),能轻松生成适用于各种类型网站的网络爬虫。该工具可帮助您快速分析网站,以最小的工作量生成合适的Scrapy框架或Camoufox模板,极大提升网络数据采集的效率。

🚀 快速开始

AI-Cursor-Scraping-Assistant结合了人工智能与网络爬虫技术,致力于提高网络数据采集的效率和智能化水平。该工具主要由两部分构成:Cursor AI负责分析和处理网页内容,MCP协议则用于生成高效的爬虫策略。

✨ 主要特性

  • 智能网页分析:利用Cursor AI精准分析和处理网页内容。
  • 高效策略生成:借助MCP协议生成高效的爬虫策略。
  • 多模板支持:支持Scrapy框架和Camoufox模板,满足不同需求。

📦 安装指南

在使用AI-Cursor-Scraping-Assistant之前,请确保您的环境满足以下要求:

  1. 安装Python 3.8或更高版本。
  2. 确保安装了必要的依赖项,包括:
    • Scrapy框架:用于网络爬虫开发。
    • Camoufox模板:用于生成高效的爬虫策略。

请按照以下步骤进行项目安装:

# 克隆仓库
git clone https://github.com/your-username/AI-Cursor-Scraping-Assistant.git

# 进入项目目录
cd AI-Cursor-Scraping-Assistant

# 安装依赖项
pip install scrapy camoufox

💻 使用示例

基本的设置步骤

MCP服务器配置

  1. 打开MCPfiles/xpath_server.py文件。
  2. 根据注释更新环境变量:
import os
os.environ['CAMOUFOX_FILE_PATH'] = '路径/到/Camoufox_template.py'

网络爬虫模板

  • Scrapy框架:用于基本的网络爬虫开发。
  • Camoufox模板:用于生成高效的爬虫策略。

📚 详细文档

网站分析规则

website-analysis.mdc文件包含如何分析和处理网站内容的规则,包括以下步骤:

  1. 分析网页结构。
  2. 提取所需数据。
  3. 处理提取的数据。

Scrapy框架最佳实践

scrapy.mdc文件提供了使用Scrapy框架时的最佳实践,包括:

  • 确保爬虫代码简洁易懂。
  • 使用中间件和扩展来增强功能。
  • 定期更新爬虫策略以适应网站变化。

创建网络爬虫的分步指南

scepy-step-by-step-process.mdc文件提供了创建网络爬虫的详细步骤,包括:

  1. 确定爬取目标。
  2. 设计爬虫逻辑。
  3. 实现和测试爬虫。

网络爬虫模板

scraper-models.mdc文件提供了不同类型的网络爬虫模板,包括:

  • 电子商务网站:用于抓取产品信息。
  • 新闻网站:用于抓取新闻数据。

先决条件

prerequisites.mdc文件列出了在使用工具之前需要完成的设置,包括:

  1. 安装必要的依赖项。
  2. 配置环境变量。

🔧 技术细节

项目结构

AI-Cursor-Scraping-Assistant/
├── MCPfiles/
│   ├── xpath_server.py     # MCP服务器文件,用于生成XPath选择器
│   └── Camoufox_template.py # Camoufox模板文件,用于创建高效的爬虫策略
├── cursor-rules/
│   ├── website-analysis.mdc    # 网站分析规则
│   ├── scrapy.mdc              # Scrapy框架最佳实践
│   ├── scrapy-step-by-step-process.mdc # 创建网络爬虫的分步指南
│   ├── scraper-models.mdc      # 不同类型的网络爬虫模板
│   └── prerequisites.mdc       # 使用工具前需要完成的设置
└── README.md                  # 项目说明文件

未来改进计划

代理集成

  • 添加按需代理支持。
  • 实现代理轮换策略。
  • 支持更多代理提供商。
  • 处理代理身份验证。
  • 集成流行代理服务。

改进的XPath生成和验证

  • 添加 XPath 选择器的验证机制。
  • 实现反馈循环以优化选择器。
  • 控制流管理以重写选择器。
  • 自动修复有问题的选择器。
  • 处理动态内容和AJAX加载等边缘情况。

其他计划功能

  • 支持更多类型的网络爬虫(如新闻网站、社交媒体等)。
  • 集成更多反机器人绕过技术。
  • 提升JSON数据提取能力。
  • 支持更复杂的导航模式。
  • 优化多页面抓取性能。

参考资料

该项目基于The Web Scraping Club的文章:

📄 许可证

请查看项目的LICENSE文件以获取详细信息。

  • 0 关注
  • 0 收藏,23 浏览
  • system 提出于 2025-10-04 00:06

相似服务问题

相关AI产品