AI Cursor Scraping Assistant

开发官方认证 Python

🚀 AI-Cursor-Scraping-Assistant

AI-Cursor-Scraping-Assistant是一款强大的工具，它借助Cursor AI和MCP（模型上下文协议），能轻松生成适用于各种类型网站的网络爬虫。该工具可帮助您快速分析网站，以最小的工作量生成合适的Scrapy框架或Camoufox模板，极大提升网络数据采集的效率。

🚀 快速开始

AI-Cursor-Scraping-Assistant结合了人工智能与网络爬虫技术，致力于提高网络数据采集的效率和智能化水平。该工具主要由两部分构成：Cursor AI负责分析和处理网页内容，MCP协议则用于生成高效的爬虫策略。

✨ 主要特性

智能网页分析：利用Cursor AI精准分析和处理网页内容。
高效策略生成：借助MCP协议生成高效的爬虫策略。
多模板支持：支持Scrapy框架和Camoufox模板，满足不同需求。

📦 安装指南

在使用AI-Cursor-Scraping-Assistant之前，请确保您的环境满足以下要求：

安装Python 3.8或更高版本。
确保安装了必要的依赖项，包括：
- Scrapy框架：用于网络爬虫开发。
- Camoufox模板：用于生成高效的爬虫策略。

请按照以下步骤进行项目安装：

# 克隆仓库
git clone https://github.com/your-username/AI-Cursor-Scraping-Assistant.git

# 进入项目目录
cd AI-Cursor-Scraping-Assistant

# 安装依赖项
pip install scrapy camoufox

💻 使用示例

基本的设置步骤

MCP服务器配置

打开MCPfiles/xpath_server.py文件。
根据注释更新环境变量：

import os
os.environ['CAMOUFOX_FILE_PATH'] = '路径/到/Camoufox_template.py'

网络爬虫模板

Scrapy框架：用于基本的网络爬虫开发。
Camoufox模板：用于生成高效的爬虫策略。

📚 详细文档

网站分析规则

website-analysis.mdc文件包含如何分析和处理网站内容的规则，包括以下步骤：

分析网页结构。
提取所需数据。
处理提取的数据。

Scrapy框架最佳实践

scrapy.mdc文件提供了使用Scrapy框架时的最佳实践，包括：

确保爬虫代码简洁易懂。
使用中间件和扩展来增强功能。
定期更新爬虫策略以适应网站变化。

创建网络爬虫的分步指南

scepy-step-by-step-process.mdc文件提供了创建网络爬虫的详细步骤，包括：

确定爬取目标。
设计爬虫逻辑。
实现和测试爬虫。

网络爬虫模板

scraper-models.mdc文件提供了不同类型的网络爬虫模板，包括：

电子商务网站：用于抓取产品信息。
新闻网站：用于抓取新闻数据。

先决条件

prerequisites.mdc文件列出了在使用工具之前需要完成的设置，包括：

安装必要的依赖项。
配置环境变量。

🔧 技术细节

项目结构

AI-Cursor-Scraping-Assistant/
├── MCPfiles/
│   ├── xpath_server.py     # MCP服务器文件，用于生成XPath选择器
│   └── Camoufox_template.py # Camoufox模板文件，用于创建高效的爬虫策略
├── cursor-rules/
│   ├── website-analysis.mdc    # 网站分析规则
│   ├── scrapy.mdc              # Scrapy框架最佳实践
│   ├── scrapy-step-by-step-process.mdc # 创建网络爬虫的分步指南
│   ├── scraper-models.mdc      # 不同类型的网络爬虫模板
│   └── prerequisites.mdc       # 使用工具前需要完成的设置
└── README.md                  # 项目说明文件

未来改进计划

代理集成

添加按需代理支持。
实现代理轮换策略。
支持更多代理提供商。
处理代理身份验证。
集成流行代理服务。

改进的XPath生成和验证

添加 XPath 选择器的验证机制。
实现反馈循环以优化选择器。
控制流管理以重写选择器。
自动修复有问题的选择器。
处理动态内容和AJAX加载等边缘情况。

其他计划功能

支持更多类型的网络爬虫（如新闻网站、社交媒体等）。
集成更多反机器人绕过技术。
提升JSON数据提取能力。
支持更复杂的导航模式。
优化多页面抓取性能。

参考资料

该项目基于The Web Scraping Club的文章：

📄 许可证

请查看项目的LICENSE文件以获取详细信息。

0 条评论
分类：开发

AI Cursor Scraping Assistant