AI-Cursor-Scraping-Assistant是一款强大的工具,它借助Cursor AI和MCP(模型上下文协议),能轻松生成适用于各种类型网站的网络爬虫。该工具可帮助您快速分析网站,以最小的工作量生成合适的Scrapy框架或Camoufox模板,极大提升网络数据采集的效率。
AI-Cursor-Scraping-Assistant结合了人工智能与网络爬虫技术,致力于提高网络数据采集的效率和智能化水平。该工具主要由两部分构成:Cursor AI负责分析和处理网页内容,MCP协议则用于生成高效的爬虫策略。
在使用AI-Cursor-Scraping-Assistant之前,请确保您的环境满足以下要求:
请按照以下步骤进行项目安装:
# 克隆仓库
git clone https://github.com/your-username/AI-Cursor-Scraping-Assistant.git
# 进入项目目录
cd AI-Cursor-Scraping-Assistant
# 安装依赖项
pip install scrapy camoufox
MCPfiles/xpath_server.py文件。import os
os.environ['CAMOUFOX_FILE_PATH'] = '路径/到/Camoufox_template.py'
website-analysis.mdc文件包含如何分析和处理网站内容的规则,包括以下步骤:
scrapy.mdc文件提供了使用Scrapy框架时的最佳实践,包括:
scepy-step-by-step-process.mdc文件提供了创建网络爬虫的详细步骤,包括:
scraper-models.mdc文件提供了不同类型的网络爬虫模板,包括:
prerequisites.mdc文件列出了在使用工具之前需要完成的设置,包括:
AI-Cursor-Scraping-Assistant/
├── MCPfiles/
│ ├── xpath_server.py # MCP服务器文件,用于生成XPath选择器
│ └── Camoufox_template.py # Camoufox模板文件,用于创建高效的爬虫策略
├── cursor-rules/
│ ├── website-analysis.mdc # 网站分析规则
│ ├── scrapy.mdc # Scrapy框架最佳实践
│ ├── scrapy-step-by-step-process.mdc # 创建网络爬虫的分步指南
│ ├── scraper-models.mdc # 不同类型的网络爬虫模板
│ └── prerequisites.mdc # 使用工具前需要完成的设置
└── README.md # 项目说明文件
该项目基于The Web Scraping Club的文章:
请查看项目的LICENSE文件以获取详细信息。