MCP 服务器数据集构建器是一个功能全面的工具,用于构建和维护模型上下文协议(MCP)服务器的数据集。它能够自动从多个来源收集、分类和更新有关 MCP 服务器的信息,为研究人员和开发者提供便利。
数据集通过 GitHub Actions 自动更新,无需手动干预。
你可以从 GitHub Actions 标签页手动触发工作流:
要在本地运行脚本:
# 安装依赖项
pip install -r requirements.txt
# 运行 README 提取
python extract_mcp_servers.py
# 运行每日更新
python daily.py
若要在本地运行脚本,需安装依赖项:
pip install -r requirements.txt
若要运行 README 提取和每日更新,可按以下步骤操作:
# 运行 README 提取
python extract_mcp_servers.py
# 运行每日更新
python daily.py
生成的 CSV 文件包含以下字段:
| 字段 | 描述 |
|---|---|
| name | 仓库名称 |
| description | 仓库描述 |
| html_url | 仓库 URL |
| stars | GitHub 星数 |
| forks | GitHub 叉数 |
| keywords | 逗号分隔的关键字列表 |
| category | 主要类别(例如,框架、工具、客户端) |
| techstack | 逗号分隔的技术栈列表 |
| emojis | 快速识别的视觉指示符 |
可以使用以下环境变量来自定义行为:
| 变量 | 描述 | 默认值 |
|---|---|---|
| GITHUB_TOKEN | GitHub API 令牌用于身份验证 | - |
| KEYWORDS_ENV | 逗号分隔的搜索关键字列表 | 与 MCP 相关的关键字 |
| MIN_STARS | 仓库的最小星数 | 10 |
| MIN_FORKS | 仓库的最小叉数 | 5 |
工具从 awesome - mcp - servers 仓库提取数据,该仓库包含按类别整理的 MCP 服务器 curated 清单。
工具在 GitHub 上搜索与 MCP 相关的仓库,确保对生态系统的全面覆盖。
根据内容和目的对仓库进行分类:
工具识别以下内容:
这个项目的目标是自动化收集和整理 MCP 服务器的相关信息,便于研究人员和开发者使用。通过从 GitHub 上获取公开仓库的信息,并结合 README 中提取的关键词,生成结构化的 CSV 数据,方便后续的数据分析和处理。
MCP 服务器数据集构建器旨在:
欢迎 fork 这个仓库,并提出 issue 或 pull request 来改进工具或修复问题。
[在此处添加许可证信息]