Mcp Server Dataset

Mcp Server Dataset

🚀 MCP 服务器数据集构建器

MCP 服务器数据集构建器是一个功能全面的工具,用于构建和维护模型上下文协议(MCP)服务器的数据集。它能够自动从多个来源收集、分类和更新有关 MCP 服务器的信息,为研究人员和开发者提供便利。

🚀 快速开始

自动每日更新

数据集通过 GitHub Actions 自动更新,无需手动干预。

手动触发

你可以从 GitHub Actions 标签页手动触发工作流:

  1. 转到仓库的“Actions”标签。
  2. 选择“统一 MCP 服务器提取”。
  3. 点击“运行工作流”。
  4. 可选自定义:
    • GitHub 搜索关键字。
    • 最小星数和叉数阈值。
    • 运行哪些提取方法。

本地开发

要在本地运行脚本:

# 安装依赖项
pip install -r requirements.txt

# 运行 README 提取
python extract_mcp_servers.py

# 运行每日更新
python daily.py

✨ 主要特性

  • 双数据源:结合 curated 清单和 GitHub 搜索的数据。
  • 自动分类:根据仓库内容分配类别。
  • 技术栈检测:识别使用的编程语言和框架。
  • 表情符号标记:添加快速标识的视觉指示符。
  • 每日更新:自动运行以保持数据集最新。
  • 数据持久性:在添加新条目时维护历史数据。

📦 安装指南

若要在本地运行脚本,需安装依赖项:

pip install -r requirements.txt

💻 使用示例

基础用法

若要运行 README 提取和每日更新,可按以下步骤操作:

# 运行 README 提取
python extract_mcp_servers.py

# 运行每日更新
python daily.py

📚 详细文档

数据集结构

生成的 CSV 文件包含以下字段:

字段 描述
name 仓库名称
description 仓库描述
html_url 仓库 URL
stars GitHub 星数
forks GitHub 叉数
keywords 逗号分隔的关键字列表
category 主要类别(例如,框架、工具、客户端)
techstack 逗号分隔的技术栈列表
emojis 快速识别的视觉指示符

环境变量

可以使用以下环境变量来自定义行为:

变量 描述 默认值
GITHUB_TOKEN GitHub API 令牌用于身份验证 -
KEYWORDS_ENV 逗号分隔的搜索关键字列表 与 MCP 相关的关键字
MIN_STARS 仓库的最小星数 10
MIN_FORKS 仓库的最小叉数 5

数据源

1. awesome - mcp - servers 仓库

工具从 awesome - mcp - servers 仓库提取数据,该仓库包含按类别整理的 MCP 服务器 curated 清单。

2. GitHub 搜索

工具在 GitHub 上搜索与 MCP 相关的仓库,确保对生态系统的全面覆盖。

分类系统

根据内容和目的对仓库进行分类:

  • 框架:核心 MCP 服务器实现。
  • 工具:辅助工具和实用程序。
  • 客户端:客户端库和应用程序。
  • 教程:学习资源和示例。
  • 数据库:数据库集成。
  • API:API 实现。
  • 存储:存储解决方案。
  • AI:AI 和 LLM 集成。
  • 聊天:聊天和消息功能。
  • 搜索:搜索功能。

技术栈检测

工具识别以下内容:

  • 语言:使用的编程语言。
  • 框架:使用的 Web 框架。
  • 数据库:集成的数据库系统。
  • 其他技术:如 API、第三方服务等。

说明

这个项目的目标是自动化收集和整理 MCP 服务器的相关信息,便于研究人员和开发者使用。通过从 GitHub 上获取公开仓库的信息,并结合 README 中提取的关键词,生成结构化的 CSV 数据,方便后续的数据分析和处理。

🔧 技术细节

MCP 服务器数据集构建器旨在:

  1. awesome - mcp - servers 仓库提取 MCP 服务器信息。
  2. 在 GitHub 上搜索其他 MCP 服务器仓库。
  3. 合并和去重来自两个来源的数据。
  4. 生成包含每个服务器详细信息的每日 CSV 文件。

🤝 如何贡献

欢迎 fork 这个仓库,并提出 issue 或 pull request 来改进工具或修复问题。

📄 许可证

[在此处添加许可证信息]

  • 0 关注
  • 0 收藏,21 浏览
  • system 提出于 2025-09-21 15:57

相似服务问题

相关AI产品