Dataset Viewer

Dataset Viewer

🚀 数据集查看器 MCP 服务器

本项目是一个用于与 Hugging Face 数据集查看器 API 交互的 MCP 服务器,能够提供浏览和分析在 Hugging Face 存储库上托管的数据集的功能,助力用户高效处理各类数据集。

🚀 快速开始

安装步骤

使用 Git 克隆仓库

git clone https://github.com/your-organization/dataset-viewer-mcp.git
cd dataset-viewer-mcp

安装依赖项

npm install

启动服务器

node index.js

配置环境变量

设置 Hugging Face API 令牌

设置以下环境变量以访问 Hugging Face 的 API:

export HUGGING_FACE_TOKEN=your_api_token_here

在 Windows 上配置

在 Windows 系统中,您可以使用以下命令设置环境变量:

set HUGGING_FACE_TOKEN=your_api_token_here

配置示例 - Claude Desktop

要在 Claude Desktop 上配置,请将以下内容添加到相应的配置文件中:

{
"datasetViewerMcp": {
"path": "%应用程序数据%/claude-desktop/dataset-viewer-mcp",
"configPath": "~/.config/claude/dataset-viewer-mcp.json"
}
}

✨ 主要特性

资源

  • 使用 dataset:// URI 方案访问 Hugging Face 数据集。
  • 支持数据集配置和分块,满足多样化的数据处理需求。
  • 提供分页访问数据集内容,方便用户按需查看。
  • 处理私有数据集的身份验证,保障数据安全。
  • 支持搜索和过滤数据集内容,提升数据检索效率。
  • 提供数据集统计信息和分析,助力用户深入了解数据。

工具

该服务器提供以下实用工具:

  1. validate
    • 功能:检查数据集是否存在且可访问。
    • 参数:
      • dataset:数据集标识符(例如 'stanfordnlp/imdb')。
      • auth_token(可选):用于私有数据集。
  2. get_info
    • 功能:获取数据集的详细信息。
    • 参数:
      • dataset:数据集标识符。
      • auth_token(可选):用于私有数据集。
  3. get_rows
    • 功能:获取数据集内容的分页访问。
    • 参数:
      • dataset:数据集标识符。
      • config:配置名称。
      • split:分块名称。
      • page(可选):页码(从 0 开始)。
      • auth_token(可选):用于私有数据集。
  4. get_first_rows
    • 功能:获取数据集分块的前几行。
    • 参数:
      • dataset:数据集标识符。
      • config:配置名称。
      • split:分块名称。
      • auth_token(可选):用于私有数据集。
  5. get_statistics
    • 功能:获取数据集分块的统计信息。
    • 参数:
      • dataset:数据集标识符。
      • config:配置名称。
      • split:分块名称。
  6. search
    • 功能:在数据集中搜索内容。
    • 参数:
      • dataset:数据集标识符。
      • query:搜索查询。
      • auth_token(可选):用于私有数据集。
  7. filter
    • 功能:根据条件过滤数据集内容。
    • 参数:
      • dataset:数据集标识符。
      • condition:过滤条件。
      • auth_token(可选):用于私有数据集。

💻 使用示例

基础用法

示例 1:验证数据集存在性

{
"dataset": "stanfordnlp/imdb",
"auth_token": "your_api_token_here"
}

示例 2:获取数据集信息

{
"dataset": "stanfordnlp/imdb",
"auth_token": "your_api_token_here"
}

示例 3:获取分页内容

{
"dataset": "stanfordnlp/imdb",
"config": "default",
"split": "train",
"page": 0,
"auth_token": "your_api_token_here"
}

示例 4:搜索数据集内容

{
"dataset": "stanfordnlp/imdb",
"query": "电影评论",
"auth_token": "your_api_token_here"
}

📄 许可证

本项目采用 MIT License,详情请参阅 LICENSE。

  • 0 关注
  • 0 收藏,17 浏览
  • system 提出于 2025-09-20 22:45

相似服务问题

相关AI产品