DINO X MCP

内容 TypeScript

🚀 DINO-X MCP

DINO-X MCP借助DINO-X和Grounding DINO 1.6 API，赋能大语言模型实现细粒度的目标检测和图像理解。

🚀 快速开始

1. 前提条件

你可以使用以下方法之一安装Node.js：

选项A：命令行安装 👍

# 对于MacOS或Linux系统
# 1. 安装nvm（Node版本管理器）
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash
# 或者
wget -qO- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash

# 2. 将以下行添加到你的配置文件（~/.bash_profile、~/.zshrc、~/.profile或~/.bashrc）
export NVM_DIR="$HOME/.nvm"
[ -s "$NVM_DIR/nvm.sh" ] && \. "$NVM_DIR/nvm.sh"
[ -s "$NVM_DIR/bash_completion" ] && \. "$NVM_DIR/bash_completion"

# 3. 在当前shell中激活nvm
source ~/.bashrc
# 或者
source ~/.zshrc

# 4. 验证nvm是否安装成功
command -v nvm

# 5. 安装并使用Node.js的LTS版本
nvm install --lts
nvm use --lts

# 对于Windows系统
winget install OpenJS.NodeJS.LTS
# 或者使用PowerShell（管理员权限）
iwr -useb https://raw.githubusercontent.com/chocolatey/chocolatey/master/chocolateyInstall/InstallChocolatey.ps1 | iex
choco install nodejs-lts -y

选项B：手动安装

从 nodejs.org 下载安装程序。

此外，选择支持MCP客户端的AI助手和应用程序，包括但不限于：

2. 配置MCP服务器

你可以通过两种方式使用DINO-X MCP服务器：

选项A：使用NPM包 👍

在你的MCP客户端中添加以下配置：

{
"mcpServers": {
"dinox-mcp": {
"command": "npx",
"args": ["-y", "@deepdataspace/dinox-mcp"],
"env": {
"DINOX_API_KEY": "your-api-key-here",
"IMAGE_STORAGE_DIRECTORY": "/path/to/your/image/directory"
}
}
}
}

选项B：使用本地项目

首先，克隆并构建项目：

# 克隆项目
git clone https://github.com/IDEA-Research/DINO-X-MCP.git
cd DINO-X-MCP

# 安装依赖
pnpm install

# 构建项目
pnpm run build

然后配置你的MCP客户端：

{
"mcpServers": {
"dinox-mcp": {
"command": "node",
"args": ["/path/to/DINO-X-MCP/build/index.js"],
"env": {
"DINOX_API_KEY": "your-api-key-here",
"IMAGE_STORAGE_DIRECTORY": "/path/to/your/image/directory"
}
}
}
}

3. 获取API密钥

从 DINO-X平台获取你的API密钥（新用户可享受免费配额）。

将上述配置中的 your-api-key-here 替换为你实际的API密钥。

4. 环境变量

DINO-X MCP服务器支持以下环境变量：

属性	详情
`DINOX_API_KEY`	用于身份验证的DINO-X API密钥，必需
`IMAGE_STORAGE_DIRECTORY`	生成的可视化图像将保存的目录，可选，默认值：macOS/Linux：`/tmp/dinox-mcp`；Windows：`%TEMP%\dinox-mcp`

5. 可用工具

重启你的MCP客户端，你应该能够使用以下工具：

方法名称	描述	输入	输出
`detect-all-objects`	检测并定位图像中所有可识别的对象	图像	类别名称 + 边界框 + 描述
`object-detection-by-text`	根据自然语言提示检测并定位图像中的对象	图像 + 文本提示	边界框 + 对象描述
`detect-human-pose-keypoints`	检测图像中每个人的17个人体关键点，用于姿态估计	图像	关键点坐标和描述
`visualize-detections`	通过在图像上绘制边界框和标签来可视化检测结果	图像 + 检测结果	保存到存储目录的带注释图像

✨ 主要特性

虽然多模态模型可以理解和描述图像，但它们通常缺乏对视觉内容的精确定位和高质量的结构化输出。

使用DINO-X MCP，你可以：

🧠 实现细粒度的图像理解 —— 包括全场景识别和基于自然语言的目标检测。

🎯 准确获取对象的数量、位置和属性，支持视觉问答等任务。

🧩 与其他MCP服务器集成，构建多步骤的视觉工作流。

🛠️ 为现实世界的自动化场景构建自然语言驱动的视觉代理。

🎬 使用案例

🎯 场景	📝 输入	✨ 输出
检测与定位	💬 提示： `检测并可视化森林中的火灾区域` 🖼️ 输入图像：
对象计数	💬 提示： `请分析这张仓库图像，检测所有纸箱并统计总数` 🖼️ 输入图像：
特征检测	💬 提示： `在图像中找到所有红色汽车` 🖼️ 输入图像：
属性推理	💬 提示： `在图像中找到最高的人，描述他们的穿着` 🖼️ 输入图像：
全场景检测	💬 提示： `在图像中找到维生素C含量最高的水果` 🖼️ 输入图像：	答案：猕猴桃（93mg/100g）
姿态分析	💬 提示： `请分析这是什么瑜伽姿势` 🖼️ 输入图像：