DINO-X MCP 借助 DINO-X 和 Grounding DINO 1.6 API,赋能大语言模型实现细粒度的目标检测和图像理解。
你可以使用以下方法之一安装 Node.js:
# 适用于 MacOS 或 Linux
# 1. 安装 nvm(Node 版本管理器)
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash
# 或者
wget -qO- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash
# 2. 将以下行添加到你的配置文件(~/.bash_profile、~/.zshrc、~/.profile 或 ~/.bashrc)
export NVM_DIR="$HOME/.nvm"
[ -s "$NVM_DIR/nvm.sh" ] && \. "$NVM_DIR/nvm.sh"
[ -s "$NVM_DIR/bash_completion" ] && \. "$NVM_DIR/bash_completion"
# 3. 在当前 shell 中激活 nvm
source ~/.bashrc
# 或者
source ~/.zshrc
# 4. 验证 nvm 安装
command -v nvm
# 5. 安装并使用 Node.js 的 LTS 版本
nvm install --lts
nvm use --lts
# 适用于 Windows
winget install OpenJS.NodeJS.LTS
# 或者使用 PowerShell(管理员权限)
iwr -useb https://raw.githubusercontent.com/chocolatey/chocolatey/master/chocolateyInstall/InstallChocolatey.ps1 | iex
choco install nodejs-lts -y
从 nodejs.org 下载安装程序。
此外,选择一个支持 MCP 客户端的 AI 助手和应用程序,包括但不限于:
你可以通过两种方式使用 DINO-X MCP 服务器:
在你的 MCP 客户端中添加以下配置:
{
"mcpServers": {
"dinox-mcp": {
"command": "npx",
"args": ["-y", "@deepdataspace/dinox-mcp"],
"env": {
"DINOX_API_KEY": "your-api-key-here",
"IMAGE_STORAGE_DIRECTORY": "/path/to/your/image/directory"
}
}
}
}
首先,克隆并构建项目:
# 克隆项目
git clone https://github.com/IDEA-Research/DINO-X-MCP.git
cd DINO-X-MCP
# 安装依赖
pnpm install
# 构建项目
pnpm run build
然后配置你的 MCP 客户端:
{
"mcpServers": {
"dinox-mcp": {
"command": "node",
"args": ["/path/to/DINO-X-MCP/build/index.js"],
"env": {
"DINOX_API_KEY": "your-api-key-here",
"IMAGE_STORAGE_DIRECTORY": "/path/to/your/image/directory"
}
}
}
}
从 DINO-X 平台 获取你的 API 密钥(新用户可享受免费配额)。
将上述配置中的 your-api-key-here 替换为你实际的 API 密钥。
DINO-X MCP 服务器支持以下环境变量:
| 变量名 | 描述 | 是否必需 | 默认值 | 示例 |
|---|---|---|---|---|
DINOX_API_KEY |
用于身份验证的 DINO-X API 密钥 | 必需 | - | your-api-key-here |
IMAGE_STORAGE_DIRECTORY |
生成的可视化图像将保存的目录 | 可选 | macOS/Linux: /tmp/dinox-mcpWindows: %TEMP%\dinox-mcp |
/Users/admin/Downloads/dinox-images |
重启你的 MCP 客户端,你应该能够使用以下工具:
| 方法名 | 描述 | 输入 | 输出 |
|---|---|---|---|
detect-all-objects |
检测并定位图像中所有可识别的对象。 | 图像 | 类别名称 + 边界框 + 描述 |
object-detection-by-text |
根据自然语言提示检测并定位图像中的对象。 | 图像 + 文本提示 | 边界框 + 对象描述 |
detect-human-pose-keypoints |
检测图像中每个人的 17 个人体关键点,用于姿态估计。 | 图像 | 关键点坐标和描述 |
visualize-detections |
通过在图像上绘制边界框和标签来可视化检测结果。 | 图像 + 检测结果 | 保存到存储目录的标注图像 |
| 🎯 场景 | 📝 输入 | ✨ 输出 |
|---|---|---|
| 检测与定位 | 💬 提示:检测并可视化森林中的火灾区域🖼️ 输入图像: |
|
| 对象计数 | 💬 提示:请分析此仓库图像,检测所有纸板箱并统计总数🖼️ 输入图像: |
|
| 特征检测 | 💬 提示:在图像中找到所有红色汽车🖼️ 输入图像: |
|
| 属性推理 | 💬 提示:在图像中找到最高的人,描述他们的穿着🖼️ 输入图像: |
|
| 全场景检测 | 💬 提示:在图像中找到维生素 C 含量最高的水果🖼️ 输入图像: |
答案:猕猴桃(93mg/100g) |
| 姿态分析 | 💬 提示:请分析这是什么瑜伽姿势🖼️ 输入图像: |
https:// 开头的远程 URL 👍file:// 开头)jpg, jpeg, png, webp请参考 DINO-X 平台 获取 API 使用限制和定价信息。
在开发过程中,你可以使用监听模式进行自动重建:
pnpm run watch
使用 MCP 检查器调试服务器:
pnpm run inspector
本项目采用 Apache License 2.0 许可证。