这是一个MCP服务器,可从各种视频平台和音频文件中提取文本。该服务器实现了模型上下文协议(MCP),为音频转录服务提供标准化访问。
本服务支持从多个平台下载视频并提取音频,使用前请确保满足系统要求,首次运行会自动下载约1GB的Whisper模型文件。
使用uv时无需进行特定安装,我们将使用uvx直接运行视频提取服务器:
curl -LsSf https://astral.sh/uv/install.sh | sh
FFmpeg是音频处理所必需的,你可以通过以下多种方式安装:
# Ubuntu或Debian
sudo apt update && sudo apt install ffmpeg
# Arch Linux
sudo pacman -S ffmpeg
# MacOS
brew install ffmpeg
# Windows(使用Chocolatey)
choco install ffmpeg
# Windows(使用Scoop)
scoop install ffmpeg
在Claude/Cursor设置中添加以下内容:
"mcpServers": {
"video-extraction": {
"command": "uvx",
"args": ["mcp-video-extraction"]
}
}
本服务支持从各种平台下载视频并提取音频,包括但不限于:
完整的支持平台列表,请访问 yt-dlp支持的站点。
本项目通过MCP工具利用OpenAI的Whisper模型进行音频转文本处理。服务器公开了四个主要工具:
本服务器使用模型上下文协议构建,它提供:
该服务可以通过环境变量进行配置:
WHISPER_MODEL:Whisper模型大小(tiny/base/small/medium/large),默认值:'base'WHISPER_LANGUAGE:转录的语言设置,默认值:'auto'YOUTUBE_FORMAT:下载的视频格式,默认值:'bestaudio'AUDIO_FORMAT:提取的音频格式,默认值:'mp3'AUDIO_QUALITY:音频质量设置,默认值:'192'TEMP_DIR:临时文件存储位置,默认值:'/tmp/mcp-video'DOWNLOAD_RETRIES:下载重试次数,默认值:10FRAGMENT_RETRIES:片段下载重试次数,默认值:10SOCKET_TIMEOUT:套接字超时时间(秒),默认值:30本服务器可与任何兼容MCP的客户端配合使用,例如:
有关MCP的更多信息,请访问 模型上下文协议。
中文文档请参考 README_zh.md
本项目利用OpenAI的Whisper模型进行音频转文本处理,这是核心的音频处理技术。服务器基于模型上下文协议(MCP)构建,通过标准化的方式向大语言模型公开工具,同时保障对视频内容和音频文件的安全访问。技术栈采用Python 3.10+,结合了MCP Python SDK、yt-dlp、openai-whisper和pydantic等工具和库。
本项目采用MIT许可证。
⚠️ 重要提示
首次运行时,系统会自动下载Whisper模型文件(约1GB),此过程可能需要几分钟到几十分钟,具体取决于网络状况。模型文件将在本地缓存,后续运行无需再次下载。
💡 使用建议
- 确保有足够的磁盘空间用于临时音频文件
- 建议使用GPU以加快音频处理速度
- 处理长视频可能需要较长时间,请耐心等待