MiniMax Multimodal

MiniMax Multimodal

🚀 导出

本部分主要介绍项目导出相关内容,包含工具介绍、开发指南以及许可证信息。

✨ 主要特性

项目导出

涵盖多种实用工具,可实现文本转语音、文本转图片、视频生成以及语音克隆等功能。

工具介绍

  • 文本转语音:将文本内容转换为语音。
  • 文本转图片:依据文本描述生成对应的图片。
  • 视频生成:根据文本描述创建视频。
  • 语音克隆:克隆指定语音。

开发指南

包含项目设置、构建和运行的详细步骤。

许可证

明确项目遵循的许可协议。

📦 安装指南

项目设置

npm install mini-max-mcp-js

项目构建

npm run build

项目运行

node index.js

💻 使用示例

文本转语音

  • 工具名称text_to_speech
  • 参数说明
    • model:模型版本,默认为 'speech-02-hd'
    • voiceId:音调ID,默认为 'male-qn-qingse'
    • speed:语速,范围 0.5 - 2.0,默认为 1.0
    • vol:音量,范围 0.1 - 10.0,默认为 1.0
    • pitch:音调,范围 -12 到 12,默认为 0
    • emotion:情感,可选值有 'happy', 'sad', 'angry', 'fearful', 'disgusted', 'surprised', 'neutral',默认为 'happy'
    • format:音频格式,可选值有 'mp3', 'pcm', 'flac', 'wav',默认为 'mp3'
    • sampleRate:采样率(Hz),可选值有 8000, 16000, 22050, 24000, 32000, 44100,默认为 32000
    • bitrate:比特率(bps),可选值有 64000, 96000, 128000, 160000, 192000, 224000, 256000, 320000,默认为 128000
    • channel:音频声道,可选值有 1 或 2,默认为 1
    • languageBoost:语言增强,默认为 'auto'
    • latexRead:是否开启公式阅读功能
    • pronunciationDict:发音词典
    • stream:是否开启流式输出
    • subtitleEnable:是否开启字幕生成
    • outputDirectory:保存输出文件的目录(可选)
    • outputFile:保存输出文件的路径(可选,未提供时自动生成)

文本转图片

  • 工具名称text_to_image
  • 参数说明
    • prompt:图像描述(必填)
    • model:模型版本,默认为 'image-01'
    • aspectRatio:宽高比,默认为 '1:1',可选值有 '1:1', '16:9', '4:3', '3:2', '5:4'
    • width:图像宽度(可选)
    • height:图像高度(可选)
    • quality:图像质量,默认为 75
    • outputFormat:输出格式,可选值有 'png', 'jpeg', 'webp',默认为 'png'
    • sampler:采样器类型,默认为 'karras'
    • steps:生成步骤数,默认为 20
    • temperature:创作温度,默认为 0.7
    • top_p:多样性参数,默认为 1.0

视频生成

  • 工具名称text_to_video
  • 参数说明
    • prompt:视频描述(必填)
    • model:模型版本,默认为 'video-01'
    • width:视频宽度,默认为 1920
    • height:视频高度,默认为 1080
    • duration:视频时长(秒),默认为 10
    • fps:帧率,默认为 30
    • outputFormat:输出格式,可选值有 'mp4', 'mov',默认为 'mp4'
    • sampler:采样器类型,默认为 'karras'
    • steps:生成步骤数,默认为 20
    • temperature:创作温度,默认为 0.7
    • top_p:多样性参数,默认为 1.0

语音克隆

  • 工具名称voice_cloning
  • 参数说明
    • source_voice_path:源语音文件路径(必填)
    • target_text:目标文本(必填)
    • output_format:输出格式,可选值有 'wav', 'mp3',默认为 'wav'
    • sampling_rate:采样率,默认为 16000
    • quality:音频质量,默认为 'high'
    • bitrate:比特率(bps),可选值有 96000, 128000, 192000,默认为 128000

📄 许可证

本项目遵循 MIT License 许可证。

  • 0 关注
  • 0 收藏,27 浏览
  • system 提出于 2025-10-01 04:45

相似服务问题

相关AI产品