本部分主要介绍项目导出相关内容,包含工具介绍、开发指南以及许可证信息。
涵盖多种实用工具,可实现文本转语音、文本转图片、视频生成以及语音克隆等功能。
包含项目设置、构建和运行的详细步骤。
明确项目遵循的许可协议。
npm install mini-max-mcp-js
npm run build
node index.js
text_to_speechmodel:模型版本,默认为 'speech-02-hd'voiceId:音调ID,默认为 'male-qn-qingse'speed:语速,范围 0.5 - 2.0,默认为 1.0vol:音量,范围 0.1 - 10.0,默认为 1.0pitch:音调,范围 -12 到 12,默认为 0emotion:情感,可选值有 'happy', 'sad', 'angry', 'fearful', 'disgusted', 'surprised', 'neutral',默认为 'happy'format:音频格式,可选值有 'mp3', 'pcm', 'flac', 'wav',默认为 'mp3'sampleRate:采样率(Hz),可选值有 8000, 16000, 22050, 24000, 32000, 44100,默认为 32000bitrate:比特率(bps),可选值有 64000, 96000, 128000, 160000, 192000, 224000, 256000, 320000,默认为 128000channel:音频声道,可选值有 1 或 2,默认为 1languageBoost:语言增强,默认为 'auto'latexRead:是否开启公式阅读功能pronunciationDict:发音词典stream:是否开启流式输出subtitleEnable:是否开启字幕生成outputDirectory:保存输出文件的目录(可选)outputFile:保存输出文件的路径(可选,未提供时自动生成)text_to_imageprompt:图像描述(必填)model:模型版本,默认为 'image-01'aspectRatio:宽高比,默认为 '1:1',可选值有 '1:1', '16:9', '4:3', '3:2', '5:4'width:图像宽度(可选)height:图像高度(可选)quality:图像质量,默认为 75outputFormat:输出格式,可选值有 'png', 'jpeg', 'webp',默认为 'png'sampler:采样器类型,默认为 'karras'steps:生成步骤数,默认为 20temperature:创作温度,默认为 0.7top_p:多样性参数,默认为 1.0text_to_videoprompt:视频描述(必填)model:模型版本,默认为 'video-01'width:视频宽度,默认为 1920height:视频高度,默认为 1080duration:视频时长(秒),默认为 10fps:帧率,默认为 30outputFormat:输出格式,可选值有 'mp4', 'mov',默认为 'mp4'sampler:采样器类型,默认为 'karras'steps:生成步骤数,默认为 20temperature:创作温度,默认为 0.7top_p:多样性参数,默认为 1.0voice_cloningsource_voice_path:源语音文件路径(必填)target_text:目标文本(必填)output_format:输出格式,可选值有 'wav', 'mp3',默认为 'wav'sampling_rate:采样率,默认为 16000quality:音频质量,默认为 'high'bitrate:比特率(bps),可选值有 96000, 128000, 192000,默认为 128000本项目遵循 MIT License 许可证。