本项目提供了文本转音频、文本转图像和文本转视频的工具,同时包含项目开发和配置的相关说明,方便开发者使用和定制。
本项目提供了文本转音频、文本转图像和文本转视频等多种实用工具。以下是使用这些工具的基本信息和操作步骤。
使用 npm 安装:
npm install
或使用 yarn 安装:
yarn install
# 调用 text_to_audio 工具
# 注意:这里只是示例调用形式,实际使用需根据具体语言和环境调整
text_to_audio(text="这是一段测试文本", model="speech-02-hd", voiceId="male-qn-qingse", speed=1.0, vol=1.0, pitch=0, emotion="happy", format="mp3", sampleRate=32000, bitrate=128000, channel=1, languageBoost="auto", latexRead=False, pronunciationDict=None, stream=False, subtitleEnable=False, outputDirectory="./output", outputFile="output_audio.mp3")
# 调用 text_to_image 工具
text_to_image(prompt="美丽的风景", model="image-01", aspectRatio="1:1", n=1, promptOptimizer=True, subjectReference=None, outputDirectory="./output")
# 调用 text_to_video 工具
text_to_video(prompt="一段精彩的视频", model="video-01", duration=10, outputDirectory="./output")
根据文本生成音频。
工具名称:text_to_audio
参数:
| 属性 | 详情 |
|---|---|
text |
文本内容(必填) |
model |
模型版本,选项包括 'speech-02-hd', 'speech-02-turbo', 'speech-01-hd', 'speech-01-turbo', 'speech-01-240228', 'speech-01-turbo-240228',默认为 'speech-02-hd' |
voiceId |
音色 ID,默认为 'male-qn-qingse' |
speed |
语速,范围 0.5 - 2.0, 默认为 1.0 |
vol |
音量,范围 0.1 - 10.0, 默认为 1.0 |
pitch |
音调,范围 -12 到 12,默认为 0 |
emotion |
情感,选项包括 'happy', 'sad', 'angry', 'fearful', 'disgusted', 'surprised', 'neutral',默认为 'happy'。注意:此参数仅适用于 'speech-02-hd', 'speech-02-turbo', 'speech-01-turbo', 'speech-01-hd' 模型 |
format |
音频格式,选项包括 'mp3', 'pcm', 'flac', 'wav',默认为 'mp3' |
sampleRate |
采样率(Hz),选项包括 8000, 16000, 22050, 24000, 32000, 44100,默认为 32000 |
bitrate |
码率(bps),选项包括 64000, 96000, 128000, 160000, 192000, 224000, 256000, 320000,默认为 128000 |
channel |
音频声道,选项包括 1 或 2,默认为 1 |
languageBoost |
语言增强,默认为 'auto' |
latexRead |
是否开启公式阅读功能 |
pronunciationDict |
发音词典 |
stream |
是否启用流式输出 |
subtitleEnable |
是否启用字幕生成 |
outputDirectory |
保存输出文件的目录(可选) |
outputFile |
保存输出文件的路径(可选,如果未提供则自动生成文件名) |
根据文本描述生成图像。
工具名称:text_to_image
参数:
| 属性 | 详情 |
|---|---|
prompt |
图像描述(必填) |
model |
模型版本,默认为 'image-01' |
aspectRatio |
宽高比,默认为 '1:1',选项包括 '1:1', '16:9', '4:3', '3:2', '2:3', '3:4', '9:16', '21:9' |
n |
生成图像的数量,范围 1 - 9,默认为 1 |
promptOptimizer |
是否优化提示词,默认为 true |
subjectReference |
角色参考路径(可选) |
outputDirectory |
保存输出文件的目录(可选) |
根据文本描述生成视频。
工具名称:text_to_video
参数:
| 属性 | 详情 |
|---|---|
prompt |
视频描述(必填) |
model |
模型版本,默认为 'video-01' |
duration |
视频时长(秒),默认为 10 |
outputDirectory |
保存输出文件的目录(可选) |
若需将本项目作为模块导出,请参考以下代码:
// 将 project 导出到其他地方
项目包含以下主要组成部分:
src/:源代码目录public/:公共资源目录package.json:项目依赖管理文件tsconfig.json:TypeScript 配置文件(如果使用 TypeScript)npm install
或使用 yarn:
yarn install
npm run dev
或使用 yarn:
yarn dev
npm run build
或使用 yarn:
yarn build
在 package.json 中可以设置以下环境变量:
{
"config": {
"PORT": 3000,
"NODE_ENV": "development"
}
}
请确保安装所有依赖项,并正确配置环境变量。