MiniMax 音频模型
概览
MiniMax 在 StoryFlow 中主要提供两类音频能力:语音克隆与文字转语音(TTS)。当你需要“跨镜头一致的旁白/角色声音”时,用它最合适。
MiniMax 语音克隆(Voice Clone)
能做什么
从一段音频样本中学习音色与说话风格,生成可复用的 Voice ID。
输入
- 音频样本(必填):MP3/M4A/WAV,10 秒–5 分钟(最大 20MB)。
- 演示文本(必填):用于克隆后生成一段预览音频。
参数
| 参数 | 类型 | 默认值 | 可选值 | 说明 |
|---|---|---|---|---|
voice_model | string | speech-2.5-hd-preview | speech-2.5-hd-preview | 选择用于克隆的模型版本。 |
accuracy | number | 0.8 | 0.0 – 1.0 | 克隆精度,数值越高越接近原音色。 |
need_noise_reduction | boolean | true | true, false | 是否开启降噪处理。 |
need_volume_normalization | boolean | true | true, false | 是否开启音量归一化。 |
使用建议
- 选用干净的单人声素材,尽量避免背景音乐与环境噪声。
- 提供 30–90 秒连续且稳定的讲话内容,音色更稳。
- 若 7 天内未在 TTS 请求中使用该 Voice ID,可能会被清理。
MiniMax TTS(文字转语音)
能做什么
把文本生成语音,既支持系统预置音色,也支持使用你克隆得到的自定义 Voice ID。
输入
- 文本输入(必填):需要朗读的内容。
参数
| 参数 | 类型 | 默认值 | 可选值 | 说明 |
|---|---|---|---|---|
voice_model | string | speech-2.6-turbo | speech-2.6-turbo, speech-2.6-hd | 选择 TTS 模型版本。Turbo 更快,HD 质量更高。 |
voice_id | string | male-qn-qingse | 系统预置列表 | 选择系统音色。开启 use_custom_voice 后该项不可用。 |
use_custom_voice | boolean | false | true, false | 是否使用自定义克隆音色。 |
custom_voice_id | string | "" | - | 你的克隆 Voice ID(通常以 voice_clone_ 开头),仅在 use_custom_voice=true 时可用。 |
emotion | string | neutral | neutral, happy, sad, angry, fearful, disgusted, surprised | 控制情绪语气(MiniMax 2.6 支持)。 |
text_normalization | boolean | false | true, false | 英文文本规范化,提升数字/日期/符号阅读,略增延迟。 |
speed | number | 1.0 | 0.5 – 2.0 | 语速。 |
vol | number | 1.0 | 0.1 – 10.0 | 音量。 |
pitch | number | 0 | -12 – 12(整数) | 音高(正值更尖,负值更低沉)。 |
使用建议
- 长文本建议拆成段落或按镜头拆分,便于控制节奏与停顿。
- 同一项目尽量保持一致的音色与参数,旁白更统一。