中文模型能力介绍MiniMax(语音克隆 & TTS)

MiniMax 音频模型

概览

MiniMax 在 StoryFlow 中主要提供两类音频能力:语音克隆与文字转语音(TTS)。当你需要“跨镜头一致的旁白/角色声音”时,用它最合适。

MiniMax 语音克隆(Voice Clone)

能做什么

从一段音频样本中学习音色与说话风格,生成可复用的 Voice ID。

输入

  • 音频样本(必填):MP3/M4A/WAV,10 秒–5 分钟(最大 20MB)。
  • 演示文本(必填):用于克隆后生成一段预览音频。

参数

参数类型默认值可选值说明
voice_modelstringspeech-2.5-hd-previewspeech-2.5-hd-preview选择用于克隆的模型版本。
accuracynumber0.80.01.0克隆精度,数值越高越接近原音色。
need_noise_reductionbooleantruetrue, false是否开启降噪处理。
need_volume_normalizationbooleantruetrue, false是否开启音量归一化。

使用建议

  • 选用干净的单人声素材,尽量避免背景音乐与环境噪声。
  • 提供 30–90 秒连续且稳定的讲话内容,音色更稳。
  • 若 7 天内未在 TTS 请求中使用该 Voice ID,可能会被清理。

MiniMax TTS(文字转语音)

能做什么

把文本生成语音,既支持系统预置音色,也支持使用你克隆得到的自定义 Voice ID。

输入

  • 文本输入(必填):需要朗读的内容。

参数

参数类型默认值可选值说明
voice_modelstringspeech-2.6-turbospeech-2.6-turbo, speech-2.6-hd选择 TTS 模型版本。Turbo 更快,HD 质量更高。
voice_idstringmale-qn-qingse系统预置列表选择系统音色。开启 use_custom_voice 后该项不可用。
use_custom_voicebooleanfalsetrue, false是否使用自定义克隆音色。
custom_voice_idstring""-你的克隆 Voice ID(通常以 voice_clone_ 开头),仅在 use_custom_voice=true 时可用。
emotionstringneutralneutral, happy, sad, angry, fearful, disgusted, surprised控制情绪语气(MiniMax 2.6 支持)。
text_normalizationbooleanfalsetrue, false英文文本规范化,提升数字/日期/符号阅读,略增延迟。
speednumber1.00.52.0语速。
volnumber1.00.110.0音量。
pitchnumber0-1212(整数)音高(正值更尖,负值更低沉)。

使用建议

  • 长文本建议拆成段落或按镜头拆分,便于控制节奏与停顿。
  • 同一项目尽量保持一致的音色与参数,旁白更统一。