-1 表示随机时长 (30 ~ 240秒)。
勾选以使用参考音频进行音频到音频生成。
当 guidance_scale_lyric > 1 且 guidance_scale_text > 1 时,不应用引导尺度。
文本条件的引导尺度。仅适用于 cfg。建议设置 guidance_scale_text=5.0, guidance_scale_lyric=1.5 作为开始。
生成种子
生成调度器类型。推荐使用 euler。heun 将花费更多时间。
生成 CFG 类型。推荐使用 apg。cfg 和 cfg_star 几乎相同。
对标签使用熵校正引导。它将注意力乘以一个温度,以减弱标签条件并提高多样性。
同上,但应用于歌词编码器的注意力。
同上,但应用于扩散模型的注意力。
生成粒度尺度。值越高可以减少伪影。
生成引导间隔。0.5 表示仅在中间步骤应用引导 (0.25 * 推理步数 到 0.75 * 推理步数)。
生成引导间隔衰减。引导尺度将在此间隔内从 guidance_scale 衰减到 min_guidance_scale。0.0 表示不衰减。
引导间隔衰减结束时的最小引导尺度。
生成的最优步数。但未充分测试。