代码拉取完成,页面将自动刷新
import torchaudio
import argparse
from tts import StepAudioTTS
from tokenizer import StepAudioTokenizer
from utils import load_audio
import os
def main():
parser = argparse.ArgumentParser(description="StepAudio Offline Inference")
parser.add_argument(
"--model-path", type=str, required=True, help="Base path for model files"
)
parser.add_argument(
"--synthesis-type", type=str, default="tts", help="Use tts or Clone for Synthesis"
)
parser.add_argument(
"--output-path", type=str, required=True, help="Output path for synthesis audios"
)
args = parser.parse_args()
os.makedirs(f"{args.output_path}", exist_ok=True)
encoder = StepAudioTokenizer(f"{args.model_path}/Step-Audio-Tokenizer")
tts_engine = StepAudioTTS(f"{args.model_path}/Step-Audio-TTS-3B", encoder)
if args.synthesis_type == "tts":
text = "(RAP)我踏上自由的征途,追逐那遥远的梦想,挣脱束缚的枷锁,让心灵随风飘荡,每一步都充满力量,每一刻都无比闪亮,自由的信念在燃烧,照亮我前进的方向!"
output_audio, sr = tts_engine(text, "Tingting")
torchaudio.save(f"{args.output_path}/output_tts.wav", output_audio, sr)
else:
clone_speaker = {"speaker":"test","prompt_text":"叫做秋风起蟹脚痒,啊,什么意思呢?就是说这秋风一起啊,螃蟹就该上市了。", "wav_path":"examples/prompt_wav_yuqian.wav"}
text_clone = "人活一辈子,生老病死,总得是有高峰,有低谷,有顺境,有逆境,每个人都差不多。要不老话怎么讲,三十年河东,三十年河西呢。"
output_audio, sr = tts_engine(text_clone, "",clone_speaker)
torchaudio.save(f"{args.output_path}/output_clone.wav", output_audio, sr)
if __name__ == "__main__":
main()
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。