Spaces:

kennethli319
/

toolbox-tts

Runtime error

kennethli319 commited on Jan 17, 2024

Commit

2230bd8

1 Parent(s): 7f77a52

update tts

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,8 @@
 import gradio as gr
 import torch
 import numpy as np
 from nemo.collections.tts.models import FastPitchModel
 from nemo.collections.tts.models import HifiGanModel
@@ -21,16 +24,21 @@ def generate_tts(text: str, speaker: int = 0):
     parsed = spec_generator.parse(text)
     spectrogram = spec_generator.generate_spectrogram(tokens=parsed, speaker=speaker)
     audio = voc_model.convert_spectrogram_to_audio(spec=spectrogram)
-    return sr, audio.to('cpu').detach().numpy()
 def run():
     demo = gr.Interface(
         fn=generate_tts,
         inputs=[gr.Textbox(value="This is a test.", label="Text to Synthesize"),
                 gr.Slider(0, 10, step=1, label="Speaker")],
-        outputs="audio",
     )
     demo.launch(server_name="0.0.0.0", server_port=7860)

 import gradio as gr
 import torch
+import torchaudio
+import tempfile
 import numpy as np
 from nemo.collections.tts.models import FastPitchModel
 from nemo.collections.tts.models import HifiGanModel
     parsed = spec_generator.parse(text)
     spectrogram = spec_generator.generate_spectrogram(tokens=parsed, speaker=speaker)
     audio = voc_model.convert_spectrogram_to_audio(spec=spectrogram)
+    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
+        torchaudio.save(fp.name, audio.to('cpu'), sample_rate=sr)
+    return fp.name
+    #return (sr, audio.to('cpu').detach().numpy())
 def run():
     demo = gr.Interface(
         fn=generate_tts,
         inputs=[gr.Textbox(value="This is a test.", label="Text to Synthesize"),
                 gr.Slider(0, 10, step=1, label="Speaker")],
+        outputs=gr.outputs.Audio(label="Output"),
     )
     demo.launch(server_name="0.0.0.0", server_port=7860)