Spaces:

kennethli319
/

toolbox-tts

Runtime error

kennethli319 commited on Jan 17, 2024

Commit

f690a5a

1 Parent(s): 09e6eb0

update tts

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,6 +8,12 @@ from nemo.collections.tts.models import FastPitchModel
 from nemo.collections.tts.models import HifiGanModel
 from nemo.collections.tts.models import MixerTTSModel
 # spec_generator_2 = MixerTTSModel.from_pretrained("tts_en_lj_mixerttsx")
 # model1 = HifiGanModel.from_pretrained(model_name="tts_en_lj_hifigan_ft_mixerttsx")
@@ -16,20 +22,23 @@ spec_generator.eval()
 voc_model = HifiGanModel.from_pretrained(model_name="tts_en_hifitts_hifigan_ft_fastpitch")
 voc_model.eval()
 def greet(name):
     return "Hello " + name + "!!"
 def generate_tts(text: str, speaker: int = 0):
     sr = 44100
-    parsed = spec_generator.parse(text)
-    spectrogram = spec_generator.generate_spectrogram(tokens=parsed, speaker=speaker)
-    audio = voc_model.convert_spectrogram_to_audio(spec=spectrogram)
     # with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
     #     torchaudio.save(fp.name, audio.to('cpu'), sample_rate=sr)
     #     return fp.name
-    return (sr, audio.to('cpu').detach().numpy())
 def run():
     demo = gr.Interface(

 from nemo.collections.tts.models import HifiGanModel
 from nemo.collections.tts.models import MixerTTSModel
+from transformers import pipeline
+Audio(output["audio"], rate=output["sampling_rate"])
 # spec_generator_2 = MixerTTSModel.from_pretrained("tts_en_lj_mixerttsx")
 # model1 = HifiGanModel.from_pretrained(model_name="tts_en_lj_hifigan_ft_mixerttsx")
 voc_model = HifiGanModel.from_pretrained(model_name="tts_en_hifitts_hifigan_ft_fastpitch")
 voc_model.eval()
+pipe = pipeline("text-to-speech", model="suno/bark-small")
 def greet(name):
     return "Hello " + name + "!!"
 def generate_tts(text: str, speaker: int = 0):
     sr = 44100
+    # parsed = spec_generator.parse(text)
+    # spectrogram = spec_generator.generate_spectrogram(tokens=parsed, speaker=speaker)
+    # audio = voc_model.convert_spectrogram_to_audio(spec=spectrogram)
+    output = pipe(text)
     # with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
     #     torchaudio.save(fp.name, audio.to('cpu'), sample_rate=sr)
     #     return fp.name
+    return (output["sampling_rate"], output["audio"])
 def run():
     demo = gr.Interface(