Spaces:

alethanhson
/

csm-1b

Running

alethanhson commited on Mar 17

Commit

bd02d7a

1 Parent(s): b460716

fix

Files changed (1) hide show

app.py CHANGED Viewed

@@ -58,7 +58,7 @@ async def startup_event():
         logger.warning("GPU not available. Using CPU, performance may be slow!")
     try:
-        generator = load_csm_1b(device="cuda")
         logger.info(f"Model loaded successfully on device: {device}")
     except Exception as e:
         logger.error(f"Could not load model: {str(e)}")
@@ -102,13 +102,14 @@ async def generate_audio(request: GenerateAudioRequest):
         buffer = io.BytesIO()
         torchaudio.save(buffer, audio.unsqueeze(0).cpu(), generator.sample_rate, format="wav")
-        torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)
         buffer.seek(0)
-        audio_base64 = base64.b64encode(buffer.read()).decode("utf-8")
         return AudioResponse(
-            audio_base64=audio_base64,
-            sample_rate=generator.sample_rate
         )
     except Exception as e:

         logger.warning("GPU not available. Using CPU, performance may be slow!")
     try:
+        generator = load_csm_1b(device=device)
         logger.info(f"Model loaded successfully on device: {device}")
     except Exception as e:
         logger.error(f"Could not load model: {str(e)}")
         buffer = io.BytesIO()
         torchaudio.save(buffer, audio.unsqueeze(0).cpu(), generator.sample_rate, format="wav")
+        # torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)
         buffer.seek(0)
+        # audio_base64 = base64.b64encode(buffer.read()).decode("utf-8")
         return AudioResponse(
+            content=buffer.read(),
+            media_type="audio/wav",
+            headers={"Content-Disposition": "attachment; filename=audio.wav"}
         )
     except Exception as e: