Spaces:

pheodoraa
/

speechbrain

Sleeping

pheodoraa commited on Mar 17

Commit

facd705

verified ·

1 Parent(s): 03bcefe

Fix Error processing audio: start (0) + length (25651) exceeds dimension size (1132).

Files changed (1) hide show

app.py CHANGED Viewed

@@ -22,13 +22,20 @@ def transcribe(audio):
         # Load audio
         waveform, sample_rate = torchaudio.load(audio)
         # Ensure correct sample rate (16kHz expected by the model)
         if sample_rate != 16000:
             resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
             waveform = resampler(waveform)
-        # Compute waveform length in seconds relative to batch size
-        wav_lens = torch.tensor([waveform.shape[1] / 16000], dtype=torch.float32)
         # Transcribe
         transcription = asr_model.transcribe_batch(waveform, wav_lens)

         # Load audio
         waveform, sample_rate = torchaudio.load(audio)
+        # Convert to single-channel (mono) if stereo
+        if waveform.shape[0] > 1:
+            waveform = torch.mean(waveform, dim=0, keepdim=True)
         # Ensure correct sample rate (16kHz expected by the model)
         if sample_rate != 16000:
             resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
             waveform = resampler(waveform)
+        # Compute waveform length as a relative fraction
+        wav_lens = torch.tensor([waveform.shape[1] / waveform.shape[1]], dtype=torch.float32)
+        # Add batch dimension (SpeechBrain expects a batch format)
+        waveform = waveform.unsqueeze(0)
         # Transcribe
         transcription = asr_model.transcribe_batch(waveform, wav_lens)