Spaces:

Banafo
/

Kroko-Streaming-ASR-Python

Running

Banafo commited on Mar 27

Commit

bd53ed8

verified ·

1 Parent(s): 5150994

Update app.py

Normalize the audio volume from the microphone

Files changed (1) hide show

app.py CHANGED Viewed

@@ -142,7 +142,14 @@ def transcribe_microphone_stream(audio_chunk, stream_state, language):
         sample_rate, waveform_np = audio_chunk
         if len(waveform_np.shape) > 1:
             waveform_np = waveform_np.mean(axis=1)
         # Resample if needed
         if sample_rate != 16000:
             waveform = torch.from_numpy(waveform_np).float().unsqueeze(0)
@@ -151,6 +158,8 @@ def transcribe_microphone_stream(audio_chunk, stream_state, language):
             waveform_np = waveform.squeeze(0).numpy()
             sample_rate = 16000
         # Initialize stream if first chunk
         if stream_state is None:
             stream_state = recognizer.create_stream()

         sample_rate, waveform_np = audio_chunk
         if len(waveform_np.shape) > 1:
             waveform_np = waveform_np.mean(axis=1)
+        # Normalize if needed
+        if waveform_np.dtype != np.float32:
+            waveform_np = waveform_np.astype(np.float32)
+        if np.max(np.abs(waveform_np)) > 1.0:
+            waveform_np = waveform_np / np.max(np.abs(waveform_np))
         # Resample if needed
         if sample_rate != 16000:
             waveform = torch.from_numpy(waveform_np).float().unsqueeze(0)
             waveform_np = waveform.squeeze(0).numpy()
             sample_rate = 16000
+        waveform_np = np.clip(waveform_np, -1.0, 1.0)
         # Initialize stream if first chunk
         if stream_state is None:
             stream_state = recognizer.create_stream()