Spaces:

fffiloni
/

auffusion

Running on Zero

App Files Files Community

fffiloni commited on Feb 5

Commit

f081ac6

verified ·

1 Parent(s): f814738

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -4

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 import torch, os
 import wave
 import numpy as np
 from scipy.io.wavfile import write
 from PIL import Image
@@ -50,6 +51,27 @@ def debug_spectrogram(audio, spec, label="Current File"):
     return normalized_spec
 def infer(prompt, progress=gr.Progress(track_tqdm=True)):
     pipeline = AuffusionPipeline.from_pretrained("auffusion/auffusion")
     prompt = prompt
@@ -91,10 +113,10 @@ def infer_img2img(prompt, audio_path, desired_strength, progress=gr.Progress(tra
     # Apply fix only if the spectrogram mean is too low
     if spec_mean_before < -5.0:
         print(f"⚠️ Spectrogram too low (Mean: {spec_mean_before}).")
-        def pitch_shift_spectrogram(spec, sr=16000, n_steps=4):
-            spec = librosa.effects.pitch_shift(spec, sr, n_steps=n_steps)
-            return spec
-        spec = pitch_shift_spectrogram(spec, sr=16000, n_steps=4)
     else:
         print(f"✅ Spectrogram looks normal (Mean: {spec_mean_before}). No boost needed.")
@@ -170,6 +192,12 @@ def infer_img2img(prompt, audio_path, desired_strength, progress=gr.Progress(tra
     output_spec_image_path = "output_spectrogram.png"
     concat_image.save(output_spec_image_path)
     return "output.wav", input_spec_image_path, output_spec_image_path
 def infer_inp(prompt, audio_path, mask_start_point, mask_end_point, progress=gr.Progress(track_tqdm=True)):

 import gradio as gr
 import torch, os
 import wave
+import librosa
 import numpy as np
 from scipy.io.wavfile import write
 from PIL import Image
     return normalized_spec
+def extract_pitch(y, sr, hop_length=512):
+    # Use librosa's yin method to estimate the pitch (fundamental frequency)
+    f0, voiced_flag, voiced_probs = librosa.pyin(y, fmin=librosa.note_to_hz('C1'), fmax=librosa.note_to_hz('C8'))
+    # Calculate the mean pitch (only for voiced segments)
+    f0_mean = np.mean(f0[voiced_flag]) if len(f0[voiced_flag]) > 0 else None
+    return f0_mean
+def compare_pitch(original_audio, processed_audio, sr=16000):
+    # Extract pitch from the original and processed audio
+    pitch_original = extract_pitch(original_audio, sr)
+    pitch_processed = extract_pitch(processed_audio, sr)
+    if pitch_original is not None and pitch_processed is not None:
+        pitch_diff = pitch_original - pitch_processed
+        print(f"Original Pitch: {pitch_original} Hz")
+        print(f"Processed Pitch: {pitch_processed} Hz")
+        print(f"Pitch Difference: {pitch_diff} Hz")
+    else:
+        print("Could not extract pitch from one of the signals.")
 def infer(prompt, progress=gr.Progress(track_tqdm=True)):
     pipeline = AuffusionPipeline.from_pretrained("auffusion/auffusion")
     prompt = prompt
     # Apply fix only if the spectrogram mean is too low
     if spec_mean_before < -5.0:
         print(f"⚠️ Spectrogram too low (Mean: {spec_mean_before}).")
+        #def pitch_shift_spectrogram(spec, sr=16000, n_steps=4):
+        #    spec = librosa.effects.pitch_shift(spec, sr, n_steps=n_steps)
+        #    return spec
+        #spec = pitch_shift_spectrogram(spec, sr=16000, n_steps=4)
     else:
         print(f"✅ Spectrogram looks normal (Mean: {spec_mean_before}). No boost needed.")
     output_spec_image_path = "output_spectrogram.png"
     concat_image.save(output_spec_image_path)
+    # ——
+    original_audio, sr = librosa.load(audio_path, sr=None)
+    processed_audio, sr = librosa.load("output.wav", sr=None)
+    compare_pitch(original_audio, processed_audio)
     return "output.wav", input_spec_image_path, output_spec_image_path
 def infer_inp(prompt, audio_path, mask_start_point, mask_end_point, progress=gr.Progress(track_tqdm=True)):