speech-to-speech-translation-ca

Runtime error

App Files Files Community

JanLilan commited on Dec 27, 2023

Commit

2a3194a

1 Parent(s): 9192af8

UPDAED app.py with català speaker embedding

Browse files

Files changed (1) hide show

app.py +54 -5

app.py CHANGED Viewed

@@ -1,9 +1,11 @@
 import gradio as gr
 import numpy as np
 import torch
 from datasets import load_dataset
 from transformers import SpeechT5ForTextToSpeech, SpeechT5HifiGan, SpeechT5Processor, pipeline
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
@@ -18,12 +20,59 @@ model = SpeechT5ForTextToSpeech.from_pretrained(
     "JanLilan/speecht5_finetuned_openslr-slr69-cat"
 ).to(device)
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)
 # we will try to translate with this voice embedding... Let's see what happen. else:
-# dataset = load_dataset("projecte-aina/openslr-slr69-ca-trimmed-denoised", split="train")
-# dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
 # etc.
-embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
 def translate(audio):

+import os
+import torch
 import gradio as gr
 import numpy as np
 import torch
 from datasets import load_dataset
 from transformers import SpeechT5ForTextToSpeech, SpeechT5HifiGan, SpeechT5Processor, pipeline
+from speechbrain.pretrained import EncoderClassifier
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
     "JanLilan/speecht5_finetuned_openslr-slr69-cat"
 ).to(device)
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)
+######################################################################################
+################################## SPEAKER EMBEDDING #################################
+######################################################################################
 # we will try to translate with this voice embedding... Let's see what happen. else:
+dataset = load_dataset("projecte-aina/openslr-slr69-ca-trimmed-denoised", split="train")
+dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
+# LOAD
+spk_model_name = "speechbrain/spkrec-xvect-voxceleb"
+speaker_model = EncoderClassifier.from_hparams(
+    source=spk_model_name,
+    run_opts={"device": device},
+    savedir=os.path.join("/tmp", spk_model_name),
+)
+def create_speaker_embedding(waveform):
+    with torch.no_grad():
+        speaker_embeddings = speaker_model.encode_batch(torch.tensor(waveform))
+        speaker_embeddings = torch.nn.functional.normalize(speaker_embeddings, dim=2)
+        speaker_embeddings = speaker_embeddings.squeeze().cpu().numpy()
+    return speaker_embeddings
+# we must take one speaker embeding
+checkpoint = "microsoft/speecht5_tts"
+processor = SpeechT5Processor.from_pretrained(checkpoint)
+# function to embedd
+def prepare_dataset(example):
+    audio = example["audio"]
+    example = processor(
+        text=example["transcription"],
+        audio_target=audio["array"],
+        sampling_rate=audio["sampling_rate"],
+        return_attention_mask=False,
+    )
+    # strip off the batch dimension
+    example["labels"] = example["labels"][0]
+    # use SpeechBrain to obtain x-vector
+    example["speaker_embeddings"] = create_speaker_embedding(audio["array"])
+    return example
+processed_example = prepare_dataset(dataset[0])
+speaker_embeddings = torch.tensor(processed_example["speaker_embeddings"]).unsqueeze(0)
 # etc.
+# embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+# speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
 def translate(audio):