Spaces:

Itanutiwari527
/

Voice_clone_demo

Sleeping

App Files Files Community

Itanutiwari527 commited on Apr 26

Commit

1339db1

verified ·

1 Parent(s): 22e9316

Upload 8 files

Browse files

Files changed (9) hide show

.gitattributes +4 -0
Dockerfile +27 -0
app.py +83 -0
demo_voices/English_male_long.mp3 +3 -0
demo_voices/demo_eng_female.mp3 +3 -0
demo_voices/demo_eng_male.mp3 +3 -0
demo_voices/demo_female_hindi.wav +3 -0
pre-requirements.txt +1 -0
requirements.txt +17 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,7 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+demo_voices/demo_eng_female.mp3 filter=lfs diff=lfs merge=lfs -text
+demo_voices/demo_eng_male.mp3 filter=lfs diff=lfs merge=lfs -text
+demo_voices/demo_female_hindi.wav filter=lfs diff=lfs merge=lfs -text
+demo_voices/English_male_long.mp3 filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

	@@ -0,0 +1,27 @@

+FROM python:3.10-slim
+# Avoid prompts during build
+ENV DEBIAN_FRONTEND=noninteractive
+# Install required system packages
+RUN apt-get update && apt-get install -y \
+    ffmpeg \
+    libsndfile1 \
+    libgl1 \
+    && rm -rf /var/lib/apt/lists/*
+WORKDIR /app
+# Install numpy before other libraries to avoid conflicts
+COPY pre-requirements.txt .
+RUN pip install --upgrade pip && pip install --no-cache-dir -r pre-requirements.txt
+# Now install the rest of the dependencies
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# Copy app code
+COPY . .
+# Start Streamlit app
+CMD ["streamlit", "run", "app.py", "--server.port=7860", "--server.address=0.0.0.0"]

app.py ADDED Viewed

	@@ -0,0 +1,83 @@

+import streamlit as st
+import torch
+import tempfile
+import os
+from TTS.api import TTS
+import soundfile as sf
+import glob
+# Load XTTS model
+@st.cache_resource
+def load_xtts_model():
+    return TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=torch.cuda.is_available())
+tts = load_xtts_model()
+# UI
+st.title("XTTS Voice Cloning Demo")
+st.markdown("1. Select a demo voice OR upload your own\n2. Choose or write text\n3. Hear your cloned voice!")
+# Load pre-recorded demo voices
+demo_voice_dir = "./demo_voices"
+demo_files = glob.glob(f"{demo_voice_dir}/*")
+demo_names = [os.path.basename(f) for f in demo_files]
+voice_source = st.radio("Choose voice input method:", ["Use pre-recorded demo voice", "Upload your own voice"])
+speaker_wav_path = None
+if voice_source == "Use pre-recorded demo voice":
+    if demo_files:
+        selected_demo = st.selectbox("Choose a demo voice:", demo_names)
+        speaker_wav_path = os.path.join(demo_voice_dir, selected_demo)
+        st.audio(speaker_wav_path, format="audio/wav")
+    else:
+        st.warning("No demo voices found in 'demo_voices/' folder.")
+elif voice_source == "Upload your own voice":
+    uploaded_file = st.file_uploader("Upload your voice sample (WAV, mono, 16k–48kHz):", type=["wav"])
+    if uploaded_file:
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_audio:
+            temp_audio.write(uploaded_file.read())
+            speaker_wav_path = temp_audio.name
+        st.audio(speaker_wav_path, format="audio/wav")
+# Hindi Predefined Texts
+predefined_texts = {
+    "नमस्ते, यह मेरी क्लोन की गई आवाज़ है।": "नमस्ते, यह मेरी क्लोन की गई आवाज़ है।",
+    "Hello Everyone, This is my voice cloned using previously recorded voice sample": "Hello Everyone, This is my voice cloned using previously recorded voice sample",
+    "मैं आर्टिफिशियल इंटेलिजेंस की मदद से बोल रहा हूँ।": "मैं आर्टिफिशियल इंटेलिजेंस की मदद से बोल रहा हूँ।",
+    "यह आवाज़ असली नहीं है, लेकिन क्या आपने फर्क किया?": "यह आवाज़ असली नहीं है, लेकिन क्या आपने फर्क किया?",
+    "This is not my real voice, but can you tell the difference":"This is not my real voice, but can you tell the difference",
+    # "हेलो! मैं टनु हूँ और मुझे AI से खेलना पसंद है।": "हेलो! मैं टनु हूँ और मुझे AI से खेलना पसंद है।",
+    "जीवन एक सुंदर यात्रा है, हर पल को जीओ।": "जीवन एक सुंदर यात्रा है, हर पल को जीओ।",
+    "Use custom text": "custom"
+}
+selected_text = st.selectbox("Choose or write text to synthesize:", list(predefined_texts.keys()))
+if predefined_texts[selected_text] == "custom":
+    input_text = st.text_area("Enter custom text:", "Hello, how are you?")
+else:
+    input_text = predefined_texts[selected_text]
+# Clone & Synthesize
+if speaker_wav_path and input_text.strip():
+    if st.button("🎧 Clone & Synthesize"):
+        with st.spinner("Cloning voice..."):
+            output_path = "xtts_output.wav"
+            tts.tts_to_file(
+                text=input_text,
+                speaker_wav=speaker_wav_path,
+                language="en",
+                file_path=output_path
+            )
+            st.success("Done! Here's your cloned voice:")
+            st.audio(output_path, format="audio/wav")
+        # Clean up temp file if uploaded
+        if voice_source == "Upload your own voice":
+            os.remove(speaker_wav_path)

demo_voices/English_male_long.mp3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e25f7504473dc28cf288828a46bd1cd2974a8bbaf6fc81b4b261e7fae6429e3
+size 1828181

demo_voices/demo_eng_female.mp3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0f3710c54962749d652d06ee880430bbde4a1ced3af3210016b1d2ad04b9ce9
+size 578228

demo_voices/demo_eng_male.mp3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b693f7f888f358cf17ddd660af2f0835924482b7e8614153e763921282da1587
+size 248810

demo_voices/demo_female_hindi.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a90e0875347854b9771b83a12c974166af9a0a844c683c318484985e28c02381
+size 2986062

pre-requirements.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ numpy==1.21.6

requirements.txt ADDED Viewed

	@@ -0,0 +1,17 @@

+# Streamlit frontend
+streamlit==1.33.0
+# Voice Cloning - Coqui TTS
+TTS==0.22.0
+# Audio handling
+soundfile
+numpy==1.22.0
+scipy==1.11.4
+# PyTorch (CPU version is okay for Spaces unless GPU is enabled)
+torch==2.0.1
+torchaudio==2.0.2
+# File handling
+ffmpeg-python