Duplicate from IndexTeam/IndexTTS-1.5

Browse files

Co-authored-by: sjc <[email protected]>

Files changed (10) hide show

.gitattributes +35 -0
README +5 -0
README.md +3 -0
bigvgan_discriminator.pth +3 -0
bigvgan_generator.pth +3 -0
bpe.model +3 -0
config.yaml +113 -0
dvae.pth +3 -0
gpt.pth +3 -0
unigram_12000.vocab +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README ADDED Viewed

	@@ -0,0 +1,5 @@

+大更新(效果很不错）：
+1. 大幅增加了英文训练数据，提升英文及跨语种合成效果；
+2. 增大模型参数至0.5B左右；
+3. wer, ss 及 韵律都有明显的提升；
+4. gpt输出：text token 和 mel token 是连在一起的。

README.md ADDED Viewed

	@@ -0,0 +1,3 @@

+---
+license: apache-2.0
+---

bigvgan_discriminator.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46e1f6277f7239363d2393f2f9fe36902cf8995e4acc0ba67ed25a025dbd02f0
+size 1651507545

bigvgan_generator.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2458834d8277e76eb8614c9751b5e8eaa0474eab706f0ecfafcb600023133ed
+size 536176992

bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2a5ce8090d32da3642cc4f81fdc996376bc6dd3f4cd5e3d165f71120d9f2bc8
+size 475997

config.yaml ADDED Viewed

	@@ -0,0 +1,113 @@

+dataset:
+    bpe_model: bpe.model
+    sample_rate: 24000
+    squeeze: false
+    mel:
+        sample_rate: 24000
+        n_fft: 1024
+        hop_length: 256
+        win_length: 1024
+        n_mels: 100
+        mel_fmin: 0
+        normalize: false
+gpt:
+    model_dim: 1280
+    max_mel_tokens: 800
+    max_text_tokens: 600
+    heads: 20
+    use_mel_codes_as_input: true
+    mel_length_compression: 1024
+    layers: 24
+    number_text_tokens: 12000
+    number_mel_codes: 8194
+    start_mel_token: 8192
+    stop_mel_token: 8193
+    start_text_token: 0
+    stop_text_token: 1
+    train_solo_embeddings: false
+    condition_type: "conformer_perceiver"
+    condition_module:
+        output_size: 512
+        linear_units: 2048
+        attention_heads: 8
+        num_blocks: 6
+        input_layer: "conv2d2"
+        perceiver_mult: 2
+vqvae:
+    channels: 100
+    num_tokens: 8192
+    hidden_dim: 512
+    num_resnet_blocks: 3
+    codebook_dim: 512
+    num_layers: 2
+    positional_dims: 1
+    kernel_size: 3
+    smooth_l1_loss: true
+    use_transposed_convs: false
+bigvgan:
+    adam_b1: 0.8
+    adam_b2: 0.99
+    lr_decay: 0.999998
+    seed: 1234
+    resblock: "1"
+    upsample_rates: [4,4,4,4,2,2]
+    upsample_kernel_sizes: [8,8,4,4,4,4]
+    upsample_initial_channel: 1536
+    resblock_kernel_sizes: [3,7,11]
+    resblock_dilation_sizes: [[1,3,5], [1,3,5], [1,3,5]]
+    feat_upsample: false
+    speaker_embedding_dim: 512
+    cond_d_vector_in_each_upsampling_layer: true
+    gpt_dim: 1280
+    activation: "snakebeta"
+    snake_logscale: true
+    use_cqtd_instead_of_mrd: true
+    cqtd_filters: 128
+    cqtd_max_filters: 1024
+    cqtd_filters_scale: 1
+    cqtd_dilations: [1, 2, 4]
+    cqtd_hop_lengths: [512, 256, 256]
+    cqtd_n_octaves: [9, 9, 9]
+    cqtd_bins_per_octaves: [24, 36, 48]
+    resolutions: [[1024, 120, 600], [2048, 240, 1200], [512, 50, 240]]
+    mpd_reshapes: [2, 3, 5, 7, 11]
+    use_spectral_norm: false
+    discriminator_channel_mult: 1
+    use_multiscale_melloss: true
+    lambda_melloss: 15
+    clip_grad_norm: 1000
+    segment_size: 16384
+    num_mels: 100
+    num_freq: 1025
+    n_fft: 1024
+    hop_size: 256
+    win_size: 1024
+    sampling_rate: 24000
+    fmin: 0
+    fmax: null
+    fmax_for_loss: null
+    mel_type: "pytorch"
+    num_workers: 2
+    dist_config:
+        dist_backend: "nccl"
+        dist_url: "tcp://localhost:54321"
+        world_size: 1
+dvae_checkpoint: dvae.pth
+gpt_checkpoint: gpt.pth
+bigvgan_checkpoint: bigvgan_generator.pth
+version: 1.5

dvae.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69e841bf8cd97a32806ea8a439c50017c991ac9e8bb795db89ec47828cae4d5d
+size 243316270

gpt.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44460b820a8afd58f68f3d3e69113e7900c8730bf519ecf158c081f2b8991240
+size 1171228980

unigram_12000.vocab ADDED Viewed

The diff for this file is too large to render. See raw diff