Spaces:

aishams
/

Ameli2

Runtime error

App Files Files Community

aishams commited on Dec 13, 2023

Commit

89556c8

1 Parent(s): ec0fd54

Upload 17 files

Browse files

Files changed (17) hide show

config (2).json +104 -0
data_utils.py +142 -0
flask_api.py +56 -0
flask_api_full_song.py +55 -0
inference_main.py +101 -0
models.py +420 -0
onnx_export.py +53 -0
package.txt +1 -0
preprocess_flist_config.py +83 -0
preprocess_hubert_f0.py +62 -0
requirements.txt +18 -0
requirements_win.txt +21 -0
resample.py +48 -0
spec_gen.py +22 -0
train.py +310 -0
utils.py +502 -0
wav_upload.py +23 -0

config (2).json ADDED Viewed

	@@ -0,0 +1,104 @@

+{
+  "train": {
+    "log_interval": 200,
+    "eval_interval": 200,
+    "seed": 1234,
+    "epochs": 10000,
+    "learning_rate": 0.0001,
+    "betas": [
+      0.8,
+      0.99
+    ],
+    "eps": 1e-09,
+    "batch_size": 16,
+    "fp16_run": false,
+    "bf16_run": false,
+    "lr_decay": 0.999875,
+    "segment_size": 10240,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0,
+    "use_sr": true,
+    "max_speclen": 512,
+    "port": "8001",
+    "keep_ckpts": 3,
+    "num_workers": 4,
+    "log_version": 0,
+    "ckpt_name_by_step": false,
+    "accumulate_grad_batches": 1
+  },
+  "data": {
+    "training_files": "filelists/44k/train.txt",
+    "validation_files": "filelists/44k/val.txt",
+    "max_wav_value": 32768.0,
+    "sampling_rate": 44100,
+    "filter_length": 2048,
+    "hop_length": 512,
+    "win_length": 2048,
+    "n_mel_channels": 80,
+    "mel_fmin": 0.0,
+    "mel_fmax": 22050,
+    "contentvec_final_proj": false
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [
+      3,
+      7,
+      11
+    ],
+    "resblock_dilation_sizes": [
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ]
+    ],
+    "upsample_rates": [
+      8,
+      8,
+      2,
+      2,
+      2
+    ],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [
+      16,
+      16,
+      4,
+      4,
+      4
+    ],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256,
+    "ssl_dim": 768,
+    "n_speakers": 200,
+    "type_": "hifi-gan",
+    "pretrained": {
+      "D_0.pth": "https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/resolve/main/sovits_768l12_pre_large_320k/clean_D_320000.pth",
+      "G_0.pth": "https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/resolve/main/sovits_768l12_pre_large_320k/clean_G_320000.pth"
+    }
+  },
+  "spk": {
+    "Mr.ameli": 0
+  }
+}

data_utils.py ADDED Viewed

	@@ -0,0 +1,142 @@

+import time
+import os
+import random
+import numpy as np
+import torch
+import torch.utils.data
+import modules.commons as commons
+import utils
+from modules.mel_processing import spectrogram_torch, spec_to_mel_torch
+from utils import load_wav_to_torch, load_filepaths_and_text
+# import h5py
+"""Multi speaker version"""
+class TextAudioSpeakerLoader(torch.utils.data.Dataset):
+    """
+        1) loads audio, speaker_id, text pairs
+        2) normalizes text and converts them to sequences of integers
+        3) computes spectrograms from audio files.
+    """
+    def __init__(self, audiopaths, hparams):
+        self.audiopaths = load_filepaths_and_text(audiopaths)
+        self.max_wav_value = hparams.data.max_wav_value
+        self.sampling_rate = hparams.data.sampling_rate
+        self.filter_length = hparams.data.filter_length
+        self.hop_length = hparams.data.hop_length
+        self.win_length = hparams.data.win_length
+        self.sampling_rate = hparams.data.sampling_rate
+        self.use_sr = hparams.train.use_sr
+        self.spec_len = hparams.train.max_speclen
+        self.spk_map = hparams.spk
+        random.seed(1234)
+        random.shuffle(self.audiopaths)
+    def get_audio(self, filename):
+        filename = filename.replace("\\", "/")
+        audio, sampling_rate = load_wav_to_torch(filename)
+        if sampling_rate != self.sampling_rate:
+            raise ValueError("{} SR doesn't match target {} SR".format(
+                sampling_rate, self.sampling_rate))
+        audio_norm = audio / self.max_wav_value
+        audio_norm = audio_norm.unsqueeze(0)
+        spec_filename = filename.replace(".wav", ".spec.pt")
+        if os.path.exists(spec_filename):
+            spec = torch.load(spec_filename)
+        else:
+            spec = spectrogram_torch(audio_norm, self.filter_length,
+                                     self.sampling_rate, self.hop_length, self.win_length,
+                                     center=False)
+            spec = torch.squeeze(spec, 0)
+            torch.save(spec, spec_filename)
+        spk = filename.split("/")[-2]
+        spk = torch.LongTensor([self.spk_map[spk]])
+        f0 = np.load(filename + ".f0.npy")
+        f0, uv = utils.interpolate_f0(f0)
+        f0 = torch.FloatTensor(f0)
+        uv = torch.FloatTensor(uv)
+        c = torch.load(filename+ ".soft.pt")
+        c = utils.repeat_expand_2d(c.squeeze(0), f0.shape[0])
+        lmin = min(c.size(-1), spec.size(-1))
+        assert abs(c.size(-1) - spec.size(-1)) < 3, (c.size(-1), spec.size(-1), f0.shape, filename)
+        assert abs(audio_norm.shape[1]-lmin * self.hop_length) < 3 * self.hop_length
+        spec, c, f0, uv = spec[:, :lmin], c[:, :lmin], f0[:lmin], uv[:lmin]
+        audio_norm = audio_norm[:, :lmin * self.hop_length]
+        # if spec.shape[1] < 30:
+        #     print("skip too short audio:", filename)
+        #     return None
+        if spec.shape[1] > 800:
+            start = random.randint(0, spec.shape[1]-800)
+            end = start + 790
+            spec, c, f0, uv = spec[:, start:end], c[:, start:end], f0[start:end], uv[start:end]
+            audio_norm = audio_norm[:, start * self.hop_length : end * self.hop_length]
+        return c, f0, spec, audio_norm, spk, uv
+    def __getitem__(self, index):
+        return self.get_audio(self.audiopaths[index][0])
+    def __len__(self):
+        return len(self.audiopaths)
+class TextAudioCollate:
+    def __call__(self, batch):
+        batch = [b for b in batch if b is not None]
+        input_lengths, ids_sorted_decreasing = torch.sort(
+            torch.LongTensor([x[0].shape[1] for x in batch]),
+            dim=0, descending=True)
+        max_c_len = max([x[0].size(1) for x in batch])
+        max_wav_len = max([x[3].size(1) for x in batch])
+        lengths = torch.LongTensor(len(batch))
+        c_padded = torch.FloatTensor(len(batch), batch[0][0].shape[0], max_c_len)
+        f0_padded = torch.FloatTensor(len(batch), max_c_len)
+        spec_padded = torch.FloatTensor(len(batch), batch[0][2].shape[0], max_c_len)
+        wav_padded = torch.FloatTensor(len(batch), 1, max_wav_len)
+        spkids = torch.LongTensor(len(batch), 1)
+        uv_padded = torch.FloatTensor(len(batch), max_c_len)
+        c_padded.zero_()
+        spec_padded.zero_()
+        f0_padded.zero_()
+        wav_padded.zero_()
+        uv_padded.zero_()
+        for i in range(len(ids_sorted_decreasing)):
+            row = batch[ids_sorted_decreasing[i]]
+            c = row[0]
+            c_padded[i, :, :c.size(1)] = c
+            lengths[i] = c.size(1)
+            f0 = row[1]
+            f0_padded[i, :f0.size(0)] = f0
+            spec = row[2]
+            spec_padded[i, :, :spec.size(1)] = spec
+            wav = row[3]
+            wav_padded[i, :, :wav.size(1)] = wav
+            spkids[i, 0] = row[4]
+            uv = row[5]
+            uv_padded[i, :uv.size(0)] = uv
+        return c_padded, f0_padded, spec_padded, wav_padded, spkids, lengths, uv_padded

flask_api.py ADDED Viewed

	@@ -0,0 +1,56 @@

+import io
+import logging
+import soundfile
+import torch
+import torchaudio
+from flask import Flask, request, send_file
+from flask_cors import CORS
+from inference.infer_tool import Svc, RealTimeVC
+app = Flask(__name__)
+CORS(app)
+logging.getLogger('numba').setLevel(logging.WARNING)
+@app.route("/voiceChangeModel", methods=["POST"])
+def voice_change_model():
+    request_form = request.form
+    wave_file = request.files.get("sample", None)
+    # 变调信息
+    f_pitch_change = float(request_form.get("fPitchChange", 0))
+    # DAW所需的采样率
+    daw_sample = int(float(request_form.get("sampleRate", 0)))
+    speaker_id = int(float(request_form.get("sSpeakId", 0)))
+    # http获得wav文件并转换
+    input_wav_path = io.BytesIO(wave_file.read())
+    # 模型推理
+    if raw_infer:
+        out_audio, out_sr = svc_model.infer(speaker_id, f_pitch_change, input_wav_path)
+        tar_audio = torchaudio.functional.resample(out_audio, svc_model.target_sample, daw_sample)
+    else:
+        out_audio = svc.process(svc_model, speaker_id, f_pitch_change, input_wav_path)
+        tar_audio = torchaudio.functional.resample(torch.from_numpy(out_audio), svc_model.target_sample, daw_sample)
+    # 返回音频
+    out_wav_path = io.BytesIO()
+    soundfile.write(out_wav_path, tar_audio.cpu().numpy(), daw_sample, format="wav")
+    out_wav_path.seek(0)
+    return send_file(out_wav_path, download_name="temp.wav", as_attachment=True)
+if __name__ == '__main__':
+    # 启用则为直接切片合成，False为交叉淡化方式
+    # vst插件调整0.3-0.5s切片时间可以降低延迟，直接切片方法会有连接处爆音、交叉淡化会有轻微重叠声音
+    # 自行选择能接受的方法，或将vst最大切片时间调整为1s，此处设为Ture，延迟大音质稳定一些
+    raw_infer = True
+    # 每个模型和config是唯一对应的
+    model_name = "logs/32k/G_174000-Copy1.pth"
+    config_name = "configs/config.json"
+    svc_model = Svc(model_name, config_name)
+    svc = RealTimeVC()
+    # 此处与vst插件对应，不建议更改
+    app.run(port=6842, host="0.0.0.0", debug=False, threaded=False)

flask_api_full_song.py ADDED Viewed

	@@ -0,0 +1,55 @@

+import io
+import numpy as np
+import soundfile
+from flask import Flask, request, send_file
+from inference import infer_tool
+from inference import slicer
+app = Flask(__name__)
+@app.route("/wav2wav", methods=["POST"])
+def wav2wav():
+    request_form = request.form
+    audio_path = request_form.get("audio_path", None)  # wav文件地址
+    tran = int(float(request_form.get("tran", 0)))  # 音调
+    spk = request_form.get("spk", 0)  # 说话人(id或者name都可以,具体看你的config)
+    wav_format = request_form.get("wav_format", 'wav')  # 范围文件格式
+    infer_tool.format_wav(audio_path)
+    chunks = slicer.cut(audio_path, db_thresh=-40)
+    audio_data, audio_sr = slicer.chunks2audio(audio_path, chunks)
+    audio = []
+    for (slice_tag, data) in audio_data:
+        print(f'#=====segment start, {round(len(data) / audio_sr, 3)}s======')
+        length = int(np.ceil(len(data) / audio_sr * svc_model.target_sample))
+        if slice_tag:
+            print('jump empty segment')
+            _audio = np.zeros(length)
+        else:
+            # padd
+            pad_len = int(audio_sr * 0.5)
+            data = np.concatenate([np.zeros([pad_len]), data, np.zeros([pad_len])])
+            raw_path = io.BytesIO()
+            soundfile.write(raw_path, data, audio_sr, format="wav")
+            raw_path.seek(0)
+            out_audio, out_sr = svc_model.infer(spk, tran, raw_path)
+            svc_model.clear_empty()
+            _audio = out_audio.cpu().numpy()
+            pad_len = int(svc_model.target_sample * 0.5)
+            _audio = _audio[pad_len:-pad_len]
+        audio.extend(list(infer_tool.pad_array(_audio, length)))
+    out_wav_path = io.BytesIO()
+    soundfile.write(out_wav_path, audio, svc_model.target_sample, format=wav_format)
+    out_wav_path.seek(0)
+    return send_file(out_wav_path, download_name=f"temp.{wav_format}", as_attachment=True)
+if __name__ == '__main__':
+    model_name = "logs/44k/G_60000.pth"  # 模型地址
+    config_name = "configs/config.json"  # config地址
+    svc_model = infer_tool.Svc(model_name, config_name)
+    app.run(port=1145, host="0.0.0.0", debug=False, threaded=False)

inference_main.py ADDED Viewed

	@@ -0,0 +1,101 @@

+import io
+import logging
+import time
+from pathlib import Path
+import librosa
+import matplotlib.pyplot as plt
+import numpy as np
+import soundfile
+from inference import infer_tool
+from inference import slicer
+from inference.infer_tool import Svc
+logging.getLogger('numba').setLevel(logging.WARNING)
+chunks_dict = infer_tool.read_temp("inference/chunks_temp.json")
+def main():
+    import argparse
+    parser = argparse.ArgumentParser(description='sovits4 inference')
+    # 一定要设置的部分
+    parser.add_argument('-m', '--model_path', type=str, default="logs/44k/G_0.pth", help='模型路径')
+    parser.add_argument('-c', '--config_path', type=str, default="configs/config.json", help='配置文件路径')
+    parser.add_argument('-n', '--clean_names', type=str, nargs='+', default=["君の知らない物語-src.wav"], help='wav文件名列表，放在raw文件夹下')
+    parser.add_argument('-t', '--trans', type=int, nargs='+', default=[0], help='音高调整，支持正负（半音）')
+    parser.add_argument('-s', '--spk_list', type=str, nargs='+', default=['nen'], help='合成目标说话人名称')
+    # 可选项部分
+    parser.add_argument('-a', '--auto_predict_f0', action='store_true', default=False,
+                        help='语音转换自动预测音高，转换歌声时不要打开这个会严重跑调')
+    parser.add_argument('-cm', '--cluster_model_path', type=str, default="logs/44k/kmeans_10000.pt", help='聚类模型路径，如果没有训练聚类则随便填')
+    parser.add_argument('-cr', '--cluster_infer_ratio', type=float, default=0, help='聚类方案占比，范围0-1，若没有训练聚类模型则填0即可')
+    # 不用动的部分
+    parser.add_argument('-sd', '--slice_db', type=int, default=-40, help='默认-40，嘈杂的音频可以-30，干声保留呼吸可以-50')
+    parser.add_argument('-d', '--device', type=str, default=None, help='推理设备，None则为自动选择cpu和gpu')
+    parser.add_argument('-ns', '--noice_scale', type=float, default=0.4, help='噪音级别，会影响咬字和音质，较为玄学')
+    parser.add_argument('-p', '--pad_seconds', type=float, default=0.5, help='推理音频pad秒数，由于未知原因开头结尾会有异响，pad一小段静音段后就不会出现')
+    parser.add_argument('-wf', '--wav_format', type=str, default='flac', help='音频输出格式')
+    args = parser.parse_args()
+    svc_model = Svc(args.model_path, args.config_path, args.device, args.cluster_model_path)
+    infer_tool.mkdir(["raw", "results"])
+    clean_names = args.clean_names
+    trans = args.trans
+    spk_list = args.spk_list
+    slice_db = args.slice_db
+    wav_format = args.wav_format
+    auto_predict_f0 = args.auto_predict_f0
+    cluster_infer_ratio = args.cluster_infer_ratio
+    noice_scale = args.noice_scale
+    pad_seconds = args.pad_seconds
+    infer_tool.fill_a_to_b(trans, clean_names)
+    for clean_name, tran in zip(clean_names, trans):
+        raw_audio_path = f"raw/{clean_name}"
+        if "." not in raw_audio_path:
+            raw_audio_path += ".wav"
+        infer_tool.format_wav(raw_audio_path)
+        wav_path = Path(raw_audio_path).with_suffix('.wav')
+        chunks = slicer.cut(wav_path, db_thresh=slice_db)
+        audio_data, audio_sr = slicer.chunks2audio(wav_path, chunks)
+        for spk in spk_list:
+            audio = []
+            for (slice_tag, data) in audio_data:
+                print(f'#=====segment start, {round(len(data) / audio_sr, 3)}s======')
+                length = int(np.ceil(len(data) / audio_sr * svc_model.target_sample))
+                if slice_tag:
+                    print('jump empty segment')
+                    _audio = np.zeros(length)
+                else:
+                    # padd
+                    pad_len = int(audio_sr * pad_seconds)
+                    data = np.concatenate([np.zeros([pad_len]), data, np.zeros([pad_len])])
+                    raw_path = io.BytesIO()
+                    soundfile.write(raw_path, data, audio_sr, format="wav")
+                    raw_path.seek(0)
+                    out_audio, out_sr = svc_model.infer(spk, tran, raw_path,
+                                                        cluster_infer_ratio=cluster_infer_ratio,
+                                                        auto_predict_f0=auto_predict_f0,
+                                                        noice_scale=noice_scale
+                                                        )
+                    _audio = out_audio.cpu().numpy()
+                    pad_len = int(svc_model.target_sample * pad_seconds)
+                    _audio = _audio[pad_len:-pad_len]
+                audio.extend(list(infer_tool.pad_array(_audio, length)))
+            key = "auto" if auto_predict_f0 else f"{tran}key"
+            cluster_name = "" if cluster_infer_ratio == 0 else f"_{cluster_infer_ratio}"
+            res_path = f'./results/{clean_name}_{key}_{spk}{cluster_name}.{wav_format}'
+            soundfile.write(res_path, audio, svc_model.target_sample, format=wav_format)
+if __name__ == '__main__':
+    main()

models.py ADDED Viewed

	@@ -0,0 +1,420 @@

+import copy
+import math
+import torch
+from torch import nn
+from torch.nn import functional as F
+import modules.attentions as attentions
+import modules.commons as commons
+import modules.modules as modules
+from torch.nn import Conv1d, ConvTranspose1d, AvgPool1d, Conv2d
+from torch.nn.utils import weight_norm, remove_weight_norm, spectral_norm
+import utils
+from modules.commons import init_weights, get_padding
+from vdecoder.hifigan.models import Generator
+from utils import f0_to_coarse
+class ResidualCouplingBlock(nn.Module):
+  def __init__(self,
+      channels,
+      hidden_channels,
+      kernel_size,
+      dilation_rate,
+      n_layers,
+      n_flows=4,
+      gin_channels=0):
+    super().__init__()
+    self.channels = channels
+    self.hidden_channels = hidden_channels
+    self.kernel_size = kernel_size
+    self.dilation_rate = dilation_rate
+    self.n_layers = n_layers
+    self.n_flows = n_flows
+    self.gin_channels = gin_channels
+    self.flows = nn.ModuleList()
+    for i in range(n_flows):
+      self.flows.append(modules.ResidualCouplingLayer(channels, hidden_channels, kernel_size, dilation_rate, n_layers, gin_channels=gin_channels, mean_only=True))
+      self.flows.append(modules.Flip())
+  def forward(self, x, x_mask, g=None, reverse=False):
+    if not reverse:
+      for flow in self.flows:
+        x, _ = flow(x, x_mask, g=g, reverse=reverse)
+    else:
+      for flow in reversed(self.flows):
+        x = flow(x, x_mask, g=g, reverse=reverse)
+    return x
+class Encoder(nn.Module):
+  def __init__(self,
+      in_channels,
+      out_channels,
+      hidden_channels,
+      kernel_size,
+      dilation_rate,
+      n_layers,
+      gin_channels=0):
+    super().__init__()
+    self.in_channels = in_channels
+    self.out_channels = out_channels
+    self.hidden_channels = hidden_channels
+    self.kernel_size = kernel_size
+    self.dilation_rate = dilation_rate
+    self.n_layers = n_layers
+    self.gin_channels = gin_channels
+    self.pre = nn.Conv1d(in_channels, hidden_channels, 1)
+    self.enc = modules.WN(hidden_channels, kernel_size, dilation_rate, n_layers, gin_channels=gin_channels)
+    self.proj = nn.Conv1d(hidden_channels, out_channels * 2, 1)
+  def forward(self, x, x_lengths, g=None):
+    # print(x.shape,x_lengths.shape)
+    x_mask = torch.unsqueeze(commons.sequence_mask(x_lengths, x.size(2)), 1).to(x.dtype)
+    x = self.pre(x) * x_mask
+    x = self.enc(x, x_mask, g=g)
+    stats = self.proj(x) * x_mask
+    m, logs = torch.split(stats, self.out_channels, dim=1)
+    z = (m + torch.randn_like(m) * torch.exp(logs)) * x_mask
+    return z, m, logs, x_mask
+class TextEncoder(nn.Module):
+  def __init__(self,
+      out_channels,
+      hidden_channels,
+      kernel_size,
+      n_layers,
+      gin_channels=0,
+      filter_channels=None,
+      n_heads=None,
+      p_dropout=None):
+    super().__init__()
+    self.out_channels = out_channels
+    self.hidden_channels = hidden_channels
+    self.kernel_size = kernel_size
+    self.n_layers = n_layers
+    self.gin_channels = gin_channels
+    self.proj = nn.Conv1d(hidden_channels, out_channels * 2, 1)
+    self.f0_emb = nn.Embedding(256, hidden_channels)
+    self.enc_ =  attentions.Encoder(
+        hidden_channels,
+        filter_channels,
+        n_heads,
+        n_layers,
+        kernel_size,
+        p_dropout)
+  def forward(self, x, x_mask, f0=None, noice_scale=1):
+    x = x + self.f0_emb(f0).transpose(1,2)
+    x = self.enc_(x * x_mask, x_mask)
+    stats = self.proj(x) * x_mask
+    m, logs = torch.split(stats, self.out_channels, dim=1)
+    z = (m + torch.randn_like(m) * torch.exp(logs) * noice_scale) * x_mask
+    return z, m, logs, x_mask
+class DiscriminatorP(torch.nn.Module):
+    def __init__(self, period, kernel_size=5, stride=3, use_spectral_norm=False):
+        super(DiscriminatorP, self).__init__()
+        self.period = period
+        self.use_spectral_norm = use_spectral_norm
+        norm_f = weight_norm if use_spectral_norm == False else spectral_norm
+        self.convs = nn.ModuleList([
+            norm_f(Conv2d(1, 32, (kernel_size, 1), (stride, 1), padding=(get_padding(kernel_size, 1), 0))),
+            norm_f(Conv2d(32, 128, (kernel_size, 1), (stride, 1), padding=(get_padding(kernel_size, 1), 0))),
+            norm_f(Conv2d(128, 512, (kernel_size, 1), (stride, 1), padding=(get_padding(kernel_size, 1), 0))),
+            norm_f(Conv2d(512, 1024, (kernel_size, 1), (stride, 1), padding=(get_padding(kernel_size, 1), 0))),
+            norm_f(Conv2d(1024, 1024, (kernel_size, 1), 1, padding=(get_padding(kernel_size, 1), 0))),
+        ])
+        self.conv_post = norm_f(Conv2d(1024, 1, (3, 1), 1, padding=(1, 0)))
+    def forward(self, x):
+        fmap = []
+        # 1d to 2d
+        b, c, t = x.shape
+        if t % self.period != 0: # pad first
+            n_pad = self.period - (t % self.period)
+            x = F.pad(x, (0, n_pad), "reflect")
+            t = t + n_pad
+        x = x.view(b, c, t // self.period, self.period)
+        for l in self.convs:
+            x = l(x)
+            x = F.leaky_relu(x, modules.LRELU_SLOPE)
+            fmap.append(x)
+        x = self.conv_post(x)
+        fmap.append(x)
+        x = torch.flatten(x, 1, -1)
+        return x, fmap
+class DiscriminatorS(torch.nn.Module):
+    def __init__(self, use_spectral_norm=False):
+        super(DiscriminatorS, self).__init__()
+        norm_f = weight_norm if use_spectral_norm == False else spectral_norm
+        self.convs = nn.ModuleList([
+            norm_f(Conv1d(1, 16, 15, 1, padding=7)),
+            norm_f(Conv1d(16, 64, 41, 4, groups=4, padding=20)),
+            norm_f(Conv1d(64, 256, 41, 4, groups=16, padding=20)),
+            norm_f(Conv1d(256, 1024, 41, 4, groups=64, padding=20)),
+            norm_f(Conv1d(1024, 1024, 41, 4, groups=256, padding=20)),
+            norm_f(Conv1d(1024, 1024, 5, 1, padding=2)),
+        ])
+        self.conv_post = norm_f(Conv1d(1024, 1, 3, 1, padding=1))
+    def forward(self, x):
+        fmap = []
+        for l in self.convs:
+            x = l(x)
+            x = F.leaky_relu(x, modules.LRELU_SLOPE)
+            fmap.append(x)
+        x = self.conv_post(x)
+        fmap.append(x)
+        x = torch.flatten(x, 1, -1)
+        return x, fmap
+class MultiPeriodDiscriminator(torch.nn.Module):
+    def __init__(self, use_spectral_norm=False):
+        super(MultiPeriodDiscriminator, self).__init__()
+        periods = [2,3,5,7,11]
+        discs = [DiscriminatorS(use_spectral_norm=use_spectral_norm)]
+        discs = discs + [DiscriminatorP(i, use_spectral_norm=use_spectral_norm) for i in periods]
+        self.discriminators = nn.ModuleList(discs)
+    def forward(self, y, y_hat):
+        y_d_rs = []
+        y_d_gs = []
+        fmap_rs = []
+        fmap_gs = []
+        for i, d in enumerate(self.discriminators):
+            y_d_r, fmap_r = d(y)
+            y_d_g, fmap_g = d(y_hat)
+            y_d_rs.append(y_d_r)
+            y_d_gs.append(y_d_g)
+            fmap_rs.append(fmap_r)
+            fmap_gs.append(fmap_g)
+        return y_d_rs, y_d_gs, fmap_rs, fmap_gs
+class SpeakerEncoder(torch.nn.Module):
+    def __init__(self, mel_n_channels=80, model_num_layers=3, model_hidden_size=256, model_embedding_size=256):
+        super(SpeakerEncoder, self).__init__()
+        self.lstm = nn.LSTM(mel_n_channels, model_hidden_size, model_num_layers, batch_first=True)
+        self.linear = nn.Linear(model_hidden_size, model_embedding_size)
+        self.relu = nn.ReLU()
+    def forward(self, mels):
+        self.lstm.flatten_parameters()
+        _, (hidden, _) = self.lstm(mels)
+        embeds_raw = self.relu(self.linear(hidden[-1]))
+        return embeds_raw / torch.norm(embeds_raw, dim=1, keepdim=True)
+    def compute_partial_slices(self, total_frames, partial_frames, partial_hop):
+        mel_slices = []
+        for i in range(0, total_frames-partial_frames, partial_hop):
+            mel_range = torch.arange(i, i+partial_frames)
+            mel_slices.append(mel_range)
+        return mel_slices
+    def embed_utterance(self, mel, partial_frames=128, partial_hop=64):
+        mel_len = mel.size(1)
+        last_mel = mel[:,-partial_frames:]
+        if mel_len > partial_frames:
+            mel_slices = self.compute_partial_slices(mel_len, partial_frames, partial_hop)
+            mels = list(mel[:,s] for s in mel_slices)
+            mels.append(last_mel)
+            mels = torch.stack(tuple(mels), 0).squeeze(1)
+            with torch.no_grad():
+                partial_embeds = self(mels)
+            embed = torch.mean(partial_embeds, axis=0).unsqueeze(0)
+            #embed = embed / torch.linalg.norm(embed, 2)
+        else:
+            with torch.no_grad():
+                embed = self(last_mel)
+        return embed
+class F0Decoder(nn.Module):
+    def __init__(self,
+                 out_channels,
+                 hidden_channels,
+                 filter_channels,
+                 n_heads,
+                 n_layers,
+                 kernel_size,
+                 p_dropout,
+                 spk_channels=0):
+        super().__init__()
+        self.out_channels = out_channels
+        self.hidden_channels = hidden_channels
+        self.filter_channels = filter_channels
+        self.n_heads = n_heads
+        self.n_layers = n_layers
+        self.kernel_size = kernel_size
+        self.p_dropout = p_dropout
+        self.spk_channels = spk_channels
+        self.prenet = nn.Conv1d(hidden_channels, hidden_channels, 3, padding=1)
+        self.decoder = attentions.FFT(
+            hidden_channels,
+            filter_channels,
+            n_heads,
+            n_layers,
+            kernel_size,
+            p_dropout)
+        self.proj = nn.Conv1d(hidden_channels, out_channels, 1)
+        self.f0_prenet = nn.Conv1d(1, hidden_channels , 3, padding=1)
+        self.cond = nn.Conv1d(spk_channels, hidden_channels, 1)
+    def forward(self, x, norm_f0, x_mask, spk_emb=None):
+        x = torch.detach(x)
+        if (spk_emb is not None):
+            x = x + self.cond(spk_emb)
+        x += self.f0_prenet(norm_f0)
+        x = self.prenet(x) * x_mask
+        x = self.decoder(x * x_mask, x_mask)
+        x = self.proj(x) * x_mask
+        return x
+class SynthesizerTrn(nn.Module):
+  """
+  Synthesizer for Training
+  """
+  def __init__(self,
+    spec_channels,
+    segment_size,
+    inter_channels,
+    hidden_channels,
+    filter_channels,
+    n_heads,
+    n_layers,
+    kernel_size,
+    p_dropout,
+    resblock,
+    resblock_kernel_sizes,
+    resblock_dilation_sizes,
+    upsample_rates,
+    upsample_initial_channel,
+    upsample_kernel_sizes,
+    gin_channels,
+    ssl_dim,
+    n_speakers,
+    sampling_rate=44100,
+    **kwargs):
+    super().__init__()
+    self.spec_channels = spec_channels
+    self.inter_channels = inter_channels
+    self.hidden_channels = hidden_channels
+    self.filter_channels = filter_channels
+    self.n_heads = n_heads
+    self.n_layers = n_layers
+    self.kernel_size = kernel_size
+    self.p_dropout = p_dropout
+    self.resblock = resblock
+    self.resblock_kernel_sizes = resblock_kernel_sizes
+    self.resblock_dilation_sizes = resblock_dilation_sizes
+    self.upsample_rates = upsample_rates
+    self.upsample_initial_channel = upsample_initial_channel
+    self.upsample_kernel_sizes = upsample_kernel_sizes
+    self.segment_size = segment_size
+    self.gin_channels = gin_channels
+    self.ssl_dim = ssl_dim
+    self.emb_g = nn.Embedding(n_speakers, gin_channels)
+    self.pre = nn.Conv1d(ssl_dim, hidden_channels, kernel_size=5, padding=2)
+    self.enc_p = TextEncoder(
+        inter_channels,
+        hidden_channels,
+        filter_channels=filter_channels,
+        n_heads=n_heads,
+        n_layers=n_layers,
+        kernel_size=kernel_size,
+        p_dropout=p_dropout
+    )
+    hps = {
+        "sampling_rate": sampling_rate,
+        "inter_channels": inter_channels,
+        "resblock": resblock,
+        "resblock_kernel_sizes": resblock_kernel_sizes,
+        "resblock_dilation_sizes": resblock_dilation_sizes,
+        "upsample_rates": upsample_rates,
+        "upsample_initial_channel": upsample_initial_channel,
+        "upsample_kernel_sizes": upsample_kernel_sizes,
+        "gin_channels": gin_channels,
+    }
+    self.dec = Generator(h=hps)
+    self.enc_q = Encoder(spec_channels, inter_channels, hidden_channels, 5, 1, 16, gin_channels=gin_channels)
+    self.flow = ResidualCouplingBlock(inter_channels, hidden_channels, 5, 1, 4, gin_channels=gin_channels)
+    self.f0_decoder = F0Decoder(
+        1,
+        hidden_channels,
+        filter_channels,
+        n_heads,
+        n_layers,
+        kernel_size,
+        p_dropout,
+        spk_channels=gin_channels
+    )
+    self.emb_uv = nn.Embedding(2, hidden_channels)
+  def forward(self, c, f0, uv, spec, g=None, c_lengths=None, spec_lengths=None):
+    g = self.emb_g(g).transpose(1,2)
+    # ssl prenet
+    x_mask = torch.unsqueeze(commons.sequence_mask(c_lengths, c.size(2)), 1).to(c.dtype)
+    x = self.pre(c) * x_mask + self.emb_uv(uv.long()).transpose(1,2)
+    # f0 predict
+    lf0 = 2595. * torch.log10(1. + f0.unsqueeze(1) / 700.) / 500
+    norm_lf0 = utils.normalize_f0(lf0, x_mask, uv)
+    pred_lf0 = self.f0_decoder(x, norm_lf0, x_mask, spk_emb=g)
+    # encoder
+    z_ptemp, m_p, logs_p, _ = self.enc_p(x, x_mask, f0=f0_to_coarse(f0))
+    z, m_q, logs_q, spec_mask = self.enc_q(spec, spec_lengths, g=g)
+    # flow
+    z_p = self.flow(z, spec_mask, g=g)
+    z_slice, pitch_slice, ids_slice = commons.rand_slice_segments_with_pitch(z, f0, spec_lengths, self.segment_size)
+    # nsf decoder
+    o = self.dec(z_slice, g=g, f0=pitch_slice)
+    return o, ids_slice, spec_mask, (z, z_p, m_p, logs_p, m_q, logs_q), pred_lf0, norm_lf0, lf0
+  def infer(self, c, f0, uv, g=None, noice_scale=0.35, predict_f0=False):
+    c_lengths = (torch.ones(c.size(0)) * c.size(-1)).to(c.device)
+    g = self.emb_g(g).transpose(1,2)
+    x_mask = torch.unsqueeze(commons.sequence_mask(c_lengths, c.size(2)), 1).to(c.dtype)
+    x = self.pre(c) * x_mask + self.emb_uv(uv.long()).transpose(1,2)
+    if predict_f0:
+        lf0 = 2595. * torch.log10(1. + f0.unsqueeze(1) / 700.) / 500
+        norm_lf0 = utils.normalize_f0(lf0, x_mask, uv, random_scale=False)
+        pred_lf0 = self.f0_decoder(x, norm_lf0, x_mask, spk_emb=g)
+        f0 = (700 * (torch.pow(10, pred_lf0 * 500 / 2595) - 1)).squeeze(1)
+    z_p, m_p, logs_p, c_mask = self.enc_p(x, x_mask, f0=f0_to_coarse(f0), noice_scale=noice_scale)
+    z = self.flow(z_p, c_mask, g=g, reverse=True)
+    o = self.dec(z * c_mask, g=g, f0=f0)
+    return o

onnx_export.py ADDED Viewed

	@@ -0,0 +1,53 @@

+import torch
+from onnxexport.model_onnx import SynthesizerTrn
+import utils
+def main(NetExport):
+    path = "SoVits4.0"
+    if NetExport:
+        device = torch.device("cpu")
+        hps = utils.get_hparams_from_file(f"checkpoints/{path}/config.json")
+        SVCVITS = SynthesizerTrn(
+            hps.data.filter_length // 2 + 1,
+            hps.train.segment_size // hps.data.hop_length,
+            **hps.model)
+        _ = utils.load_checkpoint(f"checkpoints/{path}/model.pth", SVCVITS, None)
+        _ = SVCVITS.eval().to(device)
+        for i in SVCVITS.parameters():
+            i.requires_grad = False
+        test_hidden_unit = torch.rand(1, 10, 256)
+        test_pitch = torch.rand(1, 10)
+        test_mel2ph = torch.LongTensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]).unsqueeze(0)
+        test_uv = torch.ones(1, 10, dtype=torch.float32)
+        test_noise = torch.randn(1, 192, 10)
+        test_sid = torch.LongTensor([0])
+        input_names = ["c", "f0", "mel2ph", "uv", "noise", "sid"]
+        output_names = ["audio", ]
+        torch.onnx.export(SVCVITS,
+                          (
+                              test_hidden_unit.to(device),
+                              test_pitch.to(device),
+                              test_mel2ph.to(device),
+                              test_uv.to(device),
+                              test_noise.to(device),
+                              test_sid.to(device)
+                          ),
+                          f"checkpoints/{path}/model.onnx",
+                          dynamic_axes={
+                              "c": [0, 1],
+                              "f0": [1],
+                              "mel2ph": [1],
+                              "uv": [1],
+                              "noise": [2],
+                          },
+                          do_constant_folding=False,
+                          opset_version=16,
+                          verbose=False,
+                          input_names=input_names,
+                          output_names=output_names)
+if __name__ == '__main__':
+    main(True)

package.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ !svc infer "filename.wav" -m G_754.pth -c "config (2).json"

preprocess_flist_config.py ADDED Viewed

	@@ -0,0 +1,83 @@

+import os
+import argparse
+import re
+from tqdm import tqdm
+from random import shuffle
+import json
+import wave
+config_template = json.load(open("configs_template/config_template.json"))
+pattern = re.compile(r'^[\.a-zA-Z0-9_\/]+$')
+def get_wav_duration(file_path):
+    with wave.open(file_path, 'rb') as wav_file:
+        # 获取音频帧数
+        n_frames = wav_file.getnframes()
+        # 获取采样率
+        framerate = wav_file.getframerate()
+        # 计算时长（秒）
+        duration = n_frames / float(framerate)
+    return duration
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--train_list", type=str, default="./filelists/train.txt", help="path to train list")
+    parser.add_argument("--val_list", type=str, default="./filelists/val.txt", help="path to val list")
+    parser.add_argument("--test_list", type=str, default="./filelists/test.txt", help="path to test list")
+    parser.add_argument("--source_dir", type=str, default="./dataset/44k", help="path to source dir")
+    args = parser.parse_args()
+    train = []
+    val = []
+    test = []
+    idx = 0
+    spk_dict = {}
+    spk_id = 0
+    for speaker in tqdm(os.listdir(args.source_dir)):
+        spk_dict[speaker] = spk_id
+        spk_id += 1
+        wavs = ["/".join([args.source_dir, speaker, i]) for i in os.listdir(os.path.join(args.source_dir, speaker))]
+        new_wavs = []
+        for file in wavs:
+            if not file.endswith("wav"):
+                continue
+            if not pattern.match(file):
+                print(f"warning：文件名{file}中包含非字母数字下划线，可能会导致错误。（也可能不会）")
+            if get_wav_duration(file) < 0.3:
+                print("skip too short audio:", file)
+                continue
+            new_wavs.append(file)
+        wavs = new_wavs
+        shuffle(wavs)
+        train += wavs[2:-2]
+        val += wavs[:2]
+        test += wavs[-2:]
+    shuffle(train)
+    shuffle(val)
+    shuffle(test)
+    print("Writing", args.train_list)
+    with open(args.train_list, "w") as f:
+        for fname in tqdm(train):
+            wavpath = fname
+            f.write(wavpath + "\n")
+    print("Writing", args.val_list)
+    with open(args.val_list, "w") as f:
+        for fname in tqdm(val):
+            wavpath = fname
+            f.write(wavpath + "\n")
+    print("Writing", args.test_list)
+    with open(args.test_list, "w") as f:
+        for fname in tqdm(test):
+            wavpath = fname
+            f.write(wavpath + "\n")
+    config_template["spk"] = spk_dict
+    print("Writing configs/config.json")
+    with open("configs/config.json", "w") as f:
+        json.dump(config_template, f, indent=2)

preprocess_hubert_f0.py ADDED Viewed

	@@ -0,0 +1,62 @@

+import math
+import multiprocessing
+import os
+import argparse
+from random import shuffle
+import torch
+from glob import glob
+from tqdm import tqdm
+import utils
+import logging
+logging.getLogger('numba').setLevel(logging.WARNING)
+import librosa
+import numpy as np
+hps = utils.get_hparams_from_file("configs/config.json")
+sampling_rate = hps.data.sampling_rate
+hop_length = hps.data.hop_length
+def process_one(filename, hmodel):
+    # print(filename)
+    wav, sr = librosa.load(filename, sr=sampling_rate)
+    soft_path = filename + ".soft.pt"
+    if not os.path.exists(soft_path):
+        devive = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        wav16k = librosa.resample(wav, orig_sr=sampling_rate, target_sr=16000)
+        wav16k = torch.from_numpy(wav16k).to(devive)
+        c = utils.get_hubert_content(hmodel, wav_16k_tensor=wav16k)
+        torch.save(c.cpu(), soft_path)
+    f0_path = filename + ".f0.npy"
+    if not os.path.exists(f0_path):
+        f0 = utils.compute_f0_dio(wav, sampling_rate=sampling_rate, hop_length=hop_length)
+        np.save(f0_path, f0)
+def process_batch(filenames):
+    print("Loading hubert for content...")
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    hmodel = utils.get_hubert_model().to(device)
+    print("Loaded hubert.")
+    for filename in tqdm(filenames):
+        process_one(filename, hmodel)
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--in_dir", type=str, default="dataset/44k", help="path to input dir")
+    args = parser.parse_args()
+    filenames = glob(f'{args.in_dir}/*/*.wav', recursive=True)  # [:10]
+    shuffle(filenames)
+    multiprocessing.set_start_method('spawn',force=True)
+    num_processes = 1
+    chunk_size = int(math.ceil(len(filenames) / num_processes))
+    chunks = [filenames[i:i + chunk_size] for i in range(0, len(filenames), chunk_size)]
+    print([len(c) for c in chunks])
+    processes = [multiprocessing.Process(target=process_batch, args=(chunk,)) for chunk in chunks]
+    for p in processes:
+        p.start()

requirements.txt ADDED Viewed

	@@ -0,0 +1,18 @@

+Flask
+Flask_Cors
+gradio
+numpy
+pyworld==0.2.5
+scipy==1.7.3
+SoundFile==0.12.1
+torch==1.13.1
+torchaudio==0.13.1
+tqdm
+scikit-maad
+praat-parselmouth
+onnx
+onnxsim
+onnxoptimizer
+fairseq==0.12.2
+librosa==0.8.1
+tensorboard

requirements_win.txt ADDED Viewed

	@@ -0,0 +1,21 @@

+librosa==0.9.2
+fairseq==0.12.2
+Flask==2.1.2
+Flask_Cors==3.0.10
+gradio==3.4.1
+numpy==1.20.0
+playsound==1.3.0
+PyAudio==0.2.12
+pydub==0.25.1
+pyworld==0.3.0
+requests==2.28.1
+scipy==1.7.3
+sounddevice==0.4.5
+SoundFile==0.10.3.post1
+starlette==0.19.1
+tqdm==4.63.0
+scikit-maad
+praat-parselmouth
+onnx
+onnxsim
+onnxoptimizer

resample.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import os
+import argparse
+import librosa
+import numpy as np
+from multiprocessing import Pool, cpu_count
+from scipy.io import wavfile
+from tqdm import tqdm
+def process(item):
+    spkdir, wav_name, args = item
+    # speaker 's5', 'p280', 'p315' are excluded,
+    speaker = spkdir.replace("\\", "/").split("/")[-1]
+    wav_path = os.path.join(args.in_dir, speaker, wav_name)
+    if os.path.exists(wav_path) and '.wav' in wav_path:
+        os.makedirs(os.path.join(args.out_dir2, speaker), exist_ok=True)
+        wav, sr = librosa.load(wav_path, sr=None)
+        wav, _ = librosa.effects.trim(wav, top_db=20)
+        peak = np.abs(wav).max()
+        if peak > 1.0:
+            wav = 0.98 * wav / peak
+        wav2 = librosa.resample(wav, orig_sr=sr, target_sr=args.sr2)
+        wav2 /= max(wav2.max(), -wav2.min())
+        save_name = wav_name
+        save_path2 = os.path.join(args.out_dir2, speaker, save_name)
+        wavfile.write(
+            save_path2,
+            args.sr2,
+            (wav2 * np.iinfo(np.int16).max).astype(np.int16)
+        )
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--sr2", type=int, default=44100, help="sampling rate")
+    parser.add_argument("--in_dir", type=str, default="./dataset_raw", help="path to source dir")
+    parser.add_argument("--out_dir2", type=str, default="./dataset/44k", help="path to target dir")
+    args = parser.parse_args()
+    processs = cpu_count()-2 if cpu_count() >4 else 1
+    pool = Pool(processes=processs)
+    for speaker in os.listdir(args.in_dir):
+        spk_dir = os.path.join(args.in_dir, speaker)
+        if os.path.isdir(spk_dir):
+            print(spk_dir)
+            for _ in tqdm(pool.imap_unordered(process, [(spk_dir, i, args) for i in os.listdir(spk_dir) if i.endswith("wav")])):
+                pass

spec_gen.py ADDED Viewed

	@@ -0,0 +1,22 @@

+from data_utils import TextAudioSpeakerLoader
+import json
+from tqdm import tqdm
+from utils import HParams
+config_path = 'configs/config.json'
+with open(config_path, "r") as f:
+    data = f.read()
+config = json.loads(data)
+hps = HParams(**config)
+train_dataset = TextAudioSpeakerLoader("filelists/train.txt", hps)
+test_dataset = TextAudioSpeakerLoader("filelists/test.txt", hps)
+eval_dataset = TextAudioSpeakerLoader("filelists/val.txt", hps)
+for _ in tqdm(train_dataset):
+    pass
+for _ in tqdm(eval_dataset):
+    pass
+for _ in tqdm(test_dataset):
+    pass

train.py ADDED Viewed

	@@ -0,0 +1,310 @@

+import logging
+import multiprocessing
+import time
+logging.getLogger('matplotlib').setLevel(logging.WARNING)
+import os
+import json
+import argparse
+import itertools
+import math
+import torch
+from torch import nn, optim
+from torch.nn import functional as F
+from torch.utils.data import DataLoader
+from torch.utils.tensorboard import SummaryWriter
+import torch.multiprocessing as mp
+import torch.distributed as dist
+from torch.nn.parallel import DistributedDataParallel as DDP
+from torch.cuda.amp import autocast, GradScaler
+import modules.commons as commons
+import utils
+from data_utils import TextAudioSpeakerLoader, TextAudioCollate
+from models import (
+    SynthesizerTrn,
+    MultiPeriodDiscriminator,
+)
+from modules.losses import (
+    kl_loss,
+    generator_loss, discriminator_loss, feature_loss
+)
+from modules.mel_processing import mel_spectrogram_torch, spec_to_mel_torch
+torch.backends.cudnn.benchmark = True
+global_step = 0
+start_time = time.time()
+# os.environ['TORCH_DISTRIBUTED_DEBUG'] = 'INFO'
+def main():
+    """Assume Single Node Multi GPUs Training Only"""
+    assert torch.cuda.is_available(), "CPU training is not allowed."
+    hps = utils.get_hparams()
+    n_gpus = torch.cuda.device_count()
+    os.environ['MASTER_ADDR'] = 'localhost'
+    os.environ['MASTER_PORT'] = hps.train.port
+    mp.spawn(run, nprocs=n_gpus, args=(n_gpus, hps,))
+def run(rank, n_gpus, hps):
+    global global_step
+    if rank == 0:
+        logger = utils.get_logger(hps.model_dir)
+        logger.info(hps)
+        utils.check_git_hash(hps.model_dir)
+        writer = SummaryWriter(log_dir=hps.model_dir)
+        writer_eval = SummaryWriter(log_dir=os.path.join(hps.model_dir, "eval"))
+    # for pytorch on win, backend use gloo
+    dist.init_process_group(backend=  'gloo' if os.name == 'nt' else 'nccl', init_method='env://', world_size=n_gpus, rank=rank)
+    torch.manual_seed(hps.train.seed)
+    torch.cuda.set_device(rank)
+    collate_fn = TextAudioCollate()
+    train_dataset = TextAudioSpeakerLoader(hps.data.training_files, hps)
+    num_workers = 5 if multiprocessing.cpu_count() > 4 else multiprocessing.cpu_count()
+    train_loader = DataLoader(train_dataset, num_workers=num_workers, shuffle=False, pin_memory=True,
+                              batch_size=hps.train.batch_size, collate_fn=collate_fn)
+    if rank == 0:
+        eval_dataset = TextAudioSpeakerLoader(hps.data.validation_files, hps)
+        eval_loader = DataLoader(eval_dataset, num_workers=1, shuffle=False,
+                                 batch_size=1, pin_memory=False,
+                                 drop_last=False, collate_fn=collate_fn)
+    net_g = SynthesizerTrn(
+        hps.data.filter_length // 2 + 1,
+        hps.train.segment_size // hps.data.hop_length,
+        **hps.model).cuda(rank)
+    net_d = MultiPeriodDiscriminator(hps.model.use_spectral_norm).cuda(rank)
+    optim_g = torch.optim.AdamW(
+        net_g.parameters(),
+        hps.train.learning_rate,
+        betas=hps.train.betas,
+        eps=hps.train.eps)
+    optim_d = torch.optim.AdamW(
+        net_d.parameters(),
+        hps.train.learning_rate,
+        betas=hps.train.betas,
+        eps=hps.train.eps)
+    net_g = DDP(net_g, device_ids=[rank])  # , find_unused_parameters=True)
+    net_d = DDP(net_d, device_ids=[rank])
+    skip_optimizer = False
+    try:
+        _, _, _, epoch_str = utils.load_checkpoint(utils.latest_checkpoint_path(hps.model_dir, "G_*.pth"), net_g,
+                                                   optim_g, skip_optimizer)
+        _, _, _, epoch_str = utils.load_checkpoint(utils.latest_checkpoint_path(hps.model_dir, "D_*.pth"), net_d,
+                                                   optim_d, skip_optimizer)
+        epoch_str = max(epoch_str, 1)
+        global_step = (epoch_str - 1) * len(train_loader)
+    except:
+        print("load old checkpoint failed...")
+        epoch_str = 1
+        global_step = 0
+    if skip_optimizer:
+        epoch_str = 1
+        global_step = 0
+    scheduler_g = torch.optim.lr_scheduler.ExponentialLR(optim_g, gamma=hps.train.lr_decay, last_epoch=epoch_str - 2)
+    scheduler_d = torch.optim.lr_scheduler.ExponentialLR(optim_d, gamma=hps.train.lr_decay, last_epoch=epoch_str - 2)
+    scaler = GradScaler(enabled=hps.train.fp16_run)
+    for epoch in range(epoch_str, hps.train.epochs + 1):
+        if rank == 0:
+            train_and_evaluate(rank, epoch, hps, [net_g, net_d], [optim_g, optim_d], [scheduler_g, scheduler_d], scaler,
+                               [train_loader, eval_loader], logger, [writer, writer_eval])
+        else:
+            train_and_evaluate(rank, epoch, hps, [net_g, net_d], [optim_g, optim_d], [scheduler_g, scheduler_d], scaler,
+                               [train_loader, None], None, None)
+        scheduler_g.step()
+        scheduler_d.step()
+def train_and_evaluate(rank, epoch, hps, nets, optims, schedulers, scaler, loaders, logger, writers):
+    net_g, net_d = nets
+    optim_g, optim_d = optims
+    scheduler_g, scheduler_d = schedulers
+    train_loader, eval_loader = loaders
+    if writers is not None:
+        writer, writer_eval = writers
+    # train_loader.batch_sampler.set_epoch(epoch)
+    global global_step
+    net_g.train()
+    net_d.train()
+    for batch_idx, items in enumerate(train_loader):
+        c, f0, spec, y, spk, lengths, uv = items
+        g = spk.cuda(rank, non_blocking=True)
+        spec, y = spec.cuda(rank, non_blocking=True), y.cuda(rank, non_blocking=True)
+        c = c.cuda(rank, non_blocking=True)
+        f0 = f0.cuda(rank, non_blocking=True)
+        uv = uv.cuda(rank, non_blocking=True)
+        lengths = lengths.cuda(rank, non_blocking=True)
+        mel = spec_to_mel_torch(
+            spec,
+            hps.data.filter_length,
+            hps.data.n_mel_channels,
+            hps.data.sampling_rate,
+            hps.data.mel_fmin,
+            hps.data.mel_fmax)
+        with autocast(enabled=hps.train.fp16_run):
+            y_hat, ids_slice, z_mask, \
+            (z, z_p, m_p, logs_p, m_q, logs_q), pred_lf0, norm_lf0, lf0 = net_g(c, f0, uv, spec, g=g, c_lengths=lengths,
+                                                                                spec_lengths=lengths)
+            y_mel = commons.slice_segments(mel, ids_slice, hps.train.segment_size // hps.data.hop_length)
+            y_hat_mel = mel_spectrogram_torch(
+                y_hat.squeeze(1),
+                hps.data.filter_length,
+                hps.data.n_mel_channels,
+                hps.data.sampling_rate,
+                hps.data.hop_length,
+                hps.data.win_length,
+                hps.data.mel_fmin,
+                hps.data.mel_fmax
+            )
+            y = commons.slice_segments(y, ids_slice * hps.data.hop_length, hps.train.segment_size)  # slice
+            # Discriminator
+            y_d_hat_r, y_d_hat_g, _, _ = net_d(y, y_hat.detach())
+            with autocast(enabled=False):
+                loss_disc, losses_disc_r, losses_disc_g = discriminator_loss(y_d_hat_r, y_d_hat_g)
+                loss_disc_all = loss_disc
+        optim_d.zero_grad()
+        scaler.scale(loss_disc_all).backward()
+        scaler.unscale_(optim_d)
+        grad_norm_d = commons.clip_grad_value_(net_d.parameters(), None)
+        scaler.step(optim_d)
+        with autocast(enabled=hps.train.fp16_run):
+            # Generator
+            y_d_hat_r, y_d_hat_g, fmap_r, fmap_g = net_d(y, y_hat)
+            with autocast(enabled=False):
+                loss_mel = F.l1_loss(y_mel, y_hat_mel) * hps.train.c_mel
+                loss_kl = kl_loss(z_p, logs_q, m_p, logs_p, z_mask) * hps.train.c_kl
+                loss_fm = feature_loss(fmap_r, fmap_g)
+                loss_gen, losses_gen = generator_loss(y_d_hat_g)
+                loss_lf0 = F.mse_loss(pred_lf0, lf0)
+                loss_gen_all = loss_gen + loss_fm + loss_mel + loss_kl + loss_lf0
+        optim_g.zero_grad()
+        scaler.scale(loss_gen_all).backward()
+        scaler.unscale_(optim_g)
+        grad_norm_g = commons.clip_grad_value_(net_g.parameters(), None)
+        scaler.step(optim_g)
+        scaler.update()
+        if rank == 0:
+            if global_step % hps.train.log_interval == 0:
+                lr = optim_g.param_groups[0]['lr']
+                losses = [loss_disc, loss_gen, loss_fm, loss_mel, loss_kl]
+                logger.info('Train Epoch: {} [{:.0f}%]'.format(
+                    epoch,
+                    100. * batch_idx / len(train_loader)))
+                logger.info(f"Losses: {[x.item() for x in losses]}, step: {global_step}, lr: {lr}")
+                scalar_dict = {"loss/g/total": loss_gen_all, "loss/d/total": loss_disc_all, "learning_rate": lr,
+                               "grad_norm_d": grad_norm_d, "grad_norm_g": grad_norm_g}
+                scalar_dict.update({"loss/g/fm": loss_fm, "loss/g/mel": loss_mel, "loss/g/kl": loss_kl,
+                                    "loss/g/lf0": loss_lf0})
+                # scalar_dict.update({"loss/g/{}".format(i): v for i, v in enumerate(losses_gen)})
+                # scalar_dict.update({"loss/d_r/{}".format(i): v for i, v in enumerate(losses_disc_r)})
+                # scalar_dict.update({"loss/d_g/{}".format(i): v for i, v in enumerate(losses_disc_g)})
+                image_dict = {
+                    "slice/mel_org": utils.plot_spectrogram_to_numpy(y_mel[0].data.cpu().numpy()),
+                    "slice/mel_gen": utils.plot_spectrogram_to_numpy(y_hat_mel[0].data.cpu().numpy()),
+                    "all/mel": utils.plot_spectrogram_to_numpy(mel[0].data.cpu().numpy()),
+                    "all/lf0": utils.plot_data_to_numpy(lf0[0, 0, :].cpu().numpy(),
+                                                          pred_lf0[0, 0, :].detach().cpu().numpy()),
+                    "all/norm_lf0": utils.plot_data_to_numpy(lf0[0, 0, :].cpu().numpy(),
+                                                               norm_lf0[0, 0, :].detach().cpu().numpy())
+                }
+                utils.summarize(
+                    writer=writer,
+                    global_step=global_step,
+                    images=image_dict,
+                    scalars=scalar_dict
+                )
+            if global_step % hps.train.eval_interval == 0:
+                evaluate(hps, net_g, eval_loader, writer_eval)
+                utils.save_checkpoint(net_g, optim_g, hps.train.learning_rate, epoch,
+                                      os.path.join(hps.model_dir, "G_{}.pth".format(global_step)))
+                utils.save_checkpoint(net_d, optim_d, hps.train.learning_rate, epoch,
+                                      os.path.join(hps.model_dir, "D_{}.pth".format(global_step)))
+                keep_ckpts = getattr(hps.train, 'keep_ckpts', 0)
+                if keep_ckpts > 0:
+                    utils.clean_checkpoints(path_to_models=hps.model_dir, n_ckpts_to_keep=keep_ckpts, sort_by_time=True)
+        global_step += 1
+    if rank == 0:
+        global start_time
+        now = time.time()
+        durtaion = format(now - start_time, '.2f')
+        logger.info(f'====> Epoch: {epoch}, cost {durtaion} s')
+        start_time = now
+def evaluate(hps, generator, eval_loader, writer_eval):
+    generator.eval()
+    image_dict = {}
+    audio_dict = {}
+    with torch.no_grad():
+        for batch_idx, items in enumerate(eval_loader):
+            c, f0, spec, y, spk, _, uv = items
+            g = spk[:1].cuda(0)
+            spec, y = spec[:1].cuda(0), y[:1].cuda(0)
+            c = c[:1].cuda(0)
+            f0 = f0[:1].cuda(0)
+            uv= uv[:1].cuda(0)
+            mel = spec_to_mel_torch(
+                spec,
+                hps.data.filter_length,
+                hps.data.n_mel_channels,
+                hps.data.sampling_rate,
+                hps.data.mel_fmin,
+                hps.data.mel_fmax)
+            y_hat = generator.module.infer(c, f0, uv, g=g)
+            y_hat_mel = mel_spectrogram_torch(
+                y_hat.squeeze(1).float(),
+                hps.data.filter_length,
+                hps.data.n_mel_channels,
+                hps.data.sampling_rate,
+                hps.data.hop_length,
+                hps.data.win_length,
+                hps.data.mel_fmin,
+                hps.data.mel_fmax
+            )
+            audio_dict.update({
+                f"gen/audio_{batch_idx}": y_hat[0],
+                f"gt/audio_{batch_idx}": y[0]
+            })
+        image_dict.update({
+            f"gen/mel": utils.plot_spectrogram_to_numpy(y_hat_mel[0].cpu().numpy()),
+            "gt/mel": utils.plot_spectrogram_to_numpy(mel[0].cpu().numpy())
+        })
+    utils.summarize(
+        writer=writer_eval,
+        global_step=global_step,
+        images=image_dict,
+        audios=audio_dict,
+        audio_sampling_rate=hps.data.sampling_rate
+    )
+    generator.train()
+if __name__ == "__main__":
+    main()

utils.py ADDED Viewed

	@@ -0,0 +1,502 @@

+import os
+import glob
+import re
+import sys
+import argparse
+import logging
+import json
+import subprocess
+import random
+import librosa
+import numpy as np
+from scipy.io.wavfile import read
+import torch
+from torch.nn import functional as F
+from modules.commons import sequence_mask
+from hubert import hubert_model
+MATPLOTLIB_FLAG = False
+logging.basicConfig(stream=sys.stdout, level=logging.DEBUG)
+logger = logging
+f0_bin = 256
+f0_max = 1100.0
+f0_min = 50.0
+f0_mel_min = 1127 * np.log(1 + f0_min / 700)
+f0_mel_max = 1127 * np.log(1 + f0_max / 700)
+# def normalize_f0(f0, random_scale=True):
+#     f0_norm = f0.clone()  # create a copy of the input Tensor
+#     batch_size, _, frame_length = f0_norm.shape
+#     for i in range(batch_size):
+#         means = torch.mean(f0_norm[i, 0, :])
+#         if random_scale:
+#             factor = random.uniform(0.8, 1.2)
+#         else:
+#             factor = 1
+#         f0_norm[i, 0, :] = (f0_norm[i, 0, :] - means) * factor
+#     return f0_norm
+# def normalize_f0(f0, random_scale=True):
+#     means = torch.mean(f0[:, 0, :], dim=1, keepdim=True)
+#     if random_scale:
+#         factor = torch.Tensor(f0.shape[0],1).uniform_(0.8, 1.2).to(f0.device)
+#     else:
+#         factor = torch.ones(f0.shape[0], 1, 1).to(f0.device)
+#     f0_norm = (f0 - means.unsqueeze(-1)) * factor.unsqueeze(-1)
+#     return f0_norm
+def normalize_f0(f0, x_mask, uv, random_scale=True):
+    # calculate means based on x_mask
+    uv_sum = torch.sum(uv, dim=1, keepdim=True)
+    uv_sum[uv_sum == 0] = 9999
+    means = torch.sum(f0[:, 0, :] * uv, dim=1, keepdim=True) / uv_sum
+    if random_scale:
+        factor = torch.Tensor(f0.shape[0], 1).uniform_(0.8, 1.2).to(f0.device)
+    else:
+        factor = torch.ones(f0.shape[0], 1).to(f0.device)
+    # normalize f0 based on means and factor
+    f0_norm = (f0 - means.unsqueeze(-1)) * factor.unsqueeze(-1)
+    if torch.isnan(f0_norm).any():
+        exit(0)
+    return f0_norm * x_mask
+def plot_data_to_numpy(x, y):
+    global MATPLOTLIB_FLAG
+    if not MATPLOTLIB_FLAG:
+        import matplotlib
+        matplotlib.use("Agg")
+        MATPLOTLIB_FLAG = True
+        mpl_logger = logging.getLogger('matplotlib')
+        mpl_logger.setLevel(logging.WARNING)
+    import matplotlib.pylab as plt
+    import numpy as np
+    fig, ax = plt.subplots(figsize=(10, 2))
+    plt.plot(x)
+    plt.plot(y)
+    plt.tight_layout()
+    fig.canvas.draw()
+    data = np.fromstring(fig.canvas.tostring_rgb(), dtype=np.uint8, sep='')
+    data = data.reshape(fig.canvas.get_width_height()[::-1] + (3,))
+    plt.close()
+    return data
+def interpolate_f0(f0):
+    '''
+    对F0进行插值处理
+    '''
+    data = np.reshape(f0, (f0.size, 1))
+    vuv_vector = np.zeros((data.size, 1), dtype=np.float32)
+    vuv_vector[data > 0.0] = 1.0
+    vuv_vector[data <= 0.0] = 0.0
+    ip_data = data
+    frame_number = data.size
+    last_value = 0.0
+    for i in range(frame_number):
+        if data[i] <= 0.0:
+            j = i + 1
+            for j in range(i + 1, frame_number):
+                if data[j] > 0.0:
+                    break
+            if j < frame_number - 1:
+                if last_value > 0.0:
+                    step = (data[j] - data[i - 1]) / float(j - i)
+                    for k in range(i, j):
+                        ip_data[k] = data[i - 1] + step * (k - i + 1)
+                else:
+                    for k in range(i, j):
+                        ip_data[k] = data[j]
+            else:
+                for k in range(i, frame_number):
+                    ip_data[k] = last_value
+        else:
+            ip_data[i] = data[i]
+            last_value = data[i]
+    return ip_data[:,0], vuv_vector[:,0]
+def compute_f0_parselmouth(wav_numpy, p_len=None, sampling_rate=44100, hop_length=512):
+    import parselmouth
+    x = wav_numpy
+    if p_len is None:
+        p_len = x.shape[0]//hop_length
+    else:
+        assert abs(p_len-x.shape[0]//hop_length) < 4, "pad length error"
+    time_step = hop_length / sampling_rate * 1000
+    f0_min = 50
+    f0_max = 1100
+    f0 = parselmouth.Sound(x, sampling_rate).to_pitch_ac(
+        time_step=time_step / 1000, voicing_threshold=0.6,
+        pitch_floor=f0_min, pitch_ceiling=f0_max).selected_array['frequency']
+    pad_size=(p_len - len(f0) + 1) // 2
+    if(pad_size>0 or p_len - len(f0) - pad_size>0):
+        f0 = np.pad(f0,[[pad_size,p_len - len(f0) - pad_size]], mode='constant')
+    return f0
+def resize_f0(x, target_len):
+    source = np.array(x)
+    source[source<0.001] = np.nan
+    target = np.interp(np.arange(0, len(source)*target_len, len(source))/ target_len, np.arange(0, len(source)), source)
+    res = np.nan_to_num(target)
+    return res
+def compute_f0_dio(wav_numpy, p_len=None, sampling_rate=44100, hop_length=512):
+    import pyworld
+    if p_len is None:
+        p_len = wav_numpy.shape[0]//hop_length
+    f0, t = pyworld.dio(
+        wav_numpy.astype(np.double),
+        fs=sampling_rate,
+        f0_ceil=800,
+        frame_period=1000 * hop_length / sampling_rate,
+    )
+    f0 = pyworld.stonemask(wav_numpy.astype(np.double), f0, t, sampling_rate)
+    for index, pitch in enumerate(f0):
+        f0[index] = round(pitch, 1)
+    return resize_f0(f0, p_len)
+def f0_to_coarse(f0):
+  is_torch = isinstance(f0, torch.Tensor)
+  f0_mel = 1127 * (1 + f0 / 700).log() if is_torch else 1127 * np.log(1 + f0 / 700)
+  f0_mel[f0_mel > 0] = (f0_mel[f0_mel > 0] - f0_mel_min) * (f0_bin - 2) / (f0_mel_max - f0_mel_min) + 1
+  f0_mel[f0_mel <= 1] = 1
+  f0_mel[f0_mel > f0_bin - 1] = f0_bin - 1
+  f0_coarse = (f0_mel + 0.5).long() if is_torch else np.rint(f0_mel).astype(np.int)
+  assert f0_coarse.max() <= 255 and f0_coarse.min() >= 1, (f0_coarse.max(), f0_coarse.min())
+  return f0_coarse
+def get_hubert_model():
+  vec_path = "hubert/checkpoint_best_legacy_500.pt"
+  print("load model(s) from {}".format(vec_path))
+  from fairseq import checkpoint_utils
+  models, saved_cfg, task = checkpoint_utils.load_model_ensemble_and_task(
+    [vec_path],
+    suffix="",
+  )
+  model = models[0]
+  model.eval()
+  return model
+def get_hubert_content(hmodel, wav_16k_tensor):
+  feats = wav_16k_tensor
+  if feats.dim() == 2:  # double channels
+    feats = feats.mean(-1)
+  assert feats.dim() == 1, feats.dim()
+  feats = feats.view(1, -1)
+  padding_mask = torch.BoolTensor(feats.shape).fill_(False)
+  inputs = {
+    "source": feats.to(wav_16k_tensor.device),
+    "padding_mask": padding_mask.to(wav_16k_tensor.device),
+    "output_layer": 9,  # layer 9
+  }
+  with torch.no_grad():
+    logits = hmodel.extract_features(**inputs)
+    feats = hmodel.final_proj(logits[0])
+  return feats.transpose(1, 2)
+def get_content(cmodel, y):
+    with torch.no_grad():
+        c = cmodel.extract_features(y.squeeze(1))[0]
+    c = c.transpose(1, 2)
+    return c
+def load_checkpoint(checkpoint_path, model, optimizer=None, skip_optimizer=False):
+    assert os.path.isfile(checkpoint_path)
+    checkpoint_dict = torch.load(checkpoint_path, map_location='cpu')
+    iteration = checkpoint_dict['iteration']
+    learning_rate = checkpoint_dict['learning_rate']
+    if optimizer is not None and not skip_optimizer and checkpoint_dict['optimizer'] is not None:
+        optimizer.load_state_dict(checkpoint_dict['optimizer'])
+    saved_state_dict = checkpoint_dict['model']
+    if hasattr(model, 'module'):
+        state_dict = model.module.state_dict()
+    else:
+        state_dict = model.state_dict()
+    new_state_dict = {}
+    for k, v in state_dict.items():
+        try:
+            # assert "dec" in k or "disc" in k
+            # print("load", k)
+            new_state_dict[k] = saved_state_dict[k]
+            assert saved_state_dict[k].shape == v.shape, (saved_state_dict[k].shape, v.shape)
+        except:
+            print("error, %s is not in the checkpoint" % k)
+            logger.info("%s is not in the checkpoint" % k)
+            new_state_dict[k] = v
+    if hasattr(model, 'module'):
+        model.module.load_state_dict(new_state_dict)
+    else:
+        model.load_state_dict(new_state_dict)
+    print("load ")
+    logger.info("Loaded checkpoint '{}' (iteration {})".format(
+        checkpoint_path, iteration))
+    return model, optimizer, learning_rate, iteration
+def save_checkpoint(model, optimizer, learning_rate, iteration, checkpoint_path):
+  logger.info("Saving model and optimizer state at iteration {} to {}".format(
+    iteration, checkpoint_path))
+  if hasattr(model, 'module'):
+    state_dict = model.module.state_dict()
+  else:
+    state_dict = model.state_dict()
+  torch.save({'model': state_dict,
+              'iteration': iteration,
+              'optimizer': optimizer.state_dict(),
+              'learning_rate': learning_rate}, checkpoint_path)
+def clean_checkpoints(path_to_models='logs/44k/', n_ckpts_to_keep=2, sort_by_time=True):
+  """Freeing up space by deleting saved ckpts
+  Arguments:
+  path_to_models    --  Path to the model directory
+  n_ckpts_to_keep   --  Number of ckpts to keep, excluding G_0.pth and D_0.pth
+  sort_by_time      --  True -> chronologically delete ckpts
+                        False -> lexicographically delete ckpts
+  """
+  ckpts_files = [f for f in os.listdir(path_to_models) if os.path.isfile(os.path.join(path_to_models, f))]
+  name_key = (lambda _f: int(re.compile('._(\d+)\.pth').match(_f).group(1)))
+  time_key = (lambda _f: os.path.getmtime(os.path.join(path_to_models, _f)))
+  sort_key = time_key if sort_by_time else name_key
+  x_sorted = lambda _x: sorted([f for f in ckpts_files if f.startswith(_x) and not f.endswith('_0.pth')], key=sort_key)
+  to_del = [os.path.join(path_to_models, fn) for fn in
+            (x_sorted('G')[:-n_ckpts_to_keep] + x_sorted('D')[:-n_ckpts_to_keep])]
+  del_info = lambda fn: logger.info(f".. Free up space by deleting ckpt {fn}")
+  del_routine = lambda x: [os.remove(x), del_info(x)]
+  rs = [del_routine(fn) for fn in to_del]
+def summarize(writer, global_step, scalars={}, histograms={}, images={}, audios={}, audio_sampling_rate=22050):
+  for k, v in scalars.items():
+    writer.add_scalar(k, v, global_step)
+  for k, v in histograms.items():
+    writer.add_histogram(k, v, global_step)
+  for k, v in images.items():
+    writer.add_image(k, v, global_step, dataformats='HWC')
+  for k, v in audios.items():
+    writer.add_audio(k, v, global_step, audio_sampling_rate)
+def latest_checkpoint_path(dir_path, regex="G_*.pth"):
+  f_list = glob.glob(os.path.join(dir_path, regex))
+  f_list.sort(key=lambda f: int("".join(filter(str.isdigit, f))))
+  x = f_list[-1]
+  print(x)
+  return x
+def plot_spectrogram_to_numpy(spectrogram):
+  global MATPLOTLIB_FLAG
+  if not MATPLOTLIB_FLAG:
+    import matplotlib
+    matplotlib.use("Agg")
+    MATPLOTLIB_FLAG = True
+    mpl_logger = logging.getLogger('matplotlib')
+    mpl_logger.setLevel(logging.WARNING)
+  import matplotlib.pylab as plt
+  import numpy as np
+  fig, ax = plt.subplots(figsize=(10,2))
+  im = ax.imshow(spectrogram, aspect="auto", origin="lower",
+                  interpolation='none')
+  plt.colorbar(im, ax=ax)
+  plt.xlabel("Frames")
+  plt.ylabel("Channels")
+  plt.tight_layout()
+  fig.canvas.draw()
+  data = np.fromstring(fig.canvas.tostring_rgb(), dtype=np.uint8, sep='')
+  data = data.reshape(fig.canvas.get_width_height()[::-1] + (3,))
+  plt.close()
+  return data
+def plot_alignment_to_numpy(alignment, info=None):
+  global MATPLOTLIB_FLAG
+  if not MATPLOTLIB_FLAG:
+    import matplotlib
+    matplotlib.use("Agg")
+    MATPLOTLIB_FLAG = True
+    mpl_logger = logging.getLogger('matplotlib')
+    mpl_logger.setLevel(logging.WARNING)
+  import matplotlib.pylab as plt
+  import numpy as np
+  fig, ax = plt.subplots(figsize=(6, 4))
+  im = ax.imshow(alignment.transpose(), aspect='auto', origin='lower',
+                  interpolation='none')
+  fig.colorbar(im, ax=ax)
+  xlabel = 'Decoder timestep'
+  if info is not None:
+      xlabel += '\n\n' + info
+  plt.xlabel(xlabel)
+  plt.ylabel('Encoder timestep')
+  plt.tight_layout()
+  fig.canvas.draw()
+  data = np.fromstring(fig.canvas.tostring_rgb(), dtype=np.uint8, sep='')
+  data = data.reshape(fig.canvas.get_width_height()[::-1] + (3,))
+  plt.close()
+  return data
+def load_wav_to_torch(full_path):
+  sampling_rate, data = read(full_path)
+  return torch.FloatTensor(data.astype(np.float32)), sampling_rate
+def load_filepaths_and_text(filename, split="|"):
+  with open(filename, encoding='utf-8') as f:
+    filepaths_and_text = [line.strip().split(split) for line in f]
+  return filepaths_and_text
+def get_hparams(init=True):
+  parser = argparse.ArgumentParser()
+  parser.add_argument('-c', '--config', type=str, default="./configs/base.json",
+                      help='JSON file for configuration')
+  parser.add_argument('-m', '--model', type=str, required=True,
+                      help='Model name')
+  args = parser.parse_args()
+  model_dir = os.path.join("./logs", args.model)
+  if not os.path.exists(model_dir):
+    os.makedirs(model_dir)
+  config_path = args.config
+  config_save_path = os.path.join(model_dir, "config.json")
+  if init:
+    with open(config_path, "r") as f:
+      data = f.read()
+    with open(config_save_path, "w") as f:
+      f.write(data)
+  else:
+    with open(config_save_path, "r") as f:
+      data = f.read()
+  config = json.loads(data)
+  hparams = HParams(**config)
+  hparams.model_dir = model_dir
+  return hparams
+def get_hparams_from_dir(model_dir):
+  config_save_path = os.path.join(model_dir, "config.json")
+  with open(config_save_path, "r") as f:
+    data = f.read()
+  config = json.loads(data)
+  hparams =HParams(**config)
+  hparams.model_dir = model_dir
+  return hparams
+def get_hparams_from_file(config_path):
+  with open(config_path, "r") as f:
+    data = f.read()
+  config = json.loads(data)
+  hparams =HParams(**config)
+  return hparams
+def check_git_hash(model_dir):
+  source_dir = os.path.dirname(os.path.realpath(__file__))
+  if not os.path.exists(os.path.join(source_dir, ".git")):
+    logger.warn("{} is not a git repository, therefore hash value comparison will be ignored.".format(
+      source_dir
+    ))
+    return
+  cur_hash = subprocess.getoutput("git rev-parse HEAD")
+  path = os.path.join(model_dir, "githash")
+  if os.path.exists(path):
+    saved_hash = open(path).read()
+    if saved_hash != cur_hash:
+      logger.warn("git hash values are different. {}(saved) != {}(current)".format(
+        saved_hash[:8], cur_hash[:8]))
+  else:
+    open(path, "w").write(cur_hash)
+def get_logger(model_dir, filename="train.log"):
+  global logger
+  logger = logging.getLogger(os.path.basename(model_dir))
+  logger.setLevel(logging.DEBUG)
+  formatter = logging.Formatter("%(asctime)s\t%(name)s\t%(levelname)s\t%(message)s")
+  if not os.path.exists(model_dir):
+    os.makedirs(model_dir)
+  h = logging.FileHandler(os.path.join(model_dir, filename))
+  h.setLevel(logging.DEBUG)
+  h.setFormatter(formatter)
+  logger.addHandler(h)
+  return logger
+def repeat_expand_2d(content, target_len):
+    # content : [h, t]
+    src_len = content.shape[-1]
+    target = torch.zeros([content.shape[0], target_len], dtype=torch.float).to(content.device)
+    temp = torch.arange(src_len+1) * target_len / src_len
+    current_pos = 0
+    for i in range(target_len):
+        if i < temp[current_pos+1]:
+            target[:, i] = content[:, current_pos]
+        else:
+            current_pos += 1
+            target[:, i] = content[:, current_pos]
+    return target
+class HParams():
+  def __init__(self, **kwargs):
+    for k, v in kwargs.items():
+      if type(v) == dict:
+        v = HParams(**v)
+      self[k] = v
+  def keys(self):
+    return self.__dict__.keys()
+  def items(self):
+    return self.__dict__.items()
+  def values(self):
+    return self.__dict__.values()
+  def __len__(self):
+    return len(self.__dict__)
+  def __getitem__(self, key):
+    return getattr(self, key)
+  def __setitem__(self, key, value):
+    return setattr(self, key, value)
+  def __contains__(self, key):
+    return key in self.__dict__
+  def __repr__(self):
+    return self.__dict__.__repr__()

wav_upload.py ADDED Viewed

	@@ -0,0 +1,23 @@

+from google.colab import files
+import shutil
+import os
+import argparse
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--type", type=str, required=True, help="type of file to upload")
+    args = parser.parse_args()
+    file_type = args.type
+    basepath = os.getcwd()
+    uploaded = files.upload() # 上传文件
+    assert(file_type in ['zip', 'audio'])
+    if file_type == "zip":
+        upload_path = "./upload/"
+        for filename in uploaded.keys():
+            #将上传的文件移动到指定的位置上
+            shutil.move(os.path.join(basepath, filename), os.path.join(upload_path, "userzip.zip"))
+    elif file_type == "audio":
+        upload_path = "./raw/"
+        for filename in uploaded.keys():
+            #将上传的文件移动到指定的位置上
+            shutil.move(os.path.join(basepath, filename), os.path.join(upload_path, filename))