recoilme commited on Jul 8

Commit

5b9c339

1 Parent(s): 4aa2866

0806

Browse files

Files changed (15) hide show

samples/unet_320x576_0.jpg +2 -2
samples/unet_384x576_0.jpg +2 -2
samples/unet_448x576_0.jpg +2 -2
samples/unet_512x576_0.jpg +2 -2
samples/unet_576x320_0.jpg +2 -2
samples/unet_576x384_0.jpg +2 -2
samples/unet_576x448_0.jpg +2 -2
samples/unet_576x512_0.jpg +2 -2
samples/unet_576x576_0.jpg +2 -2
train-Copy1.py +349 -130
train.py +17 -12
train_dispersive.py +0 -898
train_dist.py +0 -713
train_nofbp.py +0 -695
unet/diffusion_pytorch_model.safetensors +1 -1

samples/unet_320x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 2cd448dd5de462d52f70980f87bdea2083c250621894ffc868e4735b20adc694
Pointer size: 130 Bytes
Size of remote file: 59.2 kB

Git LFS Details

SHA256: 13dc91c061b6b36b5fa419c372bd33bd4e02bf05f1f3a1092ac4d207d97889c0
Pointer size: 130 Bytes
Size of remote file: 55.7 kB

samples/unet_384x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 4ea2aa8fb41888b9d47019f72d6e4c3df27b1e24ac5835093a12649d2edc4064
Pointer size: 130 Bytes
Size of remote file: 52.2 kB

Git LFS Details

SHA256: 5b81ef0ed8250322f7df1d9e9290af27f4a127f80e4ca267b5b0d6011bac6df8
Pointer size: 130 Bytes
Size of remote file: 79.9 kB

samples/unet_448x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: cf7beba7d5450c4640f2848f4455055615a183207a77df6b78cf6922af78de37
Pointer size: 131 Bytes
Size of remote file: 151 kB

Git LFS Details

SHA256: a6822518d2b7c6bd3423ef05e57b197ab5fb41a311ebad69380bf86bea0834fe
Pointer size: 131 Bytes
Size of remote file: 154 kB

samples/unet_512x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 1ebe6d6dc58bb7cde2e1826dd346c367d7a0d8d46e0ebb999209df2831259879
Pointer size: 130 Bytes
Size of remote file: 82.5 kB

Git LFS Details

SHA256: 8d7e797b2113fdbe0108e6c77f17ad0045249738098b823e2bd96963ff58f7bd
Pointer size: 130 Bytes
Size of remote file: 72.5 kB

samples/unet_576x320_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 244f1830c98c5ed0d373c20a6f925219468ac90111b037c7a7292095c70b2278
Pointer size: 130 Bytes
Size of remote file: 80.2 kB

Git LFS Details

SHA256: f1c4a5c7dbd07f2d9fa8c7fa992d369b9fd465202a5809c9a5f6ba2cbc8ca583
Pointer size: 130 Bytes
Size of remote file: 90.2 kB

samples/unet_576x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 7919d5f28322e3de17f26dc1f809596540cf523470f525d4ba9afd94b39effba
Pointer size: 130 Bytes
Size of remote file: 66.7 kB

Git LFS Details

SHA256: 2be73a6efba7447bc6ff203dcd63f23461f473d9ff6f19a79b2fa7dae2e6f1d6
Pointer size: 130 Bytes
Size of remote file: 72.1 kB

samples/unet_576x448_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 64fe9c9a9956fa78a477983587d742e832eea0a24a881113ff6d2ef11ba42565
Pointer size: 131 Bytes
Size of remote file: 120 kB

Git LFS Details

SHA256: 12f796c06170182ff2770a1feae4400f5a01f73725047e78ae7d809581a99e42
Pointer size: 131 Bytes
Size of remote file: 116 kB

samples/unet_576x512_0.jpg CHANGED Viewed

Git LFS Details

SHA256: aa1d853283088b5df8b392bbba27a940cf13ae4df5c1c5d6ef27453b2fc0d9ea
Pointer size: 131 Bytes
Size of remote file: 106 kB

Git LFS Details

SHA256: f54fd3334405b6189f6578263902e3d3cb5b58b688e775f9dffebfbd528b2ab0
Pointer size: 131 Bytes
Size of remote file: 105 kB

samples/unet_576x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 21d34e928dfa69c4972f82ccde7381636625b64ff3f25a5e6a84d6ff7f2ae372
Pointer size: 131 Bytes
Size of remote file: 185 kB

Git LFS Details

SHA256: fb81309b1c64c3d4b25828193d673298aa72d90192bf0d1d442c7d569dc276b8
Pointer size: 131 Bytes
Size of remote file: 162 kB

train-Copy1.py CHANGED Viewed

@@ -5,6 +5,7 @@ import numpy as np
 import matplotlib.pyplot as plt
 from torch.utils.data import DataLoader, Sampler
 from torch.utils.data.distributed import DistributedSampler
 from collections import defaultdict
 from torch.optim.lr_scheduler import LambdaLR
 from diffusers import UNet2DConditionModel, AutoencoderKL, DDPMScheduler
@@ -21,31 +22,40 @@ from torch.utils.checkpoint import checkpoint
 from diffusers.models.attention_processor import AttnProcessor2_0
 from datetime import datetime
 import bitsandbytes as bnb
 # --------------------------- Параметры ---------------------------
-ds_path = "datasets/384"
-batch_size = 50
-base_learning_rate = 3e-5
-min_learning_rate = 3e-6
-num_epochs = 10
-num_warmup_steps = 1000
 project = "unet"
 use_wandb = True
 save_model = True
-sample_interval_share = 5 # samples/save per epoch
 fbp = False # fused backward pass
-adam8bit = True
-percentile_clipping = 97 # Lion
 torch_compile = False
 unet_gradient = True
 clip_sample = False #Scheduler
 fixed_seed = False
 shuffle = True
 dtype = torch.float32
 steps_offset = 1 # Scheduler
 limit = 0
 checkpoints_folder = ""
-mixed_precision = "no"
 accelerator = Accelerator(mixed_precision=mixed_precision)
 device = accelerator.device
@@ -68,8 +78,6 @@ if fixed_seed:
     if torch.cuda.is_available():
         torch.cuda.manual_seed_all(seed)
-#torch.backends.cuda.matmul.allow_tf32 = True
-#torch.backends.cudnn.allow_tf32 = True
 # --------------------------- Параметры LoRA ---------------------------
 # pip install peft
 lora_name = "" #"nusha"  # Имя для сохранения/загрузки LoRA адаптеров
@@ -78,6 +86,228 @@ lora_alpha = 64  # Альфа параметр LoRA, определяющий м
 print("init")
 # --------------------------- Инициализация WandB ---------------------------
 if use_wandb and accelerator.is_main_process:
     wandb.init(project=project+lora_name, config={
@@ -85,7 +315,7 @@ if use_wandb and accelerator.is_main_process:
         "base_learning_rate": base_learning_rate,
         "num_epochs": num_epochs,
         "fbp": fbp,
-        "adam8bit": adam8bit,
     })
 # Включение Flash Attention 2/SDPA
@@ -107,6 +337,7 @@ scheduler = DDPMScheduler(
     steps_offset = steps_offset
 )
 class DistributedResolutionBatchSampler(Sampler):
     def __init__(self, dataset, batch_size, num_replicas, rank, shuffle=True, drop_last=True):
         self.dataset = dataset
@@ -263,10 +494,6 @@ def collate_fn(batch):
     embeddings = torch.tensor(np.array(valid_embeddings)).to(device,dtype=dtype)
     return latents, embeddings
-# Используем наш ResolutionBatchSampler
-#batch_sampler = ResolutionBatchSampler(dataset, batch_size=batch_size, shuffle=True)
-#dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn)
 # Создаем ResolutionBatchSampler на основе индексов от DistributedSampler
 batch_sampler = DistributedResolutionBatchSampler(
@@ -297,10 +524,10 @@ world_size = accelerator.state.num_processes
 latest_checkpoint = os.path.join(checkpoints_folder, project)
 if os.path.isdir(latest_checkpoint):
     print("Загружаем UNet из чекпоинта:", latest_checkpoint)
-    if dtype == torch.float32:
-        unet = UNet2DConditionModel.from_pretrained(latest_checkpoint).to(device=device,dtype=dtype)
-    else:
-        unet = UNet2DConditionModel.from_pretrained(latest_checkpoint, variant="fp16").to(device=device,dtype=dtype)
     if unet_gradient:
         unet.enable_gradient_checkpointing()
     unet.set_use_memory_efficient_attention_xformers(False) # отключаем xformers
@@ -317,6 +544,15 @@ if os.path.isdir(latest_checkpoint):
         print(f"torch.backends.cuda.mem_efficient_sdp_enabled(): {torch.backends.cuda.mem_efficient_sdp_enabled()}")
     if hasattr(torch.nn.functional, "get_flash_attention_available"):
          print(f"torch.nn.functional.get_flash_attention_available(): {torch.nn.functional.get_flash_attention_available()}")
 if torch_compile:
     print("compiling")
     torch.set_float32_matmul_precision('high')
@@ -388,98 +624,66 @@ else:
     if fbp:
         trainable_params = list(unet.parameters())
-if fbp:
-    # [1] Создаем словарь оптимизаторов (fused backward)
-    if adam8bit:
-        optimizer_dict = {
-            p: bnb.optim.AdamW8bit(
-                [p],  # Каждый параметр получает свой оптимизатор
-                lr=base_learning_rate,
-                eps=1e-8
-            ) for p in trainable_params
-        }
     else:
-        optimizer_dict = {
-            p: bnb.optim.Lion8bit(
-                [p],  # Каждый параметр получает свой оптимизатор
-                lr=base_learning_rate,
-                betas=(0.9, 0.97),
-                weight_decay=0.01,
-                percentile_clipping=percentile_clipping,
-            ) for p in trainable_params
-        }
-    # [2] Определяем hook для применения оптимизатора сразу после накопления градиента
     def optimizer_hook(param):
         optimizer_dict[param].step()
         optimizer_dict[param].zero_grad(set_to_none=True)
-    # [3] Регистрируем hook для trainable параметров модели
     for param in trainable_params:
         param.register_post_accumulate_grad_hook(optimizer_hook)
-    # Подготовка через Accelerator
     unet, optimizer = accelerator.prepare(unet, optimizer_dict)
 else:
-    if adam8bit:
-        optimizer = bnb.optim.AdamW8bit(
-            params=unet.parameters(),
-            lr=base_learning_rate,
-            betas=(0.9, 0.999),
-            eps=1e-8,
-            weight_decay=0.01
-        )
-        #from torch.optim import AdamW
-        #optimizer = AdamW(
-        #    params=unet.parameters(),
-        #    lr=base_learning_rate,
-        #    betas=(0.9, 0.999),
-        #    eps=1e-8,
-        #    weight_decay=0.01
-        #)
-    else:
-        optimizer = bnb.optim.Lion8bit(
-            params=unet.parameters(),
-            lr=base_learning_rate,
-            betas=(0.9, 0.97),
-            weight_decay=0.01,
-            percentile_clipping=percentile_clipping,
-        )
-    from transformers import get_constant_schedule_with_warmup
-    # warmup
-    num_warmup_steps = num_warmup_steps * world_size
-    #lr_scheduler = get_constant_schedule_with_warmup(
-    #    optimizer=optimizer,
-    #    num_warmup_steps=num_warmup_steps
-    #)
-    from torch.optim.lr_scheduler import LambdaLR
-    def lr_schedule(step, max_steps, base_lr, min_lr, use_decay=True):
-        # Если не используем затухание, возвращаем базовый LR
-        if not use_decay:
-            return base_lr
-        # Иначе используем линейный прогрев и косинусное затухание
-        x = step / max_steps
-        percent = 0.05
-        if x < percent:
-            # Линейный прогрев до percent% шагов
-            return min_lr + (base_lr - min_lr) * (x / percent)
-        else:
-            # Косинусное затухание
-            decay_ratio = (x - percent) / (1 - percent)
-            return min_lr + 0.5 * (base_lr - min_lr) * (1 + math.cos(math.pi * decay_ratio))
-    def custom_lr_lambda(step):
-        return lr_schedule(step, total_training_steps*world_size,
-                         base_learning_rate, min_learning_rate,
-                         (num_warmup_steps>0)) / base_learning_rate
-    lr_scheduler = LambdaLR(optimizer, lr_lambda=custom_lr_lambda)
     unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)
 # --------------------------- Фиксированные семплы для генерации ---------------------------
 # Примеры фиксированных семплов по размерам
 fixed_samples = get_fixed_samples_by_resolution(dataset)
@@ -498,9 +702,7 @@ def generate_and_save_samples(fixed_samples_cpu, step):
     original_model = None # Инициализируем, чтобы finally не ругался
     try:
-        original_model = accelerator.unwrap_model(unet)
-        original_model = original_model.to(dtype = dtype)
-        original_model.eval()
         vae.to(device=device, dtype=dtype)
         vae.eval()
@@ -592,9 +794,6 @@ def generate_and_save_samples(fixed_samples_cpu, step):
     finally:
         vae.to("cpu") # Перемещаем VAE обратно на CPU
-        original_model = original_model.to(dtype = dtype)
-        if original_model is not None:
-            del original_model
         # Очистка переменных, которые являются тензорами и были созданы в функции
         for var in list(locals().keys()):
             if isinstance(locals()[var], torch.Tensor):
@@ -608,6 +807,7 @@ if accelerator.is_main_process:
     if save_model:
         print("Генерация сэмплов до старта обучения...")
         generate_and_save_samples(fixed_samples,0)
 # Модифицируем функцию сохранения модели для поддержки LoRA
 def save_checkpoint(unet,variant=""):
@@ -639,6 +839,7 @@ min_loss = 1.
 # Начинаем с указанной эпохи (полезно при возобновлении)
 for epoch in range(start_epoch, start_epoch + num_epochs):
     batch_losses = []
     batch_grads = []
     #unet = unet.to(dtype = dtype)
     batch_sampler.set_epoch(epoch)
@@ -650,12 +851,6 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
             if save_model == False and step == 5 :
                 used_gb = torch.cuda.max_memory_allocated() / 1024**3
                 print(f"Шаг {step}: {used_gb:.2f} GB")
-            #latents = latents.to(dtype = dtype)
-            #embeddings = embeddings.to(dtype = dtype)
-            #print(f"Latents dtype: {latents.dtype}")
-            #print(f"Embeddings dtype: {embeddings.dtype}")
-            #print(f"Noise dtype: {noise.dtype}")
             # Forward pass
             noise = torch.randn_like(latents, dtype=latents.dtype)
@@ -665,34 +860,51 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
             # Добавляем шум к латентам
             noisy_latents = scheduler.add_noise(latents, noise, timesteps)
             # Используем целевое значение
             model_pred = unet(noisy_latents, timesteps, embeddings).sample
             target_pred = scheduler.get_velocity(latents, noise, timesteps)
             # Считаем лосс
-            # Проверяем model_pred на nan/inf
-            #if torch.isnan(model_pred.float()).any() or torch.isinf(model_pred.float()).any():
-            #    print(f"Rank {accelerator.process_index}: Found nan/inf in model_pred",model_pred.float())
-            #    # Обработка nan/inf значений
-            #    model_pred = torch.nan_to_num(model_pred.float(), nan=0.0, posinf=1.0, neginf=-1.0)
-            loss = torch.nn.functional.mse_loss(model_pred, target_pred)
             # Проверяем на nan/inf перед backward
             if torch.isnan(loss) or torch.isinf(loss):
                 print(f"Rank {accelerator.process_index}: Found nan/inf in loss: {loss}")
-                loss = torch.zeros_like(loss)
-            # Делаем backward через Accelerator
-            accelerator.backward(loss)
             if (global_step % 100 == 0) or (global_step % sample_interval == 0):
                 accelerator.wait_for_everyone()
             grad = 0.0
             if not fbp:
-                if accelerator.sync_gradients:
-                    grad = accelerator.clip_grad_norm_(unet.parameters(), 1.)
                 optimizer.step()
                 lr_scheduler.step()
                 optimizer.zero_grad(set_to_none=True)
@@ -710,16 +922,19 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
                 else:
                     current_lr = lr_scheduler.get_last_lr()[0]
                 batch_losses.append(loss.detach().item())
                 batch_grads.append(grad)
                 # Логируем в Wandb
                 if use_wandb:
                     wandb.log({
-                        "loss": loss.detach().item(),
                         "learning_rate": current_lr,
                         "epoch": epoch,
                         "grad": grad,
-                        "global_step": global_step
                     })
                 # Генерируем сэмплы с заданным интервалом
@@ -728,17 +943,19 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
                     # Выводим текущий лосс
                     avg_loss = np.mean(batch_losses[-sample_interval:])
                     avg_grad = torch.mean(torch.stack(batch_grads[-sample_interval:])).cpu().item()
                     print(f"Эпоха {epoch}, шаг {global_step}, средний лосс: {avg_loss:.6f}")
                     if save_model:
-                        if avg_loss < min_loss:
                             min_loss = avg_loss
-                            save_checkpoint(unet,"fp16")
-                        save_checkpoint(unet)
                     if use_wandb:
-                        wandb.log({"intermediate_loss": avg_loss})
-                        wandb.log({"intermediate_grad": avg_grad})
     # По окончании эпохи
@@ -750,11 +967,13 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
             wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})
 # Завершение обучения - сохраняем финальную модель
 if accelerator.is_main_process:
     print("Обучение завершено! Сохраняем финальную модель...")
     # Сохраняем основную модель
     if save_model:
-        save_checkpoint(unet)
     print("Готово!")
     # randomize ode timesteps

 import matplotlib.pyplot as plt
 from torch.utils.data import DataLoader, Sampler
 from torch.utils.data.distributed import DistributedSampler
+from torch.optim.lr_scheduler import LambdaLR
 from collections import defaultdict
 from torch.optim.lr_scheduler import LambdaLR
 from diffusers import UNet2DConditionModel, AutoencoderKL, DDPMScheduler
 from diffusers.models.attention_processor import AttnProcessor2_0
 from datetime import datetime
 import bitsandbytes as bnb
+import torch.nn.functional as F
 # --------------------------- Параметры ---------------------------
+ds_path = "datasets/576"
 project = "unet"
+batch_size = 50
+base_learning_rate = 9e-6
+min_learning_rate = 8e-6
+num_epochs = 5
+# samples/save per epoch
+sample_interval_share = 5
 use_wandb = True
 save_model = True
+use_decay = True
 fbp = False # fused backward pass
+optimizer_type = "adam8bit"
 torch_compile = False
 unet_gradient = True
 clip_sample = False #Scheduler
 fixed_seed = False
 shuffle = True
+dispersive_loss = True
+torch.backends.cuda.matmul.allow_tf32 = True
+torch.backends.cudnn.allow_tf32 = True
+torch.backends.cuda.enable_mem_efficient_sdp(False)
 dtype = torch.float32
+save_barrier = 1.03
+dispersive_temperature=0.5
+dispersive_weight=0.05
+percentile_clipping = 90 # 8bit optim
 steps_offset = 1 # Scheduler
 limit = 0
 checkpoints_folder = ""
+mixed_precision = "fp16"
 accelerator = Accelerator(mixed_precision=mixed_precision)
 device = accelerator.device
     if torch.cuda.is_available():
         torch.cuda.manual_seed_all(seed)
 # --------------------------- Параметры LoRA ---------------------------
 # pip install peft
 lora_name = "" #"nusha"  # Имя для сохранения/загрузки LoRA адаптеров
 print("init")
+class AccelerateDispersiveLoss:
+    def __init__(self, accelerator, temperature=0.5, weight=0.5):
+        self.accelerator = accelerator
+        self.temperature = temperature
+        self.weight = weight
+        self.activations = []
+        self.hooks = []
+    def register_hooks(self, model, target_layer="down_blocks.0"):
+        unwrapped_model = self.accelerator.unwrap_model(model)
+        print("=== Поиск слоев в unwrapped модели ===")
+        for name, module in unwrapped_model.named_modules():
+            if target_layer in name:
+                hook = module.register_forward_hook(self.hook_fn)
+                self.hooks.append(hook)
+                print(f"✅ Хук зарегистрирован на: {name}")
+                break
+    def hook_fn(self, module, input, output):
+        if isinstance(output, tuple):
+            activation = output[0]
+        else:
+            activation = output
+        if len(activation.shape) > 2:
+            activation = activation.view(activation.shape[0], -1)
+        self.activations.append(activation.detach())
+    def compute_dispersive_loss(self):
+            if not self.activations:
+                return torch.tensor(0.0, requires_grad=True)
+            local_activations = self.activations[-1].float()
+            batch_size = local_activations.shape[0]
+            if batch_size < 2:
+                return torch.tensor(0.0, requires_grad=True)
+            # Нормализация и вычисление loss
+            sf = local_activations / torch.norm(local_activations, dim=1, keepdim=True)
+            distance = torch.nn.functional.pdist(sf.float(), p=2) ** 2
+            exp_neg_dist = torch.exp(-distance / self.temperature) + 1e-5
+            dispersive_loss = torch.log(torch.mean(exp_neg_dist))
+            # ВАЖНО: он отриц и должен падать
+            return dispersive_loss
+    def compute_dispersive_loss2(self):
+        # Если нет активаций, возвращаем 0
+        if not self.activations:
+            return torch.tensor(0.0, device=self.accelerator.device, requires_grad=True)
+        # Работаем только с локальными активациями главного процесса
+        activations = self.activations[-1].float()
+        batch_size = activations.shape[0]
+        if batch_size < 2:
+            return torch.tensor(0.0, device=self.accelerator.device, requires_grad=True)
+        # Нормализация
+        norm = torch.norm(activations, dim=1, keepdim=True).clamp(min=1e-12)
+        sf = activations / norm
+        # Вычисляем расстояния
+        distance = torch.nn.functional.pdist(sf, p=2)
+        distance = distance.clamp(min=1e-12)
+        distance_squared = distance ** 2
+        # Вычисляем loss с клиппингом для стабильности
+        exp_neg_dist = torch.exp((-distance_squared / self.temperature).clamp(min=-20, max=20))
+        exp_neg_dist = exp_neg_dist + 1e-12
+        mean_exp = torch.mean(exp_neg_dist)
+        dispersive_loss = torch.log(mean_exp.clamp(min=1e-12))
+        return dispersive_loss
+    def clear_activations(self):
+        self.activations.clear()
+    def remove_hooks(self):
+        for hook in self.hooks:
+            hook.remove()
+        self.hooks.clear()
+class AccelerateDispersiveLoss2:
+    def __init__(self, accelerator, temperature=0.5, weight=0.5):
+        self.accelerator = accelerator
+        self.temperature = temperature
+        self.weight = weight
+        self.activations = []
+        self.hooks = []
+    def register_hooks(self, model, target_layer="down_blocks.0"):
+        # Получаем "чистую" модель без DDP wrapper'а
+        unwrapped_model = self.accelerator.unwrap_model(model)
+        print("=== Поиск слоев в unwrapped модели ===")
+        for name, module in unwrapped_model.named_modules():
+            if target_layer in name:
+                hook = module.register_forward_hook(self.hook_fn)
+                self.hooks.append(hook)
+                print(f"✅ Хук зарегистрирован на: {name}")
+                break
+    def hook_fn(self, module, input, output):
+        if isinstance(output, tuple):
+            activation = output[0]
+        else:
+            activation = output
+        if len(activation.shape) > 2:
+            activation = activation.view(activation.shape[0], -1)
+        self.activations.append(activation.detach())
+    def compute_dispersive_loss_fix(self):
+        if not self.activations:
+            return torch.tensor(0.0, requires_grad=True)
+        local_activations = self.activations[-1]
+        # Собираем активации со всех GPU
+        if self.accelerator.num_processes > 1:
+            gathered_activations = self.accelerator.gather(local_activations)
+        else:
+            gathered_activations = local_activations
+        batch_size = gathered_activations.shape[0]
+        if batch_size < 2:
+            return torch.tensor(0.0, requires_grad=True)
+        # Переводим в float32 для стабильности
+        gathered_activations = gathered_activations.float()
+        # Нормализация с eps для стабильности
+        norm = torch.norm(gathered_activations, dim=1, keepdim=True).clamp(min=1e-12)
+        sf = gathered_activations / norm
+        # Вычисляем расстояния
+        distance = torch.nn.functional.pdist(sf, p=2)
+        distance = distance.clamp(min=1e-12)  # избегаем слишком маленьких значений
+        distance_squared = distance ** 2
+        # Экспонента с клиппингом
+        exp_neg_dist = torch.exp((-distance_squared / self.temperature).clamp(min=-20, max=20))
+        exp_neg_dist = exp_neg_dist + 1e-12  # избегаем нулей
+        # Среднее и лог
+        mean_exp = torch.mean(exp_neg_dist)
+        dispersive_loss = torch.log(mean_exp.clamp(min=1e-12))
+        return dispersive_loss
+    def compute_dispersive_loss(self):
+        if not self.activations:
+            return torch.tensor(0.0, requires_grad=True)
+        local_activations = self.activations[-1].float()
+        # Собираем активации со всех GPU
+        if self.accelerator.num_processes > 1:
+            gathered_activations = self.accelerator.gather(local_activations)
+        else:
+            gathered_activations = local_activations
+        batch_size = gathered_activations.shape[0]
+        if batch_size < 2:
+            return torch.tensor(0.0, requires_grad=True)
+        # Нормализация и вычисление loss
+        sf = gathered_activations / torch.norm(gathered_activations, dim=1, keepdim=True)
+        sf = sf.float()
+        distance = torch.nn.functional.pdist(sf, p=2) ** 2
+        exp_neg_dist = torch.exp(-distance / self.temperature) + 1e-5
+        dispersive_loss = torch.log(torch.mean(exp_neg_dist))
+        # ВАЖНО: он отриц и должен падать
+        return dispersive_loss
+    def compute_dispersive_loss_single(self):
+        if not self.activations:
+            return torch.tensor(0.0, requires_grad=True)
+        local_activations = self.activations[-1]  # Активации с текущего GPU
+        # Собираем активации со всех GPU
+        if self.accelerator.num_processes > 1:
+            # Используем accelerate для сбора
+            gathered_activations = self.accelerator.gather(local_activations)
+        else:
+            gathered_activations = local_activations
+        # На главном процессе вычисляем loss
+        if self.accelerator.is_main_process:
+            batch_size = gathered_activations.shape[0]
+            if batch_size < 2:
+                return torch.tensor(0.0, requires_grad=True)
+            # Нормализация и вычисление loss
+            sf = gathered_activations / torch.norm(gathered_activations, dim=1, keepdim=True)
+            distance = torch.nn.functional.pdist(sf, p=2) ** 2
+            exp_neg_dist = torch.exp(-distance / self.temperature) + 1e-5
+            dispersive_loss = torch.log(torch.mean(exp_neg_dist))
+            return dispersive_loss
+        else:
+            # На не-главных процессах возвращаем 0
+            return torch.tensor(0.0, requires_grad=True)
+    def clear_activations(self):
+        self.activations.clear()
+    def remove_hooks(self):
+        for hook in self.hooks:
+            hook.remove()
+        self.hooks.clear()
 # --------------------------- Инициализация WandB ---------------------------
 if use_wandb and accelerator.is_main_process:
     wandb.init(project=project+lora_name, config={
         "base_learning_rate": base_learning_rate,
         "num_epochs": num_epochs,
         "fbp": fbp,
+        "optimizer_type": optimizer_type,
     })
 # Включение Flash Attention 2/SDPA
     steps_offset = steps_offset
 )
 class DistributedResolutionBatchSampler(Sampler):
     def __init__(self, dataset, batch_size, num_replicas, rank, shuffle=True, drop_last=True):
         self.dataset = dataset
     embeddings = torch.tensor(np.array(valid_embeddings)).to(device,dtype=dtype)
     return latents, embeddings
 # Создаем ResolutionBatchSampler на основе индексов от DistributedSampler
 batch_sampler = DistributedResolutionBatchSampler(
 latest_checkpoint = os.path.join(checkpoints_folder, project)
 if os.path.isdir(latest_checkpoint):
     print("Загружаем UNet из чекпоинта:", latest_checkpoint)
+    #if dtype == torch.float32:
+    unet = UNet2DConditionModel.from_pretrained(latest_checkpoint).to(device=device,dtype=dtype)
+    #else:
+    #unet = UNet2DConditionModel.from_pretrained(latest_checkpoint, variant="fp16").to(device=device,dtype=dtype)
     if unet_gradient:
         unet.enable_gradient_checkpointing()
     unet.set_use_memory_efficient_attention_xformers(False) # отключаем xformers
         print(f"torch.backends.cuda.mem_efficient_sdp_enabled(): {torch.backends.cuda.mem_efficient_sdp_enabled()}")
     if hasattr(torch.nn.functional, "get_flash_attention_available"):
          print(f"torch.nn.functional.get_flash_attention_available(): {torch.nn.functional.get_flash_attention_available()}")
+    # Регистрируем хук на модел
+    if dispersive_loss:
+        dispersive_hook = AccelerateDispersiveLoss(
+            accelerator=accelerator,
+            temperature=dispersive_temperature,
+            weight=dispersive_weight
+        )
 if torch_compile:
     print("compiling")
     torch.set_float32_matmul_precision('high')
     if fbp:
         trainable_params = list(unet.parameters())
+def create_optimizer(name, params):
+    if name == "adam8bit":
+        return bnb.optim.AdamW8bit(
+            params, lr=base_learning_rate, betas=(0.9, 0.97), eps=1e-5, weight_decay=0.001,
+            percentile_clipping=percentile_clipping
+        )
+    elif name == "adam":
+        return torch.optim.AdamW(
+            params, lr=base_learning_rate, betas=(0.9, 0.999), eps=1e-8, weight_decay=0.01
+        )
+    elif name == "lion8bit":
+        return bnb.optim.Lion8bit(
+            params, lr=base_learning_rate, betas=(0.9, 0.97), weight_decay=0.01,
+            percentile_clipping=percentile_clipping
+        )
+    elif name == "adafactor":
+        from transformers import Adafactor
+        return Adafactor(
+            params, lr=base_learning_rate, scale_parameter=True, relative_step=False,
+            warmup_init=False, eps=(1e-30, 1e-3), clip_threshold=1.0,
+            beta1=0.9, weight_decay=0.01
+        )
     else:
+        raise ValueError(f"Unknown optimizer: {name}")
+if fbp:
+    # Создаем отдельный оптимизатор для каждого параметра
+    optimizer_dict = {p: create_optimizer(optimizer_type, [p]) for p in trainable_params}
     def optimizer_hook(param):
         optimizer_dict[param].step()
         optimizer_dict[param].zero_grad(set_to_none=True)
     for param in trainable_params:
         param.register_post_accumulate_grad_hook(optimizer_hook)
     unet, optimizer = accelerator.prepare(unet, optimizer_dict)
 else:
+    optimizer = create_optimizer(optimizer_type, unet.parameters())
+    def lr_schedule(step):
+        x = step / (total_training_steps * world_size)
+        warmup = 0.05
+        if not use_decay:
+            return base_learning_rate
+        if x < warmup:
+            return min_learning_rate + (base_learning_rate - min_learning_rate) * (x / warmup)
+        decay_ratio = (x - warmup) / (1 - warmup)
+        return min_learning_rate + 0.5 * (base_learning_rate - min_learning_rate) * \
+               (1 + math.cos(math.pi * decay_ratio))
+    lr_scheduler = LambdaLR(optimizer, lambda step: lr_schedule(step) / base_learning_rate)
     unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)
+# Регистрация хуков ПОСЛЕ prepare
+if dispersive_loss:
+    dispersive_hook.register_hooks(unet, "down_blocks.2")
 # --------------------------- Фиксированные семплы для генерации ---------------------------
 # Примеры фиксированных семплов по размерам
 fixed_samples = get_fixed_samples_by_resolution(dataset)
     original_model = None # Инициализируем, чтобы finally не ругался
     try:
+        original_model = accelerator.unwrap_model(unet).eval()
         vae.to(device=device, dtype=dtype)
         vae.eval()
     finally:
         vae.to("cpu") # Перемещаем VAE обратно на CPU
         # Очистка переменных, которые являются тензорами и были созданы в функции
         for var in list(locals().keys()):
             if isinstance(locals()[var], torch.Tensor):
     if save_model:
         print("Генерация сэмплов до старта обучения...")
         generate_and_save_samples(fixed_samples,0)
+accelerator.wait_for_everyone()
 # Модифицируем функцию сохранения модели для поддержки LoRA
 def save_checkpoint(unet,variant=""):
 # Начинаем с указанной эпохи (полезно при возобновлении)
 for epoch in range(start_epoch, start_epoch + num_epochs):
     batch_losses = []
+    batch_tlosses = []
     batch_grads = []
     #unet = unet.to(dtype = dtype)
     batch_sampler.set_epoch(epoch)
             if save_model == False and step == 5 :
                 used_gb = torch.cuda.max_memory_allocated() / 1024**3
                 print(f"Шаг {step}: {used_gb:.2f} GB")
             # Forward pass
             noise = torch.randn_like(latents, dtype=latents.dtype)
             # Добавляем шум к латентам
             noisy_latents = scheduler.add_noise(latents, noise, timesteps)
+            # Очищаем активации перед forward pass
+            if dispersive_loss:
+                dispersive_hook.clear_activations()
             # Используем целевое значение
             model_pred = unet(noisy_latents, timesteps, embeddings).sample
             target_pred = scheduler.get_velocity(latents, noise, timesteps)
             # Считаем лосс
+            loss = torch.nn.functional.mse_loss(model_pred.float(), target_pred.float())
+            # Dispersive Loss
+            #Идентичные векторы: Loss = -0.0000
+            #Ортогональные векторы: Loss = -3.9995
+            if dispersive_loss:
+                with torch.amp.autocast('cuda', enabled=False):
+                    dispersive_loss = dispersive_hook.weight * dispersive_hook.compute_dispersive_loss()
+                    if torch.isnan(dispersive_loss) or torch.isinf(dispersive_loss):
+                        print(f"Rank {accelerator.process_index}: Found nan/inf in dispersive_loss: {total_loss}")
+            # Итоговый loss
+            # dispersive_loss должен падать и тотал падать - поэтому плюс
+            total_loss = loss + dispersive_loss
             # Проверяем на nan/inf перед backward
             if torch.isnan(loss) or torch.isinf(loss):
                 print(f"Rank {accelerator.process_index}: Found nan/inf in loss: {loss}")
+                save_model = False
+                break
+            if (global_step % 100 == 0) or (global_step % sample_interval == 0):
+                accelerator.wait_for_everyone()
+            # Делаем backward через Accelerator
+            accelerator.backward(total_loss)
             if (global_step % 100 == 0) or (global_step % sample_interval == 0):
                 accelerator.wait_for_everyone()
             grad = 0.0
             if not fbp:
+                if accelerator.sync_gradients:
+                    with torch.amp.autocast('cuda', enabled=False):
+                        grad = accelerator.clip_grad_norm_(unet.parameters(), 0.25)
                 optimizer.step()
                 lr_scheduler.step()
                 optimizer.zero_grad(set_to_none=True)
                 else:
                     current_lr = lr_scheduler.get_last_lr()[0]
                 batch_losses.append(loss.detach().item())
+                batch_tlosses.append(total_loss.detach().item())
                 batch_grads.append(grad)
                 # Логируем в Wandb
                 if use_wandb:
                     wandb.log({
+                        "mse_loss": loss.detach().item(),
                         "learning_rate": current_lr,
                         "epoch": epoch,
                         "grad": grad,
+                        "global_step": global_step,
+                        "dispersive_loss": dispersive_loss,
+                        "total_loss": total_loss
                     })
                 # Генерируем сэмплы с заданным интервалом
                     # Выводим текущий лосс
                     avg_loss = np.mean(batch_losses[-sample_interval:])
+                    avg_tloss = np.mean(batch_tlosses[-sample_interval:])
                     avg_grad = torch.mean(torch.stack(batch_grads[-sample_interval:])).cpu().item()
                     print(f"Эпоха {epoch}, шаг {global_step}, средний лосс: {avg_loss:.6f}")
                     if save_model:
+                        print("saving:",avg_loss < min_loss*save_barrier)
+                        if avg_loss < min_loss*save_barrier:
                             min_loss = avg_loss
+                            save_checkpoint(unet)
                     if use_wandb:
+                        wandb.log({"interm_loss": avg_loss})
+                        wandb.log({"interm_totalloss": avg_tloss})
+                        wandb.log({"interm_grad": avg_grad})
     # По окончании эпохи
             wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})
 # Завершение обучения - сохраняем финальную модель
+if dispersive_loss:
+    dispersive_hook.remove_hooks()
 if accelerator.is_main_process:
     print("Обучение завершено! Сохраняем финальную модель...")
     # Сохраняем основную модель
     if save_model:
+        save_checkpoint(unet,"fp16")
     print("Готово!")
     # randomize ode timesteps

train.py CHANGED Viewed

@@ -27,12 +27,12 @@ import torch.nn.functional as F
 # --------------------------- Параметры ---------------------------
 ds_path = "datasets/576"
 project = "unet"
-batch_size = 50
-base_learning_rate = 9e-6
-min_learning_rate = 8e-6
-num_epochs = 5
 # samples/save per epoch
-sample_interval_share = 5
 use_wandb = True
 save_model = True
 use_decay = True
@@ -56,7 +56,11 @@ steps_offset = 1 # Scheduler
 limit = 0
 checkpoints_folder = ""
 mixed_precision = "fp16"
-accelerator = Accelerator(mixed_precision=mixed_precision)
 device = accelerator.device
 # Параметры для диффузии
@@ -905,15 +909,16 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
                 if accelerator.sync_gradients:
                     with torch.amp.autocast('cuda', enabled=False):
                         grad = accelerator.clip_grad_norm_(unet.parameters(), 0.25)
-                optimizer.step()
-                lr_scheduler.step()
-                optimizer.zero_grad(set_to_none=True)
             # Увеличиваем счетчик глобальных шагов
-            global_step += 1
-            # Обновляем прогресс-бар
-            progress_bar.update(1)
             # Логируем метрики
             if accelerator.is_main_process:

 # --------------------------- Параметры ---------------------------
 ds_path = "datasets/576"
 project = "unet"
+batch_size = 40
+base_learning_rate = 9.5e-6
+min_learning_rate = 9e-6
+num_epochs = 2
 # samples/save per epoch
+sample_interval_share = 10
 use_wandb = True
 save_model = True
 use_decay = True
 limit = 0
 checkpoints_folder = ""
 mixed_precision = "fp16"
+gradient_accumulation_steps = 2
+accelerator = Accelerator(
+    mixed_precision=mixed_precision,
+    gradient_accumulation_steps=gradient_accumulation_steps
+)
 device = accelerator.device
 # Параметры для диффузии
                 if accelerator.sync_gradients:
                     with torch.amp.autocast('cuda', enabled=False):
                         grad = accelerator.clip_grad_norm_(unet.parameters(), 0.25)
+                    optimizer.step()
+                    lr_scheduler.step()
+                    optimizer.zero_grad(set_to_none=True)
             # Увеличиваем счетчик глобальных шагов
+            if accelerator.sync_gradients:
+                global_step += 1
+                # Обновляем прогресс-бар
+                progress_bar.update(1)
             # Логируем метрики
             if accelerator.is_main_process:

train_dispersive.py DELETED Viewed

@@ -1,898 +0,0 @@
-import os
-import math
-import torch
-import numpy as np
-import matplotlib.pyplot as plt
-from torch.utils.data import DataLoader, Sampler
-from torch.utils.data.distributed import DistributedSampler
-from torch.optim.lr_scheduler import LambdaLR
-from collections import defaultdict
-from torch.optim.lr_scheduler import LambdaLR
-from diffusers import UNet2DConditionModel, AutoencoderKL, DDPMScheduler
-from accelerate import Accelerator
-from datasets import load_from_disk
-from tqdm import tqdm
-from PIL import Image,ImageOps
-import wandb
-import random
-import gc
-from accelerate.state import DistributedType
-from torch.distributed import broadcast_object_list
-from torch.utils.checkpoint import checkpoint
-from diffusers.models.attention_processor import AttnProcessor2_0
-from datetime import datetime
-import bitsandbytes as bnb
-import torch.nn.functional as F
-# --------------------------- Параметры ---------------------------
-ds_path = "datasets/384"
-project = "unet"
-batch_size = 30
-base_learning_rate = 3e-5
-min_learning_rate = 1e-6
-num_epochs = 15
-# samples/save per epoch
-sample_interval_share = 10
-use_wandb = True
-save_model = True
-use_decay = True
-fbp = False # fused backward pass
-adam8bit = True
-torch_compile = False
-unet_gradient = True
-clip_sample = False #Scheduler
-fixed_seed = False
-shuffle = True
-torch.backends.cuda.matmul.allow_tf32 = True
-torch.backends.cudnn.allow_tf32 = True
-torch.backends.cuda.enable_mem_efficient_sdp(False)
-dtype = torch.float32
-save_barrier = 1.03
-percentile_clipping = 97 # Lion
-steps_offset = 1 # Scheduler
-limit = 0
-checkpoints_folder = ""
-mixed_precision = "no"
-accelerator = Accelerator(mixed_precision=mixed_precision)
-device = accelerator.device
-# Параметры для диффузии
-n_diffusion_steps = 50
-samples_to_generate = 12
-guidance_scale = 5
-# Папки для сохранения результатов
-generated_folder = "samples"
-os.makedirs(generated_folder, exist_ok=True)
-# Настройка seed для воспроизводимости
-current_date = datetime.now()
-seed = int(current_date.strftime("%Y%m%d"))
-if fixed_seed:
-    torch.manual_seed(seed)
-    np.random.seed(seed)
-    random.seed(seed)
-    if torch.cuda.is_available():
-        torch.cuda.manual_seed_all(seed)
-# --------------------------- Параметры LoRA ---------------------------
-# pip install peft
-lora_name = "" #"nusha"  # Имя для сохранения/загрузки LoRA адаптеров
-lora_rank = 32   # Ранг LoRA (чем меньше, тем компактнее модель)
-lora_alpha = 64  # Альфа параметр LoRA, определяющий масштаб
-print("init")
-class AccelerateDispersiveLoss:
-    def __init__(self, accelerator, temperature=0.5, weight=0.5):
-        self.accelerator = accelerator
-        self.temperature = temperature
-        self.weight = weight
-        self.activations = []
-        self.hooks = []
-    def register_hooks(self, model, target_layer="down_blocks.0"):
-        # Получаем "чистую" модель без DDP wrapper'а
-        unwrapped_model = self.accelerator.unwrap_model(model)
-        print("=== Поиск слоев в unwrapped модели ===")
-        for name, module in unwrapped_model.named_modules():
-            if target_layer in name:
-                hook = module.register_forward_hook(self.hook_fn)
-                self.hooks.append(hook)
-                print(f"✅ Хук зарегистрирован на: {name}")
-                break
-    def hook_fn(self, module, input, output):
-        if isinstance(output, tuple):
-            activation = output[0]
-        else:
-            activation = output
-        if len(activation.shape) > 2:
-            activation = activation.view(activation.shape[0], -1)
-        self.activations.append(activation.detach())
-    def compute_dispersive_loss(self):
-        if not self.activations:
-            return torch.tensor(0.0, requires_grad=True)
-        local_activations = self.activations[-1]
-        # Собираем активации со всех GPU
-        if self.accelerator.num_processes > 1:
-            gathered_activations = self.accelerator.gather(local_activations)
-        else:
-            gathered_activations = local_activations
-        batch_size = gathered_activations.shape[0]
-        if batch_size < 2:
-            return torch.tensor(0.0, requires_grad=True)
-        # Нормализация и вычисление loss
-        sf = gathered_activations / torch.norm(gathered_activations, dim=1, keepdim=True)
-        distance = torch.nn.functional.pdist(sf, p=2) ** 2
-        exp_neg_dist = torch.exp(-distance / self.temperature) + 1e-5
-        dispersive_loss = torch.log(torch.mean(exp_neg_dist))
-        # ВАЖНО: он отриц и должен падать
-        return dispersive_loss
-    def compute_dispersive_loss_single(self):
-        if not self.activations:
-            return torch.tensor(0.0, requires_grad=True)
-        local_activations = self.activations[-1]  # Активации с текущего GPU
-        # Собираем активации со всех GPU
-        if self.accelerator.num_processes > 1:
-            # Используем accelerate для сбора
-            gathered_activations = self.accelerator.gather(local_activations)
-        else:
-            gathered_activations = local_activations
-        # На главном процессе вычисляем loss
-        if self.accelerator.is_main_process:
-            batch_size = gathered_activations.shape[0]
-            if batch_size < 2:
-                return torch.tensor(0.0, requires_grad=True)
-            # Нормализация и вычисление loss
-            sf = gathered_activations / torch.norm(gathered_activations, dim=1, keepdim=True)
-            distance = torch.nn.functional.pdist(sf, p=2) ** 2
-            exp_neg_dist = torch.exp(-distance / self.temperature) + 1e-5
-            dispersive_loss = torch.log(torch.mean(exp_neg_dist))
-            return dispersive_loss
-        else:
-            # На не-главных процессах возвращаем 0
-            return torch.tensor(0.0, requires_grad=True)
-    def clear_activations(self):
-        self.activations.clear()
-    def remove_hooks(self):
-        for hook in self.hooks:
-            hook.remove()
-        self.hooks.clear()
-# --------------------------- Инициализация WandB ---------------------------
-if use_wandb and accelerator.is_main_process:
-    wandb.init(project=project+lora_name, config={
-        "batch_size": batch_size,
-        "base_learning_rate": base_learning_rate,
-        "num_epochs": num_epochs,
-        "fbp": fbp,
-        "adam8bit": adam8bit,
-    })
-# Включение Flash Attention 2/SDPA
-torch.backends.cuda.enable_flash_sdp(True)
-# --------------------------- Инициализация Accelerator --------------------
-gen = torch.Generator(device=device)
-gen.manual_seed(seed)
-# --------------------------- Загрузка моделей ---------------------------
-# VAE загружается на CPU для экономии GPU-памяти
-vae = AutoencoderKL.from_pretrained("vae", variant="fp16").to("cpu").eval()
-# DDPMScheduler с V_Prediction и Zero-SNR
-scheduler = DDPMScheduler(
-    num_train_timesteps=1000,       # Полный график шагов для обучения
-    prediction_type="v_prediction", # V-Prediction
-    rescale_betas_zero_snr=True,    # Включение Zero-SNR
-    clip_sample = clip_sample,
-    steps_offset = steps_offset
-)
-class DistributedResolutionBatchSampler(Sampler):
-    def __init__(self, dataset, batch_size, num_replicas, rank, shuffle=True, drop_last=True):
-        self.dataset = dataset
-        self.batch_size = max(1, batch_size // num_replicas)
-        self.num_replicas = num_replicas
-        self.rank = rank
-        self.shuffle = shuffle
-        self.drop_last = drop_last
-        self.epoch = 0
-        # Используем numpy для ускорения
-        try:
-            widths = np.array(dataset["width"])
-            heights = np.array(dataset["height"])
-        except KeyError:
-            widths = np.zeros(len(dataset))
-            heights = np.zeros(len(dataset))
-        # Создаем уникальные ключи для размеров
-        self.size_keys = np.unique(np.stack([widths, heights], axis=1), axis=0)
-        # Группируем индексы по размерам используя numpy
-        self.size_groups = {}
-        for w, h in self.size_keys:
-            mask = (widths == w) & (heights == h)
-            self.size_groups[(w, h)] = np.where(mask)[0]
-        # Предварительно вычисляем количество полных батчей для каждой группы
-        self.group_num_batches = {}
-        total_batches = 0
-        for size, indices in self.size_groups.items():
-            num_full_batches = len(indices) // (self.batch_size * self.num_replicas)
-            self.group_num_batches[size] = num_full_batches
-            total_batches += num_full_batches
-        # Округляем до числа, делящегося на num_replicas
-        self.num_batches = (total_batches // self.num_replicas) * self.num_replicas
-    def __iter__(self):
-        # print(f"Rank {self.rank}: Starting iteration")
-        # Очищаем CUDA кэш перед формированием новых батчей
-        if torch.cuda.is_available():
-            torch.cuda.empty_cache()
-        all_batches = []
-        rng = np.random.RandomState(self.epoch)
-        for size, indices in self.size_groups.items():
-            # print(f"Rank {self.rank}: Processing size {size}, {len(indices)} samples")
-            indices = indices.copy()
-            if self.shuffle:
-                rng.shuffle(indices)
-            num_full_batches = self.group_num_batches[size]
-            if num_full_batches == 0:
-                continue
-            # Берем только индексы для полных батчей
-            valid_indices = indices[:num_full_batches * self.batch_size * self.num_replicas]
-            # Reshape для быстрого разделения на батчи
-            batches = valid_indices.reshape(-1, self.batch_size * self.num_replicas)
-            # Выбираем часть для текущего GPU
-            start_idx = self.rank * self.batch_size
-            end_idx = start_idx + self.batch_size
-            gpu_batches = batches[:, start_idx:end_idx]
-            all_batches.extend(gpu_batches)
-        if self.shuffle:
-            rng.shuffle(all_batches)
-        # Синхронизируем все процессы после формирования батчей
-        accelerator.wait_for_everyone()
-        # print(f"Rank {self.rank}: Created {len(all_batches)} batches")
-        return iter(all_batches)
-    def __len__(self):
-        return self.num_batches
-    def set_epoch(self, epoch):
-        self.epoch = epoch
-# Функция для выборки фиксированных семплов по размерам
-def get_fixed_samples_by_resolution(dataset, samples_per_group=1):
-    """Выбирает фиксированные семплы для каждого уникального разрешения"""
-    # Группируем по размерам
-    size_groups = defaultdict(list)
-    try:
-        widths = dataset["width"]
-        heights = dataset["height"]
-    except KeyError:
-        widths = [0] * len(dataset)
-        heights = [0] * len(dataset)
-    for i, (w, h) in enumerate(zip(widths, heights)):
-        size = (w, h)
-        size_groups[size].append(i)
-    # Выбираем фиксированные примеры из каждой группы
-    fixed_samples = {}
-    for size, indices in size_groups.items():
-        # Определяем сколько семплов брать из этой группы
-        n_samples = min(samples_per_group, len(indices))
-        if len(size_groups)==1:
-            n_samples = samples_to_generate
-        if n_samples == 0:
-            continue
-        # Выбираем случайные индексы
-        sample_indices = random.sample(indices, n_samples)
-        samples_data = [dataset[idx] for idx in sample_indices]
-        # Собираем данные
-        latents = torch.tensor(np.array([item["vae"] for item in samples_data])).to(device=device,dtype=dtype)
-        embeddings = torch.tensor(np.array([item["embeddings"] for item in samples_data])).to(device,dtype=dtype)
-        texts = [item["text"] for item in samples_data]
-        # Сохраняем для этого размера
-        fixed_samples[size] = (latents, embeddings, texts)
-    print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
-    return fixed_samples
-if limit > 0:
-    dataset = load_from_disk(ds_path).select(range(limit))
-else:
-    dataset = load_from_disk(ds_path)
-def collate_fn_simple(batch):
-    # Преобразуем список в тензоры и перемещаем на девайс
-    latents = torch.tensor(np.array([item["vae"] for item in batch])).to(device,dtype=dtype)
-    embeddings = torch.tensor(np.array([item["embeddings"] for item in batch])).to(device,dtype=dtype)
-    return latents, embeddings
-def collate_fn(batch):
-    if not batch:
-        return [], []
-    # Берем эталонную форму
-    ref_vae_shape = np.array(batch[0]["vae"]).shape
-    ref_embed_shape = np.array(batch[0]["embeddings"]).shape
-    # Фильтруем
-    valid_latents = []
-    valid_embeddings = []
-    for item in batch:
-        if (np.array(item["vae"]).shape == ref_vae_shape and
-            np.array(item["embeddings"]).shape == ref_embed_shape):
-            valid_latents.append(item["vae"])
-            valid_embeddings.append(item["embeddings"])
-    # Создаем тензоры
-    latents = torch.tensor(np.array(valid_latents)).to(device,dtype=dtype)
-    embeddings = torch.tensor(np.array(valid_embeddings)).to(device,dtype=dtype)
-    return latents, embeddings
-# Создаем ResolutionBatchSampler на основе индексов от DistributedSampler
-batch_sampler = DistributedResolutionBatchSampler(
-        dataset=dataset,
-        batch_size=batch_size,
-        num_replicas=accelerator.num_processes,
-        rank=accelerator.process_index,
-        shuffle=shuffle
-    )
-# Создаем DataLoader
-dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn_simple)
-print("Total samples",len(dataloader))
-dataloader = accelerator.prepare(dataloader)
-# Инициализация переменных для возобновления обучения
-start_epoch = 0
-global_step = 0
-# Расчёт общего количества шагов
-total_training_steps = (len(dataloader) * num_epochs)
-# Get the world size
-world_size = accelerator.state.num_processes
-#print(f"World Size: {world_size}")
-# Опция загрузки модели из последнего чекпоинта (если существует)
-latest_checkpoint = os.path.join(checkpoints_folder, project)
-if os.path.isdir(latest_checkpoint):
-    print("Загружаем UNet из чекпоинта:", latest_checkpoint)
-    #if dtype == torch.float32:
-    #    unet = UNet2DConditionModel.from_pretrained(latest_checkpoint).to(device=device,dtype=dtype)
-    #else:
-    unet = UNet2DConditionModel.from_pretrained(latest_checkpoint, variant="fp16").to(device=device,dtype=dtype)
-    if unet_gradient:
-        unet.enable_gradient_checkpointing()
-    unet.set_use_memory_efficient_attention_xformers(False) # отключаем xformers
-    try:
-        unet.set_attn_processor(AttnProcessor2_0())  # Используем стандартный AttnProcessor
-    except Exception as e:
-        print(f"Ошибка при включении SDPA: {e}")
-        print("Попытка использовать enable_xformers_memory_efficient_attention.")
-        unet.set_use_memory_efficient_attention_xformers(True)
-    if hasattr(torch.backends.cuda, "flash_sdp_enabled"):
-        print(f"torch.backends.cuda.flash_sdp_enabled(): {torch.backends.cuda.flash_sdp_enabled()}")
-    if hasattr(torch.backends.cuda, "mem_efficient_sdp_enabled"):
-        print(f"torch.backends.cuda.mem_efficient_sdp_enabled(): {torch.backends.cuda.mem_efficient_sdp_enabled()}")
-    if hasattr(torch.nn.functional, "get_flash_attention_available"):
-         print(f"torch.nn.functional.get_flash_attention_available(): {torch.nn.functional.get_flash_attention_available()}")
-    # Регистрируем хуки на модел
-    dispersive_hook = AccelerateDispersiveLoss(
-        accelerator=accelerator,
-        temperature=2,
-        weight=0.25
-    )
-if torch_compile:
-    print("compiling")
-    torch.set_float32_matmul_precision('high')
-    unet = torch.compile(unet)#, mode="reduce-overhead", fullgraph=True)
-    print("compiling - ok")
-if lora_name:
-    print(f"--- Настройка LoRA через PEFT (Rank={lora_rank}, Alpha={lora_alpha}) ---")
-    from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
-    from peft.tuners.lora import LoraModel
-    import os
-    # 1. Замораживаем все параметры UNet
-    unet.requires_grad_(False)
-    print("Параметры базового UNet заморожены.")
-    # 2. Создаем конфигурацию LoRA
-    lora_config = LoraConfig(
-        r=lora_rank,
-        lora_alpha=lora_alpha,
-        target_modules=["to_q", "to_k", "to_v", "to_out.0"],
-    )
-    unet.add_adapter(lora_config)
-    # 3. Оборачиваем UNet в PEFT-модель
-    from peft import get_peft_model
-    peft_unet = get_peft_model(unet, lora_config)
-    # 4. Получаем параметры для оптимизации
-    params_to_optimize = list(p for p in peft_unet.parameters() if p.requires_grad)
-    # 5. Выводим информацию о количестве параметров
-    if accelerator.is_main_process:
-        lora_params_count = sum(p.numel() for p in params_to_optimize)
-        total_params_count = sum(p.numel() for p in unet.parameters())
-        print(f"Количество обучаемых параметров (LoRA): {lora_params_count:,}")
-        print(f"Общее количество параметров UNet: {total_params_count:,}")
-    # 6. Путь для сохранения
-    lora_save_path = os.path.join("lora", lora_name)
-    os.makedirs(lora_save_path, exist_ok=True)
-    # 7. Функция для сохранения
-    def save_lora_checkpoint(model):
-        if accelerator.is_main_process:
-            print(f"Сохраняем LoRA адаптеры  в {lora_save_path}")
-            from peft.utils.save_and_load import get_peft_model_state_dict
-            # Получаем state_dict только LoRA
-            lora_state_dict = get_peft_model_state_dict(model)
-            # Сохраняем веса
-            torch.save(lora_state_dict, os.path.join(lora_save_path, "adapter_model.bin"))
-            # Сохраняем конфиг
-            model.peft_config["default"].save_pretrained(lora_save_path)
-            # SDXL must be compatible
-            from diffusers import StableDiffusionXLPipeline
-            StableDiffusionXLPipeline.save_lora_weights(lora_save_path, lora_state_dict)
-# --------------------------- Оптимизатор ---------------------------
-# Определяем параметры для оптимизации
-#unet = torch.compile(unet)
-if lora_name:
-    # Если используется LoRA, оптимизируем только параметры LoRA
-    trainable_params = [p for p in unet.parameters() if p.requires_grad]
-else:
-    # Иначе оптимизируем все параметры
-    if fbp:
-        trainable_params = list(unet.parameters())
-if fbp:
-    # [1] Создаем словарь оптимизаторов (fused backward)
-    if adam8bit:
-        optimizer_dict = {
-            p: bnb.optim.AdamW8bit(
-                [p],  # Каждый параметр получает свой оптимизатор
-                lr=base_learning_rate,
-                eps=1e-8
-            ) for p in trainable_params
-        }
-    else:
-        optimizer_dict = {
-            p: bnb.optim.Lion8bit(
-                [p],  # Каждый параметр получает свой оптимизатор
-                lr=base_learning_rate,
-                betas=(0.9, 0.97),
-                weight_decay=0.01,
-                percentile_clipping=percentile_clipping,
-            ) for p in trainable_params
-        }
-    # [2] Определяем hook для применения оптимизатора сразу после накопления градиента
-    def optimizer_hook(param):
-        optimizer_dict[param].step()
-        optimizer_dict[param].zero_grad(set_to_none=True)
-    # [3] Регистрируем hook для trainable параметров модели
-    for param in trainable_params:
-        param.register_post_accumulate_grad_hook(optimizer_hook)
-    # Подготовка через Accelerator
-    unet, optimizer = accelerator.prepare(unet, optimizer_dict)
-else:
-    if adam8bit:
-        optimizer = bnb.optim.AdamW8bit(
-            params=unet.parameters(),
-            lr=base_learning_rate,
-            betas=(0.9, 0.999),
-            eps=1e-8,
-            weight_decay=0.01
-        )
-        #from torch.optim import AdamW
-        #optimizer = AdamW(
-        #    params=unet.parameters(),
-        #    lr=base_learning_rate,
-        #    betas=(0.9, 0.999),
-        #    eps=1e-8,
-        #    weight_decay=0.01
-        #)
-    else:
-        optimizer = bnb.optim.Lion8bit(
-            params=unet.parameters(),
-            lr=base_learning_rate,
-            betas=(0.9, 0.97),
-            weight_decay=0.01,
-            percentile_clipping=percentile_clipping,
-        )
-    def lr_schedule(step, max_steps, base_lr, min_lr, use_decay=True):
-        # Если не используем затухание, возвращаем базовый LR
-        if not use_decay:
-            return base_lr
-        # Иначе используем линейный прогрев и косинусное затухание
-        x = step / max_steps
-        percent = 0.05
-        if x < percent:
-            # Линейный прогрев до percent% шагов
-            return min_lr + (base_lr - min_lr) * (x / percent)
-        else:
-            # Косинусное затухание
-            decay_ratio = (x - percent) / (1 - percent)
-            return min_lr + 0.5 * (base_lr - min_lr) * (1 + math.cos(math.pi * decay_ratio))
-    def custom_lr_lambda(step):
-        return lr_schedule(step, total_training_steps*world_size,
-                         base_learning_rate, min_learning_rate,
-                         use_decay) / base_learning_rate
-    lr_scheduler = LambdaLR(optimizer, lr_lambda=custom_lr_lambda)
-    unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)
- # Регистрация хуков ПОСЛЕ prepare
-dispersive_hook.register_hooks(unet, "down_blocks.2")
-# --------------------------- Фиксированные семплы для генерации ---------------------------
-# Примеры фиксированных семплов по размерам
-fixed_samples = get_fixed_samples_by_resolution(dataset)
-@torch.compiler.disable()
-@torch.no_grad()
-def generate_and_save_samples(fixed_samples_cpu, step):
-    """
-    Генерирует семплы для каждого из разрешений и сохраняет их.
-    Args:
-        fixed_samples_cpu: Словарь, где ключи - размеры (width, height),
-                           а значения - кортежи (latents, embeddings, text) на CPU.
-        step: Текущий шаг обучения
-    """
-    original_model = None # Инициализируем, чтобы finally не ругался
-    try:
-        original_model = accelerator.unwrap_model(unet)
-        original_model = original_model.to(dtype = dtype)
-        original_model.eval()
-        vae.to(device=device, dtype=dtype)
-        vae.eval()
-        scheduler.set_timesteps(n_diffusion_steps)
-        all_generated_images = []
-        all_captions = []
-        for size, (sample_latents, sample_text_embeddings, sample_text) in fixed_samples_cpu.items():
-            width, height = size
-            sample_latents = sample_latents.to(dtype=dtype)
-            sample_text_embeddings = sample_text_embeddings.to(dtype=dtype)
-            # Инициализируем латенты случайным шумом
-            # sample_latents уже в dtype, так что noise будет создан в dtype
-            noise = torch.randn(
-                sample_latents.shape, # Используем форму от sample_latents, которые теперь на GPU и fp16
-                generator=gen,
-                device=device,
-                dtype=sample_latents.dtype
-            )
-            current_latents = noise.clone()
-            # Подготовка текстовых эмбеддингов для guidance
-            if guidance_scale > 0:
-                # empty_embeddings должны быть того же типа и на том же устройстве
-                empty_embeddings = torch.zeros_like(sample_text_embeddings, dtype=sample_text_embeddings.dtype, device=device)
-                text_embeddings_batch = torch.cat([empty_embeddings, sample_text_embeddings], dim=0)
-            else:
-                text_embeddings_batch = sample_text_embeddings
-            for t in scheduler.timesteps:
-                t_batch = t.repeat(current_latents.shape[0]).to(device) # Убедимся, что t на устройстве
-                if guidance_scale > 0:
-                    latent_model_input = torch.cat([current_latents] * 2)
-                else:
-                    latent_model_input = current_latents
-                latent_model_input_scaled = scheduler.scale_model_input(latent_model_input, t_batch)
-                # Предсказание шума (UNet)
-                noise_pred = original_model(latent_model_input_scaled, t_batch, text_embeddings_batch).sample
-                if guidance_scale > 0:
-                    noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
-                    noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)
-                current_latents = scheduler.step(noise_pred, t, current_latents).prev_sample
-            #print(f"current_latents Min: {current_latents.min()} Max: {current_latents.max()}")
-            # Декодирование через VAE
-            latent_for_vae = (current_latents.detach() / vae.config.scaling_factor) + vae.config.shift_factor
-            decoded = vae.decode(latent_for_vae).sample
-            # Преобразуем тензоры в PIL-изображения
-            # Для математики с изображением (нормализация) лучше перейти в fp32
-            decoded_fp32 = decoded.to(torch.float32)
-            for img_idx, img_tensor in enumerate(decoded_fp32):
-                img = (img_tensor / 2 + 0.5).clamp(0, 1).cpu().numpy().transpose(1, 2, 0)
-                # If NaNs or infs are present, print them
-                if np.isnan(img).any():
-                    print("NaNs found, saving stoped! Step:", step)
-                    save_model = False
-                pil_img = Image.fromarray((img * 255).astype("uint8"))
-                max_w_overall = max(s[0] for s in fixed_samples_cpu.keys())
-                max_h_overall = max(s[1] for s in fixed_samples_cpu.keys())
-                max_w_overall = max(255, max_w_overall)
-                max_h_overall = max(255, max_h_overall)
-                padded_img = ImageOps.pad(pil_img, (max_w_overall, max_h_overall), color='white')
-                all_generated_images.append(padded_img)
-                caption_text = sample_text[img_idx][:200] if img_idx < len(sample_text) else ""
-                all_captions.append(caption_text)
-                sample_path = f"{generated_folder}/{project}_{width}x{height}_{img_idx}.jpg"
-                pil_img.save(sample_path, "JPEG", quality=96)
-        if use_wandb and accelerator.is_main_process:
-            wandb_images = [
-                wandb.Image(img, caption=f"{all_captions[i]}")
-                for i, img in enumerate(all_generated_images)
-            ]
-            wandb.log({"generated_images": wandb_images, "global_step": step})
-    finally:
-        vae.to("cpu") # Перемещаем VAE обратно на CPU
-        original_model = original_model.to(dtype = dtype)
-        if original_model is not None:
-            del original_model
-        # Очистка переменных, которые являются тензорами и были созданы в функции
-        for var in list(locals().keys()):
-            if isinstance(locals()[var], torch.Tensor):
-                del locals()[var]
-        torch.cuda.empty_cache()
-        gc.collect()
-# --------------------------- Генерация сэмплов перед обучением ---------------------------
-if accelerator.is_main_process:
-    if save_model:
-        print("Генерация сэмплов до старта обучения...")
-        generate_and_save_samples(fixed_samples,0)
-# Модифицируем функцию сохранения модели для поддержки LoRA
-def save_checkpoint(unet,variant=""):
-    if accelerator.is_main_process:
-        if lora_name:
-            # Сохраняем только LoRA адаптеры
-            save_lora_checkpoint(unet)
-        else:
-            # Сохраняем полную модель
-            if variant!="":
-                accelerator.unwrap_model(unet.to(dtype=torch.float16)).save_pretrained(os.path.join(checkpoints_folder, f"{project}"),variant=variant)
-            else:
-                accelerator.unwrap_model(unet).save_pretrained(os.path.join(checkpoints_folder, f"{project}"))
-            unet = unet.to(dtype=dtype)
-# --------------------------- Тренировочный цикл ---------------------------
-# Для логирования среднего лосса каждые % эпохи
-if accelerator.is_main_process:
-    print(f"Total steps per GPU: {total_training_steps}")
-epoch_loss_points = []
-progress_bar = tqdm(total=total_training_steps, disable=not accelerator.is_local_main_process, desc="Training", unit="step")
-# Определяем интервал для сэмплирования и логирования в пределах эпохи (10% эпохи)
-steps_per_epoch = len(dataloader)
-sample_interval = max(1, steps_per_epoch // sample_interval_share)
-min_loss = 1.
-# Начинаем с указанной эпохи (полезно при возобновлении)
-for epoch in range(start_epoch, start_epoch + num_epochs):
-    batch_losses = []
-    batch_tlosses = []
-    batch_grads = []
-    #unet = unet.to(dtype = dtype)
-    batch_sampler.set_epoch(epoch)
-    accelerator.wait_for_everyone()
-    unet.train()
-    print("epoch:",epoch)
-    for step, (latents, embeddings) in enumerate(dataloader):
-        with accelerator.accumulate(unet):
-            if save_model == False and step == 5 :
-                used_gb = torch.cuda.max_memory_allocated() / 1024**3
-                print(f"Шаг {step}: {used_gb:.2f} GB")
-            # Forward pass
-            noise = torch.randn_like(latents, dtype=latents.dtype)
-            timesteps = torch.randint(steps_offset, scheduler.config.num_train_timesteps,
-                (latents.shape[0],), device=device).long()
-            # Добавляем шум к латентам
-            noisy_latents = scheduler.add_noise(latents, noise, timesteps)
-            # Очищаем активации перед forward pass
-            dispersive_hook.clear_activations()
-            # Используем целевое значение
-            model_pred = unet(noisy_latents, timesteps, embeddings).sample
-            target_pred = scheduler.get_velocity(latents, noise, timesteps)
-            # Считаем лосс
-            loss = torch.nn.functional.mse_loss(model_pred, target_pred)
-            # Dispersive Loss
-            #Идентичные векторы: Loss = -0.0000
-            #Ортогональные векторы: Loss = -3.9995
-            dispersive_loss = dispersive_hook.weight * dispersive_hook.compute_dispersive_loss()
-            # Итоговый loss
-            # dispersive_loss должен падать и тотал падать - поэтому плюс
-            total_loss = loss + dispersive_loss
-            # Проверяем на nan/inf перед backward
-            if torch.isnan(loss) or torch.isinf(loss):
-                print(f"Rank {accelerator.process_index}: Found nan/inf in loss: {loss}")
-                save_model = False
-                break
-            # Делаем backward через Accelerator
-            accelerator.backward(total_loss)
-            if (global_step % 100 == 0) or (global_step % sample_interval == 0):
-                accelerator.wait_for_everyone()
-            grad = 0.0
-            if not fbp:
-                if accelerator.sync_gradients:
-                    grad = accelerator.clip_grad_norm_(unet.parameters(), 1.)
-                optimizer.step()
-                lr_scheduler.step()
-                optimizer.zero_grad(set_to_none=True)
-            # Увеличиваем счетчик глобальных шагов
-            global_step += 1
-            # Обновляем прогресс-бар
-            progress_bar.update(1)
-            # Логируем метрики
-            if accelerator.is_main_process:
-                if fbp:
-                    current_lr = base_learning_rate
-                else:
-                    current_lr = lr_scheduler.get_last_lr()[0]
-                batch_losses.append(loss.detach().item())
-                batch_tlosses.append(total_loss.detach().item())
-                batch_grads.append(grad)
-                # Логируем в Wandb
-                if use_wandb:
-                    wandb.log({
-                        "mse_loss": loss.detach().item(),
-                        "learning_rate": current_lr,
-                        "epoch": epoch,
-                        "grad": grad,
-                        "global_step": global_step,
-                        "dispersive_loss": dispersive_loss,
-                        "total_loss": total_loss
-                    })
-                # Генерируем сэмплы с заданным интервалом
-                if global_step % sample_interval == 0:
-                    generate_and_save_samples(fixed_samples,global_step)
-                    # Выводим текущий лосс
-                    avg_loss = np.mean(batch_losses[-sample_interval:])
-                    avg_tloss = np.mean(batch_tlosses[-sample_interval:])
-                    avg_grad = torch.mean(torch.stack(batch_grads[-sample_interval:])).cpu().item()
-                    print(f"Эпоха {epoch}, шаг {global_step}, средний лосс: {avg_loss:.6f}")
-                    if save_model:
-                        print("saving:",avg_loss < min_loss*save_barrier)
-                        if avg_loss < min_loss*save_barrier:
-                            min_loss = avg_loss
-                            save_checkpoint(unet)
-                    if use_wandb:
-                        wandb.log({"interm_loss": avg_loss})
-                        wandb.log({"interm_totalloss": avg_tloss})
-                        wandb.log({"interm_grad": avg_grad})
-    # По окончании эпохи
-    #accelerator.wait_for_everyone()
-    if accelerator.is_main_process:
-        avg_epoch_loss = np.mean(batch_losses)
-        print(f"\nЭпоха {epoch} завершена. Средний лосс: {avg_epoch_loss:.6f}")
-        if use_wandb:
-            wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})
-# Завершение обучения - сохраняем финальную модель
-dispersive_hook.remove_hooks()
-if accelerator.is_main_process:
-    print("Обучение завершено! Сохраняем финальную модель...")
-    # Сохраняем основную модель
-    if save_model:
-        save_checkpoint(unet,"fp16")
-    print("Готово!")
-    # randomize ode timesteps
-    # input_timestep = torch.round(
-    #     F.sigmoid(torch.randn((n,), device=latents.device)), decimals=3
-    # )
-#def create_distribution(num_points, device=None):
-#    # Диапазон вероятностей на оси x
-#    x = torch.linspace(0, 1, num_points, device=device)
-    # Пользовательская функция плотности вероятности
-#    probabilities = -7.7 * ((x - 0.5) ** 2) + 2
-    # Нормализация, чтобы сумма равнялась 1
-#    probabilities /= probabilities.sum()
-#    return x, probabilities
-#def sample_from_distribution(x, probabilities, n, device=None):
-    # Выбор индексов на основе распределения вероятностей
-#    indices = torch.multinomial(probabilities, n, replacement=True)
-#    return x[indices]
-# Пример использования
-#num_points = 1000  # Количество точек в диапазоне
-#n = latents.shape[0]  # Количество временных шагов для выборки
-#x, probabilities = create_distribution(num_points, device=latents.device)
-#timesteps = sample_from_distribution(x, probabilities, n, device=latents.device)
-# Преобразование в формат, подходящий для вашего кода
-#timesteps = (timesteps * (scheduler.config.num_train_timesteps - 1)).long()

train_dist.py DELETED Viewed

@@ -1,713 +0,0 @@
-import os
-import math
-import torch
-import numpy as np
-import matplotlib.pyplot as plt
-from torch.utils.data import DataLoader, Sampler
-from torch.utils.data.distributed import DistributedSampler
-from collections import defaultdict
-from torch.optim.lr_scheduler import LambdaLR
-from diffusers import UNet2DConditionModel, AutoencoderKL, DDPMScheduler
-from accelerate import Accelerator
-from datasets import load_from_disk
-from tqdm import tqdm
-from PIL import Image,ImageOps
-import wandb
-import random
-import gc
-from accelerate.state import DistributedType
-from torch.distributed import broadcast_object_list
-from torch.utils.checkpoint import checkpoint
-from diffusers.models.attention_processor import AttnProcessor2_0
-from datetime import datetime
-import bitsandbytes as bnb
-# --------------------------- Параметры ---------------------------
-ds_path = "datasets/384"
-batch_size = 30
-base_learning_rate = 3e-5
-num_epochs = 4
-num_warmup_steps = 500
-project = "unet"
-use_wandb = True
-save_model = True
-sample_interval_share = 10 # samples/save per epoch
-fbp = False # fused backward pass
-adam8bit = True
-percentile_clipping = 97 # Lion
-torch_compile = False
-unet_gradient = True
-clip_sample = False #Scheduler
-fixed_seed = False
-dtype_unet = torch.float32
-dtype_embed = torch.float32
-dtype_infer = torch.float16
-steps_offset = 1 # Scheduler
-limit = 0
-checkpoints_folder = ""
-mixed_precision = "no"
-accelerator = Accelerator(mixed_precision=mixed_precision)
-device = accelerator.device
-# Параметры для диффузии
-n_diffusion_steps = 50
-samples_to_generate = 12
-guidance_scale = 5
-# Папки для сохранения результатов
-generated_folder = "samples"
-os.makedirs(generated_folder, exist_ok=True)
-# Настройка seed для воспроизводимости
-current_date = datetime.now()
-seed = int(current_date.strftime("%Y%m%d"))
-if fixed_seed:
-    torch.manual_seed(seed)
-    np.random.seed(seed)
-    random.seed(seed)
-    if torch.cuda.is_available():
-        torch.cuda.manual_seed_all(seed)
-# --------------------------- Параметры LoRA ---------------------------
-# pip install peft
-lora_name = "" #"nusha"  # Имя для сохранения/загрузки LoRA адаптеров
-lora_rank = 32   # Ранг LoRA (чем меньше, тем компактнее модель)
-lora_alpha = 64  # Альфа параметр LoRA, определяющий масштаб
-print("init")
-# --------------------------- Инициализация WandB ---------------------------
-if use_wandb and accelerator.is_main_process:
-    wandb.init(project=project+lora_name, config={
-        "batch_size": batch_size,
-        "base_learning_rate": base_learning_rate,
-        "num_epochs": num_epochs,
-        "fbp": fbp,
-        "adam8bit": adam8bit,
-    })
-# Включение Flash Attention 2/SDPA
-torch.backends.cuda.enable_flash_sdp(True)
-# --------------------------- Инициализация Accelerator --------------------
-gen = torch.Generator(device=device)
-gen.manual_seed(seed)
-# --------------------------- Загрузка моделей ---------------------------
-# VAE загружается на CPU для экономии GPU-памяти
-vae = AutoencoderKL.from_pretrained("vae", variant="fp16").to("cpu").eval()
-# DDPMScheduler с V_Prediction и Zero-SNR
-scheduler = DDPMScheduler(
-    num_train_timesteps=1000,       # Полный график шагов для обучения
-    prediction_type="v_prediction", # V-Prediction
-    rescale_betas_zero_snr=True,    # Включение Zero-SNR
-    clip_sample = clip_sample,
-    steps_offset = steps_offset
-)
-# --------------------------- Загрузка датасета ---------------------------
-class ResolutionBatchSampler(Sampler):
-    """Сэмплер, который группирует примеры по одинаковым размерам"""
-    def __init__(self, dataset, batch_size, shuffle=True, drop_last=False):
-        self.dataset = dataset
-        self.batch_size = batch_size
-        self.shuffle = shuffle
-        self.drop_last = drop_last
-        # Группируем примеры по размерам
-        self.size_groups = defaultdict(list)
-        try:
-            widths = dataset["width"]
-            heights = dataset["height"]
-        except KeyError:
-            widths = [0] * len(dataset)
-            heights = [0] * len(dataset)
-        for i, (w, h) in enumerate(zip(widths, heights)):
-            size = (w, h)
-            self.size_groups[size].append(i)
-        # Печатаем статистику по размерам
-        print(f"Найдено {len(self.size_groups)} уникальных размеров:")
-        for size, indices in sorted(self.size_groups.items(), key=lambda x: len(x[1]), reverse=True):
-            width, height = size
-            print(f"  {width}x{height}: {len(indices)} пример��в")
-        # Формируем батчи
-        self.reset()
-    def reset(self):
-        """Сбрасывает и перемешивает индексы"""
-        self.batches = []
-        for size, indices in self.size_groups.items():
-            if self.shuffle:
-                indices_copy = indices.copy()
-                random.shuffle(indices_copy)
-            else:
-                indices_copy = indices
-            # Разбиваем на батчи
-            for i in range(0, len(indices_copy), self.batch_size):
-                batch_indices = indices_copy[i:i + self.batch_size]
-                # Пропускаем неполные батчи если drop_last=True
-                if self.drop_last and len(batch_indices) < self.batch_size:
-                    continue
-                self.batches.append(batch_indices)
-        # Перемешиваем батчи между собой
-        if self.shuffle:
-            random.shuffle(self.batches)
-    def __iter__(self):
-        self.reset()  # Сбрасываем и перемешиваем в начале каждой эпохи
-        return iter(self.batches)
-    def __len__(self):
-        return len(self.batches)
-# Функция для выборки фиксированных семплов по размерам
-def get_fixed_samples_by_resolution(dataset, samples_per_group=1):
-    """Выбирает фиксированные семплы для каждого уникального разрешения"""
-    # Группируем по размерам
-    size_groups = defaultdict(list)
-    try:
-        widths = dataset["width"]
-        heights = dataset["height"]
-    except KeyError:
-        widths = [0] * len(dataset)
-        heights = [0] * len(dataset)
-    for i, (w, h) in enumerate(zip(widths, heights)):
-        size = (w, h)
-        size_groups[size].append(i)
-    # Выбираем фиксированные примеры из каждой группы
-    fixed_samples = {}
-    for size, indices in size_groups.items():
-        # Определяем сколько семплов брать из этой группы
-        n_samples = min(samples_per_group, len(indices))
-        if len(size_groups)==1:
-            n_samples = samples_to_generate
-        if n_samples == 0:
-            continue
-        # Выбираем случайные индексы
-        sample_indices = random.sample(indices, n_samples)
-        samples_data = [dataset[idx] for idx in sample_indices]
-        # Собираем данные
-        latents = torch.tensor(np.array([item["vae"] for item in samples_data])).to(device=device,dtype=dtype_embed)
-        embeddings = torch.tensor(np.array([item["embeddings"] for item in samples_data])).to(device,dtype=dtype_embed)
-        texts = [item["text"] for item in samples_data]
-        # Сохраняем для этого размера
-        fixed_samples[size] = (latents, embeddings, texts)
-    print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
-    return fixed_samples
-if limit > 0:
-    dataset = load_from_disk(ds_path).select(range(limit))
-else:
-    dataset = load_from_disk(ds_path)
-# Создаем DistributedSampler
-if accelerator.num_processes > 1:
-    dist_sampler = DistributedSampler(dataset, shuffle=False)
-else:
-    dist_sampler = None
-def collate_fn_simple(batch):
-    # Преобразуем список в тензоры и перемещаем на девайс
-    latents = torch.tensor(np.array([item["vae"] for item in batch])).to(device,dtype=dtype_embed)
-    embeddings = torch.tensor(np.array([item["embeddings"] for item in batch])).to(device,dtype=dtype_embed)
-    return latents, embeddings
-def collate_fn(batch):
-    if not batch:
-        return [], []
-    # Берем эталонную форму
-    ref_vae_shape = np.array(batch[0]["vae"]).shape
-    ref_embed_shape = np.array(batch[0]["embeddings"]).shape
-    # Фильтруем
-    valid_latents = []
-    valid_embeddings = []
-    for item in batch:
-        if (np.array(item["vae"]).shape == ref_vae_shape and
-            np.array(item["embeddings"]).shape == ref_embed_shape):
-            valid_latents.append(item["vae"])
-            valid_embeddings.append(item["embeddings"])
-    # Создаем тензоры
-    latents = torch.tensor(np.array(valid_latents)).to(device,dtype=dtype_embed)
-    embeddings = torch.tensor(np.array(valid_embeddings)).to(device,dtype=dtype_embed)
-    return latents, embeddings
-# Используем наш ResolutionBatchSampler
-#batch_sampler = ResolutionBatchSampler(dataset, batch_size=batch_size, shuffle=True)
-#dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn)
-# Создаем ResolutionBatchSampler на осн��ве индексов от DistributedSampler
-if dist_sampler is not None:
-    batch_sampler = ResolutionBatchSampler(list(dist_sampler), dataset, batch_size=batch_size, shuffle=True)
-else:
-    batch_sampler = ResolutionBatchSampler(list(range(len(dataset))), dataset, batch_size=batch_size, shuffle=True)
-# Создаем DataLoader
-dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn_simple)
-print("Total samples",len(dataloader))
-dataloader = accelerator.prepare(dataloader)
-# Инициализация переменных для возобновления обучения
-start_epoch = 0
-global_step = 0
-# Расчёт общего количества шагов
-total_training_steps = (len(dataloader) * num_epochs)
-# Get the world size
-world_size = accelerator.state.num_processes
-#print(f"World Size: {world_size}")
-# Опция загрузки модели из последнего чекпоинта (если существует)
-latest_checkpoint = os.path.join(checkpoints_folder, project)
-if os.path.isdir(latest_checkpoint):
-    print("Загружаем UNet из чекпоинта:", latest_checkpoint)
-    unet = UNet2DConditionModel.from_pretrained(latest_checkpoint).to(device=device,dtype=dtype_unet)
-    if unet_gradient:
-        unet.enable_gradient_checkpointing()
-    unet.set_use_memory_efficient_attention_xformers(False) # отключаем xformers
-    try:
-        unet.set_attn_processor(AttnProcessor2_0())  # Используем стандартный AttnProcessor
-    except Exception as e:
-        print(f"Ошибка при включении SDPA: {e}")
-        print("Попытка использовать enable_xformers_memory_efficient_attention.")
-        unet.set_use_memory_efficient_attention_xformers(True)
-    if hasattr(torch.backends.cuda, "flash_sdp_enabled"):
-        print(f"torch.backends.cuda.flash_sdp_enabled(): {torch.backends.cuda.flash_sdp_enabled()}")
-    if hasattr(torch.backends.cuda, "mem_efficient_sdp_enabled"):
-        print(f"torch.backends.cuda.mem_efficient_sdp_enabled(): {torch.backends.cuda.mem_efficient_sdp_enabled()}")
-    if hasattr(torch.nn.functional, "get_flash_attention_available"):
-         print(f"torch.nn.functional.get_flash_attention_available(): {torch.nn.functional.get_flash_attention_available()}")
-if torch_compile:
-    print("compiling")
-    torch.set_float32_matmul_precision('high')
-    unet = torch.compile(unet)#, mode="reduce-overhead", fullgraph=True)
-    print("compiling - ok")
-if lora_name:
-    print(f"--- Настройка LoRA через PEFT (Rank={lora_rank}, Alpha={lora_alpha}) ---")
-    from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
-    from peft.tuners.lora import LoraModel
-    import os
-    # 1. Замораживаем все параметры UNet
-    unet.requires_grad_(False)
-    print("Параметры базового UNet заморожены.")
-    # 2. Создаем конфигурацию LoRA
-    lora_config = LoraConfig(
-        r=lora_rank,
-        lora_alpha=lora_alpha,
-        target_modules=["to_q", "to_k", "to_v", "to_out.0"],
-    )
-    unet.add_adapter(lora_config)
-    # 3. Оборачиваем UNet в PEFT-модель
-    from peft import get_peft_model
-    peft_unet = get_peft_model(unet, lora_config)
-    # 4. Получаем параметры для оптимизации
-    params_to_optimize = list(p for p in peft_unet.parameters() if p.requires_grad)
-    # 5. Выводим информацию о количестве параметров
-    if accelerator.is_main_process:
-        lora_params_count = sum(p.numel() for p in params_to_optimize)
-        total_params_count = sum(p.numel() for p in unet.parameters())
-        print(f"Количество обучаемых параметров (LoRA): {lora_params_count:,}")
-        print(f"Общее количество параметров UNet: {total_params_count:,}")
-    # 6. Путь для сохранения
-    lora_save_path = os.path.join("lora", lora_name)
-    os.makedirs(lora_save_path, exist_ok=True)
-    # 7. Функция для сохранения
-    def save_lora_checkpoint(model):
-        if accelerator.is_main_process:
-            print(f"Сохраняем LoRA адаптеры  в {lora_save_path}")
-            from peft.utils.save_and_load import get_peft_model_state_dict
-            # Получаем state_dict только LoRA
-            lora_state_dict = get_peft_model_state_dict(model)
-            # Сохраняем веса
-            torch.save(lora_state_dict, os.path.join(lora_save_path, "adapter_model.bin"))
-            # Сохраняем конфиг
-            model.peft_config["default"].save_pretrained(lora_save_path)
-            # SDXL must be compatible
-            from diffusers import StableDiffusionXLPipeline
-            StableDiffusionXLPipeline.save_lora_weights(lora_save_path, lora_state_dict)
-# --------------------------- Оптимизатор ---------------------------
-# Определяем параметры для оптимизации
-#unet = torch.compile(unet)
-if lora_name:
-    # Если используется LoRA, оптимизируем только параметры LoRA
-    trainable_params = [p for p in unet.parameters() if p.requires_grad]
-else:
-    # Иначе оптимизируем все параметры
-    if fbp:
-        trainable_params = list(unet.parameters())
-if fbp:
-    # [1] Создаем словарь оптимизаторов (fused backward)
-    if adam8bit:
-        optimizer_dict = {
-            p: bnb.optim.AdamW8bit(
-                [p],  # Каждый параметр получает свой оптимизатор
-                lr=base_learning_rate,
-                eps=1e-8
-            ) for p in trainable_params
-        }
-    else:
-        optimizer_dict = {
-            p: bnb.optim.Lion8bit(
-                [p],  # Каждый параметр получает свой оптимизатор
-                lr=base_learning_rate,
-                betas=(0.9, 0.97),
-                weight_decay=0.01,
-                percentile_clipping=percentile_clipping,
-            ) for p in trainable_params
-        }
-    # [2] Определяем hook для применения оптимизатора сразу после накопления градиента
-    def optimizer_hook(param):
-        optimizer_dict[param].step()
-        optimizer_dict[param].zero_grad(set_to_none=True)
-    # [3] Регистрируем hook для trainable параметров модели
-    for param in trainable_params:
-        param.register_post_accumulate_grad_hook(optimizer_hook)
-    # Подготовка через Accelerator
-    unet, optimizer = accelerator.prepare(unet, optimizer_dict)
-else:
-    if adam8bit:
-        optimizer = bnb.optim.AdamW8bit(
-            params=unet.parameters(),
-            lr=base_learning_rate,
-            eps=1e-8
-        )
-    else:
-        optimizer = bnb.optim.Lion8bit(
-            params=unet.parameters(),
-            lr=base_learning_rate,
-            betas=(0.9, 0.97),
-            weight_decay=0.01,
-            percentile_clipping=percentile_clipping,
-        )
-    from transformers import get_constant_schedule_with_warmup
-    # warmup
-    num_warmup_steps = num_warmup_steps * world_size
-    lr_scheduler = get_constant_schedule_with_warmup(
-        optimizer=optimizer,
-        num_warmup_steps=num_warmup_steps
-    )
-    unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)
-# --------------------------- Фиксированные семплы для генерации ---------------------------
-# Примеры фиксированных семплов по размерам
-fixed_samples = get_fixed_samples_by_resolution(dataset)
-@torch.compiler.disable()
-@torch.no_grad()
-def generate_and_save_samples(fixed_samples_cpu, step):
-    """
-    Генерирует семплы для каждого из разрешений и сохраняет их.
-    Args:
-        fixed_samples_cpu: Словарь, где ключи - размеры (width, height),
-                           а значения - кортежи (latents, embeddings, text) на CPU.
-        step: Текущий шаг обучения
-    """
-    original_model = None # Инициализируем, чтобы finally не ругался
-    try:
-        original_model = accelerator.unwrap_model(unet)
-        original_model = original_model.to(dtype = dtype_infer)
-        original_model.eval()
-        vae.to(device=device, dtype=dtype_infer)
-        vae.eval()
-        scheduler.set_timesteps(n_diffusion_steps)
-        all_generated_images = []
-        all_captions = []
-        for size, (sample_latents, sample_text_embeddings, sample_text) in fixed_samples_cpu.items():
-            width, height = size
-            sample_latents = sample_latents.to(dtype=dtype_infer)
-            sample_text_embeddings = sample_text_embeddings.to(dtype=dtype_infer)
-            # Инициализируем латенты случайным шумом
-            # sample_latents уже в dtype_infer, так что noise будет создан в dtype_infer
-            noise = torch.randn(
-                sample_latents.shape, # Используем форму от sample_latents, которые теперь на GPU и fp16
-                generator=gen,
-                device=device,
-                dtype=sample_latents.dtype
-            )
-            current_latents = noise.clone()
-            # Подготовка текстовых эмбеддингов для guidance
-            if guidance_scale > 0:
-                # empty_embeddings должны быть того же типа и на том же устройстве
-                empty_embeddings = torch.zeros_like(sample_text_embeddings, dtype=sample_text_embeddings.dtype, device=device)
-                text_embeddings_batch = torch.cat([empty_embeddings, sample_text_embeddings], dim=0)
-            else:
-                text_embeddings_batch = sample_text_embeddings
-            for t in scheduler.timesteps:
-                t_batch = t.repeat(current_latents.shape[0]).to(device) # Убедимся, что t на устройстве
-                if guidance_scale > 0:
-                    latent_model_input = torch.cat([current_latents] * 2)
-                else:
-                    latent_model_input = current_latents
-                latent_model_input_scaled = scheduler.scale_model_input(latent_model_input, t_batch)
-                # Предсказание шума (UNet)
-                noise_pred = original_model(latent_model_input_scaled, t_batch, text_embeddings_batch).sample
-                if guidance_scale > 0:
-                    noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
-                    noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)
-                current_latents = scheduler.step(noise_pred, t, current_latents).prev_sample
-            #print(f"current_latents Min: {current_latents.min()} Max: {current_latents.max()}")
-            # Декодирование через VAE
-            latent_for_vae = (current_latents.detach() / vae.config.scaling_factor) + vae.config.shift_factor
-            decoded = vae.decode(latent_for_vae).sample
-            # Преобразуем тензоры в PIL-изображения
-            # Для математики с изображением (нормализация) лучше перейти в fp32
-            decoded_fp32 = decoded.to(torch.float32)
-            for img_idx, img_tensor in enumerate(decoded_fp32):
-                img = (img_tensor / 2 + 0.5).clamp(0, 1).cpu().numpy().transpose(1, 2, 0)
-                # If NaNs or infs are present, print them
-                if np.isnan(img).any():
-                    print("NaNs found, saving stoped! Step:", step)
-                    save_model = False
-                pil_img = Image.fromarray((img * 255).astype("uint8"))
-                max_w_overall = max(s[0] for s in fixed_samples_cpu.keys())
-                max_h_overall = max(s[1] for s in fixed_samples_cpu.keys())
-                max_w_overall = max(255, max_w_overall)
-                max_h_overall = max(255, max_h_overall)
-                padded_img = ImageOps.pad(pil_img, (max_w_overall, max_h_overall), color='white')
-                all_generated_images.append(padded_img)
-                caption_text = sample_text[img_idx][:200] if img_idx < len(sample_text) else ""
-                all_captions.append(caption_text)
-                sample_path = f"{generated_folder}/{project}_{width}x{height}_{img_idx}.jpg"
-                pil_img.save(sample_path, "JPEG", quality=96)
-        if use_wandb and accelerator.is_main_process:
-            wandb_images = [
-                wandb.Image(img, caption=f"{all_captions[i]}")
-                for i, img in enumerate(all_generated_images)
-            ]
-            wandb.log({"generated_images": wandb_images, "global_step": step})
-    finally:
-        vae.to("cpu") # Перемещаем VAE обратно на CPU
-        original_model = original_model.to(dtype = dtype_unet)
-        if original_model is not None:
-            del original_model
-        # Очистка переменных, которые являются тензорами и были созданы в функции
-        for var in list(locals().keys()):
-            if isinstance(locals()[var], torch.Tensor):
-                del locals()[var]
-        torch.cuda.empty_cache()
-        gc.collect()
-# --------------------------- Генерация сэмплов перед обучением ---------------------------
-if accelerator.is_main_process:
-    if save_model:
-        print("Генерация сэмплов до старта обучения...")
-        generate_and_save_samples(fixed_samples,0)
-# Модифицируем функцию сохранения модели для поддержки LoRA
-def save_checkpoint(unet,variant=""):
-    if accelerator.is_main_process:
-        if lora_name:
-            # Сохраняем только LoRA адаптеры
-            save_lora_checkpoint(unet)
-        else:
-            # Сохраняем полную модель
-            if variant!="":
-                accelerator.unwrap_model(unet.to(dtype=dtype_infer)).save_pretrained(os.path.join(checkpoints_folder, f"{project}"),variant=variant)
-            else:
-                accelerator.unwrap_model(unet.to(dtype=dtype_infer)).save_pretrained(os.path.join(checkpoints_folder, f"{project}"))
-            unet = unet.to(dtype=dtype_unet)
-# --------------------------- Тренировочный цикл ---------------------------
-# Для логирования среднего лосса каждые % эпохи
-if accelerator.is_main_process:
-    print(f"Total steps per GPU: {total_training_steps}")
-epoch_loss_points = []
-progress_bar = tqdm(total=total_training_steps, disable=not accelerator.is_local_main_process, desc="Training", unit="step")
-# Определяем интервал для сэмплирования и логирования в пределах эпохи (10% эпохи)
-steps_per_epoch = len(dataloader)
-sample_interval = max(1, steps_per_epoch // sample_interval_share)
-# Начинаем с указанной эпохи (полезно при возобновлении)
-for epoch in range(start_epoch, start_epoch + num_epochs):
-    batch_losses = []
-    batch_grads = []
-    unet = unet.to(dtype = dtype_unet)
-    if dist_sampler is not None:
-        dist_sampler.set_epoch(epoch)  # Важно для правильного shuffling
-    unet.train()
-    for step, (latents, embeddings) in enumerate(dataloader):
-        with accelerator.accumulate(unet):
-            if save_model == False and step == 5 :
-                used_gb = torch.cuda.max_memory_allocated() / 1024**3
-                print(f"Шаг {step}: {used_gb:.2f} GB")
-            # Forward pass
-            noise = torch.randn_like(latents, dtype=latents.dtype)
-            timesteps = torch.randint(steps_offset, scheduler.config.num_train_timesteps,
-                (latents.shape[0],), device=device).long()
-            # Добавляем шум к латентам
-            noisy_latents = scheduler.add_noise(latents, noise, timesteps)
-            # Используем целевое значение
-            model_pred = unet(noisy_latents, timesteps, embeddings).sample
-            target_pred = scheduler.get_velocity(latents, noise, timesteps)
-            # Считаем лосс
-            loss = torch.nn.functional.mse_loss(model_pred, target_pred)
-            # Делаем backward через Accelerator
-            accelerator.backward(loss)
-            grad = 0.0
-            if not fbp:
-                if accelerator.sync_gradients:
-                    grad = accelerator.clip_grad_norm_(unet.parameters(), 1.)
-                accelerator.wait_for_everyone()
-                optimizer.step()
-                lr_scheduler.step()
-                optimizer.zero_grad(set_to_none=True)
-            # Увеличиваем счетчик глобальных шагов
-            global_step += 1
-            # Обновляем прогресс-бар
-            progress_bar.update(1)
-            # Логируем метрики
-            if accelerator.is_main_process:
-                if fbp:
-                    current_lr = base_learning_rate
-                else:
-                    current_lr = lr_scheduler.get_last_lr()[0]
-                batch_losses.append(loss.detach().item())
-                batch_grads.append(grad)
-                # Логируем в Wandb
-                if use_wandb:
-                    wandb.log({
-                        "loss": loss.detach().item(),
-                        "learning_rate": current_lr,
-                        "epoch": epoch,
-                        "grad": grad,
-                        "global_step": global_step
-                    })
-                # Генерируем сэмплы с заданным интервалом
-                if global_step % sample_interval == 0:
-                    generate_and_save_samples(fixed_samples,global_step)
-                    if save_model:
-                        save_checkpoint(unet)
-                    # Выводим текущий лосс
-                    avg_loss = np.mean(batch_losses[-sample_interval:])
-                    avg_grad = np.mean(batch_grads[-sample_interval:])
-                    #print(f"Эпоха {epoch}, шаг {global_step}, средний лосс: {avg_loss:.6f}, LR: {current_lr:.8f}")
-                    if use_wandb:
-                        wandb.log({"intermediate_loss": avg_loss})
-                        wandb.log({"intermediate_grad": avg_grad})
-    # По окончании эпохи
-    if accelerator.is_main_process:
-        avg_epoch_loss = np.mean(batch_losses)
-        print(f"\nЭпоха {epoch} завершена. Средний лосс: {avg_epoch_loss:.6f}")
-        if use_wandb:
-            wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})
-# Завершение обучения - сохраняем финальную модель
-if accelerator.is_main_process:
-    print("Обучение завершено! Сохраняем финальную модель...")
-    # Сохраняем осно��ную модель
-    if save_model:
-        save_checkpoint(accelerator.unwrap_model(unet).to(dtype = torch.float16))
-    save_checkpoint(accelerator.unwrap_model(unet).to(dtype = torch.float16),"fp16")
-    print("Готово!")
-    # randomize ode timesteps
-    # input_timestep = torch.round(
-    #     F.sigmoid(torch.randn((n,), device=latents.device)), decimals=3
-    # )
-#def create_distribution(num_points, device=None):
-#    # Диапазон вероятностей на оси x
-#    x = torch.linspace(0, 1, num_points, device=device)
-    # Пользовательская функция плотности вероятности
-#    probabilities = -7.7 * ((x - 0.5) ** 2) + 2
-    # Нормализация, чтобы сумма равнялась 1
-#    probabilities /= probabilities.sum()
-#    return x, probabilities
-#def sample_from_distribution(x, probabilities, n, device=None):
-    # Выбор индексов на основе распределения вероятностей
-#    indices = torch.multinomial(probabilities, n, replacement=True)
-#    return x[indices]
-# Пример использования
-#num_points = 1000  # Количество точек в диапазоне
-#n = latents.shape[0]  # Количество временных шагов для выборки
-#x, probabilities = create_distribution(num_points, device=latents.device)
-#timesteps = sample_from_distribution(x, probabilities, n, device=latents.device)
-# Преобразование в формат, подходящий для вашего кода
-#timesteps = (timesteps * (scheduler.config.num_train_timesteps - 1)).long()

train_nofbp.py DELETED Viewed

@@ -1,695 +0,0 @@
-import os
-import math
-import torch
-import numpy as np
-import matplotlib.pyplot as plt
-from torch.utils.data import DataLoader, Sampler
-from collections import defaultdict
-from torch.optim.lr_scheduler import LambdaLR
-from diffusers import UNet2DConditionModel, AutoencoderKL, DDPMScheduler
-from accelerate import Accelerator
-from datasets import load_from_disk
-from tqdm import tqdm
-from PIL import Image,ImageOps
-import wandb
-import random
-import gc
-from accelerate.state import DistributedType
-from torch.distributed import broadcast_object_list
-from torch.utils.checkpoint import checkpoint
-from diffusers.models.attention_processor import AttnProcessor2_0
-from datetime import datetime
-import bitsandbytes as bnb
-# --------------------------- Параметры ---------------------------
-ds_path = "datasets/384"
-batch_size = 25
-base_learning_rate = 5e-5
-percentile_clipping = 97
-num_epochs = 5
-num_warmup_steps = 300
-project = "unet"
-use_wandb = True
-save_model = True
-adam8bit = True
-torch_compile = False
-unet_gradient = True
-clip_sample = False
-fixed_seed = True
-fbp = False
-sample_interval_share = 10 # samples/save per epoch
-dtype_unet = torch.float32
-dtype_embed = torch.float32
-dtype_infer = torch.float16
-steps_offset = 1
-limit = 0
-checkpoints_folder = ""
-mixed_precision = "no"
-accelerator = Accelerator(mixed_precision=mixed_precision)
-device = accelerator.device
-# Параметры для диффузии
-n_diffusion_steps = 50
-samples_to_generate = 12
-guidance_scale = 5
-# Папки для сохранения результатов
-generated_folder = "samples"
-os.makedirs(generated_folder, exist_ok=True)
-# Настройка seed для воспроизводимости
-current_date = datetime.now()
-seed = int(current_date.strftime("%Y%m%d"))
-if fixed_seed:
-    torch.manual_seed(seed)
-    np.random.seed(seed)
-    random.seed(seed)
-    if torch.cuda.is_available():
-        torch.cuda.manual_seed_all(seed)
-# --------------------------- Параметры LoRA ---------------------------
-# pip install peft
-lora_name = "" #"nusha"  # Имя для сохранения/загрузки LoRA адаптеров
-lora_rank = 32   # Ранг LoRA (чем меньше, тем компактнее модель)
-lora_alpha = 64  # Альфа параметр LoRA, определяющий масштаб
-print("init")
-# --------------------------- Инициализация WandB ---------------------------
-if use_wandb and accelerator.is_main_process:
-    wandb.init(project=project+lora_name, config={
-        "batch_size": batch_size,
-        "base_learning_rate": base_learning_rate,
-        "num_epochs": num_epochs,
-        "fbp": fbp,
-        "adam8bit": adam8bit,
-    })
-# Включение Flash Attention 2/SDPA
-torch.backends.cuda.enable_flash_sdp(True)
-# --------------------------- Инициализация Accelerator --------------------
-gen = torch.Generator(device=device)
-gen.manual_seed(seed)
-# --------------------------- Загрузка моделей ---------------------------
-# VAE загружается на CPU для экономии GPU-памяти
-vae = AutoencoderKL.from_pretrained("vae", variant="fp16").to("cpu").eval()
-#vae = AutoencoderKL.from_pretrained("vae_flux").to("cpu").eval()
-# DDPMScheduler с V_Prediction и Zero-SNR
-scheduler = DDPMScheduler(
-    num_train_timesteps=1000,       # Полный график шагов для обучения
-    prediction_type="v_prediction", # V-Prediction
-    rescale_betas_zero_snr=True,    # Включение Zero-SNR
-    clip_sample = clip_sample,
-    steps_offset = steps_offset
-)
-# --------------------------- Загрузка датасета ---------------------------
-class ResolutionBatchSampler(Sampler):
-    """Сэмплер, который группирует примеры по одинаковым размерам"""
-    def __init__(self, dataset, batch_size, shuffle=True, drop_last=False):
-        self.dataset = dataset
-        self.batch_size = batch_size
-        self.shuffle = shuffle
-        self.drop_last = drop_last
-        # Группируем примеры по размерам
-        self.size_groups = defaultdict(list)
-        try:
-            widths = dataset["width"]
-            heights = dataset["height"]
-        except KeyError:
-            widths = [0] * len(dataset)
-            heights = [0] * len(dataset)
-        for i, (w, h) in enumerate(zip(widths, heights)):
-            size = (w, h)
-            self.size_groups[size].append(i)
-        # Печатаем статистику по размерам
-        print(f"Найдено {len(self.size_groups)} уникальных размеров:")
-        for size, indices in sorted(self.size_groups.items(), key=lambda x: len(x[1]), reverse=True):
-            width, height = size
-            print(f"  {width}x{height}: {len(indices)} примеров")
-        # Формируем батчи
-        self.reset()
-    def reset(self):
-        """Сбрасывает и перемешивает индексы"""
-        self.batches = []
-        for size, indices in self.size_groups.items():
-            if self.shuffle:
-                indices_copy = indices.copy()
-                random.shuffle(indices_copy)
-            else:
-                indices_copy = indices
-            # Разбиваем на батчи
-            for i in range(0, len(indices_copy), self.batch_size):
-                batch_indices = indices_copy[i:i + self.batch_size]
-                # Пропускаем неполные батчи если drop_last=True
-                if self.drop_last and len(batch_indices) < self.batch_size:
-                    continue
-                self.batches.append(batch_indices)
-        # Перемешиваем батчи между собой
-        if self.shuffle:
-            random.shuffle(self.batches)
-    def __iter__(self):
-        self.reset()  # Сбрасываем и перемешиваем в начале каждой эпохи
-        return iter(self.batches)
-    def __len__(self):
-        return len(self.batches)
-# Функция для выборки фиксированных семплов по размерам
-def get_fixed_samples_by_resolution(dataset, samples_per_group=1):
-    """Выбирает фиксированные семплы для каждого уникального разрешения"""
-    # Группируем по размерам
-    size_groups = defaultdict(list)
-    try:
-        widths = dataset["width"]
-        heights = dataset["height"]
-    except KeyError:
-        widths = [0] * len(dataset)
-        heights = [0] * len(dataset)
-    for i, (w, h) in enumerate(zip(widths, heights)):
-        size = (w, h)
-        size_groups[size].append(i)
-    # Выбираем фиксированные примеры из каждой группы
-    fixed_samples = {}
-    for size, indices in size_groups.items():
-        # Определяем сколько семплов брать из этой группы
-        n_samples = min(samples_per_group, len(indices))
-        if len(size_groups)==1:
-            n_samples = samples_to_generate
-        if n_samples == 0:
-            continue
-        # Выбираем случайные индексы
-        sample_indices = random.sample(indices, n_samples)
-        samples_data = [dataset[idx] for idx in sample_indices]
-        # Собираем данные
-        latents = torch.tensor(np.array([item["vae"] for item in samples_data])).to(device=device,dtype=dtype_embed)
-        embeddings = torch.tensor(np.array([item["embeddings"] for item in samples_data])).to(device,dtype=dtype_embed)
-        texts = [item["text"] for item in samples_data]
-        # Сохраняем для этого размера
-        fixed_samples[size] = (latents, embeddings, texts)
-    print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
-    return fixed_samples
-if limit > 0:
-    dataset = load_from_disk(ds_path).select(range(limit))
-else:
-    dataset = load_from_disk(ds_path)
-def collate_fn_simple(batch):
-    # Преобразуем список в тензоры и перемещаем на девайс
-    latents = torch.tensor(np.array([item["vae"] for item in batch])).to(device,dtype=dtype_embed)
-    embeddings = torch.tensor(np.array([item["embeddings"] for item in batch])).to(device,dtype=dtype_embed)
-    return latents, embeddings
-def collate_fn(batch):
-    if not batch:
-        return [], []
-    # Берем эталонную форму
-    ref_vae_shape = np.array(batch[0]["vae"]).shape
-    ref_embed_shape = np.array(batch[0]["embeddings"]).shape
-    # Фильтруем
-    valid_latents = []
-    valid_embeddings = []
-    for item in batch:
-        if (np.array(item["vae"]).shape == ref_vae_shape and
-            np.array(item["embeddings"]).shape == ref_embed_shape):
-            valid_latents.append(item["vae"])
-            valid_embeddings.append(item["embeddings"])
-    # Создаем тензоры
-    latents = torch.tensor(np.array(valid_latents)).to(device,dtype=dtype_embed)
-    embeddings = torch.tensor(np.array(valid_embeddings)).to(device,dtype=dtype_embed)
-    return latents, embeddings
-# Используем наш ResolutionBatchSampler
-batch_sampler = ResolutionBatchSampler(dataset, batch_size=batch_size, shuffle=True)
-dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn)
-print("Total samples",len(dataloader))
-dataloader = accelerator.prepare(dataloader)
-# Инициализация переменных для возобновления обучения
-start_epoch = 0
-global_step = 0
-# Расчёт общего количества шагов
-total_training_steps = (len(dataloader) * num_epochs)
-# Get the world size
-world_size = accelerator.state.num_processes
-#print(f"World Size: {world_size}")
-# Опция загрузки модели из последнего чекпоинта (если существует)
-latest_checkpoint = os.path.join(checkpoints_folder, project)
-if os.path.isdir(latest_checkpoint):
-    print("Загружаем UNet из чекпоинта:", latest_checkpoint)
-    unet = UNet2DConditionModel.from_pretrained(latest_checkpoint).to(device=device,dtype=dtype_unet)
-    if unet_gradient:
-        unet.enable_gradient_checkpointing()
-    unet.set_use_memory_efficient_attention_xformers(False) # отключаем xformers
-    try:
-        unet.set_attn_processor(AttnProcessor2_0())  # Используем стандартный AttnProcessor
-    except Exception as e:
-        print(f"Ошибка при включении SDPA: {e}")
-        print("Попытка использовать enable_xformers_memory_efficient_attention.")
-        unet.set_use_memory_efficient_attention_xformers(True)
-    if hasattr(torch.backends.cuda, "flash_sdp_enabled"):
-        print(f"torch.backends.cuda.flash_sdp_enabled(): {torch.backends.cuda.flash_sdp_enabled()}")
-    if hasattr(torch.backends.cuda, "mem_efficient_sdp_enabled"):
-        print(f"torch.backends.cuda.mem_efficient_sdp_enabled(): {torch.backends.cuda.mem_efficient_sdp_enabled()}")
-    if hasattr(torch.nn.functional, "get_flash_attention_available"):
-         print(f"torch.nn.functional.get_flash_attention_available(): {torch.nn.functional.get_flash_attention_available()}")
-if torch_compile:
-    print("compiling")
-    torch.set_float32_matmul_precision('high')
-    unet = torch.compile(unet)#, mode="reduce-overhead", fullgraph=True)
-    print("compiling - ok")
-if lora_name:
-    print(f"--- Настройка LoRA через PEFT (Rank={lora_rank}, Alpha={lora_alpha}) ---")
-    from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
-    from peft.tuners.lora import LoraModel
-    import os
-    # 1. Замораживаем все параметры UNet
-    unet.requires_grad_(False)
-    print("Параметры базового UNet заморожены.")
-    # 2. Создаем конфигурацию LoRA
-    lora_config = LoraConfig(
-        r=lora_rank,
-        lora_alpha=lora_alpha,
-        target_modules=["to_q", "to_k", "to_v", "to_out.0"],
-    )
-    unet.add_adapter(lora_config)
-    # 3. Оборачиваем UNet в PEFT-модель
-    from peft import get_peft_model
-    peft_unet = get_peft_model(unet, lora_config)
-    # 4. Получаем параметры для оптимизации
-    params_to_optimize = list(p for p in peft_unet.parameters() if p.requires_grad)
-    # 5. Выводим информацию о количестве параметров
-    if accelerator.is_main_process:
-        lora_params_count = sum(p.numel() for p in params_to_optimize)
-        total_params_count = sum(p.numel() for p in unet.parameters())
-        print(f"Количество обучаемых параметров (LoRA): {lora_params_count:,}")
-        print(f"Общее количество параметров UNet: {total_params_count:,}")
-    # 6. Путь для сохранения
-    lora_save_path = os.path.join("lora", lora_name)
-    os.makedirs(lora_save_path, exist_ok=True)
-    # 7. Функция для сохранения
-    def save_lora_checkpoint(model):
-        if accelerator.is_main_process:
-            print(f"Сохраняем LoRA адаптеры  в {lora_save_path}")
-            from peft.utils.save_and_load import get_peft_model_state_dict
-            # Получаем state_dict только LoRA
-            lora_state_dict = get_peft_model_state_dict(model)
-            # Сохраняем веса
-            torch.save(lora_state_dict, os.path.join(lora_save_path, "adapter_model.bin"))
-            # Сохраняем конфиг
-            model.peft_config["default"].save_pretrained(lora_save_path)
-            # SDXL must be compatible
-            from diffusers import StableDiffusionXLPipeline
-            StableDiffusionXLPipeline.save_lora_weights(lora_save_path, lora_state_dict)
-# --------------------------- Оптимизатор ---------------------------
-# Определяем параметры для оптимизации
-#unet = torch.compile(unet)
-if lora_name:
-    # Если используется LoRA, оптимизируем только параметры LoRA
-    trainable_params = [p for p in unet.parameters() if p.requires_grad]
-else:
-    # Иначе оптимизируем все параметры
-    if fbp:
-        trainable_params = list(unet.parameters())
-if fbp:
-    # [1] Создаем словарь оптимизаторов (fused backward)
-    if adam8bit:
-        optimizer_dict = {
-            p: bnb.optim.AdamW8bit(
-                [p],  # К��ждый параметр получает свой оптимизатор
-                lr=base_learning_rate,
-                eps=1e-8
-            ) for p in trainable_params
-        }
-    else:
-        optimizer_dict = {
-            p: bnb.optim.Lion8bit(
-                [p],  # Каждый параметр получает свой оптимизатор
-                lr=base_learning_rate,
-                betas=(0.9, 0.97),
-                weight_decay=0.01,
-                percentile_clipping=percentile_clipping,
-            ) for p in trainable_params
-        }
-    # [2] Определяем hook для применения оптимизатора сразу после накопления градиента
-    def optimizer_hook(param):
-        optimizer_dict[param].step()
-        optimizer_dict[param].zero_grad(set_to_none=True)
-    # [3] Регистрируем hook для trainable параметров модели
-    for param in trainable_params:
-        param.register_post_accumulate_grad_hook(optimizer_hook)
-    # Подготовка через Accelerator
-    unet, optimizer = accelerator.prepare(unet, optimizer_dict)
-else:
-    if adam8bit:
-        optimizer = bnb.optim.AdamW8bit(
-            params=unet.parameters(),
-            lr=base_learning_rate,
-            eps=1e-8
-        )
-    else:
-        optimizer = bnb.optim.Lion8bit(
-            params=unet.parameters(),
-            lr=base_learning_rate,
-            betas=(0.9, 0.97),
-            weight_decay=0.01,
-            percentile_clipping=percentile_clipping,
-        )
-    from transformers import get_constant_schedule_with_warmup
-    # warmup
-    num_warmup_steps = num_warmup_steps * world_size
-    lr_scheduler = get_constant_schedule_with_warmup(
-        optimizer=optimizer,
-        num_warmup_steps=num_warmup_steps
-    )
-    unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)
-# --------------------------- Фиксированные семплы для генерации ---------------------------
-# Примеры фиксированных семплов по размерам
-fixed_samples = get_fixed_samples_by_resolution(dataset)
-@torch.compiler.disable()
-@torch.no_grad()
-def generate_and_save_samples(fixed_samples_cpu, step):
-    """
-    Генерирует семплы для каждого из разрешений и сохраняет их.
-    Args:
-        fixed_samples_cpu: Словарь, где ключи - размеры (width, height),
-                           а значения - кортежи (latents, embeddings, text) на CPU.
-        step: Текущий шаг обучения
-    """
-    original_model = None # Инициализируем, чтобы finally не ругался
-    try:
-        original_model = accelerator.unwrap_model(unet)
-        original_model = original_model.to(dtype = dtype_infer)
-        original_model.eval()
-        vae.to(device=device, dtype=dtype_infer)
-        vae.eval()
-        scheduler.set_timesteps(n_diffusion_steps)
-        all_generated_images = []
-        all_captions = []
-        for size, (sample_latents, sample_text_embeddings, sample_text) in fixed_samples_cpu.items():
-            width, height = size
-            sample_latents = sample_latents.to(dtype=dtype_infer)
-            sample_text_embeddings = sample_text_embeddings.to(dtype=dtype_infer)
-            # Инициализируем латенты случайным шумом
-            # sample_latents уже в dtype_infer, так что noise будет создан в dtype_infer
-            noise = torch.randn(
-                sample_latents.shape, # Используем форму от sample_latents, которые теперь на GPU и fp16
-                generator=gen,
-                device=device,
-                dtype=sample_latents.dtype
-            )
-            current_latents = noise.clone()
-            # Подготовка текстовых эмбеддингов для guidance
-            if guidance_scale > 0:
-                # empty_embeddings должны быть того же типа и на том же устройстве
-                empty_embeddings = torch.zeros_like(sample_text_embeddings, dtype=sample_text_embeddings.dtype, device=device)
-                text_embeddings_batch = torch.cat([empty_embeddings, sample_text_embeddings], dim=0)
-            else:
-                text_embeddings_batch = sample_text_embeddings
-            for t in scheduler.timesteps:
-                t_batch = t.repeat(current_latents.shape[0]).to(device) # Убедимся, что t на устройстве
-                if guidance_scale > 0:
-                    latent_model_input = torch.cat([current_latents] * 2)
-                else:
-                    latent_model_input = current_latents
-                latent_model_input_scaled = scheduler.scale_model_input(latent_model_input, t_batch)
-                # Предсказание шума (UNet)
-                noise_pred = original_model(latent_model_input_scaled, t_batch, text_embeddings_batch).sample
-                if guidance_scale > 0:
-                    noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
-                    noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)
-                current_latents = scheduler.step(noise_pred, t, current_latents).prev_sample
-            #print(f"current_latents Min: {current_latents.min()} Max: {current_latents.max()}")
-            # Декодирование через VAE
-            latent_for_vae = (current_latents.detach() / vae.config.scaling_factor) + vae.config.shift_factor
-            decoded = vae.decode(latent_for_vae).sample
-            # Преобразуем тензоры в PIL-изображения
-            # Для математики с изображением (нормализация) лучше перейти в fp32
-            decoded_fp32 = decoded.to(torch.float32)
-            for img_idx, img_tensor in enumerate(decoded_fp32):
-                img = (img_tensor / 2 + 0.5).clamp(0, 1).cpu().numpy().transpose(1, 2, 0)
-                # If NaNs or infs are present, print them
-                if np.isnan(img).any():
-                    print("NaNs found, saving stoped! Step:", step)
-                    save_model = False
-                pil_img = Image.fromarray((img * 255).astype("uint8"))
-                max_w_overall = max(s[0] for s in fixed_samples_cpu.keys())
-                max_h_overall = max(s[1] for s in fixed_samples_cpu.keys())
-                max_w_overall = max(255, max_w_overall)
-                max_h_overall = max(255, max_h_overall)
-                padded_img = ImageOps.pad(pil_img, (max_w_overall, max_h_overall), color='white')
-                all_generated_images.append(padded_img)
-                caption_text = sample_text[img_idx][:200] if img_idx < len(sample_text) else ""
-                all_captions.append(caption_text)
-                sample_path = f"{generated_folder}/{project}_{width}x{height}_{img_idx}.jpg"
-                pil_img.save(sample_path, "JPEG", quality=96)
-        if use_wandb and accelerator.is_main_process:
-            wandb_images = [
-                wandb.Image(img, caption=f"{all_captions[i]}")
-                for i, img in enumerate(all_generated_images)
-            ]
-            wandb.log({"generated_images": wandb_images, "global_step": step})
-    finally:
-        vae.to("cpu") # Перемещаем VAE обратно на CPU
-        original_model = original_model.to(dtype = dtype_unet)
-        if original_model is not None:
-            del original_model
-        # Очистка переменных, которые являются тензорами и были созданы в функции
-        for var in list(locals().keys()):
-            if isinstance(locals()[var], torch.Tensor):
-                del locals()[var]
-        torch.cuda.empty_cache()
-        gc.collect()
-# --------------------------- Генерация сэмплов перед обучением ---------------------------
-if accelerator.is_main_process:
-    if save_model:
-        print("Генерация сэмплов до старта обучения...")
-        generate_and_save_samples(fixed_samples,0)
-# Модифицируем функцию сохранения модели для поддержки LoRA
-def save_checkpoint(unet,variant=""):
-    if accelerator.is_main_process:
-        if lora_name:
-            # Сохраняем только LoRA адаптеры
-            save_lora_checkpoint(unet)
-        else:
-            # Сохраняем полную модель
-            if variant!="":
-                accelerator.unwrap_model(unet.to(dtype=dtype_infer)).save_pretrained(os.path.join(checkpoints_folder, f"{project}"),variant=variant)
-            else:
-                accelerator.unwrap_model(unet.to(dtype=dtype_infer)).save_pretrained(os.path.join(checkpoints_folder, f"{project}"))
-            unet = unet.to(dtype=dtype_unet)
-# --------------------------- Тренировочный цикл ---------------------------
-# Для логирования среднего лосса каждые % эпохи
-if accelerator.is_main_process:
-    print(f"Total steps per GPU: {total_training_steps}")
-epoch_loss_points = []
-progress_bar = tqdm(total=total_training_steps, disable=not accelerator.is_local_main_process, desc="Training", unit="step")
-# Определяем интервал для сэмплирования и логирования в пределах эпохи (10% эпохи)
-steps_per_epoch = len(dataloader)
-sample_interval = max(1, steps_per_epoch // sample_interval_share)
-# Начинаем �� указанной эпохи (полезно при возобновлении)
-for epoch in range(start_epoch, start_epoch + num_epochs):
-    batch_losses = []
-    batch_grads = []
-    unet = unet.to(dtype = dtype_unet)
-    unet.train()
-    for step, (latents, embeddings) in enumerate(dataloader):
-        if save_model == False and step == 5 :
-            used_gb = torch.cuda.max_memory_allocated() / 1024**3
-            print(f"Шаг {step}: {used_gb:.2f} GB")
-        # Forward pass
-        noise = torch.randn_like(latents, dtype=latents.dtype)
-        timesteps = torch.randint(steps_offset, scheduler.config.num_train_timesteps,
-            (latents.shape[0],), device=device).long()
-        # Добавляем шум к латентам
-        noisy_latents = scheduler.add_noise(latents, noise, timesteps)
-        # Используем целевое значение
-        model_pred = unet(noisy_latents, timesteps, embeddings).sample
-        target_pred = scheduler.get_velocity(latents, noise, timesteps)
-        # Считаем лосс
-        loss = torch.nn.functional.mse_loss(model_pred, target_pred)
-        # Делаем backward через Accelerator
-        accelerator.backward(loss)
-        grad = 0.0
-        if not fbp:
-            #if accelerator.sync_gradients:
-            grad = accelerator.clip_grad_norm_(unet.parameters(), 1.)
-            optimizer.step()
-            lr_scheduler.step()
-            optimizer.zero_grad(set_to_none=True)
-        # Увеличиваем счетчик глобальных шагов
-        global_step += 1
-        # Обновляем прогресс-бар
-        progress_bar.update(1)
-        # Логируем метрики
-        if accelerator.is_main_process:
-            if fbp:
-                current_lr = base_learning_rate
-            else:
-                current_lr = lr_scheduler.get_last_lr()[0]
-            batch_losses.append(loss.detach().item())
-            batch_grads.append(loss.detach().item())
-            # Логируем в Wandb
-            if use_wandb:
-                wandb.log({
-                    "loss": loss.detach().item(),
-                    "learning_rate": current_lr,
-                    "epoch": epoch,
-                    "grad": grad,
-                    "global_step": global_step
-                })
-            # Генерируем сэмплы с заданным интервалом
-            if global_step % sample_interval == 0:
-                generate_and_save_samples(fixed_samples,global_step)
-                if save_model:
-                    save_checkpoint(unet)
-                # Выводим текущий лосс
-                avg_loss = np.mean(batch_losses[-sample_interval:])
-                #print(f"Эпоха {epoch}, шаг {global_step}, средний лосс: {avg_loss:.6f}, LR: {current_lr:.8f}")
-                if use_wandb:
-                    wandb.log({"intermediate_loss": avg_loss})
-    # По окончании эпохи
-    if accelerator.is_main_process:
-        avg_epoch_loss = np.mean(batch_losses)
-        avg_epoch_grad = np.mean(batch_grads)
-        print(f"\nЭпоха {epoch} завершена. Средний лосс: {avg_epoch_loss:.6f}")
-        if use_wandb:
-            wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})
-            wandb.log({"epoch_grad": avg_epoch_grad, "epoch": epoch+1})
-# Завершение обучения - сохраняем финальную модель
-if accelerator.is_main_process:
-    print("Обучение завершено! Сохраняем финальную модель...")
-    # Сохраняем основную модель
-    if save_model:
-        save_checkpoint(accelerator.unwrap_model(unet).to(dtype = torch.float16))
-    save_checkpoint(accelerator.unwrap_model(unet).to(dtype = torch.float16),"fp16")
-    print("Готово!")
-    # randomize ode timesteps
-    # input_timestep = torch.round(
-    #     F.sigmoid(torch.randn((n,), device=latents.device)), decimals=3
-    # )
-#def create_distribution(num_points, device=None):
-#    # Диапазон вероятностей на оси x
-#    x = torch.linspace(0, 1, num_points, device=device)
-    # Пользовательская функция плотности вероятности
-#    probabilities = -7.7 * ((x - 0.5) ** 2) + 2
-    # Нормализация, чтобы сумма равнялась 1
-#    probabilities /= probabilities.sum()
-#    return x, probabilities
-#def sample_from_distribution(x, probabilities, n, device=None):
-    # Выбор индексов на основе распределения вероятностей
-#    indices = torch.multinomial(probabilities, n, replacement=True)
-#    return x[indices]
-# Пример использования
-#num_points = 1000  # Количество точек в диапазоне
-#n = latents.shape[0]  # Количество временных шагов для выборки
-#x, probabilities = create_distribution(num_points, device=latents.device)
-#timesteps = sample_from_distribution(x, probabilities, n, device=latents.device)
-# Преобразование в формат, подходящий для вашего кода
-#timesteps = (timesteps * (scheduler.config.num_train_timesteps - 1)).long()

unet/diffusion_pytorch_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2987b5660219328cd1c22e5c4072a561d8aa8dabb3b488c55fd06e9d9059229
 size 7014306128

 version https://git-lfs.github.com/spec/v1
+oid sha256:16c60b36c5f772a0393282bc30c777777c26683f30859e4ae680762628338af7
 size 7014306128