recoilme commited on Jun 26

Commit

a68d8ab

1 Parent(s): f067885

512res

Browse files

Files changed (20) hide show

dataset_fromfolder.py +2 -2
samples/unet_192x384_0.jpg +2 -2
samples/unet_256x384_0.jpg +2 -2
samples/unet_320x384_0.jpg +2 -2
samples/unet_320x576_0.jpg +2 -2
samples/unet_384x192_0.jpg +2 -2
samples/unet_384x256_0.jpg +2 -2
samples/unet_384x320_0.jpg +2 -2
samples/unet_384x384_0.jpg +2 -2
samples/unet_384x576_0.jpg +2 -2
samples/unet_448x576_0.jpg +2 -2
samples/unet_512x576_0.jpg +2 -2
samples/unet_576x320_0.jpg +2 -2
samples/unet_576x384_0.jpg +2 -2
samples/unet_576x448_0.jpg +2 -2
samples/unet_576x512_0.jpg +2 -2
samples/unet_576x576_0.jpg +2 -2
src/dataset_combine.py +1 -1
train.py +124 -27
unet/diffusion_pytorch_model.safetensors +1 -1

dataset_fromfolder.py CHANGED Viewed

@@ -27,8 +27,8 @@ empty_share = 0.05
 limit = 0
 textemb_full = False
 # Основная процедура обработки
-folder_path = "/workspace/d23"
-save_path = "/workspace/sdxs/datasets/ds23_576"
 os.makedirs(save_path, exist_ok=True)
 # Функция для очистки CUDA памяти

 limit = 0
 textemb_full = False
 # Основная процедура обработки
+folder_path = "/workspace/eshu"
+save_path = "/workspace/sdxs/datasets/eshu_576"
 os.makedirs(save_path, exist_ok=True)
 # Функция для очистки CUDA памяти

samples/unet_192x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: dfe87c50cb07b34f910992ce566d579ca58c081fabf25364402b92b1c2a4b392
Pointer size: 130 Bytes
Size of remote file: 48 kB

Git LFS Details

SHA256: 7441e68cca6ab353f2333dcb0f54c38e040770a6dc10a62f3a602efdc9bc759c
Pointer size: 130 Bytes
Size of remote file: 41.9 kB

samples/unet_256x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: e50cb93b86fb956c5677d892a146adfdc36600f5941aa1c13543b6dc5ea2b55e
Pointer size: 130 Bytes
Size of remote file: 47.1 kB

Git LFS Details

SHA256: 11b6cd3bdef6f5946593d13d3e611b3b0efc34fb4b2ac54e68cd7157afe810c2
Pointer size: 130 Bytes
Size of remote file: 51 kB

samples/unet_320x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: b607d732417e715403d664b88d99a8ef751147f2cfe717242329ce54a521a2e7
Pointer size: 130 Bytes
Size of remote file: 42.1 kB

Git LFS Details

SHA256: 5a1562843e4b7908b17934c1e524cd0a56a3e182e4d0c348414814505c84af16
Pointer size: 130 Bytes
Size of remote file: 46.7 kB

samples/unet_320x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 5e0c54615eb21da68780d3f9cd25acf896011b740593fdab126b85c140fef57e
Pointer size: 130 Bytes
Size of remote file: 96.2 kB

Git LFS Details

SHA256: 1cf40f1bab8e5fb72ba60450de7e83b72812a0c750163e43cbd2f1526d6d7cc1
Pointer size: 130 Bytes
Size of remote file: 38 kB

samples/unet_384x192_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 0a9631d14f9bc0f9a5b717606ddfa539dc913604fc759e96b73ee61803c2b7ea
Pointer size: 130 Bytes
Size of remote file: 21.2 kB

Git LFS Details

SHA256: 8879fdcba523f7060952be1b81a3ff129111f1ded2563f7b8a6281343311b6e3
Pointer size: 130 Bytes
Size of remote file: 21.9 kB

samples/unet_384x256_0.jpg CHANGED Viewed

Git LFS Details

SHA256: efbf07265ebca0391aebafe32c19a17665825df71fa31ab23878b773255eda12
Pointer size: 130 Bytes
Size of remote file: 46.8 kB

Git LFS Details

SHA256: 1567ee2a614927c817201109afaae56f2ec3ad8728f12a8206c7c43d2e182359
Pointer size: 130 Bytes
Size of remote file: 39.8 kB

samples/unet_384x320_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 79acc895ddd10c154eb53f8ae3235b4047ed1d1f4340c67ecb066878627bb2fa
Pointer size: 130 Bytes
Size of remote file: 50.5 kB

Git LFS Details

SHA256: 6f6aa97c58bbef96a078e299ca186856aec81465cb3e9064946460ac55c357f3
Pointer size: 130 Bytes
Size of remote file: 43.3 kB

samples/unet_384x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: e4286ad643307345a839df1e55217ebf4bf679b3c37ec806982250df4a3770ed
Pointer size: 130 Bytes
Size of remote file: 53.9 kB

Git LFS Details

SHA256: 16d6058221d63945efb967b4c9b1249b2b67a0e2fc789f94d2c4bfbc0c6c24e5
Pointer size: 130 Bytes
Size of remote file: 58.8 kB

samples/unet_384x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 8eacfd5ff67ddbdb0c2f5c41747824f728bbd309bc2b4eab1f49e52caaf31e46
Pointer size: 130 Bytes
Size of remote file: 72.4 kB

Git LFS Details

SHA256: f1b4f18bcddf4661fe80bc465e38a79e685bfabf381b0ce058682d566567e454
Pointer size: 130 Bytes
Size of remote file: 55.4 kB

samples/unet_448x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 1609ca651c2a35a866369b66699816cd39fda2dcb087ff0e9a813f03a4b3733d
Pointer size: 131 Bytes
Size of remote file: 135 kB

Git LFS Details

SHA256: aca4f21558d219935c4c199d9de7243325aa88b1292397e7fddfa20ece5cfb21
Pointer size: 131 Bytes
Size of remote file: 138 kB

samples/unet_512x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: c32f39a75d3f67361ff4cbbbb63ffe1f27dbc0ff07a9c4b472b45805c06eb8ff
Pointer size: 130 Bytes
Size of remote file: 84.6 kB

Git LFS Details

SHA256: 19b2a1eaf9fe3a88f6f8c946261a7344fb5b5d01a307aaf31f4ff679d6a92599
Pointer size: 131 Bytes
Size of remote file: 100 kB

samples/unet_576x320_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 25da5efaaa2b7ea76537ec249ea0d53aa12f93daf5b02ea4a56fa2a650d3dbe7
Pointer size: 131 Bytes
Size of remote file: 109 kB

Git LFS Details

SHA256: 7df2e3165e5a5b39a39b438e36c63306fe76c2459d92ffab7d89abd0a9dfe449
Pointer size: 130 Bytes
Size of remote file: 42.5 kB

samples/unet_576x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 2a8d21984a042592c75bf35fd6baf68adfbbb6ce65664d6a6bc6f537e9ef48c3
Pointer size: 130 Bytes
Size of remote file: 51.7 kB

Git LFS Details

SHA256: 379854c10a80d1804b2984fc21c97dddd7e11ac9bb899724fd660767445456fd
Pointer size: 130 Bytes
Size of remote file: 66 kB

samples/unet_576x448_0.jpg CHANGED Viewed

Git LFS Details

SHA256: a1ee124ddc9809df36b2ce8e9079b74c7da391939fc95eac17ae943722a3a452
Pointer size: 130 Bytes
Size of remote file: 91 kB

Git LFS Details

SHA256: fdd4715477657b87ad2169346061a8484f4992e7432cdfe83b506d2019c77cbf
Pointer size: 131 Bytes
Size of remote file: 124 kB

samples/unet_576x512_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 0607e3a57a9f1f3d0273f9fd0cd0bf4b8aa269fe64d22fde3bfa1b5fdb6d5bfc
Pointer size: 131 Bytes
Size of remote file: 139 kB

Git LFS Details

SHA256: 1bd576e31d5334429c8e8f9ccf17af5bfb9b8c38056f1798992e0bb12036e588
Pointer size: 130 Bytes
Size of remote file: 75.4 kB

samples/unet_576x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: a7c5453db91bbd9e99a078efb8b9256856427cd56b6b62b0129475a9a92d2c77
Pointer size: 131 Bytes
Size of remote file: 126 kB

Git LFS Details

SHA256: e7467ef68b7224f74164b88643db0ef13dc9d01d4698d44036c64cbe813bb51b
Pointer size: 130 Bytes
Size of remote file: 75 kB

src/dataset_combine.py CHANGED Viewed

@@ -65,4 +65,4 @@ def combine_datasets(main_dataset_path, datasets_to_add):
     return combined
-combine_datasets("/workspace/sdxs/datasets/mjnj_576", ["/workspace/sdxs/datasets/ds23_576"])


65
66	return combined
67
68	+ combine_datasets("/workspace/sdxs/datasets/576", ["/workspace/sdxs/datasets/eshu_576"])

train.py CHANGED Viewed

@@ -25,12 +25,12 @@ import bitsandbytes as bnb
 import torch.nn.functional as F
 # --------------------------- Параметры ---------------------------
-ds_path = "datasets/384"
 project = "unet"
-batch_size = 40
-base_learning_rate = 1e-5
-min_learning_rate = 9e-6
-num_epochs = 6
 # samples/save per epoch
 sample_interval_share = 10
 use_wandb = True
@@ -43,11 +43,14 @@ unet_gradient = True
 clip_sample = False #Scheduler
 fixed_seed = False
 shuffle = True
 torch.backends.cuda.matmul.allow_tf32 = True
 torch.backends.cudnn.allow_tf32 = True
 torch.backends.cuda.enable_mem_efficient_sdp(True)
 dtype = torch.float32
 save_barrier = 1.03
 percentile_clipping = 97 # Lion
 steps_offset = 1 # Scheduler
 limit = 0
@@ -91,6 +94,93 @@ class AccelerateDispersiveLoss:
         self.activations = []
         self.hooks = []
     def register_hooks(self, model, target_layer="down_blocks.0"):
         # Получаем "чистую" модель без DDP wrapper'а
         unwrapped_model = self.accelerator.unwrap_model(model)
@@ -455,12 +545,13 @@ if os.path.isdir(latest_checkpoint):
     if hasattr(torch.nn.functional, "get_flash_attention_available"):
          print(f"torch.nn.functional.get_flash_attention_available(): {torch.nn.functional.get_flash_attention_available()}")
-    # Регистрируем хуки на модел
-    dispersive_hook = AccelerateDispersiveLoss(
-        accelerator=accelerator,
-        temperature=2,
-        weight=0.25
-    )
 if torch_compile:
     print("compiling")
@@ -590,8 +681,9 @@ else:
     lr_scheduler = LambdaLR(optimizer, lambda step: lr_schedule(step) / base_learning_rate)
     unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)
- # Регистрация хуков ПОСЛЕ prepare
-dispersive_hook.register_hooks(unet, "down_blocks.2")
 # --------------------------- Фиксированные семплы для генерации ---------------------------
 # Примеры фиксированных семплов по размерам
@@ -611,9 +703,7 @@ def generate_and_save_samples(fixed_samples_cpu, step):
     original_model = None # Инициализируем, чтобы finally не ругался
     try:
-        original_model = accelerator.unwrap_model(unet)
-        original_model = original_model.to(dtype = dtype)
-        original_model.eval()
         vae.to(device=device, dtype=dtype)
         vae.eval()
@@ -705,9 +795,6 @@ def generate_and_save_samples(fixed_samples_cpu, step):
     finally:
         vae.to("cpu") # Перемещаем VAE обратно на CPU
-        original_model = original_model.to(dtype = dtype)
-        if original_model is not None:
-            del original_model
         # Очистка переменных, которые являются тензорами и были созданы в функции
         for var in list(locals().keys()):
             if isinstance(locals()[var], torch.Tensor):
@@ -721,6 +808,7 @@ if accelerator.is_main_process:
     if save_model:
         print("Генерация сэмплов до старта обучения...")
         generate_and_save_samples(fixed_samples,0)
 # Модифицируем функцию сохранения модели для поддержки LoRA
 def save_checkpoint(unet,variant=""):
@@ -775,7 +863,8 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
             noisy_latents = scheduler.add_noise(latents, noise, timesteps)
             # Очищаем активации перед forward pass
-            dispersive_hook.clear_activations()
             # Используем целевое значение
             model_pred = unet(noisy_latents, timesteps, embeddings).sample
@@ -787,8 +876,12 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
             # Dispersive Loss
             #Идентичные векторы: Loss = -0.0000
             #Ортогональные векторы: Loss = -3.9995
-            with torch.cuda.amp.autocast(enabled=False):
-                dispersive_loss = dispersive_hook.weight * dispersive_hook.compute_dispersive_loss()
             # Итоговый loss
             # dispersive_loss должен падать и тотал падать - поэтому плюс
@@ -800,17 +893,20 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
                 save_model = False
                 break
-            # Делаем backward через Accelerator
             accelerator.backward(total_loss)
             if (global_step % 100 == 0) or (global_step % sample_interval == 0):
                 accelerator.wait_for_everyone()
             grad = 0.0
             if not fbp:
                 if accelerator.sync_gradients:
-                    with torch.cuda.amp.autocast(enabled=False):
-                        grad = accelerator.clip_grad_norm_(unet.parameters(), 1.)
                 optimizer.step()
                 lr_scheduler.step()
                 optimizer.zero_grad(set_to_none=True)
@@ -873,7 +969,8 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
             wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})
 # Завершение обучения - сохраняем финальную модель
-dispersive_hook.remove_hooks()
 if accelerator.is_main_process:
     print("Обучение завершено! Сохраняем финальную модель...")
     # Сохраняем основную модель

 import torch.nn.functional as F
 # --------------------------- Параметры ---------------------------
+ds_path = "datasets/576"
 project = "unet"
+batch_size = 50
+base_learning_rate = 5e-5
+min_learning_rate = 1e-5
+num_epochs = 20
 # samples/save per epoch
 sample_interval_share = 10
 use_wandb = True
 clip_sample = False #Scheduler
 fixed_seed = False
 shuffle = True
+dispersive_loss = True
 torch.backends.cuda.matmul.allow_tf32 = True
 torch.backends.cudnn.allow_tf32 = True
 torch.backends.cuda.enable_mem_efficient_sdp(True)
 dtype = torch.float32
 save_barrier = 1.03
+dispersive_temperature=0.5
+dispersive_weight=0.25
 percentile_clipping = 97 # Lion
 steps_offset = 1 # Scheduler
 limit = 0
         self.activations = []
         self.hooks = []
+    def register_hooks(self, model, target_layer="down_blocks.0"):
+        unwrapped_model = self.accelerator.unwrap_model(model)
+        print("=== Поиск слоев в unwrapped модели ===")
+        for name, module in unwrapped_model.named_modules():
+            if target_layer in name:
+                hook = module.register_forward_hook(self.hook_fn)
+                self.hooks.append(hook)
+                print(f"✅ Хук зарегистрирован на: {name}")
+                break
+    def hook_fn(self, module, input, output):
+        if isinstance(output, tuple):
+            activation = output[0]
+        else:
+            activation = output
+        if len(activation.shape) > 2:
+            activation = activation.view(activation.shape[0], -1)
+        self.activations.append(activation.detach())
+    def compute_dispersive_loss(self):
+            if not self.activations:
+                return torch.tensor(0.0, requires_grad=True)
+            local_activations = self.activations[-1].float()
+            batch_size = local_activations.shape[0]
+            if batch_size < 2:
+                return torch.tensor(0.0, requires_grad=True)
+            # Нормализация и вычисление loss
+            sf = local_activations / torch.norm(local_activations, dim=1, keepdim=True)
+            distance = torch.nn.functional.pdist(sf.float(), p=2) ** 2
+            exp_neg_dist = torch.exp(-distance / self.temperature) + 1e-5
+            dispersive_loss = torch.log(torch.mean(exp_neg_dist))
+            # ВАЖНО: он отриц и должен падать
+            return dispersive_loss
+    def compute_dispersive_loss2(self):
+        # Если нет активаций, возвращаем 0
+        if not self.activations:
+            return torch.tensor(0.0, device=self.accelerator.device, requires_grad=True)
+        # Работаем только с локальными активациями главного процесса
+        activations = self.activations[-1].float()
+        batch_size = activations.shape[0]
+        if batch_size < 2:
+            return torch.tensor(0.0, device=self.accelerator.device, requires_grad=True)
+        # Нормализация
+        norm = torch.norm(activations, dim=1, keepdim=True).clamp(min=1e-12)
+        sf = activations / norm
+        # Вычисляем расстояния
+        distance = torch.nn.functional.pdist(sf, p=2)
+        distance = distance.clamp(min=1e-12)
+        distance_squared = distance ** 2
+        # Вычисляем loss с клиппингом для стабильности
+        exp_neg_dist = torch.exp((-distance_squared / self.temperature).clamp(min=-20, max=20))
+        exp_neg_dist = exp_neg_dist + 1e-12
+        mean_exp = torch.mean(exp_neg_dist)
+        dispersive_loss = torch.log(mean_exp.clamp(min=1e-12))
+        return dispersive_loss
+    def clear_activations(self):
+        self.activations.clear()
+    def remove_hooks(self):
+        for hook in self.hooks:
+            hook.remove()
+        self.hooks.clear()
+class AccelerateDispersiveLoss2:
+    def __init__(self, accelerator, temperature=0.5, weight=0.5):
+        self.accelerator = accelerator
+        self.temperature = temperature
+        self.weight = weight
+        self.activations = []
+        self.hooks = []
     def register_hooks(self, model, target_layer="down_blocks.0"):
         # Получаем "чистую" модель без DDP wrapper'а
         unwrapped_model = self.accelerator.unwrap_model(model)
     if hasattr(torch.nn.functional, "get_flash_attention_available"):
          print(f"torch.nn.functional.get_flash_attention_available(): {torch.nn.functional.get_flash_attention_available()}")
+    # Регистрируем хук на модел
+    if dispersive_loss:
+        dispersive_hook = AccelerateDispersiveLoss(
+            accelerator=accelerator,
+            temperature=dispersive_temperature,
+            weight=dispersive_weight
+        )
 if torch_compile:
     print("compiling")
     lr_scheduler = LambdaLR(optimizer, lambda step: lr_schedule(step) / base_learning_rate)
     unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)
+# Регистрация хуков ПОСЛЕ prepare
+if dispersive_loss:
+    dispersive_hook.register_hooks(unet, "down_blocks.2")
 # --------------------------- Фиксированные семплы для генерации ---------------------------
 # Примеры фиксированных семплов по размерам
     original_model = None # Инициализируем, чтобы finally не ругался
     try:
+        original_model = accelerator.unwrap_model(unet).eval()
         vae.to(device=device, dtype=dtype)
         vae.eval()
     finally:
         vae.to("cpu") # Перемещаем VAE обратно на CPU
         # Очистка переменных, которые являются тензорами и были созданы в функции
         for var in list(locals().keys()):
             if isinstance(locals()[var], torch.Tensor):
     if save_model:
         print("Генерация сэмплов до старта обучения...")
         generate_and_save_samples(fixed_samples,0)
+accelerator.wait_for_everyone()
 # Модифицируем функцию сохранения модели для поддержки LoRA
 def save_checkpoint(unet,variant=""):
             noisy_latents = scheduler.add_noise(latents, noise, timesteps)
             # Очищаем активации перед forward pass
+            if dispersive_loss:
+                dispersive_hook.clear_activations()
             # Используем целевое значение
             model_pred = unet(noisy_latents, timesteps, embeddings).sample
             # Dispersive Loss
             #Идентичные векторы: Loss = -0.0000
             #Ортогональные векторы: Loss = -3.9995
+            if dispersive_loss:
+                with torch.cuda.amp.autocast(enabled=False):
+                    dispersive_loss = dispersive_hook.weight * dispersive_hook.compute_dispersive_loss()
+                    if torch.isnan(dispersive_loss) or torch.isinf(dispersive_loss):
+                        print(f"Rank {accelerator.process_index}: Found nan/inf in dispersive_loss: {total_loss}")
+                        break
             # Итоговый loss
             # dispersive_loss должен падать и тотал падать - поэтому плюс
                 save_model = False
                 break
+            if (global_step % 100 == 0) or (global_step % sample_interval == 0):
+                accelerator.wait_for_everyone()
+            # Делаем backward через Accelerator
             accelerator.backward(total_loss)
             if (global_step % 100 == 0) or (global_step % sample_interval == 0):
                 accelerator.wait_for_everyone()
             grad = 0.0
             if not fbp:
                 if accelerator.sync_gradients:
+                    #with torch.cuda.amp.autocast(enabled=False):
+                    grad = accelerator.clip_grad_norm_(unet.parameters(), 1.)
                 optimizer.step()
                 lr_scheduler.step()
                 optimizer.zero_grad(set_to_none=True)
             wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})
 # Завершение обучения - сохраняем финальную модель
+if dispersive_loss:
+    dispersive_hook.remove_hooks()
 if accelerator.is_main_process:
     print("Обучение завершено! Сохраняем финальную модель...")
     # Сохраняем основную модель

unet/diffusion_pytorch_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7905a5f9fc1ead936613fd66ef66675ab7cde73128c49208ee1c02668dcb8527
 size 7014306128

 version https://git-lfs.github.com/spec/v1
+oid sha256:37bee8e3947ce359ec56fedc8c30322465ad3a69e62d4a3964b9c433d975c34c
 size 7014306128