opendiffusionai
/

stablediffusionxl_t5

ppbrown commited on May 30

Commit

3b2fa4e

verified ·

1 Parent(s): adff0c8

Upload pipeline.py with huggingface_hub

Files changed (1) hide show

pipeline.py CHANGED Viewed

@@ -124,10 +124,12 @@ class StableDiffusionXL_T5Pipeline(StableDiffusionXLPipeline):
         # at least PRESENT
         self.text_encoder = self.text_encoder_2 = None
-    # ------------------------------------------------------------------
-    #  Encode a text prompt (T5-XXL + 4096→2048 projection)
-    #  Returns exactly four tensors in the order SDXL’s __call__ expects.
-    # ------------------------------------------------------------------
     def encode_prompt(
         self,
         prompt,
@@ -146,7 +148,7 @@ class StableDiffusionXL_T5Pipeline(StableDiffusionXLPipeline):
         where B = batch * num_images_per_prompt
         """
-        # --- helper to tokenize on the pipeline’s device ----------------
         def _tok(text: str):
             tok_out = self.tokenizer(
                 text,
@@ -180,9 +182,4 @@ class StableDiffusionXL_T5Pipeline(StableDiffusionXLPipeline):
         else:
             tok_neg = pool_neg = None
-        # ----------------- final ordered return --------------------------
-        # 1) positive token embeddings
-        # 2) negative token embeddings (or None)
-        # 3) positive pooled embeddings
-        # 4) negative pooled embeddings (or None)
         return tok_pos, tok_neg, pool_pos, pool_neg

         # at least PRESENT
         self.text_encoder = self.text_encoder_2 = None
+    # ------------------------------------------------------------------------
+    #  Encode a text prompt
+    #  Use + 4096 => 2048 projection for standard embeds, but
+    #   4096 => 1280 for pooled embeds, because that's what the unet requires.
+    #  Returns exactly four tensors in the order SDXL's __call__ expects.
+    # ------------------------------------------------------------------------
     def encode_prompt(
         self,
         prompt,
         where B = batch * num_images_per_prompt
         """
+        # --- helper to tokenize on the pipeline's device ----------------
         def _tok(text: str):
             tok_out = self.tokenizer(
                 text,
         else:
             tok_neg = pool_neg = None
         return tok_pos, tok_neg, pool_pos, pool_neg