Upload IMG_0711.jpeg

#11

by Gida3300 - opened about 1 month ago

base: refs/heads/main

←

from: refs/pr/11

Discussion Files changed

+24

-1864

Files changed (9) hide show

.gitattributes +1 -0
ckpt/magi/4.5B_base/inference_weight/model-00001-of-00002.safetensors → IMG_0711.jpeg +2 -2
README.md +20 -39
ckpt/magi/4.5B_base/inference_weight/model-00002-of-00002.safetensors +0 -3
ckpt/magi/4.5B_base/inference_weight/model.safetensors.index.json +0 -905
ckpt/magi/4.5B_distill/inference_weight.distill/model-00001-of-00002.safetensors +0 -3
ckpt/magi/4.5B_distill/inference_weight.distill/model-00002-of-00002.safetensors +0 -3
ckpt/magi/4.5B_distill/inference_weight.distill/model.safetensors.index.json +0 -905
ckpt/magi/4.5B_distill_quant/inference_weight.fp8.distill/model.safetensors +0 -3

.gitattributes CHANGED Viewed

@@ -36,3 +36,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 figures/algorithm.png filter=lfs diff=lfs merge=lfs -text
 figures/dit_architecture.png filter=lfs diff=lfs merge=lfs -text
 figures/inhouse_human_evaluation.png filter=lfs diff=lfs merge=lfs -text

 figures/algorithm.png filter=lfs diff=lfs merge=lfs -text
 figures/dit_architecture.png filter=lfs diff=lfs merge=lfs -text
 figures/inhouse_human_evaluation.png filter=lfs diff=lfs merge=lfs -text
+IMG_0711.jpeg filter=lfs diff=lfs merge=lfs -text

ckpt/magi/4.5B_base/inference_weight/model-00001-of-00002.safetensors → IMG_0711.jpeg RENAMED Viewed

File without changes

README.md CHANGED Viewed

@@ -3,7 +3,6 @@ license: apache-2.0
 language:
 - en
 pipeline_tag: image-to-video
-library_name: magi-1
 ---
 ![magi-logo](figures/logo_black.png)
@@ -12,7 +11,7 @@ library_name: magi-1
 -----
 <p align="center" style="line-height: 1;">
-  <a href="https://arxiv.org/abs/2505.13211" target="_blank" style="margin: 2px;">
     <img alt="paper" src="https://img.shields.io/badge/Paper-arXiv-B31B1B?logo=arxiv" style="display: inline-block; vertical-align: middle;">
   </a>
   <a href="https://sand.ai" target="_blank" style="margin: 2px;">
@@ -37,13 +36,11 @@ library_name: magi-1
 # MAGI-1: Autoregressive Video Generation at Scale
-This repository contains the [code](https://github.com/SandAI-org/MAGI-1) for the MAGI-1 model, pre-trained weights and inference code. You can find more information on our [technical report](https://static.magi.world/static/files/MAGI_1.pdf) or directly create magic with MAGI-1 [here](http://sand.ai) . 🚀✨
 ## 🔥🔥🔥 Latest News
-- Apr 30, 2025: MAGI-1 4.5B distill and distill+quant models are coming soon 🎉 — we’re putting on the final touches, stay tuned!
-- Apr 30, 2025: MAGI-1 4.5B model has been released 🎉. We've updated the model weights — check it out!
 - Apr 21, 2025: MAGI-1 is here 🎉. We've released the model weights and inference code — check it out!
@@ -81,41 +78,34 @@ We adopt a shortcut distillation approach that trains a single velocity-based mo
 We provide the pre-trained weights for MAGI-1, including the 24B and 4.5B models, as well as the corresponding distill and distill+quant models. The model weight links are shown in the table.
-| Model                         | Link                                                                 | Recommend Machine             |
-| ------------------------------ | -------------------------------------------------------------------- | ------------------------------- |
-| T5                             | [T5](https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/t5)        | -                               |
-| MAGI-1-VAE                     | [MAGI-1-VAE](https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/vae) | -                               |
-| MAGI-1-24B                     | [MAGI-1-24B](https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/24B_base) | H100/H800 × 8                   |
-| MAGI-1-24B-distill              | [MAGI-1-24B-distill](https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/24B_distill) | H100/H800 × 8                   |
-| MAGI-1-24B-distill+fp8_quant    | [MAGI-1-24B-distill+quant](https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/24B_distill_quant) | H100/H800 × 4 or RTX 4090 × 8    |
-| MAGI-1-4.5B                    | [MAGI-1-4.5B](https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/4.5B_base) | RTX 4090 × 1                    |
-| MAGI-1-4.5B-distill             | Coming soon                                                         | RTX 4090 × 1                    |
-| MAGI-1-4.5B-distill+fp8_quant   | Coming soon                                                         | RTX 4090 × 1                    |
-> [!NOTE]
->
-> For 4.5B models, any machine with at least 24GB of GPU memory is sufficient.
 ## 4. Evaluation
 ### In-house Human Evaluation
-MAGI-1 achieves state-of-the-art performance among open-source models like Wan-2.1 and HunyuanVideo and closed-source model like Hailuo (i2v-01), particularly excelling in instruction following and motion quality, positioning it as a strong potential competitor to closed-source commercial models such as Kling.
 ![inhouse human evaluation](figures/inhouse_human_evaluation.png)
 ### Physical Evaluation
-Thanks to the natural advantages of autoregressive architecture, Magi achieves far superior precision in predicting physical behavior on the [Physics-IQ benchmark](https://github.com/google-deepmind/physics-IQ-benchmark) through video continuation—significantly outperforming all existing models.
 | Model          | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓  |
 |----------------|------------------|---------------|-------------------|-------------------------|--------|
 | **V2V Models** |                  |               |                   |                         |        |
-| **Magi-24B (V2V)** | **56.02**        | **0.367**     | **0.270**         | **0.304**               | **0.005** |
-| **Magi-4.5B (V2V)** | **42.44**        | **0.234**     | **0.285**         | **0.188**               | **0.007** |
 | VideoPoet (V2V)| 29.50            | 0.204         | 0.164             | 0.137                   | 0.010  |
 | **I2V Models** |                  |               |                   |                         |        |
-| **Magi-24B (I2V)** | **30.23**        | **0.203**     | **0.151**         | **0.154**               | **0.012** |
 | Kling1.6 (I2V) | 23.64            | 0.197         | 0.086             | 0.144                   | 0.025  |
 | VideoPoet (I2V)| 20.30            | 0.141         | 0.126             | 0.087                   | 0.012  |
 | Gen 3 (I2V)    | 22.80            | 0.201         | 0.115             | 0.116                   | 0.015  |
@@ -153,7 +143,7 @@ pip install -r requirements.txt
 # Install ffmpeg
 conda install -c conda-forge ffmpeg=4.4
-# For GPUs based on the Hopper architecture (e.g., H100/H800), it is recommended to install MagiAttention(https://github.com/SandAI-org/MagiAttention) for acceleration. For non-Hopper GPUs, installing MagiAttention is not necessary.
 git clone [email protected]:SandAI-org/MagiAttention.git
 cd MagiAttention
 git submodule update --init --recursive
@@ -207,12 +197,6 @@ By adjusting these parameters, you can flexibly control the input and output to
 ### Some Useful Configs (for config.json)
-> [!NOTE]
->
-> - If you are running 24B model with RTX 4090 \* 8, please set `pp_size:2 cp_size: 4`.
->
-> - Our model supports arbitrary resolutions. To accelerate inference process, the default resolution for the 4.5B model is set to 720×720 in the `4.5B_config.json`.
 | Config         | Help                                                         |
 | -------------- | ------------------------------------------------------------ |
 | seed           | Random seed used for video generation                        |
@@ -220,7 +204,7 @@ By adjusting these parameters, you can flexibly control the input and output to
 | video_size_w   | Width of the video                                           |
 | num_frames     | Controls the duration of generated video                     |
 | fps            | Frames per second, 4 video frames correspond to 1 latent_frame |
-| cfg_number     | Base model uses cfg_number==3, distill and quant model uses cfg_number=1 |
 | load           | Directory containing a model checkpoint.                     |
 | t5_pretrained  | Path to load pretrained T5 model                             |
 | vae_pretrained | Path to load pretrained VAE model                            |
@@ -235,17 +219,14 @@ This project is licensed under the Apache License 2.0 - see the [LICENSE](LICENS
 If you find our code or model useful in your research, please cite:
 ```bibtex
-@misc{ai2025magi1autoregressivevideogeneration,
       title={MAGI-1: Autoregressive Video Generation at Scale},
-      author={Sand. ai and Hansi Teng and Hongyu Jia and Lei Sun and Lingzhi Li and Maolin Li and Mingqiu Tang and Shuai Han and Tianning Zhang and W. Q. Zhang and Weifeng Luo and Xiaoyang Kang and Yuchen Sun and Yue Cao and Yunpeng Huang and Yutong Lin and Yuxin Fang and Zewei Tao and Zheng Zhang and Zhongshu Wang and Zixun Liu and Dai Shi and Guoli Su and Hanwen Sun and Hong Pan and Jie Wang and Jiexin Sheng and Min Cui and Min Hu and Ming Yan and Shucheng Yin and Siran Zhang and Tingting Liu and Xianping Yin and Xiaoyu Yang and Xin Song and Xuan Hu and Yankai Zhang and Yuqiao Li},
       year={2025},
-      eprint={2505.13211},
-      archivePrefix={arXiv},
-      primaryClass={cs.CV},
-      url={https://arxiv.org/abs/2505.13211},
 }
 ```
 ## 8. Contact
-If you have any questions, please feel free to raise an issue or contact us at [research@sand.ai](mailto:research@sand.ai) .

 language:
 - en
 pipeline_tag: image-to-video
 ---
 ![magi-logo](figures/logo_black.png)
 -----
 <p align="center" style="line-height: 1;">
+  <a href="https://static.magi.world/static/files/MAGI_1.pdf" target="_blank" style="margin: 2px;">
     <img alt="paper" src="https://img.shields.io/badge/Paper-arXiv-B31B1B?logo=arxiv" style="display: inline-block; vertical-align: middle;">
   </a>
   <a href="https://sand.ai" target="_blank" style="margin: 2px;">
 # MAGI-1: Autoregressive Video Generation at Scale
+This repository contains the code for the MAGI-1 model, pre-trained weights and inference code. You can find more information on our [technical report](https://static.magi.world/static/files/MAGI_1.pdf) or directly create magic with MAGI-1 [here](http://sand.ai) . 🚀✨
 ## 🔥🔥🔥 Latest News
 - Apr 21, 2025: MAGI-1 is here 🎉. We've released the model weights and inference code — check it out!
 We provide the pre-trained weights for MAGI-1, including the 24B and 4.5B models, as well as the corresponding distill and distill+quant models. The model weight links are shown in the table.
+| Model                         | Link                                                         | Recommend Machine               |
+| ----------------------------- | ------------------------------------------------------------ | ------------------------------- |
+| T5 | [T5](https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/t5) | - |
+| MAGI-1-VAE  | [MAGI-1-VAE](https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/vae) | - |
+| MAGI-1-24B                    | [MAGI-1-24B](https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/24B_base)       | H100/H800 \* 8                  |
+| MAGI-1-24B-distill            | [MAGI-1-24B-distill](https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/24B_distill) | H100/H800 \* 8                  |
+| MAGI-1-24B-distill+fp8_quant  | [MAGI-1-24B-distill+quant](https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/24B_distill_quant) | H100/H800 \* 4 or RTX 4090 \* 8 |
+| MAGI-1-4.5B                   | MAGI-1-4.5B      | RTX 4090 \* 1                   |
 ## 4. Evaluation
 ### In-house Human Evaluation
+MAGI-1 achieves state-of-the-art performance among open-source models (surpassing Wan-2.1 and significantly outperforming Hailuo and HunyuanVideo), particularly excelling in instruction following and motion quality, positioning it as a strong potential competitor to closed-source commercial models such as Kling.
 ![inhouse human evaluation](figures/inhouse_human_evaluation.png)
 ### Physical Evaluation
+Thanks to the natural advantages of autoregressive architecture, Magi achieves far superior precision in predicting physical behavior through video continuation—significantly outperforming all existing models.
 | Model          | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓  |
 |----------------|------------------|---------------|-------------------|-------------------------|--------|
 | **V2V Models** |                  |               |                   |                         |        |
+| **Magi (V2V)** | **56.02**        | **0.367**     | **0.270**         | **0.304**               | **0.005** |
 | VideoPoet (V2V)| 29.50            | 0.204         | 0.164             | 0.137                   | 0.010  |
 | **I2V Models** |                  |               |                   |                         |        |
+| **Magi (I2V)** | **30.23**        | **0.203**     | **0.151**         | **0.154**               | **0.012** |
 | Kling1.6 (I2V) | 23.64            | 0.197         | 0.086             | 0.144                   | 0.025  |
 | VideoPoet (I2V)| 20.30            | 0.141         | 0.126             | 0.087                   | 0.012  |
 | Gen 3 (I2V)    | 22.80            | 0.201         | 0.115             | 0.116                   | 0.015  |
 # Install ffmpeg
 conda install -c conda-forge ffmpeg=4.4
+# Install MagiAttention, for more information, please refer to https://github.com/SandAI-org/MagiAttention#
 git clone [email protected]:SandAI-org/MagiAttention.git
 cd MagiAttention
 git submodule update --init --recursive
 ### Some Useful Configs (for config.json)
 | Config         | Help                                                         |
 | -------------- | ------------------------------------------------------------ |
 | seed           | Random seed used for video generation                        |
 | video_size_w   | Width of the video                                           |
 | num_frames     | Controls the duration of generated video                     |
 | fps            | Frames per second, 4 video frames correspond to 1 latent_frame |
+| cfg_number     | Base model uses cfg_number==2, distill and quant model uses cfg_number=1 |
 | load           | Directory containing a model checkpoint.                     |
 | t5_pretrained  | Path to load pretrained T5 model                             |
 | vae_pretrained | Path to load pretrained VAE model                            |
 If you find our code or model useful in your research, please cite:
 ```bibtex
+@misc{magi1,
       title={MAGI-1: Autoregressive Video Generation at Scale},
+      author={Sand-AI},
       year={2025},
+      url={https://static.magi.world/static/files/MAGI_1.pdf},
 }
 ```
 ## 8. Contact
+If you have any questions, please feel free to raise an issue or contact us at [support@sand.ai](support@sand.ai) .

ckpt/magi/4.5B_base/inference_weight/model-00002-of-00002.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ea357ebcf099cd0bf40ed68ca582cd8c573b309a44ebe3a25fbec47aa36bc1da
-size 4281314928

ckpt/magi/4.5B_base/inference_weight/model.safetensors.index.json DELETED Viewed

@@ -1,905 +0,0 @@
-{
-  "metadata": {
-    "total_size": 8961059904
-  },
-  "weight_map": {
-    "final_linear.linear.weight": "model-00001-of-00002.safetensors",
-    "rope.bands": "model-00001-of-00002.safetensors",
-    "t_embedder.mlp.0.bias": "model-00001-of-00002.safetensors",
-    "t_embedder.mlp.0.weight": "model-00001-of-00002.safetensors",
-    "t_embedder.mlp.2.bias": "model-00001-of-00002.safetensors",
-    "t_embedder.mlp.2.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.final_layernorm.bias": "model-00001-of-00002.safetensors",
-    "videodit_blocks.final_layernorm.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.0.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.ada_modulate_layer.proj.0.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_kv_xattn.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_proj.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.k.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.q.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.qx.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.v.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "x_embedder.weight": "model-00001-of-00002.safetensors",
-    "y_embedder.null_caption_embedding": "model-00001-of-00002.safetensors",
-    "y_embedder.y_proj_adaln.0.bias": "model-00001-of-00002.safetensors",
-    "y_embedder.y_proj_adaln.0.weight": "model-00001-of-00002.safetensors",
-    "y_embedder.y_proj_xattn.0.bias": "model-00001-of-00002.safetensors",
-    "y_embedder.y_proj_xattn.0.weight": "model-00001-of-00002.safetensors"
-  }
-}

ckpt/magi/4.5B_distill/inference_weight.distill/model-00001-of-00002.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:43b4b8c5feac8b0ec534cafa5d68227f23369999c459c4bd8c449b16d2e31443
-size 4359001088

ckpt/magi/4.5B_distill/inference_weight.distill/model-00002-of-00002.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4f880ce499636f21bdb5ffe8d600abd57c213b66cd1945ffd4efe492c67641d0
-size 4602174432

ckpt/magi/4.5B_distill/inference_weight.distill/model.safetensors.index.json DELETED Viewed

@@ -1,905 +0,0 @@
-{
-  "metadata": {
-    "total_size": 8961059904
-  },
-  "weight_map": {
-    "final_linear.linear.weight": "model-00001-of-00002.safetensors",
-    "rope.bands": "model-00001-of-00002.safetensors",
-    "t_embedder.mlp.0.bias": "model-00001-of-00002.safetensors",
-    "t_embedder.mlp.0.weight": "model-00001-of-00002.safetensors",
-    "t_embedder.mlp.2.bias": "model-00001-of-00002.safetensors",
-    "t_embedder.mlp.2.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.final_layernorm.bias": "model-00001-of-00002.safetensors",
-    "videodit_blocks.final_layernorm.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.0.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.0.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.1.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.10.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.11.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.12.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.13.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.14.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.15.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.16.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.17.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.18.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.19.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.2.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.20.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.21.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.22.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.23.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.24.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.25.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.26.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.27.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.28.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.29.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.3.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.30.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.31.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.32.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.33.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.4.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.5.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.6.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.7.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.8.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.ada_modulate_layer.proj.0.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.ada_modulate_layer.proj.0.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp.linear_fc2.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.mlp_post_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.k_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.k_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.k_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.k_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_kv_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_proj.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.k.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.q.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.qx.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.linear_qkv.v.weight": "model-00001-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.q_layernorm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.q_layernorm.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.q_layernorm_xattn.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attention.q_layernorm_xattn.weight": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attn_post_norm.bias": "model-00002-of-00002.safetensors",
-    "videodit_blocks.layers.9.self_attn_post_norm.weight": "model-00002-of-00002.safetensors",
-    "x_embedder.weight": "model-00001-of-00002.safetensors",
-    "y_embedder.null_caption_embedding": "model-00001-of-00002.safetensors",
-    "y_embedder.y_proj_adaln.0.bias": "model-00001-of-00002.safetensors",
-    "y_embedder.y_proj_adaln.0.weight": "model-00001-of-00002.safetensors",
-    "y_embedder.y_proj_xattn.0.bias": "model-00001-of-00002.safetensors",
-    "y_embedder.y_proj_xattn.0.weight": "model-00001-of-00002.safetensors"
-  }
-}

ckpt/magi/4.5B_distill_quant/inference_weight.fp8.distill/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:fa220da5fe19fdd466151d6f6c511b7c71d8d47adc5348267cb8df1cf666c4af
-size 5140362808