Oysiyl/colqwen_ufo

Files changed (7) hide show

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
-library_name: transformers
-license: mit
-base_model: vidore/ColSmolVLM-Instruct-256M-base
 tags:
 - generated_from_trainer
 model-index:
@@ -14,7 +14,9 @@ should probably proofread and complete it, then remove this comment. -->
 # colqwen_ufo
-This model is a fine-tuned version of [vidore/ColSmolVLM-Instruct-256M-base](https://huggingface.co/vidore/ColSmolVLM-Instruct-256M-base) on an unknown dataset.
 ## Model description
@@ -34,21 +36,30 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- lr_scheduler_warmup_steps: 10
 - num_epochs: 1
 ### Training results
 ### Framework versions
 - Transformers 4.51.3
-- Pytorch 2.5.1
-- Datasets 3.5.0
-- Tokenizers 0.21.1

 ---
+library_name: peft
+license: apache-2.0
+base_model: vidore/colqwen2-base
 tags:
 - generated_from_trainer
 model-index:
 # colqwen_ufo
+This model is a fine-tuned version of [vidore/colqwen2-base](https://huggingface.co/vidore/colqwen2-base) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0562
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 100
 - num_epochs: 1
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 0.1137        | 0.1636 | 80   | 0.0768          |
+| 0.0307        | 0.3272 | 160  | 0.0621          |
+| 0.0336        | 0.4908 | 240  | 0.0627          |
+| 0.0217        | 0.6544 | 320  | 0.0579          |
+| 0.0278        | 0.8180 | 400  | 0.0563          |
+| 0.0265        | 0.9816 | 480  | 0.0562          |
 ### Framework versions
+- PEFT 0.15.2
 - Transformers 4.51.3
+- Pytorch 2.6.0+cu124
+- Datasets 3.3.1
+- Tokenizers 0.21.0

adapter_config.json CHANGED Viewed

@@ -1,7 +1,10 @@
 {
   "alpha_pattern": {},
-  "auto_mapping": null,
-  "base_model_name_or_path": "vidore/ColSmolVLM-Instruct-256M-base",
   "bias": "none",
   "corda_config": null,
   "eva_config": null,
@@ -13,18 +16,21 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 32,
   "lora_bias": false,
-  "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 32,
   "rank_pattern": {},
   "revision": null,
-  "target_modules": "(.*(model.text_model).*(down_proj|gate_proj|up_proj|k_proj|q_proj|v_proj|o_proj).*$|.*(custom_text_proj).*$)",
-  "task_type": "FEATURE_EXTRACTION",
   "trainable_token_indices": null,
   "use_dora": false,
   "use_rslora": false

 {
   "alpha_pattern": {},
+  "auto_mapping": {
+    "base_model_class": "ColQwen2",
+    "parent_library": "colpali_engine.models.qwen2.colqwen2.modeling_colqwen2"
+  },
+  "base_model_name_or_path": "vidore/colqwen2-base",
   "bias": "none",
   "corda_config": null,
   "eva_config": null,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 8,
   "lora_bias": false,
+  "lora_dropout": 0.2,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 4,
   "rank_pattern": {},
   "revision": null,
+  "target_modules": [
+    "q_proj",
+    "k_proj"
+  ],
+  "task_type": null,
   "trainable_token_indices": null,
   "use_dora": false,
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41673fb85f448ff15356e4dfcf9e039d7c6e3cffa1936bc3513f55453005e63e
-size 39135840

 version https://git-lfs.github.com/spec/v1
+oid sha256:66dca3fd48867b79a469387304647321e0dea39f5438071886421b47bdd58b61
+size 132730032

runs/May07_17-18-40_ip-10-192-10-175/events.out.tfevents.1746638328.ip-10-192-10-175.3983.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:db5ff73724d08ad080f059d57bbb9ef413450224878213e3f312b92f6749c29f
+size 5638

runs/May07_17-19-39_ip-10-192-10-175/events.out.tfevents.1746638386.ip-10-192-10-175.3983.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:928da6ab483c928002ff76eb093c4adeb93f66303e433ff9f5d19827e65b5cdc
+size 5638

runs/May07_17-22-24_ip-10-192-10-175/events.out.tfevents.1746638561.ip-10-192-10-175.43874.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:75c449e99f36c7376b7201e4970e7467e5ec3083e59cd0378b9696a1eb7cba8d
+size 8875

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32ec14544898b9243dc956d50f0fbbf0bc2d36113ef552e8be825d584c7545b5
-size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:89555fce4fe9ffb7b930a4668f937f799afe169db4bde67006db1bea17e66b49
+size 5304