Model save

Browse files

Files changed (4) hide show

README.md +78 -0
all_results.json +9 -0
train_results.json +9 -0
trainer_state.json +340 -0

README.md ADDED Viewed

	@@ -0,0 +1,78 @@

+---
+library_name: peft
+license: llama3.2
+base_model: meta-llama/Llama-3.2-1B
+tags:
+- trl
+- sft
+- generated_from_trainer
+datasets:
+- generator
+model-index:
+- name: llama3-1b-classification-gpt4o-100k
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# llama3-1b-classification-gpt4o-100k
+This model is a fine-tuned version of [meta-llama/Llama-3.2-1B](https://huggingface.co/meta-llama/Llama-3.2-1B) on the generator dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.3686
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 512
+- total_eval_batch_size: 256
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 10
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 2.759         | 1.0   | 15   | 2.6168          |
+| 2.3698        | 2.0   | 30   | 2.4602          |
+| 2.2521        | 3.0   | 45   | 2.3993          |
+| 2.1865        | 4.0   | 60   | 2.3780          |
+| 2.1518        | 5.0   | 75   | 2.3706          |
+| 2.1331        | 6.0   | 90   | 2.3701          |
+| 2.1168        | 7.0   | 105  | 2.3705          |
+| 2.1121        | 8.0   | 120  | 2.3697          |
+| 2.1081        | 9.0   | 135  | 2.3696          |
+| 2.1077        | 10.0  | 150  | 2.3686          |
+### Framework versions
+- PEFT 0.15.1
+- Transformers 4.50.3
+- Pytorch 2.6.0+cu124
+- Datasets 3.5.0
+- Tokenizers 0.21.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "total_flos": 4.607959816470528e+17,
+    "train_loss": 2.2735363483428954,
+    "train_runtime": 707.5313,
+    "train_samples": 92634,
+    "train_samples_per_second": 106.978,
+    "train_steps_per_second": 0.212
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "total_flos": 4.607959816470528e+17,
+    "train_loss": 2.2735363483428954,
+    "train_runtime": 707.5313,
+    "train_samples": 92634,
+    "train_samples_per_second": 106.978,
+    "train_steps_per_second": 0.212
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,340 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 150,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 6.182748794555664,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 3.3242,
+      "step": 1
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 5.428755283355713,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 3.3024,
+      "step": 5
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 1.8031461238861084,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 3.0512,
+      "step": 10
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.0242935419082642,
+      "learning_rate": 0.0002,
+      "loss": 2.759,
+      "step": 15
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.6168200969696045,
+      "eval_runtime": 0.8249,
+      "eval_samples_per_second": 2.425,
+      "eval_steps_per_second": 1.212,
+      "step": 15
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 0.654896080493927,
+      "learning_rate": 0.00019932383577419432,
+      "loss": 2.5777,
+      "step": 20
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.4863899052143097,
+      "learning_rate": 0.00019730448705798239,
+      "loss": 2.451,
+      "step": 25
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.3055514991283417,
+      "learning_rate": 0.00019396926207859084,
+      "loss": 2.3698,
+      "step": 30
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.460226058959961,
+      "eval_runtime": 0.8278,
+      "eval_samples_per_second": 2.416,
+      "eval_steps_per_second": 1.208,
+      "step": 30
+    },
+    {
+      "epoch": 2.3333333333333335,
+      "grad_norm": 0.2144581824541092,
+      "learning_rate": 0.00018936326403234125,
+      "loss": 2.3071,
+      "step": 35
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.18541619181632996,
+      "learning_rate": 0.00018354878114129367,
+      "loss": 2.2806,
+      "step": 40
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.16438105702400208,
+      "learning_rate": 0.0001766044443118978,
+      "loss": 2.2521,
+      "step": 45
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 2.399292230606079,
+      "eval_runtime": 0.8291,
+      "eval_samples_per_second": 2.412,
+      "eval_steps_per_second": 1.206,
+      "step": 45
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.1444542109966278,
+      "learning_rate": 0.0001686241637868734,
+      "loss": 2.2256,
+      "step": 50
+    },
+    {
+      "epoch": 3.6666666666666665,
+      "grad_norm": 0.12350399047136307,
+      "learning_rate": 0.00015971585917027862,
+      "loss": 2.2069,
+      "step": 55
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.12858685851097107,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 2.1865,
+      "step": 60
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 2.3779759407043457,
+      "eval_runtime": 0.8275,
+      "eval_samples_per_second": 2.417,
+      "eval_steps_per_second": 1.208,
+      "step": 60
+    },
+    {
+      "epoch": 4.333333333333333,
+      "grad_norm": 0.11426849663257599,
+      "learning_rate": 0.0001396079766039157,
+      "loss": 2.1796,
+      "step": 65
+    },
+    {
+      "epoch": 4.666666666666667,
+      "grad_norm": 0.11002852022647858,
+      "learning_rate": 0.00012868032327110904,
+      "loss": 2.1632,
+      "step": 70
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.11463355273008347,
+      "learning_rate": 0.00011736481776669306,
+      "loss": 2.1518,
+      "step": 75
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 2.3705692291259766,
+      "eval_runtime": 0.8277,
+      "eval_samples_per_second": 2.416,
+      "eval_steps_per_second": 1.208,
+      "step": 75
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 0.10701094567775726,
+      "learning_rate": 0.00010581448289104758,
+      "loss": 2.1438,
+      "step": 80
+    },
+    {
+      "epoch": 5.666666666666667,
+      "grad_norm": 0.10402818769216537,
+      "learning_rate": 9.418551710895243e-05,
+      "loss": 2.1353,
+      "step": 85
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.10872997343540192,
+      "learning_rate": 8.263518223330697e-05,
+      "loss": 2.1331,
+      "step": 90
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 2.370138645172119,
+      "eval_runtime": 0.8279,
+      "eval_samples_per_second": 2.416,
+      "eval_steps_per_second": 1.208,
+      "step": 90
+    },
+    {
+      "epoch": 6.333333333333333,
+      "grad_norm": 0.11619067192077637,
+      "learning_rate": 7.131967672889101e-05,
+      "loss": 2.1258,
+      "step": 95
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 0.12228544801473618,
+      "learning_rate": 6.039202339608432e-05,
+      "loss": 2.1196,
+      "step": 100
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.11531439423561096,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 2.1168,
+      "step": 105
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 2.3705224990844727,
+      "eval_runtime": 0.8289,
+      "eval_samples_per_second": 2.413,
+      "eval_steps_per_second": 1.206,
+      "step": 105
+    },
+    {
+      "epoch": 7.333333333333333,
+      "grad_norm": 0.10404527932405472,
+      "learning_rate": 4.028414082972141e-05,
+      "loss": 2.1119,
+      "step": 110
+    },
+    {
+      "epoch": 7.666666666666667,
+      "grad_norm": 0.10795953124761581,
+      "learning_rate": 3.137583621312665e-05,
+      "loss": 2.1085,
+      "step": 115
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.11347240209579468,
+      "learning_rate": 2.339555568810221e-05,
+      "loss": 2.1121,
+      "step": 120
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 2.369734048843384,
+      "eval_runtime": 0.8296,
+      "eval_samples_per_second": 2.411,
+      "eval_steps_per_second": 1.205,
+      "step": 120
+    },
+    {
+      "epoch": 8.333333333333334,
+      "grad_norm": 0.10211199522018433,
+      "learning_rate": 1.6451218858706374e-05,
+      "loss": 2.1088,
+      "step": 125
+    },
+    {
+      "epoch": 8.666666666666666,
+      "grad_norm": 0.0971965491771698,
+      "learning_rate": 1.0636735967658784e-05,
+      "loss": 2.101,
+      "step": 130
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.0981559231877327,
+      "learning_rate": 6.030737921409169e-06,
+      "loss": 2.1081,
+      "step": 135
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 2.3695523738861084,
+      "eval_runtime": 0.8287,
+      "eval_samples_per_second": 2.413,
+      "eval_steps_per_second": 1.207,
+      "step": 135
+    },
+    {
+      "epoch": 9.333333333333334,
+      "grad_norm": 0.09640078991651535,
+      "learning_rate": 2.6955129420176196e-06,
+      "loss": 2.1009,
+      "step": 140
+    },
+    {
+      "epoch": 9.666666666666666,
+      "grad_norm": 0.09775780886411667,
+      "learning_rate": 6.761642258056978e-07,
+      "loss": 2.1037,
+      "step": 145
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.09380096942186356,
+      "learning_rate": 0.0,
+      "loss": 2.1077,
+      "step": 150
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 2.368610143661499,
+      "eval_runtime": 0.8302,
+      "eval_samples_per_second": 2.409,
+      "eval_steps_per_second": 1.205,
+      "step": 150
+    },
+    {
+      "epoch": 10.0,
+      "step": 150,
+      "total_flos": 4.607959816470528e+17,
+      "train_loss": 2.2735363483428954,
+      "train_runtime": 707.5313,
+      "train_samples_per_second": 106.978,
+      "train_steps_per_second": 0.212
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 150,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.607959816470528e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}