Model save

Browse files

Files changed (4) hide show

README.md +78 -0
all_results.json +9 -0
train_results.json +9 -0
trainer_state.json +508 -0

README.md ADDED Viewed

	@@ -0,0 +1,78 @@

+---
+library_name: peft
+license: llama3.2
+base_model: meta-llama/Llama-3.2-1B
+tags:
+- trl
+- sft
+- generated_from_trainer
+datasets:
+- generator
+model-index:
+- name: llama3-1b-summarize-gpt4o-128k
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# llama3-1b-summarize-gpt4o-128k
+This model is a fine-tuned version of [meta-llama/Llama-3.2-1B](https://huggingface.co/meta-llama/Llama-3.2-1B) on the generator dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.7256
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 512
+- total_eval_batch_size: 256
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 10
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 2.1182        | 1.0    | 28   | 2.7821          |
+| 1.8354        | 2.0    | 56   | 2.7378          |
+| 1.7604        | 3.0    | 84   | 2.7259          |
+| 1.7035        | 4.0    | 112  | 2.7250          |
+| 1.6822        | 5.0    | 140  | 2.7263          |
+| 1.6619        | 6.0    | 168  | 2.7254          |
+| 1.6471        | 7.0    | 196  | 2.7241          |
+| 1.6458        | 8.0    | 224  | 2.7253          |
+| 1.641         | 9.0    | 252  | 2.7256          |
+| 1.6383        | 9.6545 | 270  | 2.7256          |
+### Framework versions
+- PEFT 0.15.1
+- Transformers 4.50.3
+- Pytorch 2.6.0+cu124
+- Datasets 3.5.0
+- Tokenizers 0.21.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 9.654545454545454,
+    "total_flos": 8.156088875152835e+17,
+    "train_loss": 1.7710220513520418,
+    "train_runtime": 1245.0854,
+    "train_samples": 129221,
+    "train_samples_per_second": 112.233,
+    "train_steps_per_second": 0.217
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 9.654545454545454,
+    "total_flos": 8.156088875152835e+17,
+    "train_loss": 1.7710220513520418,
+    "train_runtime": 1245.0854,
+    "train_samples": 129221,
+    "train_samples_per_second": 112.233,
+    "train_steps_per_second": 0.217
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,508 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.654545454545454,
+  "eval_steps": 500,
+  "global_step": 270,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03636363636363636,
+      "grad_norm": 3.691458225250244,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 2.6618,
+      "step": 1
+    },
+    {
+      "epoch": 0.18181818181818182,
+      "grad_norm": 3.446274518966675,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 2.6408,
+      "step": 5
+    },
+    {
+      "epoch": 0.36363636363636365,
+      "grad_norm": 2.032472848892212,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 2.5317,
+      "step": 10
+    },
+    {
+      "epoch": 0.5454545454545454,
+      "grad_norm": 0.9463324546813965,
+      "learning_rate": 0.00011111111111111112,
+      "loss": 2.36,
+      "step": 15
+    },
+    {
+      "epoch": 0.7272727272727273,
+      "grad_norm": 0.7080094218254089,
+      "learning_rate": 0.00014814814814814815,
+      "loss": 2.2174,
+      "step": 20
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "grad_norm": 0.5037975311279297,
+      "learning_rate": 0.0001851851851851852,
+      "loss": 2.1182,
+      "step": 25
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.782132625579834,
+      "eval_runtime": 0.8292,
+      "eval_samples_per_second": 12.06,
+      "eval_steps_per_second": 1.206,
+      "step": 28
+    },
+    {
+      "epoch": 1.0727272727272728,
+      "grad_norm": 0.41888633370399475,
+      "learning_rate": 0.00019992479525042303,
+      "loss": 2.0277,
+      "step": 30
+    },
+    {
+      "epoch": 1.2545454545454544,
+      "grad_norm": 0.27915704250335693,
+      "learning_rate": 0.00019946562024066014,
+      "loss": 1.9587,
+      "step": 35
+    },
+    {
+      "epoch": 1.4363636363636363,
+      "grad_norm": 0.20056034624576569,
+      "learning_rate": 0.00019859096633447965,
+      "loss": 1.9087,
+      "step": 40
+    },
+    {
+      "epoch": 1.6181818181818182,
+      "grad_norm": 0.16737522184848785,
+      "learning_rate": 0.00019730448705798239,
+      "loss": 1.8766,
+      "step": 45
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 0.15048423409461975,
+      "learning_rate": 0.00019561155617738797,
+      "loss": 1.8481,
+      "step": 50
+    },
+    {
+      "epoch": 1.981818181818182,
+      "grad_norm": 0.1224176436662674,
+      "learning_rate": 0.000193519245252219,
+      "loss": 1.8354,
+      "step": 55
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.737755537033081,
+      "eval_runtime": 0.829,
+      "eval_samples_per_second": 12.063,
+      "eval_steps_per_second": 1.206,
+      "step": 56
+    },
+    {
+      "epoch": 2.1454545454545455,
+      "grad_norm": 0.1324545294046402,
+      "learning_rate": 0.0001910362940966147,
+      "loss": 1.8118,
+      "step": 60
+    },
+    {
+      "epoch": 2.327272727272727,
+      "grad_norm": 0.11611360311508179,
+      "learning_rate": 0.0001881730742721608,
+      "loss": 1.7937,
+      "step": 65
+    },
+    {
+      "epoch": 2.509090909090909,
+      "grad_norm": 0.1148991584777832,
+      "learning_rate": 0.00018494154576472976,
+      "loss": 1.7791,
+      "step": 70
+    },
+    {
+      "epoch": 2.690909090909091,
+      "grad_norm": 0.11438702791929245,
+      "learning_rate": 0.00018135520702629675,
+      "loss": 1.7654,
+      "step": 75
+    },
+    {
+      "epoch": 2.8727272727272726,
+      "grad_norm": 0.11716635525226593,
+      "learning_rate": 0.00017742903859041325,
+      "loss": 1.7604,
+      "step": 80
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 2.7259373664855957,
+      "eval_runtime": 0.8303,
+      "eval_samples_per_second": 12.044,
+      "eval_steps_per_second": 1.204,
+      "step": 84
+    },
+    {
+      "epoch": 3.036363636363636,
+      "grad_norm": 0.1302882581949234,
+      "learning_rate": 0.00017317944049686124,
+      "loss": 1.7453,
+      "step": 85
+    },
+    {
+      "epoch": 3.2181818181818183,
+      "grad_norm": 0.12489154189825058,
+      "learning_rate": 0.0001686241637868734,
+      "loss": 1.7396,
+      "step": 90
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 0.10804688185453415,
+      "learning_rate": 0.0001637822363550706,
+      "loss": 1.7272,
+      "step": 95
+    },
+    {
+      "epoch": 3.581818181818182,
+      "grad_norm": 0.1448238343000412,
+      "learning_rate": 0.0001586738834678418,
+      "loss": 1.7231,
+      "step": 100
+    },
+    {
+      "epoch": 3.7636363636363637,
+      "grad_norm": 0.12403673678636551,
+      "learning_rate": 0.00015332044328016914,
+      "loss": 1.7101,
+      "step": 105
+    },
+    {
+      "epoch": 3.9454545454545453,
+      "grad_norm": 0.11520184576511383,
+      "learning_rate": 0.0001477442777037949,
+      "loss": 1.7035,
+      "step": 110
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 2.724990129470825,
+      "eval_runtime": 0.8296,
+      "eval_samples_per_second": 12.053,
+      "eval_steps_per_second": 1.205,
+      "step": 112
+    },
+    {
+      "epoch": 4.109090909090909,
+      "grad_norm": 0.11850611865520477,
+      "learning_rate": 0.0001419686789990429,
+      "loss": 1.6998,
+      "step": 115
+    },
+    {
+      "epoch": 4.290909090909091,
+      "grad_norm": 0.141310453414917,
+      "learning_rate": 0.00013601777248047105,
+      "loss": 1.6942,
+      "step": 120
+    },
+    {
+      "epoch": 4.472727272727273,
+      "grad_norm": 0.14388997852802277,
+      "learning_rate": 0.00012991641574276418,
+      "loss": 1.6887,
+      "step": 125
+    },
+    {
+      "epoch": 4.654545454545454,
+      "grad_norm": 0.11356977373361588,
+      "learning_rate": 0.00012369009482781192,
+      "loss": 1.6845,
+      "step": 130
+    },
+    {
+      "epoch": 4.836363636363636,
+      "grad_norm": 0.13505423069000244,
+      "learning_rate": 0.00011736481776669306,
+      "loss": 1.6801,
+      "step": 135
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.18071481585502625,
+      "learning_rate": 0.00011096700594125318,
+      "loss": 1.6822,
+      "step": 140
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 2.7262730598449707,
+      "eval_runtime": 0.8327,
+      "eval_samples_per_second": 12.009,
+      "eval_steps_per_second": 1.201,
+      "step": 140
+    },
+    {
+      "epoch": 5.181818181818182,
+      "grad_norm": 0.12405228614807129,
+      "learning_rate": 0.00010452338371907064,
+      "loss": 1.671,
+      "step": 145
+    },
+    {
+      "epoch": 5.363636363636363,
+      "grad_norm": 0.15709254145622253,
+      "learning_rate": 9.806086682281758e-05,
+      "loss": 1.6697,
+      "step": 150
+    },
+    {
+      "epoch": 5.545454545454545,
+      "grad_norm": 0.1405353993177414,
+      "learning_rate": 9.160644990030931e-05,
+      "loss": 1.6707,
+      "step": 155
+    },
+    {
+      "epoch": 5.7272727272727275,
+      "grad_norm": 0.13487176597118378,
+      "learning_rate": 8.518709376487515e-05,
+      "loss": 1.6619,
+      "step": 160
+    },
+    {
+      "epoch": 5.909090909090909,
+      "grad_norm": 0.12394227087497711,
+      "learning_rate": 7.882961277705895e-05,
+      "loss": 1.6619,
+      "step": 165
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 2.7253997325897217,
+      "eval_runtime": 0.8321,
+      "eval_samples_per_second": 12.017,
+      "eval_steps_per_second": 1.202,
+      "step": 168
+    },
+    {
+      "epoch": 6.072727272727272,
+      "grad_norm": 0.11816684156656265,
+      "learning_rate": 7.256056283806986e-05,
+      "loss": 1.6573,
+      "step": 170
+    },
+    {
+      "epoch": 6.254545454545455,
+      "grad_norm": 0.14117498695850372,
+      "learning_rate": 6.640613046284581e-05,
+      "loss": 1.6622,
+      "step": 175
+    },
+    {
+      "epoch": 6.4363636363636365,
+      "grad_norm": 0.1342514008283615,
+      "learning_rate": 6.039202339608432e-05,
+      "loss": 1.6535,
+      "step": 180
+    },
+    {
+      "epoch": 6.618181818181818,
+      "grad_norm": 0.13483189046382904,
+      "learning_rate": 5.4543363228149946e-05,
+      "loss": 1.6532,
+      "step": 185
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 0.1636153757572174,
+      "learning_rate": 4.888458045941269e-05,
+      "loss": 1.6482,
+      "step": 190
+    },
+    {
+      "epoch": 6.9818181818181815,
+      "grad_norm": 0.1563912183046341,
+      "learning_rate": 4.343931245134616e-05,
+      "loss": 1.6471,
+      "step": 195
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 2.7240517139434814,
+      "eval_runtime": 0.8312,
+      "eval_samples_per_second": 12.031,
+      "eval_steps_per_second": 1.203,
+      "step": 196
+    },
+    {
+      "epoch": 7.1454545454545455,
+      "grad_norm": 0.11320989578962326,
+      "learning_rate": 3.8230304690654304e-05,
+      "loss": 1.6472,
+      "step": 200
+    },
+    {
+      "epoch": 7.327272727272727,
+      "grad_norm": 0.111383818089962,
+      "learning_rate": 3.3279315778858036e-05,
+      "loss": 1.6488,
+      "step": 205
+    },
+    {
+      "epoch": 7.509090909090909,
+      "grad_norm": 0.10844731330871582,
+      "learning_rate": 2.8607026544210114e-05,
+      "loss": 1.6458,
+      "step": 210
+    },
+    {
+      "epoch": 7.690909090909091,
+      "grad_norm": 0.10823339223861694,
+      "learning_rate": 2.423295365558821e-05,
+      "loss": 1.6456,
+      "step": 215
+    },
+    {
+      "epoch": 7.872727272727273,
+      "grad_norm": 0.10790830850601196,
+      "learning_rate": 2.01753680992107e-05,
+      "loss": 1.6458,
+      "step": 220
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 2.7252650260925293,
+      "eval_runtime": 0.8302,
+      "eval_samples_per_second": 12.045,
+      "eval_steps_per_second": 1.204,
+      "step": 224
+    },
+    {
+      "epoch": 8.036363636363637,
+      "grad_norm": 0.11462420970201492,
+      "learning_rate": 1.6451218858706374e-05,
+      "loss": 1.643,
+      "step": 225
+    },
+    {
+      "epoch": 8.218181818181819,
+      "grad_norm": 0.10164881497621536,
+      "learning_rate": 1.307606211733522e-05,
+      "loss": 1.6435,
+      "step": 230
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 0.11715802550315857,
+      "learning_rate": 1.0063996278090704e-05,
+      "loss": 1.6436,
+      "step": 235
+    },
+    {
+      "epoch": 8.581818181818182,
+      "grad_norm": 0.1077931597828865,
+      "learning_rate": 7.427603073110967e-06,
+      "loss": 1.6437,
+      "step": 240
+    },
+    {
+      "epoch": 8.763636363636364,
+      "grad_norm": 0.09881118685007095,
+      "learning_rate": 5.177895008392353e-06,
+      "loss": 1.6415,
+      "step": 245
+    },
+    {
+      "epoch": 8.945454545454545,
+      "grad_norm": 0.0973580852150917,
+      "learning_rate": 3.3242693633337983e-06,
+      "loss": 1.641,
+      "step": 250
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 2.725569009780884,
+      "eval_runtime": 0.8306,
+      "eval_samples_per_second": 12.039,
+      "eval_steps_per_second": 1.204,
+      "step": 252
+    },
+    {
+      "epoch": 9.10909090909091,
+      "grad_norm": 0.10264136642217636,
+      "learning_rate": 1.874468937261531e-06,
+      "loss": 1.6464,
+      "step": 255
+    },
+    {
+      "epoch": 9.290909090909091,
+      "grad_norm": 0.1021399274468422,
+      "learning_rate": 8.345497068998897e-07,
+      "loss": 1.6443,
+      "step": 260
+    },
+    {
+      "epoch": 9.472727272727273,
+      "grad_norm": 0.10423731058835983,
+      "learning_rate": 2.088555298867978e-07,
+      "loss": 1.6436,
+      "step": 265
+    },
+    {
+      "epoch": 9.654545454545454,
+      "grad_norm": 0.09860274940729141,
+      "learning_rate": 0.0,
+      "loss": 1.6383,
+      "step": 270
+    },
+    {
+      "epoch": 9.654545454545454,
+      "eval_loss": 2.725593328475952,
+      "eval_runtime": 0.8317,
+      "eval_samples_per_second": 12.024,
+      "eval_steps_per_second": 1.202,
+      "step": 270
+    },
+    {
+      "epoch": 9.654545454545454,
+      "step": 270,
+      "total_flos": 8.156088875152835e+17,
+      "train_loss": 1.7710220513520418,
+      "train_runtime": 1245.0854,
+      "train_samples_per_second": 112.233,
+      "train_steps_per_second": 0.217
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 270,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.156088875152835e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}