Model save

Browse files

Files changed (4) hide show

README.md +78 -0
all_results.json +9 -0
train_results.json +9 -0
trainer_state.json +606 -0

README.md ADDED Viewed

	@@ -0,0 +1,78 @@

+---
+library_name: peft
+license: llama3.2
+base_model: meta-llama/Llama-3.2-1B
+tags:
+- trl
+- sft
+- generated_from_trainer
+datasets:
+- generator
+model-index:
+- name: llama3.1-1b-coding-gpt4o-100k2
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# llama3.1-1b-coding-gpt4o-100k2
+This model is a fine-tuned version of [meta-llama/Llama-3.2-1B](https://huggingface.co/meta-llama/Llama-3.2-1B) on the generator dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.6745
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.002
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 512
+- total_eval_batch_size: 256
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 10
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 1.2024        | 1.0   | 34   | 1.7381          |
+| 1.0846        | 2.0   | 68   | 1.6923          |
+| 1.0447        | 3.0   | 102  | 1.6731          |
+| 1.0207        | 4.0   | 136  | 1.6660          |
+| 1.0039        | 5.0   | 170  | 1.6681          |
+| 0.9957        | 6.0   | 204  | 1.6620          |
+| 0.9793        | 7.0   | 238  | 1.6656          |
+| 0.9761        | 8.0   | 272  | 1.6707          |
+| 0.9678        | 9.0   | 306  | 1.6741          |
+| 0.9709        | 10.0  | 340  | 1.6745          |
+### Framework versions
+- PEFT 0.15.1
+- Transformers 4.50.3
+- Pytorch 2.6.0+cu124
+- Datasets 3.5.0
+- Tokenizers 0.21.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "total_flos": 1.0444708917333197e+18,
+    "train_loss": 1.0473914388348073,
+    "train_runtime": 1591.5084,
+    "train_samples": 116368,
+    "train_samples_per_second": 108.407,
+    "train_steps_per_second": 0.214
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "total_flos": 1.0444708917333197e+18,
+    "train_loss": 1.0473914388348073,
+    "train_runtime": 1591.5084,
+    "train_samples": 116368,
+    "train_samples_per_second": 108.407,
+    "train_steps_per_second": 0.214
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,606 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 340,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.029411764705882353,
+      "grad_norm": 2.488327741622925,
+      "learning_rate": 5.882352941176471e-05,
+      "loss": 1.9016,
+      "step": 1
+    },
+    {
+      "epoch": 0.14705882352941177,
+      "grad_norm": 1.427666425704956,
+      "learning_rate": 0.00029411764705882356,
+      "loss": 1.8391,
+      "step": 5
+    },
+    {
+      "epoch": 0.29411764705882354,
+      "grad_norm": 0.6930230259895325,
+      "learning_rate": 0.0005882352941176471,
+      "loss": 1.5625,
+      "step": 10
+    },
+    {
+      "epoch": 0.4411764705882353,
+      "grad_norm": 0.2596357762813568,
+      "learning_rate": 0.0008823529411764706,
+      "loss": 1.3849,
+      "step": 15
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 0.16956600546836853,
+      "learning_rate": 0.0011764705882352942,
+      "loss": 1.2969,
+      "step": 20
+    },
+    {
+      "epoch": 0.7352941176470589,
+      "grad_norm": 0.12523840367794037,
+      "learning_rate": 0.0014705882352941178,
+      "loss": 1.2405,
+      "step": 25
+    },
+    {
+      "epoch": 0.8823529411764706,
+      "grad_norm": 0.09968027472496033,
+      "learning_rate": 0.0017647058823529412,
+      "loss": 1.2024,
+      "step": 30
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.7381153106689453,
+      "eval_runtime": 0.828,
+      "eval_samples_per_second": 4.831,
+      "eval_steps_per_second": 1.208,
+      "step": 34
+    },
+    {
+      "epoch": 1.0294117647058822,
+      "grad_norm": 0.366025447845459,
+      "learning_rate": 0.001999947298487173,
+      "loss": 1.1724,
+      "step": 35
+    },
+    {
+      "epoch": 1.1764705882352942,
+      "grad_norm": 0.12924526631832123,
+      "learning_rate": 0.0019981033287370443,
+      "loss": 1.1507,
+      "step": 40
+    },
+    {
+      "epoch": 1.3235294117647058,
+      "grad_norm": 0.15898454189300537,
+      "learning_rate": 0.0019936298356132177,
+      "loss": 1.1306,
+      "step": 45
+    },
+    {
+      "epoch": 1.4705882352941178,
+      "grad_norm": 0.09307724982500076,
+      "learning_rate": 0.0019865386046236597,
+      "loss": 1.1156,
+      "step": 50
+    },
+    {
+      "epoch": 1.6176470588235294,
+      "grad_norm": 0.0881420224905014,
+      "learning_rate": 0.001976848317759601,
+      "loss": 1.1038,
+      "step": 55
+    },
+    {
+      "epoch": 1.7647058823529411,
+      "grad_norm": 0.08049994707107544,
+      "learning_rate": 0.0019645845042774554,
+      "loss": 1.0939,
+      "step": 60
+    },
+    {
+      "epoch": 1.9117647058823528,
+      "grad_norm": 0.07463372498750687,
+      "learning_rate": 0.001949779473441478,
+      "loss": 1.0846,
+      "step": 65
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.6922645568847656,
+      "eval_runtime": 0.8305,
+      "eval_samples_per_second": 4.817,
+      "eval_steps_per_second": 1.204,
+      "step": 68
+    },
+    {
+      "epoch": 2.0588235294117645,
+      "grad_norm": 0.09218032658100128,
+      "learning_rate": 0.0019324722294043557,
+      "loss": 1.0691,
+      "step": 70
+    },
+    {
+      "epoch": 2.2058823529411766,
+      "grad_norm": 0.09160086512565613,
+      "learning_rate": 0.0019127083684499803,
+      "loss": 1.0627,
+      "step": 75
+    },
+    {
+      "epoch": 2.3529411764705883,
+      "grad_norm": 0.08734273165464401,
+      "learning_rate": 0.0018905399588691164,
+      "loss": 1.0554,
+      "step": 80
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.16841983795166016,
+      "learning_rate": 0.001866025403784439,
+      "loss": 1.0504,
+      "step": 85
+    },
+    {
+      "epoch": 2.6470588235294117,
+      "grad_norm": 0.0975656732916832,
+      "learning_rate": 0.0018392292872863268,
+      "loss": 1.0538,
+      "step": 90
+    },
+    {
+      "epoch": 2.7941176470588234,
+      "grad_norm": 0.08383582532405853,
+      "learning_rate": 0.0018102222042847736,
+      "loss": 1.0443,
+      "step": 95
+    },
+    {
+      "epoch": 2.9411764705882355,
+      "grad_norm": 0.09132234007120132,
+      "learning_rate": 0.0017790805745256705,
+      "loss": 1.0447,
+      "step": 100
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.6731293201446533,
+      "eval_runtime": 0.8295,
+      "eval_samples_per_second": 4.822,
+      "eval_steps_per_second": 1.206,
+      "step": 102
+    },
+    {
+      "epoch": 3.088235294117647,
+      "grad_norm": 0.09759514033794403,
+      "learning_rate": 0.0017458864412614435,
+      "loss": 1.0375,
+      "step": 105
+    },
+    {
+      "epoch": 3.235294117647059,
+      "grad_norm": 0.09400475025177002,
+      "learning_rate": 0.0017107272551064472,
+      "loss": 1.0277,
+      "step": 110
+    },
+    {
+      "epoch": 3.3823529411764706,
+      "grad_norm": 0.07706195116043091,
+      "learning_rate": 0.0016736956436465573,
+      "loss": 1.0239,
+      "step": 115
+    },
+    {
+      "epoch": 3.5294117647058822,
+      "grad_norm": 0.08647977560758591,
+      "learning_rate": 0.0016348891674099228,
+      "loss": 1.0229,
+      "step": 120
+    },
+    {
+      "epoch": 3.6764705882352944,
+      "grad_norm": 0.08289068937301636,
+      "learning_rate": 0.0015944100628417868,
+      "loss": 1.0238,
+      "step": 125
+    },
+    {
+      "epoch": 3.8235294117647056,
+      "grad_norm": 0.08053147792816162,
+      "learning_rate": 0.0015523649729605059,
+      "loss": 1.0195,
+      "step": 130
+    },
+    {
+      "epoch": 3.9705882352941178,
+      "grad_norm": 0.08788559585809708,
+      "learning_rate": 0.001508864666404365,
+      "loss": 1.0207,
+      "step": 135
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.6660211086273193,
+      "eval_runtime": 0.8294,
+      "eval_samples_per_second": 4.823,
+      "eval_steps_per_second": 1.206,
+      "step": 136
+    },
+    {
+      "epoch": 4.117647058823529,
+      "grad_norm": 0.0886395052075386,
+      "learning_rate": 0.0014640237456093634,
+      "loss": 1.007,
+      "step": 140
+    },
+    {
+      "epoch": 4.264705882352941,
+      "grad_norm": 0.08254272490739822,
+      "learning_rate": 0.0014179603448867834,
+      "loss": 1.0049,
+      "step": 145
+    },
+    {
+      "epoch": 4.411764705882353,
+      "grad_norm": 0.08430016040802002,
+      "learning_rate": 0.0013707958191959608,
+      "loss": 1.0103,
+      "step": 150
+    },
+    {
+      "epoch": 4.5588235294117645,
+      "grad_norm": 0.0816187709569931,
+      "learning_rate": 0.001322654424432195,
+      "loss": 1.0011,
+      "step": 155
+    },
+    {
+      "epoch": 4.705882352941177,
+      "grad_norm": 0.08980533480644226,
+      "learning_rate": 0.0012736629900720832,
+      "loss": 1.0107,
+      "step": 160
+    },
+    {
+      "epoch": 4.852941176470588,
+      "grad_norm": 0.08757297694683075,
+      "learning_rate": 0.0012239505850387032,
+      "loss": 1.0035,
+      "step": 165
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.08535553514957428,
+      "learning_rate": 0.0011736481776669307,
+      "loss": 1.0039,
+      "step": 170
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.668144941329956,
+      "eval_runtime": 0.8286,
+      "eval_samples_per_second": 4.827,
+      "eval_steps_per_second": 1.207,
+      "step": 170
+    },
+    {
+      "epoch": 5.147058823529412,
+      "grad_norm": 0.08561732620000839,
+      "learning_rate": 0.0011228882906647141,
+      "loss": 0.9888,
+      "step": 175
+    },
+    {
+      "epoch": 5.294117647058823,
+      "grad_norm": 0.08237646520137787,
+      "learning_rate": 0.0010718046519793277,
+      "loss": 0.994,
+      "step": 180
+    },
+    {
+      "epoch": 5.4411764705882355,
+      "grad_norm": 0.07582972943782806,
+      "learning_rate": 0.0010205318424883906,
+      "loss": 0.9953,
+      "step": 185
+    },
+    {
+      "epoch": 5.588235294117647,
+      "grad_norm": 0.07832607626914978,
+      "learning_rate": 0.0009692049414438299,
+      "loss": 0.991,
+      "step": 190
+    },
+    {
+      "epoch": 5.735294117647059,
+      "grad_norm": 0.08117620646953583,
+      "learning_rate": 0.0009179591706028624,
+      "loss": 0.9931,
+      "step": 195
+    },
+    {
+      "epoch": 5.882352941176471,
+      "grad_norm": 0.07949723303318024,
+      "learning_rate": 0.0008669295379835467,
+      "loss": 0.9957,
+      "step": 200
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.6619951725006104,
+      "eval_runtime": 0.8305,
+      "eval_samples_per_second": 4.817,
+      "eval_steps_per_second": 1.204,
+      "step": 204
+    },
+    {
+      "epoch": 6.029411764705882,
+      "grad_norm": 0.07223918288946152,
+      "learning_rate": 0.0008162504821834296,
+      "loss": 0.9855,
+      "step": 205
+    },
+    {
+      "epoch": 6.176470588235294,
+      "grad_norm": 0.0734533816576004,
+      "learning_rate": 0.0007660555181983517,
+      "loss": 0.9822,
+      "step": 210
+    },
+    {
+      "epoch": 6.323529411764706,
+      "grad_norm": 0.07729926705360413,
+      "learning_rate": 0.0007164768856744892,
+      "loss": 0.9813,
+      "step": 215
+    },
+    {
+      "epoch": 6.470588235294118,
+      "grad_norm": 0.0778665617108345,
+      "learning_rate": 0.0006676452005203405,
+      "loss": 0.9853,
+      "step": 220
+    },
+    {
+      "epoch": 6.617647058823529,
+      "grad_norm": 0.06967757642269135,
+      "learning_rate": 0.0006196891107964744,
+      "loss": 0.9837,
+      "step": 225
+    },
+    {
+      "epoch": 6.764705882352941,
+      "grad_norm": 0.07201401889324188,
+      "learning_rate": 0.0005727349577896194,
+      "loss": 0.9823,
+      "step": 230
+    },
+    {
+      "epoch": 6.911764705882353,
+      "grad_norm": 0.07436826825141907,
+      "learning_rate": 0.00052690644316399,
+      "loss": 0.9793,
+      "step": 235
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.6655919551849365,
+      "eval_runtime": 0.8312,
+      "eval_samples_per_second": 4.812,
+      "eval_steps_per_second": 1.203,
+      "step": 238
+    },
+    {
+      "epoch": 7.0588235294117645,
+      "grad_norm": 0.07127279043197632,
+      "learning_rate": 0.0004823243030667576,
+      "loss": 0.98,
+      "step": 240
+    },
+    {
+      "epoch": 7.205882352941177,
+      "grad_norm": 0.06584794819355011,
+      "learning_rate": 0.0004391059900462304,
+      "loss": 0.9738,
+      "step": 245
+    },
+    {
+      "epoch": 7.352941176470588,
+      "grad_norm": 0.06734811514616013,
+      "learning_rate": 0.0003973653636207437,
+      "loss": 0.9705,
+      "step": 250
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 0.06853578239679337,
+      "learning_rate": 0.0003572123903134606,
+      "loss": 0.9778,
+      "step": 255
+    },
+    {
+      "epoch": 7.647058823529412,
+      "grad_norm": 0.0678030252456665,
+      "learning_rate": 0.0003187528539433457,
+      "loss": 0.9722,
+      "step": 260
+    },
+    {
+      "epoch": 7.794117647058823,
+      "grad_norm": 0.06483301520347595,
+      "learning_rate": 0.0002820880769355582,
+      "loss": 0.9782,
+      "step": 265
+    },
+    {
+      "epoch": 7.9411764705882355,
+      "grad_norm": 0.06444835662841797,
+      "learning_rate": 0.00024731465338547555,
+      "loss": 0.9761,
+      "step": 270
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.670668125152588,
+      "eval_runtime": 0.8308,
+      "eval_samples_per_second": 4.815,
+      "eval_steps_per_second": 1.204,
+      "step": 272
+    },
+    {
+      "epoch": 8.088235294117647,
+      "grad_norm": 0.06315235048532486,
+      "learning_rate": 0.00021452419457960138,
+      "loss": 0.9718,
+      "step": 275
+    },
+    {
+      "epoch": 8.235294117647058,
+      "grad_norm": 0.06345119327306747,
+      "learning_rate": 0.0001838030876437784,
+      "loss": 0.977,
+      "step": 280
+    },
+    {
+      "epoch": 8.382352941176471,
+      "grad_norm": 0.0637635886669159,
+      "learning_rate": 0.00015523226795456348,
+      "loss": 0.9741,
+      "step": 285
+    },
+    {
+      "epoch": 8.529411764705882,
+      "grad_norm": 0.06295765936374664,
+      "learning_rate": 0.00012888700591334225,
+      "loss": 0.9698,
+      "step": 290
+    },
+    {
+      "epoch": 8.676470588235293,
+      "grad_norm": 0.06005469709634781,
+      "learning_rate": 0.00010483670864493777,
+      "loss": 0.967,
+      "step": 295
+    },
+    {
+      "epoch": 8.823529411764707,
+      "grad_norm": 0.060096003115177155,
+      "learning_rate": 8.31447371431372e-05,
+      "loss": 0.9651,
+      "step": 300
+    },
+    {
+      "epoch": 8.970588235294118,
+      "grad_norm": 0.05939820781350136,
+      "learning_rate": 6.386823934487617e-05,
+      "loss": 0.9678,
+      "step": 305
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 1.6740888357162476,
+      "eval_runtime": 0.8293,
+      "eval_samples_per_second": 4.824,
+      "eval_steps_per_second": 1.206,
+      "step": 306
+    },
+    {
+      "epoch": 9.117647058823529,
+      "grad_norm": 0.058787424117326736,
+      "learning_rate": 4.705799957284351e-05,
+      "loss": 0.9715,
+      "step": 310
+    },
+    {
+      "epoch": 9.264705882352942,
+      "grad_norm": 0.057846549898386,
+      "learning_rate": 3.275830474315855e-05,
+      "loss": 0.9632,
+      "step": 315
+    },
+    {
+      "epoch": 9.411764705882353,
+      "grad_norm": 0.05796463415026665,
+      "learning_rate": 2.1006827690595476e-05,
+      "loss": 0.9622,
+      "step": 320
+    },
+    {
+      "epoch": 9.558823529411764,
+      "grad_norm": 0.057375218719244,
+      "learning_rate": 1.1834527918740623e-05,
+      "loss": 0.9712,
+      "step": 325
+    },
+    {
+      "epoch": 9.705882352941176,
+      "grad_norm": 0.05756480246782303,
+      "learning_rate": 5.265570036553813e-06,
+      "loss": 0.9672,
+      "step": 330
+    },
+    {
+      "epoch": 9.852941176470589,
+      "grad_norm": 0.05712839215993881,
+      "learning_rate": 1.3172600962190196e-06,
+      "loss": 0.9695,
+      "step": 335
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.057304926216602325,
+      "learning_rate": 0.0,
+      "loss": 0.9709,
+      "step": 340
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.6745353937149048,
+      "eval_runtime": 0.8292,
+      "eval_samples_per_second": 4.824,
+      "eval_steps_per_second": 1.206,
+      "step": 340
+    },
+    {
+      "epoch": 10.0,
+      "step": 340,
+      "total_flos": 1.0444708917333197e+18,
+      "train_loss": 1.0473914388348073,
+      "train_runtime": 1591.5084,
+      "train_samples_per_second": 108.407,
+      "train_steps_per_second": 0.214
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 340,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0444708917333197e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}