pragsri8
/

llama-3.1-8b-sft-full_vanilla_bon-sft

@@ -1,17 +1,11 @@
 ---
 library_name: transformers
-license: llama3.1
-base_model: meta-llama/Llama-3.1-8B
 tags:
-- alignment-handbook
-- trl
-- sft
-- generated_from_trainer
 - trl
 - sft
 - generated_from_trainer
 datasets:
-- pragsri8/RLHFlow_ultrafeedback_iter1_vanilla_bon-sft
 model-index:
 - name: llama-3.1-8b-sft-full_vanilla_bon-sft
   results: []
@@ -22,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # llama-3.1-8b-sft-full_vanilla_bon-sft
-This model is a fine-tuned version of [meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) on the pragsri8/RLHFlow_ultrafeedback_iter1_vanilla_bon-sft dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.3875
 ## Model description
@@ -60,7 +54,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.3769        | 1.0   | 59   | 1.3875          |
 ### Framework versions

 ---
 library_name: transformers
 tags:
 - trl
 - sft
 - generated_from_trainer
 datasets:
+- generator
 model-index:
 - name: llama-3.1-8b-sft-full_vanilla_bon-sft
   results: []
 # llama-3.1-8b-sft-full_vanilla_bon-sft
+This model was trained from scratch on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.3202
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.3131        | 1.0   | 59   | 1.3202          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,9 @@
 {
     "epoch": 1.0,
-    "eval_loss": 1.3874934911727905,
-    "eval_runtime": 10.447,
-    "eval_samples": 2000,
-    "eval_samples_per_second": 19.144,
-    "eval_steps_per_second": 0.67,
     "total_flos": 12353399685120.0,
-    "train_loss": 1.5075374740665242,
-    "train_runtime": 421.8974,
     "train_samples": 18000,
-    "train_samples_per_second": 4.406,
-    "train_steps_per_second": 0.14
 }

 {
     "epoch": 1.0,
     "total_flos": 12353399685120.0,
+    "train_loss": 1.3692619558108055,
+    "train_runtime": 423.541,
     "train_samples": 18000,
+    "train_samples_per_second": 4.389,
+    "train_steps_per_second": 0.139
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.0,
     "total_flos": 12353399685120.0,
-    "train_loss": 1.5075374740665242,
-    "train_runtime": 421.8974,
     "train_samples": 18000,
-    "train_samples_per_second": 4.406,
-    "train_steps_per_second": 0.14
 }

 {
     "epoch": 1.0,
     "total_flos": 12353399685120.0,
+    "train_loss": 1.3692619558108055,
+    "train_runtime": 423.541,
     "train_samples": 18000,
+    "train_samples_per_second": 4.389,
+    "train_steps_per_second": 0.139
 }

trainer_state.json CHANGED Viewed

@@ -10,104 +10,104 @@
   "log_history": [
     {
       "epoch": 0.01694915254237288,
-      "grad_norm": 60.8476107354802,
       "learning_rate": 3.3333333333333333e-06,
-      "loss": 1.8472,
       "step": 1
     },
     {
       "epoch": 0.0847457627118644,
-      "grad_norm": 8.877773177483087,
       "learning_rate": 1.6666666666666667e-05,
-      "loss": 1.886,
       "step": 5
     },
     {
       "epoch": 0.1694915254237288,
-      "grad_norm": 2.740465644582342,
       "learning_rate": 1.972022914080411e-05,
-      "loss": 1.7013,
       "step": 10
     },
     {
       "epoch": 0.2542372881355932,
-      "grad_norm": 1.6381019682815696,
       "learning_rate": 1.8610436117673557e-05,
-      "loss": 1.5483,
       "step": 15
     },
     {
       "epoch": 0.3389830508474576,
-      "grad_norm": 1.552887448490065,
       "learning_rate": 1.6749830015182106e-05,
-      "loss": 1.5449,
       "step": 20
     },
     {
       "epoch": 0.423728813559322,
-      "grad_norm": 1.3828333517037474,
       "learning_rate": 1.4300652022765207e-05,
-      "loss": 1.5062,
       "step": 25
     },
     {
       "epoch": 0.5084745762711864,
-      "grad_norm": 1.22531732205893,
       "learning_rate": 1.1476465640024814e-05,
-      "loss": 1.4417,
       "step": 30
     },
     {
       "epoch": 0.5932203389830508,
-      "grad_norm": 1.2049898344204903,
       "learning_rate": 8.52353435997519e-06,
-      "loss": 1.4424,
       "step": 35
     },
     {
       "epoch": 0.6779661016949152,
-      "grad_norm": 1.1452259418352282,
       "learning_rate": 5.699347977234799e-06,
-      "loss": 1.4163,
       "step": 40
     },
     {
       "epoch": 0.7627118644067796,
-      "grad_norm": 1.0826635541016094,
       "learning_rate": 3.250169984817897e-06,
-      "loss": 1.3829,
       "step": 45
     },
     {
       "epoch": 0.847457627118644,
-      "grad_norm": 1.0546970085472138,
       "learning_rate": 1.3895638823264447e-06,
-      "loss": 1.3876,
       "step": 50
     },
     {
       "epoch": 0.9322033898305084,
-      "grad_norm": 1.072858228582258,
       "learning_rate": 2.7977085919589253e-07,
-      "loss": 1.3769,
       "step": 55
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.3874934911727905,
-      "eval_runtime": 10.4957,
-      "eval_samples_per_second": 19.055,
-      "eval_steps_per_second": 0.667,
       "step": 59
     },
     {
       "epoch": 1.0,
       "step": 59,
       "total_flos": 12353399685120.0,
-      "train_loss": 1.5075374740665242,
-      "train_runtime": 421.8974,
-      "train_samples_per_second": 4.406,
-      "train_steps_per_second": 0.14
     }
   ],
   "logging_steps": 5,

   "log_history": [
     {
       "epoch": 0.01694915254237288,
+      "grad_norm": 3.0302986163078596,
       "learning_rate": 3.3333333333333333e-06,
+      "loss": 1.3982,
       "step": 1
     },
     {
       "epoch": 0.0847457627118644,
+      "grad_norm": 3.2967950958526457,
       "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.4931,
       "step": 5
     },
     {
       "epoch": 0.1694915254237288,
+      "grad_norm": 1.4683392123253753,
       "learning_rate": 1.972022914080411e-05,
+      "loss": 1.4567,
       "step": 10
     },
     {
       "epoch": 0.2542372881355932,
+      "grad_norm": 1.1218652958716022,
       "learning_rate": 1.8610436117673557e-05,
+      "loss": 1.367,
       "step": 15
     },
     {
       "epoch": 0.3389830508474576,
+      "grad_norm": 0.97543948580105,
       "learning_rate": 1.6749830015182106e-05,
+      "loss": 1.4006,
       "step": 20
     },
     {
       "epoch": 0.423728813559322,
+      "grad_norm": 0.9114604776355013,
       "learning_rate": 1.4300652022765207e-05,
+      "loss": 1.3829,
       "step": 25
     },
     {
       "epoch": 0.5084745762711864,
+      "grad_norm": 0.9539731539603004,
       "learning_rate": 1.1476465640024814e-05,
+      "loss": 1.3404,
       "step": 30
     },
     {
       "epoch": 0.5932203389830508,
+      "grad_norm": 0.8978852079217283,
       "learning_rate": 8.52353435997519e-06,
+      "loss": 1.3571,
       "step": 35
     },
     {
       "epoch": 0.6779661016949152,
+      "grad_norm": 0.866628438912024,
       "learning_rate": 5.699347977234799e-06,
+      "loss": 1.3405,
       "step": 40
     },
     {
       "epoch": 0.7627118644067796,
+      "grad_norm": 0.8770654440256076,
       "learning_rate": 3.250169984817897e-06,
+      "loss": 1.3104,
       "step": 45
     },
     {
       "epoch": 0.847457627118644,
+      "grad_norm": 0.8449575811804665,
       "learning_rate": 1.3895638823264447e-06,
+      "loss": 1.3237,
       "step": 50
     },
     {
       "epoch": 0.9322033898305084,
+      "grad_norm": 0.8725200545477999,
       "learning_rate": 2.7977085919589253e-07,
+      "loss": 1.3131,
       "step": 55
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.3201909065246582,
+      "eval_runtime": 10.5592,
+      "eval_samples_per_second": 18.941,
+      "eval_steps_per_second": 0.663,
       "step": 59
     },
     {
       "epoch": 1.0,
       "step": 59,
       "total_flos": 12353399685120.0,
+      "train_loss": 1.3692619558108055,
+      "train_runtime": 423.541,
+      "train_samples_per_second": 4.389,
+      "train_steps_per_second": 0.139
     }
   ],
   "logging_steps": 5,