End of training

Browse files

Files changed (6) hide show

README.md +21 -6
all_results.json +13 -13
eval_results.json +8 -8
logs/events.out.tfevents.1733327376.ki-g0008.1208741.31 +3 -0
train_results.json +6 -6
trainer_state.json +122 -176

README.md CHANGED Viewed

@@ -1,13 +1,28 @@
 ---
 library_name: transformers
 base_model: gokulsrinivasagan/bert_tiny_lda_100_v1
 tags:
 - generated_from_trainer
 metrics:
 - spearmanr
 model-index:
 - name: bert_tiny_lda_100_v1_stsb
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,12 +30,12 @@ should probably proofread and complete it, then remove this comment. -->
 # bert_tiny_lda_100_v1_stsb
-This model is a fine-tuned version of [gokulsrinivasagan/bert_tiny_lda_100_v1](https://huggingface.co/gokulsrinivasagan/bert_tiny_lda_100_v1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.7520
-- Pearson: 0.3013
-- Spearmanr: 0.2887
-- Combined Score: 0.2950
 ## Model description

 ---
 library_name: transformers
+language:
+- en
 base_model: gokulsrinivasagan/bert_tiny_lda_100_v1
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - spearmanr
 model-index:
 - name: bert_tiny_lda_100_v1_stsb
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE STSB
+      type: glue
+      args: stsb
+    metrics:
+    - name: Spearmanr
+      type: spearmanr
+      value: 0.22878969383272044
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert_tiny_lda_100_v1_stsb
+This model is a fine-tuned version of [gokulsrinivasagan/bert_tiny_lda_100_v1](https://huggingface.co/gokulsrinivasagan/bert_tiny_lda_100_v1) on the GLUE STSB dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.3632
+- Pearson: 0.2350
+- Spearmanr: 0.2288
+- Combined Score: 0.2319
 ## Model description

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
-    "epoch": 14.0,
-    "eval_combined_score": NaN,
-    "eval_loss": 2.354668378829956,
-    "eval_pearson": NaN,
-    "eval_runtime": 0.4547,
     "eval_samples": 1500,
-    "eval_samples_per_second": 3298.998,
-    "eval_spearmanr": NaN,
-    "eval_steps_per_second": 13.196,
-    "total_flos": 2110567487529984.0,
-    "train_loss": 2.3570685771681505,
-    "train_runtime": 58.2449,
     "train_samples": 5749,
-    "train_samples_per_second": 4935.193,
-    "train_steps_per_second": 19.744
 }

 {
+    "epoch": 11.0,
+    "eval_combined_score": 0.23191784902182225,
+    "eval_loss": 2.363229513168335,
+    "eval_pearson": 0.23504600421092406,
+    "eval_runtime": 0.4764,
     "eval_samples": 1500,
+    "eval_samples_per_second": 3148.535,
+    "eval_spearmanr": 0.22878969383272044,
+    "eval_steps_per_second": 12.594,
+    "total_flos": 1658303025916416.0,
+    "train_loss": 1.5158629624739937,
+    "train_runtime": 49.0816,
     "train_samples": 5749,
+    "train_samples_per_second": 5856.575,
+    "train_steps_per_second": 23.43
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 14.0,
-    "eval_combined_score": NaN,
-    "eval_loss": 2.354668378829956,
-    "eval_pearson": NaN,
-    "eval_runtime": 0.4547,
     "eval_samples": 1500,
-    "eval_samples_per_second": 3298.998,
-    "eval_spearmanr": NaN,
-    "eval_steps_per_second": 13.196
 }

 {
+    "epoch": 11.0,
+    "eval_combined_score": 0.23191784902182225,
+    "eval_loss": 2.363229513168335,
+    "eval_pearson": 0.23504600421092406,
+    "eval_runtime": 0.4764,
     "eval_samples": 1500,
+    "eval_samples_per_second": 3148.535,
+    "eval_spearmanr": 0.22878969383272044,
+    "eval_steps_per_second": 12.594
 }

logs/events.out.tfevents.1733327376.ki-g0008.1208741.31 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ae2f7fd7a33695585ddf97e634628a142ab20eede3ada17a0b85961d8f9e56c
+size 521

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 14.0,
-    "total_flos": 2110567487529984.0,
-    "train_loss": 2.3570685771681505,
-    "train_runtime": 58.2449,
     "train_samples": 5749,
-    "train_samples_per_second": 4935.193,
-    "train_steps_per_second": 19.744
 }

 {
+    "epoch": 11.0,
+    "total_flos": 1658303025916416.0,
+    "train_loss": 1.5158629624739937,
+    "train_runtime": 49.0816,
     "train_samples": 5749,
+    "train_samples_per_second": 5856.575,
+    "train_steps_per_second": 23.43
 }

trainer_state.json CHANGED Viewed

@@ -1,273 +1,219 @@
 {
-  "best_metric": 2.354668378829956,
-  "best_model_checkpoint": "bert_tiny_lda_100_v1_stsb/checkpoint-207",
-  "epoch": 14.0,
   "eval_steps": 500,
-  "global_step": 322,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 23.892215728759766,
-      "learning_rate": 0.00098,
-      "loss": 4.3798,
       "step": 23
     },
     {
       "epoch": 1.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 3.4025566577911377,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4491,
-      "eval_samples_per_second": 3339.749,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.359,
       "step": 23
     },
     {
       "epoch": 2.0,
-      "grad_norm": 5.764803409576416,
-      "learning_rate": 0.00096,
-      "loss": 2.2683,
       "step": 46
     },
     {
       "epoch": 2.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.737987518310547,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4468,
-      "eval_samples_per_second": 3357.434,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.43,
       "step": 46
     },
     {
       "epoch": 3.0,
-      "grad_norm": 16.960420608520508,
-      "learning_rate": 0.00094,
-      "loss": 2.2687,
       "step": 69
     },
     {
       "epoch": 3.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.7826263904571533,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4471,
-      "eval_samples_per_second": 3354.985,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.42,
       "step": 69
     },
     {
       "epoch": 4.0,
-      "grad_norm": 4.696272373199463,
-      "learning_rate": 0.00092,
-      "loss": 2.1923,
       "step": 92
     },
     {
       "epoch": 4.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.6349358558654785,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4533,
-      "eval_samples_per_second": 3309.076,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.236,
       "step": 92
     },
     {
       "epoch": 5.0,
-      "grad_norm": 15.793731689453125,
-      "learning_rate": 0.0009000000000000001,
-      "loss": 2.2028,
       "step": 115
     },
     {
       "epoch": 5.0,
-      "eval_combined_score": -0.011056950325972904,
-      "eval_loss": 2.632760524749756,
-      "eval_pearson": -0.011258424775794945,
-      "eval_runtime": 0.4508,
-      "eval_samples_per_second": 3327.54,
-      "eval_spearmanr": -0.010855475876150862,
-      "eval_steps_per_second": 13.31,
       "step": 115
     },
     {
       "epoch": 6.0,
-      "grad_norm": 3.9431076049804688,
-      "learning_rate": 0.00088,
-      "loss": 2.1848,
       "step": 138
     },
     {
       "epoch": 6.0,
-      "eval_combined_score": -0.023699091607435406,
-      "eval_loss": 2.380463123321533,
-      "eval_pearson": -0.02456100685625376,
-      "eval_runtime": 0.447,
-      "eval_samples_per_second": 3355.397,
-      "eval_spearmanr": -0.02283717635861705,
-      "eval_steps_per_second": 13.422,
       "step": 138
     },
     {
       "epoch": 7.0,
-      "grad_norm": 18.49576187133789,
-      "learning_rate": 0.00086,
-      "loss": 2.194,
       "step": 161
     },
     {
       "epoch": 7.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.8532462120056152,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4543,
-      "eval_samples_per_second": 3301.537,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.206,
       "step": 161
     },
     {
       "epoch": 8.0,
-      "grad_norm": 5.551238536834717,
-      "learning_rate": 0.00084,
-      "loss": 2.1835,
       "step": 184
     },
     {
       "epoch": 8.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.561283588409424,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4562,
-      "eval_samples_per_second": 3288.233,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.153,
       "step": 184
     },
     {
       "epoch": 9.0,
-      "grad_norm": 13.460580825805664,
-      "learning_rate": 0.00082,
-      "loss": 2.1788,
       "step": 207
     },
     {
       "epoch": 9.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.354668378829956,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4458,
-      "eval_samples_per_second": 3364.865,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.459,
       "step": 207
     },
     {
       "epoch": 10.0,
-      "grad_norm": 7.859861850738525,
-      "learning_rate": 0.0008,
-      "loss": 2.1688,
       "step": 230
     },
     {
       "epoch": 10.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.424130916595459,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4484,
-      "eval_samples_per_second": 3345.222,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.381,
       "step": 230
     },
     {
       "epoch": 11.0,
-      "grad_norm": 11.691555976867676,
-      "learning_rate": 0.0007800000000000001,
-      "loss": 2.1963,
       "step": 253
     },
     {
       "epoch": 11.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.674691915512085,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4529,
-      "eval_samples_per_second": 3311.671,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.247,
       "step": 253
     },
     {
-      "epoch": 12.0,
-      "grad_norm": 4.0701680183410645,
-      "learning_rate": 0.00076,
-      "loss": 2.186,
-      "step": 276
-    },
-    {
-      "epoch": 12.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.4511916637420654,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4443,
-      "eval_samples_per_second": 3376.464,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.506,
-      "step": 276
-    },
-    {
-      "epoch": 13.0,
-      "grad_norm": 3.6423840522766113,
-      "learning_rate": 0.00074,
-      "loss": 2.186,
-      "step": 299
-    },
-    {
-      "epoch": 13.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.465453863143921,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4517,
-      "eval_samples_per_second": 3320.427,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.282,
-      "step": 299
-    },
-    {
-      "epoch": 14.0,
-      "grad_norm": 5.533896446228027,
-      "learning_rate": 0.0007199999999999999,
-      "loss": 2.2089,
-      "step": 322
-    },
-    {
-      "epoch": 14.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.737987518310547,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4475,
-      "eval_samples_per_second": 3352.138,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 13.409,
-      "step": 322
-    },
-    {
-      "epoch": 14.0,
-      "step": 322,
-      "total_flos": 2110567487529984.0,
-      "train_loss": 2.3570685771681505,
-      "train_runtime": 58.2449,
-      "train_samples_per_second": 4935.193,
-      "train_steps_per_second": 19.744
     }
   ],
   "logging_steps": 1,
@@ -296,7 +242,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2110567487529984.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.363229513168335,
+  "best_model_checkpoint": "bert_tiny_lda_100_v1_stsb/checkpoint-138",
+  "epoch": 11.0,
   "eval_steps": 500,
+  "global_step": 253,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 2.582594633102417,
+      "learning_rate": 4.9e-05,
+      "loss": 2.8077,
       "step": 23
     },
     {
       "epoch": 1.0,
+      "eval_combined_score": 0.06606349756318877,
+      "eval_loss": 2.3849637508392334,
+      "eval_pearson": 0.06667821062565503,
+      "eval_runtime": 0.4882,
+      "eval_samples_per_second": 3072.315,
+      "eval_spearmanr": 0.06544878450072253,
+      "eval_steps_per_second": 12.289,
       "step": 23
     },
     {
       "epoch": 2.0,
+      "grad_norm": 7.826333522796631,
+      "learning_rate": 4.8e-05,
+      "loss": 2.042,
       "step": 46
     },
     {
       "epoch": 2.0,
+      "eval_combined_score": 0.08412433299225583,
+      "eval_loss": 2.608870506286621,
+      "eval_pearson": 0.08343756630067128,
+      "eval_runtime": 0.498,
+      "eval_samples_per_second": 3012.31,
+      "eval_spearmanr": 0.08481109968384036,
+      "eval_steps_per_second": 12.049,
       "step": 46
     },
     {
       "epoch": 3.0,
+      "grad_norm": 3.146524429321289,
+      "learning_rate": 4.7e-05,
+      "loss": 1.9254,
       "step": 69
     },
     {
       "epoch": 3.0,
+      "eval_combined_score": 0.14664388177022744,
+      "eval_loss": 2.3925955295562744,
+      "eval_pearson": 0.15389971532281455,
+      "eval_runtime": 0.4854,
+      "eval_samples_per_second": 3089.992,
+      "eval_spearmanr": 0.13938804821764034,
+      "eval_steps_per_second": 12.36,
       "step": 69
     },
     {
       "epoch": 4.0,
+      "grad_norm": 8.050851821899414,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 1.8381,
       "step": 92
     },
     {
       "epoch": 4.0,
+      "eval_combined_score": 0.17322394096142973,
+      "eval_loss": 2.5560152530670166,
+      "eval_pearson": 0.17442871935710869,
+      "eval_runtime": 0.4812,
+      "eval_samples_per_second": 3117.34,
+      "eval_spearmanr": 0.17201916256575076,
+      "eval_steps_per_second": 12.469,
       "step": 92
     },
     {
       "epoch": 5.0,
+      "grad_norm": 35.69472122192383,
+      "learning_rate": 4.5e-05,
+      "loss": 1.6974,
       "step": 115
     },
     {
       "epoch": 5.0,
+      "eval_combined_score": 0.17843619975720487,
+      "eval_loss": 3.0256927013397217,
+      "eval_pearson": 0.18117857347398758,
+      "eval_runtime": 0.4745,
+      "eval_samples_per_second": 3161.345,
+      "eval_spearmanr": 0.17569382604042216,
+      "eval_steps_per_second": 12.645,
       "step": 115
     },
     {
       "epoch": 6.0,
+      "grad_norm": 33.44086837768555,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 1.5776,
       "step": 138
     },
     {
       "epoch": 6.0,
+      "eval_combined_score": 0.23191784902182225,
+      "eval_loss": 2.363229513168335,
+      "eval_pearson": 0.23504600421092406,
+      "eval_runtime": 0.4766,
+      "eval_samples_per_second": 3147.58,
+      "eval_spearmanr": 0.22878969383272044,
+      "eval_steps_per_second": 12.59,
       "step": 138
     },
     {
       "epoch": 7.0,
+      "grad_norm": 9.113436698913574,
+      "learning_rate": 4.3e-05,
+      "loss": 1.2951,
       "step": 161
     },
     {
       "epoch": 7.0,
+      "eval_combined_score": 0.25835199884600446,
+      "eval_loss": 2.4535396099090576,
+      "eval_pearson": 0.25938358753958196,
+      "eval_runtime": 0.4759,
+      "eval_samples_per_second": 3151.903,
+      "eval_spearmanr": 0.25732041015242696,
+      "eval_steps_per_second": 12.608,
       "step": 161
     },
     {
       "epoch": 8.0,
+      "grad_norm": 27.608457565307617,
+      "learning_rate": 4.2e-05,
+      "loss": 1.0896,
       "step": 184
     },
     {
       "epoch": 8.0,
+      "eval_combined_score": 0.26369469335834095,
+      "eval_loss": 2.5246102809906006,
+      "eval_pearson": 0.2651694385752293,
+      "eval_runtime": 0.4775,
+      "eval_samples_per_second": 3141.474,
+      "eval_spearmanr": 0.26221994814145255,
+      "eval_steps_per_second": 12.566,
       "step": 184
     },
     {
       "epoch": 9.0,
+      "grad_norm": 37.94071960449219,
+      "learning_rate": 4.1e-05,
+      "loss": 0.9372,
       "step": 207
     },
     {
       "epoch": 9.0,
+      "eval_combined_score": 0.26428845490221176,
+      "eval_loss": 2.982673406600952,
+      "eval_pearson": 0.2715918907093777,
+      "eval_runtime": 0.482,
+      "eval_samples_per_second": 3111.778,
+      "eval_spearmanr": 0.25698501909504573,
+      "eval_steps_per_second": 12.447,
       "step": 207
     },
     {
       "epoch": 10.0,
+      "grad_norm": 15.401611328125,
+      "learning_rate": 4e-05,
+      "loss": 0.7915,
       "step": 230
     },
     {
       "epoch": 10.0,
+      "eval_combined_score": 0.2991297782809159,
+      "eval_loss": 2.6918020248413086,
+      "eval_pearson": 0.3056396011613086,
+      "eval_runtime": 0.4829,
+      "eval_samples_per_second": 3106.332,
+      "eval_spearmanr": 0.29261995540052316,
+      "eval_steps_per_second": 12.425,
       "step": 230
     },
     {
       "epoch": 11.0,
+      "grad_norm": 8.023918151855469,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.673,
       "step": 253
     },
     {
       "epoch": 11.0,
+      "eval_combined_score": 0.29500401259607845,
+      "eval_loss": 2.752037763595581,
+      "eval_pearson": 0.3012777534013385,
+      "eval_runtime": 0.4793,
+      "eval_samples_per_second": 3129.505,
+      "eval_spearmanr": 0.2887302717908184,
+      "eval_steps_per_second": 12.518,
       "step": 253
     },
     {
+      "epoch": 11.0,
+      "step": 253,
+      "total_flos": 1658303025916416.0,
+      "train_loss": 1.5158629624739937,
+      "train_runtime": 49.0816,
+      "train_samples_per_second": 5856.575,
+      "train_steps_per_second": 23.43
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1658303025916416.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null