End of training

Browse files

Files changed (6) hide show

README.md +24 -6
all_results.json +13 -13
eval_results.json +8 -8
logs/events.out.tfevents.1733326990.ki-g0008.1208741.25 +3 -0
train_results.json +6 -6
trainer_state.json +146 -92

README.md CHANGED Viewed

@@ -1,14 +1,32 @@
 ---
 library_name: transformers
 base_model: gokulsrinivasagan/bert_tiny_lda_100_v1
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 - f1
 model-index:
 - name: bert_tiny_lda_100_v1_qqp
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -16,12 +34,12 @@ should probably proofread and complete it, then remove this comment. -->
 # bert_tiny_lda_100_v1_qqp
-This model is a fine-tuned version of [gokulsrinivasagan/bert_tiny_lda_100_v1](https://huggingface.co/gokulsrinivasagan/bert_tiny_lda_100_v1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4678
-- Accuracy: 0.8567
-- F1: 0.8093
-- Combined Score: 0.8330
 ## Model description

 ---
 library_name: transformers
+language:
+- en
 base_model: gokulsrinivasagan/bert_tiny_lda_100_v1
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - accuracy
 - f1
 model-index:
 - name: bert_tiny_lda_100_v1_qqp
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE QQP
+      type: glue
+      args: qqp
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.8543408360128617
+    - name: F1
+      type: f1
+      value: 0.8063020096700984
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert_tiny_lda_100_v1_qqp
+This model is a fine-tuned version of [gokulsrinivasagan/bert_tiny_lda_100_v1](https://huggingface.co/gokulsrinivasagan/bert_tiny_lda_100_v1) on the GLUE QQP dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3551
+- Accuracy: 0.8543
+- F1: 0.8063
+- Combined Score: 0.8303
 ## Model description

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
-    "epoch": 8.0,
-    "eval_accuracy": 0.6318327974276527,
-    "eval_combined_score": 0.3159163987138264,
-    "eval_f1": 0.0,
-    "eval_loss": 0.6569345593452454,
-    "eval_runtime": 12.0041,
     "eval_samples": 40430,
-    "eval_samples_per_second": 3368.005,
-    "eval_steps_per_second": 13.162,
-    "total_flos": 7.633075201391002e+16,
-    "train_loss": 0.6589447268286167,
-    "train_runtime": 1607.151,
     "train_samples": 363846,
-    "train_samples_per_second": 11319.596,
-    "train_steps_per_second": 44.24
 }

 {
+    "epoch": 11.0,
+    "eval_accuracy": 0.8543408360128617,
+    "eval_combined_score": 0.83032142284148,
+    "eval_f1": 0.8063020096700984,
+    "eval_loss": 0.3550606966018677,
+    "eval_runtime": 12.3435,
     "eval_samples": 40430,
+    "eval_samples_per_second": 3275.409,
+    "eval_steps_per_second": 12.8,
+    "total_flos": 1.0495478401912627e+17,
+    "train_loss": 0.2538350579257268,
+    "train_runtime": 2291.1306,
     "train_samples": 363846,
+    "train_samples_per_second": 7940.316,
+    "train_steps_per_second": 31.033
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 8.0,
-    "eval_accuracy": 0.6318327974276527,
-    "eval_combined_score": 0.3159163987138264,
-    "eval_f1": 0.0,
-    "eval_loss": 0.6569345593452454,
-    "eval_runtime": 12.0041,
     "eval_samples": 40430,
-    "eval_samples_per_second": 3368.005,
-    "eval_steps_per_second": 13.162
 }

 {
+    "epoch": 11.0,
+    "eval_accuracy": 0.8543408360128617,
+    "eval_combined_score": 0.83032142284148,
+    "eval_f1": 0.8063020096700984,
+    "eval_loss": 0.3550606966018677,
+    "eval_runtime": 12.3435,
     "eval_samples": 40430,
+    "eval_samples_per_second": 3275.409,
+    "eval_steps_per_second": 12.8
 }

logs/events.out.tfevents.1733326990.ki-g0008.1208741.25 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b3d1378e9b7b74ea526dee11a4747441dbb7c6c6c633439dc7c495222de65e3
+size 515

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 8.0,
-    "total_flos": 7.633075201391002e+16,
-    "train_loss": 0.6589447268286167,
-    "train_runtime": 1607.151,
     "train_samples": 363846,
-    "train_samples_per_second": 11319.596,
-    "train_steps_per_second": 44.24
 }

 {
+    "epoch": 11.0,
+    "total_flos": 1.0495478401912627e+17,
+    "train_loss": 0.2538350579257268,
+    "train_runtime": 2291.1306,
     "train_samples": 363846,
+    "train_samples_per_second": 7940.316,
+    "train_steps_per_second": 31.033
 }

trainer_state.json CHANGED Viewed

@@ -1,165 +1,219 @@
 {
-  "best_metric": 0.6569345593452454,
-  "best_model_checkpoint": "bert_tiny_lda_100_v1_qqp/checkpoint-4266",
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 11376,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.38018599152565,
-      "learning_rate": 0.00098,
-      "loss": 0.6613,
       "step": 1422
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6318327974276527,
-      "eval_combined_score": 0.3159163987138264,
-      "eval_f1": 0.0,
-      "eval_loss": 0.6579914689064026,
-      "eval_runtime": 11.9864,
-      "eval_samples_per_second": 3372.978,
-      "eval_steps_per_second": 13.182,
       "step": 1422
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.12200487405061722,
-      "learning_rate": 0.00096,
-      "loss": 0.6591,
       "step": 2844
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6318327974276527,
-      "eval_combined_score": 0.3159163987138264,
-      "eval_f1": 0.0,
-      "eval_loss": 0.6583530902862549,
-      "eval_runtime": 11.9444,
-      "eval_samples_per_second": 3384.853,
-      "eval_steps_per_second": 13.228,
       "step": 2844
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.05550260841846466,
-      "learning_rate": 0.00094,
-      "loss": 0.6587,
       "step": 4266
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6318327974276527,
-      "eval_combined_score": 0.3159163987138264,
-      "eval_f1": 0.0,
-      "eval_loss": 0.6569345593452454,
-      "eval_runtime": 11.982,
-      "eval_samples_per_second": 3374.235,
-      "eval_steps_per_second": 13.186,
       "step": 4266
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.08356369286775589,
-      "learning_rate": 0.00092,
-      "loss": 0.6585,
       "step": 5688
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.6318327974276527,
-      "eval_combined_score": 0.3159163987138264,
-      "eval_f1": 0.0,
-      "eval_loss": 0.6573521494865417,
-      "eval_runtime": 11.9967,
-      "eval_samples_per_second": 3370.092,
-      "eval_steps_per_second": 13.17,
       "step": 5688
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.12464858591556549,
-      "learning_rate": 0.0009000000000000001,
-      "loss": 0.6585,
       "step": 7110
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.6318327974276527,
-      "eval_combined_score": 0.3159163987138264,
-      "eval_f1": 0.0,
-      "eval_loss": 0.6573521494865417,
-      "eval_runtime": 11.9603,
-      "eval_samples_per_second": 3380.359,
-      "eval_steps_per_second": 13.21,
       "step": 7110
     },
     {
       "epoch": 6.0,
-      "grad_norm": 0.03694356605410576,
-      "learning_rate": 0.00088,
-      "loss": 0.6585,
       "step": 8532
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.6318327974276527,
-      "eval_combined_score": 0.3159163987138264,
-      "eval_f1": 0.0,
-      "eval_loss": 0.6579644680023193,
-      "eval_runtime": 11.9528,
-      "eval_samples_per_second": 3382.463,
-      "eval_steps_per_second": 13.219,
       "step": 8532
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.050063714385032654,
-      "learning_rate": 0.00086,
-      "loss": 0.6585,
       "step": 9954
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.6318327974276527,
-      "eval_combined_score": 0.3159163987138264,
-      "eval_f1": 0.0,
-      "eval_loss": 0.6573427319526672,
-      "eval_runtime": 11.9023,
-      "eval_samples_per_second": 3396.831,
-      "eval_steps_per_second": 13.275,
       "step": 9954
     },
     {
       "epoch": 8.0,
-      "grad_norm": 0.11186650395393372,
-      "learning_rate": 0.00084,
-      "loss": 0.6585,
       "step": 11376
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.6318327974276527,
-      "eval_combined_score": 0.3159163987138264,
-      "eval_f1": 0.0,
-      "eval_loss": 0.6573427319526672,
-      "eval_runtime": 11.9741,
-      "eval_samples_per_second": 3376.452,
-      "eval_steps_per_second": 13.195,
       "step": 11376
     },
     {
-      "epoch": 8.0,
-      "step": 11376,
-      "total_flos": 7.633075201391002e+16,
-      "train_loss": 0.6589447268286167,
-      "train_runtime": 1607.151,
-      "train_samples_per_second": 11319.596,
-      "train_steps_per_second": 44.24
     }
   ],
   "logging_steps": 1,
@@ -188,7 +242,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.633075201391002e+16,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3550606966018677,
+  "best_model_checkpoint": "bert_tiny_lda_100_v1_qqp/checkpoint-8532",
+  "epoch": 11.0,
   "eval_steps": 500,
+  "global_step": 15642,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 2.963968276977539,
+      "learning_rate": 4.9e-05,
+      "loss": 0.4874,
       "step": 1422
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.797996537224833,
+      "eval_combined_score": 0.7552586086455046,
+      "eval_f1": 0.7125206800661763,
+      "eval_loss": 0.4273848235607147,
+      "eval_runtime": 12.4751,
+      "eval_samples_per_second": 3240.852,
+      "eval_steps_per_second": 12.665,
       "step": 1422
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.7753087282180786,
+      "learning_rate": 4.8e-05,
+      "loss": 0.388,
       "step": 2844
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.822384368043532,
+      "eval_combined_score": 0.7974788031824944,
+      "eval_f1": 0.7725732383214569,
+      "eval_loss": 0.37860846519470215,
+      "eval_runtime": 12.4162,
+      "eval_samples_per_second": 3256.242,
+      "eval_steps_per_second": 12.725,
       "step": 2844
     },
     {
       "epoch": 3.0,
+      "grad_norm": 2.818178176879883,
+      "learning_rate": 4.7e-05,
+      "loss": 0.3354,
       "step": 4266
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8372248330447687,
+      "eval_combined_score": 0.8135618147281756,
+      "eval_f1": 0.7898987964115826,
+      "eval_loss": 0.3613271117210388,
+      "eval_runtime": 12.3656,
+      "eval_samples_per_second": 3269.55,
+      "eval_steps_per_second": 12.777,
       "step": 4266
     },
     {
       "epoch": 4.0,
+      "grad_norm": 3.026447296142578,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.2928,
       "step": 5688
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8447440019787287,
+      "eval_combined_score": 0.8138597443078306,
+      "eval_f1": 0.7829754866369325,
+      "eval_loss": 0.3564006984233856,
+      "eval_runtime": 12.2406,
+      "eval_samples_per_second": 3302.952,
+      "eval_steps_per_second": 12.908,
       "step": 5688
     },
     {
       "epoch": 5.0,
+      "grad_norm": 2.733372688293457,
+      "learning_rate": 4.5e-05,
+      "loss": 0.2583,
       "step": 7110
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8509275290625773,
+      "eval_combined_score": 0.8253042271895796,
+      "eval_f1": 0.7996809253165819,
+      "eval_loss": 0.3613673448562622,
+      "eval_runtime": 12.2989,
+      "eval_samples_per_second": 3287.292,
+      "eval_steps_per_second": 12.847,
       "step": 7110
     },
     {
       "epoch": 6.0,
+      "grad_norm": 2.535404682159424,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.2277,
       "step": 8532
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8543408360128617,
+      "eval_combined_score": 0.83032142284148,
+      "eval_f1": 0.8063020096700984,
+      "eval_loss": 0.3550606966018677,
+      "eval_runtime": 12.5469,
+      "eval_samples_per_second": 3222.316,
+      "eval_steps_per_second": 12.593,
       "step": 8532
     },
     {
       "epoch": 7.0,
+      "grad_norm": 2.6766912937164307,
+      "learning_rate": 4.3e-05,
+      "loss": 0.2014,
       "step": 9954
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8551570615879297,
+      "eval_combined_score": 0.8322039379600886,
+      "eval_f1": 0.8092508143322475,
+      "eval_loss": 0.3854043185710907,
+      "eval_runtime": 12.1595,
+      "eval_samples_per_second": 3324.98,
+      "eval_steps_per_second": 12.994,
       "step": 9954
     },
     {
       "epoch": 8.0,
+      "grad_norm": 2.472510576248169,
+      "learning_rate": 4.2e-05,
+      "loss": 0.1784,
       "step": 11376
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8544892406628741,
+      "eval_combined_score": 0.8304560974134679,
+      "eval_f1": 0.8064229541640617,
+      "eval_loss": 0.3979368805885315,
+      "eval_runtime": 12.3624,
+      "eval_samples_per_second": 3270.399,
+      "eval_steps_per_second": 12.781,
       "step": 11376
     },
     {
+      "epoch": 9.0,
+      "grad_norm": 4.070095062255859,
+      "learning_rate": 4.1e-05,
+      "loss": 0.1578,
+      "step": 12798
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8558496166213208,
+      "eval_combined_score": 0.8330247887705053,
+      "eval_f1": 0.8101999609196899,
+      "eval_loss": 0.4261317253112793,
+      "eval_runtime": 12.3748,
+      "eval_samples_per_second": 3267.134,
+      "eval_steps_per_second": 12.768,
+      "step": 12798
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 2.72301983833313,
+      "learning_rate": 4e-05,
+      "loss": 0.1403,
+      "step": 14220
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8587929755132327,
+      "eval_combined_score": 0.8347857688543592,
+      "eval_f1": 0.8107785621954857,
+      "eval_loss": 0.4443197548389435,
+      "eval_runtime": 12.4932,
+      "eval_samples_per_second": 3236.159,
+      "eval_steps_per_second": 12.647,
+      "step": 14220
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 4.5569281578063965,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.1246,
+      "step": 15642
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.8566658421963889,
+      "eval_combined_score": 0.8329733686874654,
+      "eval_f1": 0.8092808951785421,
+      "eval_loss": 0.46776074171066284,
+      "eval_runtime": 12.4239,
+      "eval_samples_per_second": 3254.203,
+      "eval_steps_per_second": 12.717,
+      "step": 15642
+    },
+    {
+      "epoch": 11.0,
+      "step": 15642,
+      "total_flos": 1.0495478401912627e+17,
+      "train_loss": 0.2538350579257268,
+      "train_runtime": 2291.1306,
+      "train_samples_per_second": 7940.316,
+      "train_steps_per_second": 31.033
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.0495478401912627e+17,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null