add model

Browse files

Files changed (8) hide show

README.md +4 -4
all_results.json +10 -10
eval_results.json +6 -6
pytorch_model.bin +1 -1
tokenizer.json +0 -0
train_results.json +5 -5
trainer_state.json +168 -12
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ model_index:
     metric:
       name: Accuracy
       type: accuracy
-      value: 0.642504118616145
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -31,8 +31,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [albert-base-v2](https://huggingface.co/albert-base-v2) on the GLUE QNLI dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6284
-- Accuracy: 0.6425
 ## Model description
@@ -57,7 +57,7 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 0.001
 ### Training results

     metric:
       name: Accuracy
       type: accuracy
+      value: 0.9137836353651839
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [albert-base-v2](https://huggingface.co/albert-base-v2) on the GLUE QNLI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3608
+- Accuracy: 0.9138
 ## Model description
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 4.0
 ### Training results

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 0.0,
-    "eval_accuracy": 0.642504118616145,
-    "eval_loss": 0.6284383535385132,
-    "eval_runtime": 27.9064,
     "eval_samples": 5463,
-    "eval_samples_per_second": 195.761,
-    "eval_steps_per_second": 24.475,
-    "train_loss": 0.6153523921966553,
-    "train_runtime": 1.5743,
     "train_samples": 104743,
-    "train_samples_per_second": 66.532,
-    "train_steps_per_second": 2.541
 }

 {
+    "epoch": 4.0,
+    "eval_accuracy": 0.9137836353651839,
+    "eval_loss": 0.36082589626312256,
+    "eval_runtime": 28.0959,
     "eval_samples": 5463,
+    "eval_samples_per_second": 194.441,
+    "eval_steps_per_second": 24.31,
+    "train_loss": 0.1811416630491514,
+    "train_runtime": 5121.9571,
     "train_samples": 104743,
+    "train_samples_per_second": 81.799,
+    "train_steps_per_second": 2.557
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 0.0,
-    "eval_accuracy": 0.642504118616145,
-    "eval_loss": 0.6284383535385132,
-    "eval_runtime": 27.9064,
     "eval_samples": 5463,
-    "eval_samples_per_second": 195.761,
-    "eval_steps_per_second": 24.475
 }

 {
+    "epoch": 4.0,
+    "eval_accuracy": 0.9137836353651839,
+    "eval_loss": 0.36082589626312256,
+    "eval_runtime": 28.0959,
     "eval_samples": 5463,
+    "eval_samples_per_second": 194.441,
+    "eval_steps_per_second": 24.31
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae50e44ae6c4889694abbe34789e6aabd80d3015327c765d912c85905c45a160
 size 46755537

 version https://git-lfs.github.com/spec/v1
+oid sha256:36ffc9d15038cc4564cd3d06d2fa169b5f87327701ba99cde04b03852a7b6aaf
 size 46755537

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.0,
-    "train_loss": 0.6153523921966553,
-    "train_runtime": 1.5743,
     "train_samples": 104743,
-    "train_samples_per_second": 66.532,
-    "train_steps_per_second": 2.541
 }

 {
+    "epoch": 4.0,
+    "train_loss": 0.1811416630491514,
+    "train_runtime": 5121.9571,
     "train_samples": 104743,
+    "train_samples_per_second": 81.799,
+    "train_steps_per_second": 2.557
 }

trainer_state.json CHANGED Viewed

@@ -1,25 +1,181 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0012217470983506415,
-  "global_step": 4,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "step": 4,
-      "total_flos": 764739256320.0,
-      "train_loss": 0.6153523921966553,
-      "train_runtime": 1.5743,
-      "train_samples_per_second": 66.532,
-      "train_steps_per_second": 2.541
     }
   ],
-  "max_steps": 4,
-  "num_train_epochs": 1,
-  "total_flos": 764739256320.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
+  "global_step": 13096,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.15,
+      "learning_rate": 9.618204031765426e-06,
+      "loss": 0.3591,
+      "step": 500
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 9.23640806353085e-06,
+      "loss": 0.3059,
+      "step": 1000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 8.854612095296275e-06,
+      "loss": 0.2878,
+      "step": 1500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 8.4728161270617e-06,
+      "loss": 0.2803,
+      "step": 2000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.091020158827123e-06,
+      "loss": 0.2734,
+      "step": 2500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 7.709224190592548e-06,
+      "loss": 0.2593,
+      "step": 3000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 7.327428222357973e-06,
+      "loss": 0.2356,
+      "step": 3500
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 6.945632254123397e-06,
+      "loss": 0.1979,
+      "step": 4000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 6.563836285888821e-06,
+      "loss": 0.1948,
+      "step": 4500
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 6.1820403176542464e-06,
+      "loss": 0.1996,
+      "step": 5000
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 5.80024434941967e-06,
+      "loss": 0.1996,
+      "step": 5500
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 5.418448381185095e-06,
+      "loss": 0.1905,
+      "step": 6000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 5.03665241295052e-06,
+      "loss": 0.1908,
+      "step": 6500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 4.6548564447159445e-06,
+      "loss": 0.1417,
+      "step": 7000
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 4.273060476481369e-06,
+      "loss": 0.1369,
+      "step": 7500
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 3.891264508246793e-06,
+      "loss": 0.1378,
+      "step": 8000
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 3.5094685400122174e-06,
+      "loss": 0.1355,
+      "step": 8500
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 3.1276725717776426e-06,
+      "loss": 0.145,
+      "step": 9000
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 2.745876603543067e-06,
+      "loss": 0.1411,
+      "step": 9500
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 2.364080635308491e-06,
+      "loss": 0.1127,
+      "step": 10000
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 1.982284667073916e-06,
+      "loss": 0.0956,
+      "step": 10500
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 1.6004886988393402e-06,
+      "loss": 0.0963,
+      "step": 11000
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 1.218692730604765e-06,
+      "loss": 0.1004,
+      "step": 11500
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 8.368967623701894e-07,
+      "loss": 0.1026,
+      "step": 12000
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 4.55100794135614e-07,
+      "loss": 0.1097,
+      "step": 12500
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 7.330482590103849e-08,
+      "loss": 0.0936,
+      "step": 13000
+    },
+    {
+      "epoch": 4.0,
+      "step": 13096,
+      "total_flos": 2503158872647680.0,
+      "train_loss": 0.1811416630491514,
+      "train_runtime": 5121.9571,
+      "train_samples_per_second": 81.799,
+      "train_steps_per_second": 2.557
     }
   ],
+  "max_steps": 13096,
+  "num_train_epochs": 4,
+  "total_flos": 2503158872647680.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ae27f71105e7743e6d9c42fd3887cf54f03f8d711b08b7fe00d90710bc91811
 size 2607

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d06131cb3582905e5d815d5003443b54e994c9e6d74601fcb7d532e20569611
 size 2607