samil24 commited on Apr 4

Commit

9bd9d72

verified ·

1 Parent(s): 5a51e13

Training in progress, epoch 1

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

model.safetensors +1 -1
run-0/checkpoint-117/model.safetensors +1 -1
run-0/checkpoint-117/optimizer.pt +1 -1
run-0/checkpoint-117/scheduler.pt +1 -1
run-0/checkpoint-117/trainer_state.json +23 -23
run-0/checkpoint-117/training_args.bin +1 -1
run-0/checkpoint-39/model.safetensors +1 -1
run-0/checkpoint-39/optimizer.pt +1 -1
run-0/checkpoint-39/scheduler.pt +1 -1
run-0/checkpoint-39/trainer_state.json +10 -10
run-0/checkpoint-39/training_args.bin +1 -1
run-0/checkpoint-78/model.safetensors +1 -1
run-0/checkpoint-78/optimizer.pt +1 -1
run-0/checkpoint-78/scheduler.pt +1 -1
run-0/checkpoint-78/trainer_state.json +15 -15
run-0/checkpoint-78/training_args.bin +1 -1
run-1/checkpoint-117/trainer_state.json +19 -19
run-1/checkpoint-156/trainer_state.json +24 -24
run-1/checkpoint-195/trainer_state.json +29 -29
run-1/checkpoint-39/model.safetensors +1 -1
run-1/checkpoint-39/optimizer.pt +1 -1
run-1/checkpoint-39/scheduler.pt +1 -1
run-1/checkpoint-39/trainer_state.json +7 -7
run-1/checkpoint-39/training_args.bin +1 -1
run-1/checkpoint-78/model.safetensors +1 -1
run-1/checkpoint-78/optimizer.pt +1 -1
run-1/checkpoint-78/scheduler.pt +1 -1
run-1/checkpoint-78/trainer_state.json +14 -14
run-1/checkpoint-78/training_args.bin +1 -1
run-9/checkpoint-117/config.json +26 -0
run-9/checkpoint-117/model.safetensors +3 -0
run-9/checkpoint-117/optimizer.pt +3 -0
run-9/checkpoint-117/rng_state.pth +3 -0
run-9/checkpoint-117/scheduler.pt +3 -0
run-9/checkpoint-117/special_tokens_map.json +7 -0
run-9/checkpoint-117/tokenizer.json +0 -0
run-9/checkpoint-117/tokenizer_config.json +56 -0
run-9/checkpoint-117/trainer_state.json +67 -0
run-9/checkpoint-117/training_args.bin +3 -0
run-9/checkpoint-117/vocab.txt +0 -0
run-9/checkpoint-156/config.json +1 -1
run-9/checkpoint-156/model.safetensors +1 -1
run-9/checkpoint-156/optimizer.pt +1 -1
run-9/checkpoint-156/rng_state.pth +1 -1
run-9/checkpoint-156/scheduler.pt +1 -1
run-9/checkpoint-156/trainer_state.json +41 -21
run-9/checkpoint-156/training_args.bin +1 -1
run-9/checkpoint-195/config.json +26 -0
run-9/checkpoint-195/model.safetensors +3 -0
run-9/checkpoint-195/optimizer.pt +3 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:465fd61ef3175cbbce2909749fc7ae5734f210f378de19d57868f31c4380a23a
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc59468e2ba140a6f6e62e3c90e1035f190056bdc9b499e74ecade2b7fa551e7
 size 437958648

run-0/checkpoint-117/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62adfeef9129605396dfe21c65c5fc3d59bfeefce7d8c03cb8581764a9f7944a
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ce4125b396a0606ad963636d3d8c5e44f951bd4740645669474eae1f3cb814b
 size 437958648

run-0/checkpoint-117/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a45c1fcbf9a167a2dd3a862eee5e760ea3450db12550e273e1c3030c7c92da3
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b5187a960f1de00c4f147eb0f3746cc85cc2d1b7a30c131b1c886923b315421
 size 876038394

run-0/checkpoint-117/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e9dbb9cc4ed759cb224abe50df0e547d0121b53700136189150fe57d392f12b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:09557b1d4da433a4489d12bec551f7b75466f796a905598e6ba8698b633264c8
 size 1064

run-0/checkpoint-117/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_global_step": 39,
-  "best_metric": 0.5270758122743683,
-  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-39",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 117,
@@ -11,36 +11,36 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6918498277664185,
-      "eval_runtime": 0.635,
-      "eval_samples_per_second": 436.194,
-      "eval_steps_per_second": 14.172,
       "step": 39
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 6.468245983123779,
-      "eval_runtime": 0.6398,
-      "eval_samples_per_second": 432.935,
-      "eval_steps_per_second": 14.066,
       "step": 78
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7129499912261963,
-      "eval_runtime": 0.6364,
-      "eval_samples_per_second": 435.269,
-      "eval_steps_per_second": 14.142,
       "step": 117
     }
   ],
   "logging_steps": 500,
-  "max_steps": 195,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -49,7 +49,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
@@ -59,9 +59,9 @@
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
-    "learning_rate": 0.05,
     "max_length": 32,
-    "num_train_epochs": 5,
     "per_device_train_batch_size": 64
   }
 }

 {
+  "best_global_step": 117,
+  "best_metric": 0.6823104693140795,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-117",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 117,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6787003610108303,
+      "eval_loss": 0.6131929755210876,
+      "eval_runtime": 0.6361,
+      "eval_samples_per_second": 435.464,
+      "eval_steps_per_second": 14.149,
       "step": 39
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6750902527075813,
+      "eval_loss": 0.7132726907730103,
+      "eval_runtime": 0.6373,
+      "eval_samples_per_second": 434.619,
+      "eval_steps_per_second": 14.121,
       "step": 78
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6823104693140795,
+      "eval_loss": 0.7888869047164917,
+      "eval_runtime": 0.6455,
+      "eval_samples_per_second": 429.153,
+      "eval_steps_per_second": 13.944,
       "step": 117
     }
   ],
   "logging_steps": 500,
+  "max_steps": 117,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
+    "learning_rate": 0.0001,
     "max_length": 32,
+    "num_train_epochs": 3,
     "per_device_train_batch_size": 64
   }
 }

run-0/checkpoint-117/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e99cfd8ed47c6deda5dd532724592f1d8997b2921756d80eddbdaca287b3e257
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:e666bae6191103ce3111bb8ce1c7c6747611fec7304e19a2fcda4daf98790d92
 size 5432

run-0/checkpoint-39/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:501c9d0db52de0ae3a0489f8234dd2aff7ece8059a7ea3877035dd4ced9cc94b
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:2716fb232c32aa7c1891f7b4ce0a5863b69dd1aae61622661543846c2b3eebea
 size 437958648

run-0/checkpoint-39/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e43040edbcdbc937fbc2d1feb504b407b10f8c41ec3be86388a416d702f046bd
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:854cec4a44575fbd2cfa015e5ad662a02293b134682b7dc58d4cced3c269df12
 size 876038394

run-0/checkpoint-39/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:598448aee663bd69feb15b730dcfefd83bf321a2bd53ece879436b0e2e85c889
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0a7640caff23c1bb50b123dc402ae0eaf9bfbc3d4e319dc17d8121e9001bc26
 size 1064

run-0/checkpoint-39/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 39,
-  "best_metric": 0.5270758122743683,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-39",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -11,18 +11,18 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6918498277664185,
-      "eval_runtime": 0.635,
-      "eval_samples_per_second": 436.194,
-      "eval_steps_per_second": 14.172,
       "step": 39
     }
   ],
   "logging_steps": 500,
-  "max_steps": 195,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -41,9 +41,9 @@
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
-    "learning_rate": 0.05,
     "max_length": 32,
-    "num_train_epochs": 5,
     "per_device_train_batch_size": 64
   }
 }

 {
   "best_global_step": 39,
+  "best_metric": 0.6787003610108303,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-39",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6787003610108303,
+      "eval_loss": 0.6131929755210876,
+      "eval_runtime": 0.6361,
+      "eval_samples_per_second": 435.464,
+      "eval_steps_per_second": 14.149,
       "step": 39
     }
   ],
   "logging_steps": 500,
+  "max_steps": 117,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
+    "learning_rate": 0.0001,
     "max_length": 32,
+    "num_train_epochs": 3,
     "per_device_train_batch_size": 64
   }
 }

run-0/checkpoint-39/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e99cfd8ed47c6deda5dd532724592f1d8997b2921756d80eddbdaca287b3e257
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:e666bae6191103ce3111bb8ce1c7c6747611fec7304e19a2fcda4daf98790d92
 size 5432

run-0/checkpoint-78/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8f0c9c3d76c0bfba182562429ed0c930aab0b272c6f424390f7e6b8a2dfa20e
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b2b58ba8316c1e14342d28ec70cb085c885595457fd6595ed055803edb65417
 size 437958648

run-0/checkpoint-78/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d8abd6ea5465e4239d42abf177c06d8c0df6edd3ead63dfb120fabebb279a91
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:7001a693620ee2b9cca6597b55aa32607001b471c898c3b6b0c903fd50aa01b1
 size 876038394

run-0/checkpoint-78/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:562900fbc54f61683673f7d45f332e2421789e473397b69e96adb452a1719746
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:20c6c37a4a15bf2c6e5ac49dadc2a47206fbd55bea0d19dc3dfe3b1f35cc3fb0
 size 1064

run-0/checkpoint-78/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 39,
-  "best_metric": 0.5270758122743683,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-39",
   "epoch": 2.0,
   "eval_steps": 500,
@@ -11,27 +11,27 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6918498277664185,
-      "eval_runtime": 0.635,
-      "eval_samples_per_second": 436.194,
-      "eval_steps_per_second": 14.172,
       "step": 39
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 6.468245983123779,
-      "eval_runtime": 0.6398,
-      "eval_samples_per_second": 432.935,
-      "eval_steps_per_second": 14.066,
       "step": 78
     }
   ],
   "logging_steps": 500,
-  "max_steps": 195,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -50,9 +50,9 @@
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
-    "learning_rate": 0.05,
     "max_length": 32,
-    "num_train_epochs": 5,
     "per_device_train_batch_size": 64
   }
 }

 {
   "best_global_step": 39,
+  "best_metric": 0.6787003610108303,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-0/checkpoint-39",
   "epoch": 2.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6787003610108303,
+      "eval_loss": 0.6131929755210876,
+      "eval_runtime": 0.6361,
+      "eval_samples_per_second": 435.464,
+      "eval_steps_per_second": 14.149,
       "step": 39
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6750902527075813,
+      "eval_loss": 0.7132726907730103,
+      "eval_runtime": 0.6373,
+      "eval_samples_per_second": 434.619,
+      "eval_steps_per_second": 14.121,
       "step": 78
     }
   ],
   "logging_steps": 500,
+  "max_steps": 117,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
+    "learning_rate": 0.0001,
     "max_length": 32,
+    "num_train_epochs": 3,
     "per_device_train_batch_size": 64
   }
 }

run-0/checkpoint-78/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e99cfd8ed47c6deda5dd532724592f1d8997b2921756d80eddbdaca287b3e257
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:e666bae6191103ce3111bb8ce1c7c6747611fec7304e19a2fcda4daf98790d92
 size 5432

run-1/checkpoint-117/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_global_step": 39,
-  "best_metric": 0.5270758122743683,
-  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-39",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 117,
@@ -11,29 +11,29 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6918498277664185,
-      "eval_runtime": 0.6348,
-      "eval_samples_per_second": 436.374,
-      "eval_steps_per_second": 14.178,
       "step": 39
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 6.468245983123779,
-      "eval_runtime": 0.638,
-      "eval_samples_per_second": 434.168,
-      "eval_steps_per_second": 14.107,
       "step": 78
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7129499912261963,
-      "eval_runtime": 0.637,
-      "eval_samples_per_second": 434.85,
-      "eval_steps_per_second": 14.129,
       "step": 117
     }
   ],
@@ -59,7 +59,7 @@
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
-    "learning_rate": 0.05,
     "max_length": 32,
     "num_train_epochs": 5,
     "per_device_train_batch_size": 64

 {
+  "best_global_step": 117,
+  "best_metric": 0.6895306859205776,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-117",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 117,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6462093862815884,
+      "eval_loss": 0.6229268908500671,
+      "eval_runtime": 0.6366,
+      "eval_samples_per_second": 435.104,
+      "eval_steps_per_second": 14.137,
       "step": 39
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6570397111913358,
+      "eval_loss": 0.7122572064399719,
+      "eval_runtime": 0.6369,
+      "eval_samples_per_second": 434.899,
+      "eval_steps_per_second": 14.13,
       "step": 78
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6895306859205776,
+      "eval_loss": 0.6926298141479492,
+      "eval_runtime": 0.638,
+      "eval_samples_per_second": 434.136,
+      "eval_steps_per_second": 14.106,
       "step": 117
     }
   ],
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
+    "learning_rate": 0.0001,
     "max_length": 32,
     "num_train_epochs": 5,
     "per_device_train_batch_size": 64

run-1/checkpoint-156/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_global_step": 39,
-  "best_metric": 0.5270758122743683,
-  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-39",
   "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 156,
@@ -11,38 +11,38 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6918498277664185,
-      "eval_runtime": 0.6348,
-      "eval_samples_per_second": 436.374,
-      "eval_steps_per_second": 14.178,
       "step": 39
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 6.468245983123779,
-      "eval_runtime": 0.638,
-      "eval_samples_per_second": 434.168,
-      "eval_steps_per_second": 14.107,
       "step": 78
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7129499912261963,
-      "eval_runtime": 0.637,
-      "eval_samples_per_second": 434.85,
-      "eval_steps_per_second": 14.129,
       "step": 117
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.9733805060386658,
-      "eval_runtime": 0.6391,
-      "eval_samples_per_second": 433.43,
-      "eval_steps_per_second": 14.083,
       "step": 156
     }
   ],
@@ -68,7 +68,7 @@
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
-    "learning_rate": 0.05,
     "max_length": 32,
     "num_train_epochs": 5,
     "per_device_train_batch_size": 64

 {
+  "best_global_step": 117,
+  "best_metric": 0.6895306859205776,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-117",
   "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 156,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6462093862815884,
+      "eval_loss": 0.6229268908500671,
+      "eval_runtime": 0.6366,
+      "eval_samples_per_second": 435.104,
+      "eval_steps_per_second": 14.137,
       "step": 39
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6570397111913358,
+      "eval_loss": 0.7122572064399719,
+      "eval_runtime": 0.6369,
+      "eval_samples_per_second": 434.899,
+      "eval_steps_per_second": 14.13,
       "step": 78
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6895306859205776,
+      "eval_loss": 0.6926298141479492,
+      "eval_runtime": 0.638,
+      "eval_samples_per_second": 434.136,
+      "eval_steps_per_second": 14.106,
       "step": 117
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6678700361010831,
+      "eval_loss": 0.923632025718689,
+      "eval_runtime": 0.6386,
+      "eval_samples_per_second": 433.765,
+      "eval_steps_per_second": 14.093,
       "step": 156
     }
   ],
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
+    "learning_rate": 0.0001,
     "max_length": 32,
     "num_train_epochs": 5,
     "per_device_train_batch_size": 64

run-1/checkpoint-195/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_global_step": 39,
-  "best_metric": 0.5270758122743683,
-  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-39",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 195,
@@ -11,47 +11,47 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6918498277664185,
-      "eval_runtime": 0.6348,
-      "eval_samples_per_second": 436.374,
-      "eval_steps_per_second": 14.178,
       "step": 39
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 6.468245983123779,
-      "eval_runtime": 0.638,
-      "eval_samples_per_second": 434.168,
-      "eval_steps_per_second": 14.107,
       "step": 78
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7129499912261963,
-      "eval_runtime": 0.637,
-      "eval_samples_per_second": 434.85,
-      "eval_steps_per_second": 14.129,
       "step": 117
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.9733805060386658,
-      "eval_runtime": 0.6391,
-      "eval_samples_per_second": 433.43,
-      "eval_steps_per_second": 14.083,
       "step": 156
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7346399426460266,
-      "eval_runtime": 0.6373,
-      "eval_samples_per_second": 434.654,
-      "eval_steps_per_second": 14.122,
       "step": 195
     }
   ],
@@ -77,7 +77,7 @@
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
-    "learning_rate": 0.05,
     "max_length": 32,
     "num_train_epochs": 5,
     "per_device_train_batch_size": 64

 {
+  "best_global_step": 117,
+  "best_metric": 0.6895306859205776,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-117",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 195,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6462093862815884,
+      "eval_loss": 0.6229268908500671,
+      "eval_runtime": 0.6366,
+      "eval_samples_per_second": 435.104,
+      "eval_steps_per_second": 14.137,
       "step": 39
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6570397111913358,
+      "eval_loss": 0.7122572064399719,
+      "eval_runtime": 0.6369,
+      "eval_samples_per_second": 434.899,
+      "eval_steps_per_second": 14.13,
       "step": 78
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6895306859205776,
+      "eval_loss": 0.6926298141479492,
+      "eval_runtime": 0.638,
+      "eval_samples_per_second": 434.136,
+      "eval_steps_per_second": 14.106,
       "step": 117
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6678700361010831,
+      "eval_loss": 0.923632025718689,
+      "eval_runtime": 0.6386,
+      "eval_samples_per_second": 433.765,
+      "eval_steps_per_second": 14.093,
       "step": 156
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.6787003610108303,
+      "eval_loss": 1.1270627975463867,
+      "eval_runtime": 0.6426,
+      "eval_samples_per_second": 431.091,
+      "eval_steps_per_second": 14.007,
       "step": 195
     }
   ],
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
+    "learning_rate": 0.0001,
     "max_length": 32,
     "num_train_epochs": 5,
     "per_device_train_batch_size": 64

run-1/checkpoint-39/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:501c9d0db52de0ae3a0489f8234dd2aff7ece8059a7ea3877035dd4ced9cc94b
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc59468e2ba140a6f6e62e3c90e1035f190056bdc9b499e74ecade2b7fa551e7
 size 437958648

run-1/checkpoint-39/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dddedf4584c7e8be9e94f8272968acd37acaa267e4adc3d479a43758a38e02fc
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:e92e24c71c1ca864f10dfed46043f5ec1d165eb8d2e762e99bf4ffdf75d5ea92
 size 876038394

run-1/checkpoint-39/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:598448aee663bd69feb15b730dcfefd83bf321a2bd53ece879436b0e2e85c889
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d99f0741d1b8c0fb2ef672037883ae1152cbbf2c3bb454d16b7df9a7ccf7f447
 size 1064

run-1/checkpoint-39/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 39,
-  "best_metric": 0.5270758122743683,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-39",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -11,11 +11,11 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6918498277664185,
-      "eval_runtime": 0.6348,
-      "eval_samples_per_second": 436.374,
-      "eval_steps_per_second": 14.178,
       "step": 39
     }
   ],
@@ -41,7 +41,7 @@
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
-    "learning_rate": 0.05,
     "max_length": 32,
     "num_train_epochs": 5,
     "per_device_train_batch_size": 64

 {
   "best_global_step": 39,
+  "best_metric": 0.6462093862815884,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-39",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6462093862815884,
+      "eval_loss": 0.6229268908500671,
+      "eval_runtime": 0.6366,
+      "eval_samples_per_second": 435.104,
+      "eval_steps_per_second": 14.137,
       "step": 39
     }
   ],
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
+    "learning_rate": 0.0001,
     "max_length": 32,
     "num_train_epochs": 5,
     "per_device_train_batch_size": 64

run-1/checkpoint-39/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e99cfd8ed47c6deda5dd532724592f1d8997b2921756d80eddbdaca287b3e257
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:45289e81d0d437544c5e5fa7f0465860e7bb537a8d7f9f378dbccfa22dddc497
 size 5432

run-1/checkpoint-78/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8f0c9c3d76c0bfba182562429ed0c930aab0b272c6f424390f7e6b8a2dfa20e
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:f25fdea99ceb61fa6f36538a22ecbe5e6b141d77b47eced9ff8db8ba1d1865f5
 size 437958648

run-1/checkpoint-78/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17669738eaf34e1681623748501546276143a75b4cf564da21f7ab18308502e0
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9eaf725675e305ebee81c205aab615742a1d5d5ea0cb52c9a63839c25b9ce52
 size 876038394

run-1/checkpoint-78/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:562900fbc54f61683673f7d45f332e2421789e473397b69e96adb452a1719746
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb667ae3b67495afb6dd345289d7886f47c7be4d88545cef5fd8a2859941ae93
 size 1064

run-1/checkpoint-78/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_global_step": 39,
-  "best_metric": 0.5270758122743683,
-  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-39",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 78,
@@ -11,20 +11,20 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6918498277664185,
-      "eval_runtime": 0.6348,
-      "eval_samples_per_second": 436.374,
-      "eval_steps_per_second": 14.178,
       "step": 39
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 6.468245983123779,
-      "eval_runtime": 0.638,
-      "eval_samples_per_second": 434.168,
-      "eval_steps_per_second": 14.107,
       "step": 78
     }
   ],
@@ -50,7 +50,7 @@
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
-    "learning_rate": 0.05,
     "max_length": 32,
     "num_train_epochs": 5,
     "per_device_train_batch_size": 64

 {
+  "best_global_step": 78,
+  "best_metric": 0.6570397111913358,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-78",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 78,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6462093862815884,
+      "eval_loss": 0.6229268908500671,
+      "eval_runtime": 0.6366,
+      "eval_samples_per_second": 435.104,
+      "eval_steps_per_second": 14.137,
       "step": 39
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6570397111913358,
+      "eval_loss": 0.7122572064399719,
+      "eval_runtime": 0.6369,
+      "eval_samples_per_second": 434.899,
+      "eval_steps_per_second": 14.13,
       "step": 78
     }
   ],
   "trial_name": null,
   "trial_params": {
     "dropout_rate": 0.0134,
+    "learning_rate": 0.0001,
     "max_length": 32,
     "num_train_epochs": 5,
     "per_device_train_batch_size": 64

run-1/checkpoint-78/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e99cfd8ed47c6deda5dd532724592f1d8997b2921756d80eddbdaca287b3e257
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:45289e81d0d437544c5e5fa7f0465860e7bb537a8d7f9f378dbccfa22dddc497
 size 5432

run-9/checkpoint-117/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-9/checkpoint-117/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1abed0df3e92393ff4391869d54d2c1fa20917232a92b720a9f846349fe6f100
+size 437958648

run-9/checkpoint-117/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7614686ee26a6974dc0642d7f5447a7356b657ebccec6e742aff3a2e8fd48c4e
+size 876038394

run-9/checkpoint-117/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:066817b2001cdf2cab3204d72b7658f8308ed56a8eab94345bd5ce0742b9b7f7
+size 14244

run-9/checkpoint-117/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d3367c94eb78632ebcf0eb99adc77bf56c3333df91fbddd3c07e9e4a158dd6d
+size 1064

run-9/checkpoint-117/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-9/checkpoint-117/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-9/checkpoint-117/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-9/checkpoint-117/trainer_state.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "best_global_step": 39,
+  "best_metric": 0.5270758122743683,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-9/checkpoint-39",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 117,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5270758122743683,
+      "eval_loss": 0.6937959790229797,
+      "eval_runtime": 0.6356,
+      "eval_samples_per_second": 435.835,
+      "eval_steps_per_second": 14.161,
+      "step": 39
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.704865038394928,
+      "eval_runtime": 0.6385,
+      "eval_samples_per_second": 433.823,
+      "eval_steps_per_second": 14.095,
+      "step": 78
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5270758122743683,
+      "eval_loss": 0.7393977046012878,
+      "eval_runtime": 0.6383,
+      "eval_samples_per_second": 433.993,
+      "eval_steps_per_second": 14.101,
+      "step": 117
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 195,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "dropout_rate": 0.0134,
+    "learning_rate": 0.001,
+    "max_length": 32,
+    "num_train_epochs": 5,
+    "per_device_train_batch_size": 64
+  }
+}

run-9/checkpoint-117/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a54d1e9a16102072f117ac90cba2c8de9da1d67b974b29749928b6494fcb115
+size 5432

run-9/checkpoint-117/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-9/checkpoint-156/config.json CHANGED Viewed

@@ -19,7 +19,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.50.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

run-9/checkpoint-156/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b6d96d663efbc57e9542ff44865022edd9202194af887b918ca61af7f19f7c
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:59b563575b736ac4b51a650209a951abec8489e61c314511a0a0d14dac5ea6ae
 size 437958648

run-9/checkpoint-156/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97929b38536d37457220566effb284177d8001c95496f77c9616b6bdf757d2e2
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d1bfb12ef9c7bb61c13e253328f942c92a1d08309d399091589b16dcdade709
 size 876038394

run-9/checkpoint-156/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4a64755083f7633da1abd1de577e641d7084f1c57535fb19884090b3171beb5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f61eb961c8bdfdb65315b87a5752740304715f4131aaf57d9e9514dcd94c88a
 size 14244

run-9/checkpoint-156/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5bde52913dc62c559307ee5640e319a3f50de7393e9596c867af3260f119d18a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bbdd17099c17fd8973dbee7c8db3dc0750b97033702a5a917854c7124a17dfc
 size 1064

run-9/checkpoint-156/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_global_step": 78,
-  "best_metric": 0.6498194945848376,
-  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-9/checkpoint-78",
-  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 156,
   "is_hyper_param_search": true,
@@ -11,27 +11,45 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6498194945848376,
-      "eval_loss": 0.6421064734458923,
-      "eval_runtime": 0.6578,
-      "eval_samples_per_second": 421.089,
-      "eval_steps_per_second": 7.601,
-      "step": 78
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6462093862815884,
-      "eval_loss": 0.6568495035171509,
-      "eval_runtime": 0.6565,
-      "eval_samples_per_second": 421.952,
-      "eval_steps_per_second": 7.616,
       "step": 156
     }
   ],
   "logging_steps": 500,
-  "max_steps": 234,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -46,11 +64,13 @@
     }
   },
   "total_flos": 0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 4.274717233172879e-05,
-    "num_train_epochs": 3,
-    "per_device_train_batch_size": 32
   }
 }

 {
+  "best_global_step": 39,
+  "best_metric": 0.5270758122743683,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-9/checkpoint-39",
+  "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 156,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5270758122743683,
+      "eval_loss": 0.6937959790229797,
+      "eval_runtime": 0.6356,
+      "eval_samples_per_second": 435.835,
+      "eval_steps_per_second": 14.161,
+      "step": 39
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.704865038394928,
+      "eval_runtime": 0.6385,
+      "eval_samples_per_second": 433.823,
+      "eval_steps_per_second": 14.095,
+      "step": 78
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5270758122743683,
+      "eval_loss": 0.7393977046012878,
+      "eval_runtime": 0.6383,
+      "eval_samples_per_second": 433.993,
+      "eval_steps_per_second": 14.101,
+      "step": 117
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.7269212603569031,
+      "eval_runtime": 0.6407,
+      "eval_samples_per_second": 432.331,
+      "eval_steps_per_second": 14.047,
       "step": 156
     }
   ],
   "logging_steps": 500,
+  "max_steps": 195,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
     }
   },
   "total_flos": 0,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "dropout_rate": 0.0134,
+    "learning_rate": 0.001,
+    "max_length": 32,
+    "num_train_epochs": 5,
+    "per_device_train_batch_size": 64
   }
 }

run-9/checkpoint-156/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c620609d8f82ee84e735c3bd984fd4331ba2dc7eaba5332a6cbd4d79b5779119
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a54d1e9a16102072f117ac90cba2c8de9da1d67b974b29749928b6494fcb115
 size 5432

run-9/checkpoint-195/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-9/checkpoint-195/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95966654c3a0e0dc96b1a63065d98f17589e0f452c15d2ea154557e3f514d495
+size 437958648

run-9/checkpoint-195/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0de55e5f097cf92a82bb46b0bd569db756d57fe4bab23954436fd487a55a393
+size 876038394