Training in progress, step 650, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e0b88df280fa0f30bf5e5a5d5f23ce00dd2bb9235aa6fd79cb616e1b88b7c43
 size 1304192904

 version https://git-lfs.github.com/spec/v1
+oid sha256:4540ca1235af2c875e539ac3b5e586e4e382144e0ba3c5f3becf22bd60877612
 size 1304192904

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b81e573972743b4058f7f1f776861f288637e51f5ffb0c5bf72fdbd0a6e38976
 size 2608620781

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a698da9caeff532a802010e3682120ee85a9c61532b1612dffea9783e6c3601
 size 2608620781

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86301a0f7cc62f6260b9478c1f43594e34ae98b6bb8fef981eb0359e36b65a43
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a4f106ba33756e9a0a48fca5987af21381f69fdf3950392b72e934885bb98ba
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4dfa613499337ec4457a58c90204e2eecf20f93384b8c9c5881b6fea8e4327e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f059210d151648230eef71b7e1b4e4d9ec6e64c9baba4310c209aeb20d3735f3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.37029457092285156,
   "best_model_checkpoint": "./results/checkpoint-360",
-  "epoch": 1.5384615384615383,
   "eval_steps": 20,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -407,6 +407,118 @@
       "eval_samples_per_second": 10.355,
       "eval_steps_per_second": 2.623,
       "step": 500
     }
   ],
   "logging_steps": 20,
@@ -421,12 +533,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1631797255759776.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.37029457092285156,
   "best_model_checkpoint": "./results/checkpoint-360",
+  "epoch": 2.0,
   "eval_steps": 20,
+  "global_step": 650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.355,
       "eval_steps_per_second": 2.623,
       "step": 500
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.36008283495903015,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.4698,
+      "step": 520
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.8933333333333333,
+      "eval_loss": 0.4106966555118561,
+      "eval_runtime": 14.9453,
+      "eval_samples_per_second": 10.037,
+      "eval_steps_per_second": 2.543,
+      "step": 520
+    },
+    {
+      "epoch": 1.6615384615384614,
+      "grad_norm": 0.17318658530712128,
+      "learning_rate": 3.384615384615385e-06,
+      "loss": 0.2827,
+      "step": 540
+    },
+    {
+      "epoch": 1.6615384615384614,
+      "eval_accuracy": 0.86,
+      "eval_loss": 0.5434665083885193,
+      "eval_runtime": 14.2953,
+      "eval_samples_per_second": 10.493,
+      "eval_steps_per_second": 2.658,
+      "step": 540
+    },
+    {
+      "epoch": 1.7230769230769232,
+      "grad_norm": 55.85834884643555,
+      "learning_rate": 2.7692307692307697e-06,
+      "loss": 0.3331,
+      "step": 560
+    },
+    {
+      "epoch": 1.7230769230769232,
+      "eval_accuracy": 0.8733333333333333,
+      "eval_loss": 0.5320577621459961,
+      "eval_runtime": 14.6346,
+      "eval_samples_per_second": 10.25,
+      "eval_steps_per_second": 2.597,
+      "step": 560
+    },
+    {
+      "epoch": 1.7846153846153845,
+      "grad_norm": 0.38822901248931885,
+      "learning_rate": 2.153846153846154e-06,
+      "loss": 0.1841,
+      "step": 580
+    },
+    {
+      "epoch": 1.7846153846153845,
+      "eval_accuracy": 0.8866666666666667,
+      "eval_loss": 0.42079824209213257,
+      "eval_runtime": 14.3758,
+      "eval_samples_per_second": 10.434,
+      "eval_steps_per_second": 2.643,
+      "step": 580
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "grad_norm": 0.18515652418136597,
+      "learning_rate": 1.5384615384615387e-06,
+      "loss": 0.2626,
+      "step": 600
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "eval_accuracy": 0.8933333333333333,
+      "eval_loss": 0.4386911988258362,
+      "eval_runtime": 14.3806,
+      "eval_samples_per_second": 10.431,
+      "eval_steps_per_second": 2.642,
+      "step": 600
+    },
+    {
+      "epoch": 1.9076923076923076,
+      "grad_norm": 1.0158417224884033,
+      "learning_rate": 9.230769230769232e-07,
+      "loss": 0.3547,
+      "step": 620
+    },
+    {
+      "epoch": 1.9076923076923076,
+      "eval_accuracy": 0.8866666666666667,
+      "eval_loss": 0.43599483370780945,
+      "eval_runtime": 14.4539,
+      "eval_samples_per_second": 10.378,
+      "eval_steps_per_second": 2.629,
+      "step": 620
+    },
+    {
+      "epoch": 1.9692307692307693,
+      "grad_norm": 0.07184287160634995,
+      "learning_rate": 3.0769230769230774e-07,
+      "loss": 0.3534,
+      "step": 640
+    },
+    {
+      "epoch": 1.9692307692307693,
+      "eval_accuracy": 0.8866666666666667,
+      "eval_loss": 0.4359683096408844,
+      "eval_runtime": 14.4689,
+      "eval_samples_per_second": 10.367,
+      "eval_steps_per_second": 2.626,
+      "step": 640
     }
   ],
   "logging_steps": 20,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2124286577709744.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null