End of training

Browse files

Files changed (4) hide show

all_results.json +3 -3
eval_results.json +3 -3
runs/May11_15-53-03_642c09b47d0a/events.out.tfevents.1683820671.642c09b47d0a.2440.2 +2 -2
trainer_state.json +513 -0

all_results.json CHANGED Viewed

@@ -6,7 +6,7 @@
     "eval_rouge-1": 1.0,
     "eval_rouge-2": 1.0,
     "eval_rouge-l": 1.0,
-    "eval_runtime": 0.2617,
-    "eval_samples_per_second": 3.82,
-    "eval_steps_per_second": 3.82
 }

     "eval_rouge-1": 1.0,
     "eval_rouge-2": 1.0,
     "eval_rouge-l": 1.0,
+    "eval_runtime": 0.3004,
+    "eval_samples_per_second": 3.328,
+    "eval_steps_per_second": 3.328
 }

eval_results.json CHANGED Viewed

@@ -6,7 +6,7 @@
     "eval_rouge-1": 1.0,
     "eval_rouge-2": 1.0,
     "eval_rouge-l": 1.0,
-    "eval_runtime": 0.2617,
-    "eval_samples_per_second": 3.82,
-    "eval_steps_per_second": 3.82
 }

     "eval_rouge-1": 1.0,
     "eval_rouge-2": 1.0,
     "eval_rouge-l": 1.0,
+    "eval_runtime": 0.3004,
+    "eval_samples_per_second": 3.328,
+    "eval_steps_per_second": 3.328
 }

runs/May11_15-53-03_642c09b47d0a/events.out.tfevents.1683820671.642c09b47d0a.2440.2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8cc6517c16437d604d5b52a97f69d78935cf740b4044c9349fdf9c5b601dc849
-size 618

 version https://git-lfs.github.com/spec/v1
+oid sha256:987fc48605e430ea40079352654181ea9f2c1902661aece95e75bd77114ff7f7
+size 1148

trainer_state.json ADDED Viewed

	@@ -0,0 +1,513 @@

+{
+  "best_metric": 0.002095520496368408,
+  "best_model_checkpoint": "qqq-finetuned-on-calls/checkpoint-500",
+  "epoch": 78.125,
+  "global_step": 625,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 3.12,
+      "learning_rate": 1e-05,
+      "loss": 2.1855,
+      "step": 25
+    },
+    {
+      "epoch": 3.12,
+      "eval_avg_rouge_f": 0.0,
+      "eval_gen_len": 15.0,
+      "eval_loss": 1.4282418489456177,
+      "eval_rouge-1": 0.0,
+      "eval_rouge-2": 0.0,
+      "eval_rouge-l": 0.0,
+      "eval_runtime": 2.7397,
+      "eval_samples_per_second": 0.365,
+      "eval_steps_per_second": 0.365,
+      "step": 25
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 2e-05,
+      "loss": 1.5665,
+      "step": 50
+    },
+    {
+      "epoch": 6.25,
+      "eval_avg_rouge_f": 0.1212,
+      "eval_gen_len": 12.0,
+      "eval_loss": 0.642043948173523,
+      "eval_rouge-1": 0.1818,
+      "eval_rouge-2": 0.0,
+      "eval_rouge-l": 0.1818,
+      "eval_runtime": 0.8049,
+      "eval_samples_per_second": 1.242,
+      "eval_steps_per_second": 1.242,
+      "step": 50
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 1.9333333333333333e-05,
+      "loss": 1.1046,
+      "step": 75
+    },
+    {
+      "epoch": 9.38,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.21844333410263062,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.239,
+      "eval_samples_per_second": 4.184,
+      "eval_steps_per_second": 4.184,
+      "step": 75
+    },
+    {
+      "epoch": 12.5,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 0.8218,
+      "step": 100
+    },
+    {
+      "epoch": 12.5,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.10981562733650208,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2279,
+      "eval_samples_per_second": 4.388,
+      "eval_steps_per_second": 4.388,
+      "step": 100
+    },
+    {
+      "epoch": 15.62,
+      "learning_rate": 1.8e-05,
+      "loss": 0.606,
+      "step": 125
+    },
+    {
+      "epoch": 15.62,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.07491956651210785,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.3017,
+      "eval_samples_per_second": 3.314,
+      "eval_steps_per_second": 3.314,
+      "step": 125
+    },
+    {
+      "epoch": 18.75,
+      "learning_rate": 1.7333333333333336e-05,
+      "loss": 0.5488,
+      "step": 150
+    },
+    {
+      "epoch": 18.75,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.057742033153772354,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2335,
+      "eval_samples_per_second": 4.282,
+      "eval_steps_per_second": 4.282,
+      "step": 150
+    },
+    {
+      "epoch": 21.88,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.4161,
+      "step": 175
+    },
+    {
+      "epoch": 21.88,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.06839721649885178,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2273,
+      "eval_samples_per_second": 4.399,
+      "eval_steps_per_second": 4.399,
+      "step": 175
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.3196,
+      "step": 200
+    },
+    {
+      "epoch": 25.0,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.057005975395441055,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2443,
+      "eval_samples_per_second": 4.093,
+      "eval_steps_per_second": 4.093,
+      "step": 200
+    },
+    {
+      "epoch": 28.12,
+      "learning_rate": 1.5333333333333334e-05,
+      "loss": 0.2929,
+      "step": 225
+    },
+    {
+      "epoch": 28.12,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.04155131056904793,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.3002,
+      "eval_samples_per_second": 3.332,
+      "eval_steps_per_second": 3.332,
+      "step": 225
+    },
+    {
+      "epoch": 31.25,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 0.2519,
+      "step": 250
+    },
+    {
+      "epoch": 31.25,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.024672139436006546,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2328,
+      "eval_samples_per_second": 4.296,
+      "eval_steps_per_second": 4.296,
+      "step": 250
+    },
+    {
+      "epoch": 34.38,
+      "learning_rate": 1.4e-05,
+      "loss": 0.178,
+      "step": 275
+    },
+    {
+      "epoch": 34.38,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.011837620288133621,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2389,
+      "eval_samples_per_second": 4.185,
+      "eval_steps_per_second": 4.185,
+      "step": 275
+    },
+    {
+      "epoch": 37.5,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.1603,
+      "step": 300
+    },
+    {
+      "epoch": 37.5,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.00636103143915534,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.331,
+      "eval_samples_per_second": 3.021,
+      "eval_steps_per_second": 3.021,
+      "step": 300
+    },
+    {
+      "epoch": 40.62,
+      "learning_rate": 1.2666666666666667e-05,
+      "loss": 0.1684,
+      "step": 325
+    },
+    {
+      "epoch": 40.62,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.005132880061864853,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2317,
+      "eval_samples_per_second": 4.316,
+      "eval_steps_per_second": 4.316,
+      "step": 325
+    },
+    {
+      "epoch": 43.75,
+      "learning_rate": 1.2e-05,
+      "loss": 0.1326,
+      "step": 350
+    },
+    {
+      "epoch": 43.75,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.005127913784235716,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2432,
+      "eval_samples_per_second": 4.111,
+      "eval_steps_per_second": 4.111,
+      "step": 350
+    },
+    {
+      "epoch": 46.88,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 0.1349,
+      "step": 375
+    },
+    {
+      "epoch": 46.88,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.006368895061314106,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.3345,
+      "eval_samples_per_second": 2.99,
+      "eval_steps_per_second": 2.99,
+      "step": 375
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.1105,
+      "step": 400
+    },
+    {
+      "epoch": 50.0,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.006063114386051893,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2318,
+      "eval_samples_per_second": 4.315,
+      "eval_steps_per_second": 4.315,
+      "step": 400
+    },
+    {
+      "epoch": 53.12,
+      "learning_rate": 1e-05,
+      "loss": 0.1026,
+      "step": 425
+    },
+    {
+      "epoch": 53.12,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.004856177140027285,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2374,
+      "eval_samples_per_second": 4.212,
+      "eval_steps_per_second": 4.212,
+      "step": 425
+    },
+    {
+      "epoch": 56.25,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.0936,
+      "step": 450
+    },
+    {
+      "epoch": 56.25,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.003024860518053174,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.3213,
+      "eval_samples_per_second": 3.112,
+      "eval_steps_per_second": 3.112,
+      "step": 450
+    },
+    {
+      "epoch": 59.38,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 0.0704,
+      "step": 475
+    },
+    {
+      "epoch": 59.38,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.002469500992447138,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2553,
+      "eval_samples_per_second": 3.916,
+      "eval_steps_per_second": 3.916,
+      "step": 475
+    },
+    {
+      "epoch": 62.5,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0699,
+      "step": 500
+    },
+    {
+      "epoch": 62.5,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.002095520496368408,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2503,
+      "eval_samples_per_second": 3.996,
+      "eval_steps_per_second": 3.996,
+      "step": 500
+    },
+    {
+      "epoch": 65.62,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 0.0863,
+      "step": 525
+    },
+    {
+      "epoch": 65.62,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.0020483580883592367,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.3232,
+      "eval_samples_per_second": 3.094,
+      "eval_steps_per_second": 3.094,
+      "step": 525
+    },
+    {
+      "epoch": 68.75,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0595,
+      "step": 550
+    },
+    {
+      "epoch": 68.75,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.002404692117124796,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2836,
+      "eval_samples_per_second": 3.526,
+      "eval_steps_per_second": 3.526,
+      "step": 550
+    },
+    {
+      "epoch": 71.88,
+      "learning_rate": 6e-06,
+      "loss": 0.0594,
+      "step": 575
+    },
+    {
+      "epoch": 71.88,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.002847235416993499,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.4294,
+      "eval_samples_per_second": 2.329,
+      "eval_steps_per_second": 2.329,
+      "step": 575
+    },
+    {
+      "epoch": 75.0,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.0683,
+      "step": 600
+    },
+    {
+      "epoch": 75.0,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.0025598241481930017,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2348,
+      "eval_samples_per_second": 4.259,
+      "eval_steps_per_second": 4.259,
+      "step": 600
+    },
+    {
+      "epoch": 78.12,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.074,
+      "step": 625
+    },
+    {
+      "epoch": 78.12,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.0025288190227001905,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.245,
+      "eval_samples_per_second": 4.081,
+      "eval_steps_per_second": 4.081,
+      "step": 625
+    },
+    {
+      "epoch": 78.12,
+      "step": 625,
+      "total_flos": 840313961717760.0,
+      "train_loss": 0.38729172706604004,
+      "train_runtime": 274.1527,
+      "train_samples_per_second": 8.754,
+      "train_steps_per_second": 2.918
+    },
+    {
+      "epoch": 78.12,
+      "eval_avg_rouge_f": 1.0,
+      "eval_gen_len": 11.0,
+      "eval_loss": 0.002095520496368408,
+      "eval_rouge-1": 1.0,
+      "eval_rouge-2": 1.0,
+      "eval_rouge-l": 1.0,
+      "eval_runtime": 0.2617,
+      "eval_samples_per_second": 3.82,
+      "eval_steps_per_second": 3.82,
+      "step": 625
+    }
+  ],
+  "max_steps": 800,
+  "num_train_epochs": 100,
+  "total_flos": 840313961717760.0,
+  "trial_name": null,
+  "trial_params": null
+}