peterbeamish
/

trained_model

@@ -17,12 +17,12 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/flan-t5-small](https://huggingface.co/google/flan-t5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: nan
-- Rouge1: 0.04
-- Rouge2: 0.0
-- Rougel: 0.04
-- Rougelsum: 0.04
-- Gen Len: 18.4
 ## Model description
@@ -41,22 +41,21 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-05
-- train_batch_size: 16
-- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 4
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
-| No log        | 1.0   | 1    | nan             | 0.04   | 0.0    | 0.04   | 0.04      | 18.4    |
-| No log        | 2.0   | 2    | nan             | 0.04   | 0.0    | 0.04   | 0.04      | 18.4    |
-| No log        | 3.0   | 3    | nan             | 0.04   | 0.0    | 0.04   | 0.04      | 18.4    |
-| No log        | 4.0   | 4    | nan             | 0.04   | 0.0    | 0.04   | 0.04      | 18.4    |
 ### Framework versions

 This model is a fine-tuned version of [google/flan-t5-small](https://huggingface.co/google/flan-t5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.3339
+- Rouge1: 0.3861
+- Rouge2: 0.2867
+- Rougel: 0.3878
+- Rougelsum: 0.3898
+- Gen Len: 13.16
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 4e-05
+- train_batch_size: 2
+- eval_batch_size: 2
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 6
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
+| 1.9101        | 2.0   | 100  | 1.4032          | 0.3914 | 0.2858 | 0.3924 | 0.3934    | 12.7    |
+| 1.4264        | 4.0   | 200  | 1.3399          | 0.3805 | 0.287  | 0.382  | 0.3841    | 12.68   |
+| 1.3121        | 6.0   | 300  | 1.3339          | 0.3861 | 0.2867 | 0.3878 | 0.3898    | 13.16   |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f61e25eb29b9917691bb35646a92c3f398d03c9bf45976973ce7c3d5a5fa8fe0
 size 307910149

 version https://git-lfs.github.com/spec/v1
+oid sha256:741144121518df3bcb91f5111ecc4fea4c3ddcb016d849203a9ef046779f8bdf
 size 307910149

trainer_state.json CHANGED Viewed

@@ -1,80 +1,85 @@
 {
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 4.0,
-  "eval_steps": 500,
-  "global_step": 4,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_gen_len": 18.4,
-      "eval_loss": NaN,
-      "eval_rouge1": 0.04,
-      "eval_rouge2": 0.0,
-      "eval_rougeL": 0.04,
-      "eval_rougeLsum": 0.04,
-      "eval_runtime": 0.5268,
-      "eval_samples_per_second": 18.984,
-      "eval_steps_per_second": 1.898,
-      "step": 1
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 18.4,
-      "eval_loss": NaN,
-      "eval_rouge1": 0.04,
-      "eval_rouge2": 0.0,
-      "eval_rougeL": 0.04,
-      "eval_rougeLsum": 0.04,
-      "eval_runtime": 0.565,
-      "eval_samples_per_second": 17.699,
-      "eval_steps_per_second": 1.77,
-      "step": 2
     },
     {
-      "epoch": 3.0,
-      "eval_gen_len": 18.4,
-      "eval_loss": NaN,
-      "eval_rouge1": 0.04,
-      "eval_rouge2": 0.0,
-      "eval_rougeL": 0.04,
-      "eval_rougeLsum": 0.04,
-      "eval_runtime": 0.542,
-      "eval_samples_per_second": 18.45,
-      "eval_steps_per_second": 1.845,
-      "step": 3
     },
     {
       "epoch": 4.0,
-      "eval_gen_len": 18.4,
-      "eval_loss": NaN,
-      "eval_rouge1": 0.04,
-      "eval_rouge2": 0.0,
-      "eval_rougeL": 0.04,
-      "eval_rougeLsum": 0.04,
-      "eval_runtime": 0.5202,
-      "eval_samples_per_second": 19.222,
-      "eval_steps_per_second": 1.922,
-      "step": 4
     },
     {
-      "epoch": 4.0,
-      "step": 4,
-      "total_flos": 7435620188160.0,
-      "train_loss": 0.0,
-      "train_runtime": 2.8469,
-      "train_samples_per_second": 14.05,
-      "train_steps_per_second": 1.405
     }
   ],
-  "logging_steps": 500,
-  "max_steps": 4,
-  "num_train_epochs": 4,
-  "save_steps": 500,
-  "total_flos": 7435620188160.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.3398905992507935,
+  "best_model_checkpoint": "./trained_model/checkpoint-200",
+  "epoch": 6.0,
+  "eval_steps": 100,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 2.0,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 1.9101,
+      "step": 100
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 12.7,
+      "eval_loss": 1.4032484292984009,
+      "eval_rouge1": 0.3914,
+      "eval_rouge2": 0.2858,
+      "eval_rougeL": 0.3924,
+      "eval_rougeLsum": 0.3934,
+      "eval_runtime": 14.4875,
+      "eval_samples_per_second": 6.903,
+      "eval_steps_per_second": 3.451,
+      "step": 100
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 1.4264,
+      "step": 200
     },
     {
       "epoch": 4.0,
+      "eval_gen_len": 12.68,
+      "eval_loss": 1.3398905992507935,
+      "eval_rouge1": 0.3805,
+      "eval_rouge2": 0.287,
+      "eval_rougeL": 0.382,
+      "eval_rougeLsum": 0.3841,
+      "eval_runtime": 14.5729,
+      "eval_samples_per_second": 6.862,
+      "eval_steps_per_second": 3.431,
+      "step": 200
     },
     {
+      "epoch": 6.0,
+      "learning_rate": 0.0,
+      "loss": 1.3121,
+      "step": 300
+    },
+    {
+      "epoch": 6.0,
+      "eval_gen_len": 13.16,
+      "eval_loss": 1.3339253664016724,
+      "eval_rouge1": 0.3861,
+      "eval_rouge2": 0.2867,
+      "eval_rougeL": 0.3878,
+      "eval_rougeLsum": 0.3898,
+      "eval_runtime": 15.3545,
+      "eval_samples_per_second": 6.513,
+      "eval_steps_per_second": 3.256,
+      "step": 300
+    },
+    {
+      "epoch": 6.0,
+      "step": 300,
+      "total_flos": 111534302822400.0,
+      "train_loss": 1.5495406595865886,
+      "train_runtime": 74.9004,
+      "train_samples_per_second": 8.011,
+      "train_steps_per_second": 4.005
     }
   ],
+  "logging_steps": 100,
+  "max_steps": 300,
+  "num_train_epochs": 6,
+  "save_steps": 200,
+  "total_flos": 111534302822400.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c3058916ffeb55eb6dddcb4252c3c0b496033bbd44e5e22a2047f428bc39317
-size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:9da472b08deaef8c8414c7727a31d6ee03fb06b4f3e229ea402bdd50ebbc5835
+size 4219