End of training

Browse files

Files changed (7) hide show

README.md +5 -5
all_results.json +17 -17
egy_training_log.txt +2 -0
eval_results.json +11 -11
train_results.json +7 -7
train_vs_val_loss.png +0 -0
trainer_state.json +117 -231

README.md CHANGED Viewed

@@ -18,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [riotu-lab/ArabianGPT-01B](https://huggingface.co/riotu-lab/ArabianGPT-01B) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9003
-- Bleu: 0.3478
-- Rouge1: 0.6166
-- Rouge2: 0.3549
-- Rougel: 0.6125
 ## Model description

 This model is a fine-tuned version of [riotu-lab/ArabianGPT-01B](https://huggingface.co/riotu-lab/ArabianGPT-01B) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8298
+- Bleu: 0.3390
+- Rouge1: 0.5962
+- Rouge2: 0.3298
+- Rougel: 0.5921
 ## Model description

all_results.json CHANGED Viewed

@@ -1,19 +1,19 @@
 {
-    "epoch": 14.0,
-    "eval_bleu": 0.24587227576979195,
-    "eval_loss": 0.7315686941146851,
-    "eval_rouge1": 0.6017197427075045,
-    "eval_rouge2": 0.3518746485163118,
-    "eval_rougeL": 0.5982542515796094,
-    "eval_runtime": 47.0307,
-    "eval_samples": 14212,
-    "eval_samples_per_second": 302.185,
-    "eval_steps_per_second": 37.784,
-    "perplexity": 2.078338328926906,
-    "total_flos": 5.1991496589312e+16,
-    "train_loss": 0.09352104669935263,
-    "train_runtime": 3380.5822,
-    "train_samples": 56851,
-    "train_samples_per_second": 336.339,
-    "train_steps_per_second": 42.046
 }

 {
+    "epoch": 8.0,
+    "eval_bleu": 0.3389516198368023,
+    "eval_loss": 0.8298296928405762,
+    "eval_rouge1": 0.5961824107324037,
+    "eval_rouge2": 0.32984558195042607,
+    "eval_rougeL": 0.5921451862516953,
+    "eval_runtime": 46.8943,
+    "eval_samples": 14209,
+    "eval_samples_per_second": 303.001,
+    "eval_steps_per_second": 37.894,
+    "perplexity": 2.2929282049203015,
+    "total_flos": 2.9701587861504e+16,
+    "train_loss": 0.6060978588128408,
+    "train_runtime": 4864.2589,
+    "train_samples": 56836,
+    "train_samples_per_second": 233.688,
+    "train_steps_per_second": 29.213
 }

egy_training_log.txt CHANGED Viewed

@@ -160,3 +160,5 @@ INFO:root:Epoch 7.0: Train Loss = 0.4559, Eval Loss = 0.8647022843360901
 INFO:absl:Using default tokenizer.
 INFO:root:Epoch 8.0: Train Loss = 0.4104, Eval Loss = 0.8769952058792114
 INFO:absl:Using default tokenizer.

 INFO:absl:Using default tokenizer.
 INFO:root:Epoch 8.0: Train Loss = 0.4104, Eval Loss = 0.8769952058792114
 INFO:absl:Using default tokenizer.
+INFO:__main__:*** Evaluate ***
+INFO:absl:Using default tokenizer.

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 14.0,
-    "eval_bleu": 0.24587227576979195,
-    "eval_loss": 0.7315686941146851,
-    "eval_rouge1": 0.6017197427075045,
-    "eval_rouge2": 0.3518746485163118,
-    "eval_rougeL": 0.5982542515796094,
-    "eval_runtime": 47.0307,
-    "eval_samples": 14212,
-    "eval_samples_per_second": 302.185,
-    "eval_steps_per_second": 37.784,
-    "perplexity": 2.078338328926906
 }

 {
+    "epoch": 8.0,
+    "eval_bleu": 0.3389516198368023,
+    "eval_loss": 0.8298296928405762,
+    "eval_rouge1": 0.5961824107324037,
+    "eval_rouge2": 0.32984558195042607,
+    "eval_rougeL": 0.5921451862516953,
+    "eval_runtime": 46.8943,
+    "eval_samples": 14209,
+    "eval_samples_per_second": 303.001,
+    "eval_steps_per_second": 37.894,
+    "perplexity": 2.2929282049203015
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 14.0,
-    "total_flos": 5.1991496589312e+16,
-    "train_loss": 0.09352104669935263,
-    "train_runtime": 3380.5822,
-    "train_samples": 56851,
-    "train_samples_per_second": 336.339,
-    "train_steps_per_second": 42.046
 }

 {
+    "epoch": 8.0,
+    "total_flos": 2.9701587861504e+16,
+    "train_loss": 0.6060978588128408,
+    "train_runtime": 4864.2589,
+    "train_samples": 56836,
+    "train_samples_per_second": 233.688,
+    "train_steps_per_second": 29.213
 }

train_vs_val_loss.png CHANGED Viewed

trainer_state.json CHANGED Viewed

@@ -1,291 +1,177 @@
 {
-  "best_metric": 0.7315686941146851,
-  "best_model_checkpoint": "/home/iais_marenpielka/Bouthaina/res_nw_eg/checkpoint-28428",
-  "epoch": 14.0,
   "eval_steps": 500,
-  "global_step": 99498,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 2.742945671081543,
-      "learning_rate": 4.7667678621858235e-05,
-      "loss": 1.1436,
-      "step": 7107
     },
     {
       "epoch": 1.0,
-      "eval_bleu": 0.1900415894207328,
-      "eval_loss": 0.8277140259742737,
-      "eval_rouge1": 0.5211536867388353,
-      "eval_rouge2": 0.2576275131704426,
-      "eval_rougeL": 0.5169189427573101,
-      "eval_runtime": 204.5959,
-      "eval_samples_per_second": 69.464,
-      "eval_steps_per_second": 8.685,
-      "step": 7107
     },
     {
       "epoch": 2.0,
-      "grad_norm": 3.031801223754883,
-      "learning_rate": 4.515885343123411e-05,
-      "loss": 0.7508,
-      "step": 14214
     },
     {
       "epoch": 2.0,
-      "eval_bleu": 0.22138684401610842,
-      "eval_loss": 0.7543078064918518,
-      "eval_rouge1": 0.5674397247471176,
-      "eval_rouge2": 0.3108337383535441,
-      "eval_rougeL": 0.5636106781794015,
-      "eval_runtime": 171.1246,
-      "eval_samples_per_second": 83.051,
-      "eval_steps_per_second": 10.384,
-      "step": 14214
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.8590487241744995,
-      "learning_rate": 4.265002824061e-05,
-      "loss": 0.6471,
-      "step": 21321
     },
     {
       "epoch": 3.0,
-      "eval_bleu": 0.2374960454489342,
-      "eval_loss": 0.7337948083877563,
-      "eval_rouge1": 0.5880985827608463,
-      "eval_rouge2": 0.33558513842625187,
-      "eval_rougeL": 0.5844518671510625,
-      "eval_runtime": 68.7002,
-      "eval_samples_per_second": 206.87,
-      "eval_steps_per_second": 25.866,
-      "step": 21321
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.3944027423858643,
-      "learning_rate": 4.0141203049985884e-05,
-      "loss": 0.5713,
-      "step": 28428
     },
     {
       "epoch": 4.0,
-      "eval_bleu": 0.24587227576979195,
-      "eval_loss": 0.7315686941146851,
-      "eval_rouge1": 0.6017197427075045,
-      "eval_rouge2": 0.3518746485163118,
-      "eval_rougeL": 0.5982542515796094,
-      "eval_runtime": 62.0721,
-      "eval_samples_per_second": 228.959,
-      "eval_steps_per_second": 28.628,
-      "step": 28428
     },
     {
       "epoch": 5.0,
-      "grad_norm": 2.199220657348633,
-      "learning_rate": 3.763237785936176e-05,
-      "loss": 0.5097,
-      "step": 35535
     },
     {
       "epoch": 5.0,
-      "eval_bleu": 0.24748155317226092,
-      "eval_loss": 0.7390380501747131,
-      "eval_rouge1": 0.6058102682046419,
-      "eval_rouge2": 0.357170685615976,
-      "eval_rougeL": 0.6021635755679425,
-      "eval_runtime": 67.8747,
-      "eval_samples_per_second": 209.386,
-      "eval_steps_per_second": 26.181,
-      "step": 35535
     },
     {
       "epoch": 6.0,
-      "grad_norm": 2.055725574493408,
-      "learning_rate": 3.512355266873765e-05,
-      "loss": 0.4573,
-      "step": 42642
     },
     {
       "epoch": 6.0,
-      "eval_bleu": 0.25030630377831276,
-      "eval_loss": 0.748293399810791,
-      "eval_rouge1": 0.6103116816448397,
-      "eval_rouge2": 0.361846050958361,
-      "eval_rougeL": 0.6066395364597333,
-      "eval_runtime": 56.4418,
-      "eval_samples_per_second": 251.799,
-      "eval_steps_per_second": 31.484,
-      "step": 42642
     },
     {
       "epoch": 7.0,
-      "grad_norm": 1.6595733165740967,
-      "learning_rate": 3.2614727478113526e-05,
-      "loss": 0.4118,
-      "step": 49749
     },
     {
       "epoch": 7.0,
-      "eval_bleu": 0.2494244558337241,
-      "eval_loss": 0.7635838389396667,
-      "eval_rouge1": 0.610621109140437,
-      "eval_rouge2": 0.3633959713058441,
-      "eval_rougeL": 0.6069537363647842,
-      "eval_runtime": 173.9311,
-      "eval_samples_per_second": 81.711,
-      "eval_steps_per_second": 10.217,
-      "step": 49749
     },
     {
       "epoch": 8.0,
-      "grad_norm": 3.863671064376831,
-      "learning_rate": 3.010590228748941e-05,
-      "loss": 0.3725,
-      "step": 56856
     },
     {
       "epoch": 8.0,
-      "eval_bleu": 0.25065847486647275,
-      "eval_loss": 0.7796261310577393,
-      "eval_rouge1": 0.6126587801190159,
-      "eval_rouge2": 0.3659624175392553,
-      "eval_rougeL": 0.6088959046619336,
-      "eval_runtime": 170.86,
-      "eval_samples_per_second": 83.179,
-      "eval_steps_per_second": 10.4,
-      "step": 56856
     },
     {
-      "epoch": 9.0,
-      "grad_norm": 3.546931266784668,
-      "learning_rate": 2.7597077096865293e-05,
-      "loss": 0.3375,
-      "step": 63963
-    },
-    {
-      "epoch": 9.0,
-      "eval_bleu": 0.24908190761452426,
-      "eval_loss": 0.7973926663398743,
-      "eval_rouge1": 0.6111967178899901,
-      "eval_rouge2": 0.36536691181853787,
-      "eval_rougeL": 0.6074289902749841,
-      "eval_runtime": 173.0755,
-      "eval_samples_per_second": 82.114,
-      "eval_steps_per_second": 10.267,
-      "step": 63963
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 2.328486442565918,
-      "learning_rate": 2.5088251906241178e-05,
-      "loss": 0.3074,
-      "step": 71070
-    },
-    {
-      "epoch": 10.0,
-      "eval_bleu": 0.24784142265151649,
-      "eval_loss": 0.8155524134635925,
-      "eval_rouge1": 0.6101301030440347,
-      "eval_rouge2": 0.364415924488246,
-      "eval_rougeL": 0.606258270290786,
-      "eval_runtime": 82.2965,
-      "eval_samples_per_second": 172.693,
-      "eval_steps_per_second": 21.593,
-      "step": 71070
-    },
-    {
-      "epoch": 11.0,
-      "grad_norm": 2.1735293865203857,
-      "learning_rate": 2.2579426715617057e-05,
-      "loss": 0.2813,
-      "step": 78177
-    },
-    {
-      "epoch": 11.0,
-      "eval_bleu": 0.24877766407334076,
-      "eval_loss": 0.8325821757316589,
-      "eval_rouge1": 0.6108646154589945,
-      "eval_rouge2": 0.36567755520636375,
-      "eval_rougeL": 0.6071552064184781,
-      "eval_runtime": 46.9697,
-      "eval_samples_per_second": 302.578,
-      "eval_steps_per_second": 37.833,
-      "step": 78177
-    },
-    {
-      "epoch": 12.0,
-      "grad_norm": 2.380600929260254,
-      "learning_rate": 2.0070601524992942e-05,
-      "loss": 0.2586,
-      "step": 85284
-    },
-    {
-      "epoch": 12.0,
-      "eval_bleu": 0.24613125712387748,
-      "eval_loss": 0.8498404026031494,
-      "eval_rouge1": 0.6082478770786404,
-      "eval_rouge2": 0.3630077370066766,
-      "eval_rougeL": 0.604462114793365,
-      "eval_runtime": 46.8897,
-      "eval_samples_per_second": 303.094,
-      "eval_steps_per_second": 37.897,
-      "step": 85284
-    },
-    {
-      "epoch": 13.0,
-      "grad_norm": 2.3239755630493164,
-      "learning_rate": 1.7561776334368824e-05,
-      "loss": 0.2392,
-      "step": 92391
-    },
-    {
-      "epoch": 13.0,
-      "eval_bleu": 0.24701514132558042,
-      "eval_loss": 0.867546021938324,
-      "eval_rouge1": 0.6094521129523778,
-      "eval_rouge2": 0.364158573223837,
-      "eval_rougeL": 0.6054673467586391,
-      "eval_runtime": 169.8152,
-      "eval_samples_per_second": 83.691,
-      "eval_steps_per_second": 10.464,
-      "step": 92391
-    },
-    {
-      "epoch": 14.0,
-      "grad_norm": 2.4565744400024414,
-      "learning_rate": 1.5052951143744705e-05,
-      "loss": 0.2227,
-      "step": 99498
-    },
-    {
-      "epoch": 14.0,
-      "eval_bleu": 0.24626598003060837,
-      "eval_loss": 0.8826896548271179,
-      "eval_rouge1": 0.6087178921955774,
-      "eval_rouge2": 0.36314063359901005,
-      "eval_rougeL": 0.6048623164787159,
-      "eval_runtime": 170.1544,
-      "eval_samples_per_second": 83.524,
-      "eval_steps_per_second": 10.443,
-      "step": 99498
-    },
-    {
-      "epoch": 14.0,
-      "step": 99498,
-      "total_flos": 5.1991496589312e+16,
-      "train_loss": 0.09352104669935263,
-      "train_runtime": 3380.5822,
-      "train_samples_per_second": 336.339,
-      "train_steps_per_second": 42.046
     }
   ],
   "logging_steps": 500,
-  "max_steps": 142140,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 500,
@@ -310,7 +196,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.1991496589312e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8298296928405762,
+  "best_model_checkpoint": "/home/iais_marenpielka/Bouthaina/res_nw_eg/checkpoint-21315",
+  "epoch": 8.0,
   "eval_steps": 500,
+  "global_step": 56840,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 1.2983179092407227,
+      "learning_rate": 4.766772598870057e-05,
+      "loss": 1.1362,
+      "step": 7105
     },
     {
       "epoch": 1.0,
+      "eval_bleu": 0.3024315492316285,
+      "eval_loss": 0.9122783541679382,
+      "eval_rouge1": 0.5275815926361394,
+      "eval_rouge2": 0.250835305590573,
+      "eval_rougeL": 0.5227642919859343,
+      "eval_runtime": 82.2039,
+      "eval_samples_per_second": 172.851,
+      "eval_steps_per_second": 21.617,
+      "step": 7105
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.6412582397460938,
+      "learning_rate": 4.515889830508475e-05,
+      "loss": 0.7501,
+      "step": 14210
     },
     {
       "epoch": 2.0,
+      "eval_bleu": 0.3299343390399215,
+      "eval_loss": 0.8436459302902222,
+      "eval_rouge1": 0.5753620498690527,
+      "eval_rouge2": 0.30552900678559713,
+      "eval_rougeL": 0.5712795722916149,
+      "eval_runtime": 47.3241,
+      "eval_samples_per_second": 300.248,
+      "eval_steps_per_second": 37.55,
+      "step": 14210
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.4929105043411255,
+      "learning_rate": 4.265007062146893e-05,
+      "loss": 0.6462,
+      "step": 21315
     },
     {
       "epoch": 3.0,
+      "eval_bleu": 0.3389516198368023,
+      "eval_loss": 0.8298296928405762,
+      "eval_rouge1": 0.5961824107324037,
+      "eval_rouge2": 0.32984558195042607,
+      "eval_rougeL": 0.5921451862516953,
+      "eval_runtime": 46.7775,
+      "eval_samples_per_second": 303.757,
+      "eval_steps_per_second": 37.988,
+      "step": 21315
     },
     {
       "epoch": 4.0,
+      "grad_norm": 2.472024440765381,
+      "learning_rate": 4.014124293785311e-05,
+      "loss": 0.5705,
+      "step": 28420
     },
     {
       "epoch": 4.0,
+      "eval_bleu": 0.3443865327631572,
+      "eval_loss": 0.8327584862709045,
+      "eval_rouge1": 0.6048121716287991,
+      "eval_rouge2": 0.3411757857050619,
+      "eval_rougeL": 0.6010600637633374,
+      "eval_runtime": 51.9902,
+      "eval_samples_per_second": 273.301,
+      "eval_steps_per_second": 34.18,
+      "step": 28420
     },
     {
       "epoch": 5.0,
+      "grad_norm": 1.5785757303237915,
+      "learning_rate": 3.763241525423729e-05,
+      "loss": 0.5087,
+      "step": 35525
     },
     {
       "epoch": 5.0,
+      "eval_bleu": 0.3480087983574886,
+      "eval_loss": 0.8406437635421753,
+      "eval_rouge1": 0.6133106901142944,
+      "eval_rouge2": 0.3512185978691529,
+      "eval_rougeL": 0.6095993795603691,
+      "eval_runtime": 46.8243,
+      "eval_samples_per_second": 303.453,
+      "eval_steps_per_second": 37.95,
+      "step": 35525
     },
     {
       "epoch": 6.0,
+      "grad_norm": 1.7464922666549683,
+      "learning_rate": 3.5123587570621466e-05,
+      "loss": 0.4559,
+      "step": 42630
     },
     {
       "epoch": 6.0,
+      "eval_bleu": 0.34779219505501374,
+      "eval_loss": 0.8647022843360901,
+      "eval_rouge1": 0.6132791748034587,
+      "eval_rouge2": 0.35198863487088,
+      "eval_rougeL": 0.6093736659279629,
+      "eval_runtime": 46.987,
+      "eval_samples_per_second": 302.403,
+      "eval_steps_per_second": 37.819,
+      "step": 42630
     },
     {
       "epoch": 7.0,
+      "grad_norm": 2.2738301753997803,
+      "learning_rate": 3.261475988700565e-05,
+      "loss": 0.4104,
+      "step": 49735
     },
     {
       "epoch": 7.0,
+      "eval_bleu": 0.3484641332073553,
+      "eval_loss": 0.8769952058792114,
+      "eval_rouge1": 0.6147660525828296,
+      "eval_rouge2": 0.3532593327836824,
+      "eval_rougeL": 0.6107018352641345,
+      "eval_runtime": 47.1718,
+      "eval_samples_per_second": 301.218,
+      "eval_steps_per_second": 37.671,
+      "step": 49735
     },
     {
       "epoch": 8.0,
+      "grad_norm": 1.9538367986679077,
+      "learning_rate": 3.010593220338983e-05,
+      "loss": 0.3708,
+      "step": 56840
     },
     {
       "epoch": 8.0,
+      "eval_bleu": 0.3478035270510471,
+      "eval_loss": 0.9003333449363708,
+      "eval_rouge1": 0.6165900788913368,
+      "eval_rouge2": 0.3548552782268418,
+      "eval_rougeL": 0.6124632709173936,
+      "eval_runtime": 47.008,
+      "eval_samples_per_second": 302.268,
+      "eval_steps_per_second": 37.802,
+      "step": 56840
     },
     {
+      "epoch": 8.0,
+      "step": 56840,
+      "total_flos": 2.9701587861504e+16,
+      "train_loss": 0.6060978588128408,
+      "train_runtime": 4864.2589,
+      "train_samples_per_second": 233.688,
+      "train_steps_per_second": 29.213
     }
   ],
   "logging_steps": 500,
+  "max_steps": 142100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 2.9701587861504e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null