Add 2233188

Browse files

Files changed (5) hide show

README.md +49 -4
all_results.json +5 -5
pytorch_model.bin +1 -1
train_results.json +5 -5
trainer_state.json +588 -3

README.md CHANGED Viewed

@@ -11,9 +11,9 @@ should probably proofread and complete it, then remove this comment. -->
 # out
-This model is a fine-tuned version of [/1TB_SSD/SB_AI/out_orig2](https://huggingface.co//1TB_SSD/SB_AI/out_orig2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0619
 ## Model description
@@ -35,10 +35,10 @@ The following hyperparameters were used during training:
 - learning_rate: 5e-05
 - train_batch_size: 1
 - eval_batch_size: 1
-- seed: 3784447887
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 1
 ### Training results
@@ -58,6 +58,51 @@ The following hyperparameters were used during training:
 | 0.059         | 0.81  | 900000  | 0.0652          |
 | 0.0666        | 0.87  | 975000  | 0.0619          |
 | 0.0624        | 0.94  | 1050000 | 0.0619          |
 ### Framework versions

 # out
+This model is a fine-tuned version of [/1TB_SSD/SB_AI/out_epoch1/out/checkpoint-1115000/](https://huggingface.co//1TB_SSD/SB_AI/out_epoch1/out/checkpoint-1115000/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0645
 ## Model description
 - learning_rate: 5e-05
 - train_batch_size: 1
 - eval_batch_size: 1
+- seed: 2518227880
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 2.0
 ### Training results
 | 0.059         | 0.81  | 900000  | 0.0652          |
 | 0.0666        | 0.87  | 975000  | 0.0619          |
 | 0.0624        | 0.94  | 1050000 | 0.0619          |
+| 0.0625        | 1.01  | 1125000 | 0.0667          |
+| 0.0614        | 1.03  | 1150000 | 0.0658          |
+| 0.0597        | 1.05  | 1175000 | 0.0683          |
+| 0.0629        | 1.07  | 1200000 | 0.0691          |
+| 0.0603        | 1.1   | 1225000 | 0.0678          |
+| 0.0601        | 1.12  | 1250000 | 0.0746          |
+| 0.0606        | 1.14  | 1275000 | 0.0691          |
+| 0.0671        | 1.16  | 1300000 | 0.0702          |
+| 0.0625        | 1.19  | 1325000 | 0.0661          |
+| 0.0617        | 1.21  | 1350000 | 0.0688          |
+| 0.0579        | 1.23  | 1375000 | 0.0679          |
+| 0.0663        | 1.25  | 1400000 | 0.0634          |
+| 0.0583        | 1.28  | 1425000 | 0.0638          |
+| 0.0623        | 1.3   | 1450000 | 0.0681          |
+| 0.0615        | 1.32  | 1475000 | 0.0670          |
+| 0.0592        | 1.34  | 1500000 | 0.0666          |
+| 0.0626        | 1.37  | 1525000 | 0.0666          |
+| 0.063         | 1.39  | 1550000 | 0.0647          |
+| 0.0648        | 1.41  | 1575000 | 0.0653          |
+| 0.0611        | 1.43  | 1600000 | 0.0700          |
+| 0.0622        | 1.46  | 1625000 | 0.0634          |
+| 0.0617        | 1.48  | 1650000 | 0.0651          |
+| 0.0613        | 1.5   | 1675000 | 0.0634          |
+| 0.0639        | 1.52  | 1700000 | 0.0661          |
+| 0.0615        | 1.54  | 1725000 | 0.0644          |
+| 0.0605        | 1.57  | 1750000 | 0.0662          |
+| 0.0622        | 1.59  | 1775000 | 0.0656          |
+| 0.0585        | 1.61  | 1800000 | 0.0633          |
+| 0.0628        | 1.63  | 1825000 | 0.0625          |
+| 0.0638        | 1.66  | 1850000 | 0.0662          |
+| 0.0599        | 1.68  | 1875000 | 0.0664          |
+| 0.0583        | 1.7   | 1900000 | 0.0668          |
+| 0.0543        | 1.72  | 1925000 | 0.0631          |
+| 0.06          | 1.75  | 1950000 | 0.0629          |
+| 0.0615        | 1.77  | 1975000 | 0.0644          |
+| 0.0587        | 1.79  | 2000000 | 0.0663          |
+| 0.0647        | 1.81  | 2025000 | 0.0654          |
+| 0.0604        | 1.84  | 2050000 | 0.0639          |
+| 0.0641        | 1.86  | 2075000 | 0.0636          |
+| 0.0604        | 1.88  | 2100000 | 0.0636          |
+| 0.0654        | 1.9   | 2125000 | 0.0652          |
+| 0.0588        | 1.93  | 2150000 | 0.0638          |
+| 0.0616        | 1.95  | 2175000 | 0.0657          |
+| 0.0598        | 1.97  | 2200000 | 0.0646          |
+| 0.0633        | 1.99  | 2225000 | 0.0645          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.0695511792498969,
-    "train_runtime": 176193.0564,
     "train_samples": 1116594,
-    "train_samples_per_second": 6.337,
-    "train_steps_per_second": 6.337
 }

 {
+    "epoch": 2.0,
+    "train_loss": 0.030777697094727392,
+    "train_runtime": 228453.6417,
     "train_samples": 1116594,
+    "train_samples_per_second": 9.775,
+    "train_steps_per_second": 9.775
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afdfb877d569756c5d3e589de624b065735445d4431398f5ec538b4f3ee17e99
 size 891703231

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d0ec9b60b45e3f2d6bbd55005877c63954154cb113d9575bd472932dc918566
 size 891703231

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.0695511792498969,
-    "train_runtime": 176193.0564,
     "train_samples": 1116594,
-    "train_samples_per_second": 6.337,
-    "train_steps_per_second": 6.337
 }

 {
+    "epoch": 2.0,
+    "train_loss": 0.030777697094727392,
+    "train_runtime": 228453.6417,
     "train_samples": 1116594,
+    "train_samples_per_second": 9.775,
+    "train_steps_per_second": 9.775
 }

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.656824235129331,
-  "global_step": 1850000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2578,11 +2578,596 @@
       "eval_samples_per_second": 36.912,
       "eval_steps_per_second": 36.912,
       "step": 1850000
     }
   ],
   "max_steps": 2233188,
   "num_train_epochs": 2,
-  "total_flos": 5.556070184057856e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "global_step": 2233188,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 36.912,
       "eval_steps_per_second": 36.912,
       "step": 1850000
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 8.467446538312046e-06,
+      "loss": 0.0601,
+      "step": 1855000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 8.355498954857361e-06,
+      "loss": 0.065,
+      "step": 1860000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 8.243551371402678e-06,
+      "loss": 0.059,
+      "step": 1865000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 8.131603787947991e-06,
+      "loss": 0.064,
+      "step": 1870000
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 8.019656204493308e-06,
+      "loss": 0.0599,
+      "step": 1875000
+    },
+    {
+      "epoch": 1.68,
+      "eval_loss": 0.06644026190042496,
+      "eval_runtime": 1678.6507,
+      "eval_samples_per_second": 36.954,
+      "eval_steps_per_second": 36.954,
+      "step": 1875000
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 7.907708621038623e-06,
+      "loss": 0.0639,
+      "step": 1880000
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 7.795761037583939e-06,
+      "loss": 0.0631,
+      "step": 1885000
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 7.683813454129254e-06,
+      "loss": 0.064,
+      "step": 1890000
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 7.57186587067457e-06,
+      "loss": 0.062,
+      "step": 1895000
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 7.459918287219884e-06,
+      "loss": 0.0583,
+      "step": 1900000
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.0668446272611618,
+      "eval_runtime": 1681.2378,
+      "eval_samples_per_second": 36.897,
+      "eval_steps_per_second": 36.897,
+      "step": 1900000
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 7.3479707037652e-06,
+      "loss": 0.0599,
+      "step": 1905000
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 7.236023120310516e-06,
+      "loss": 0.0611,
+      "step": 1910000
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 7.124075536855831e-06,
+      "loss": 0.0627,
+      "step": 1915000
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 7.012127953401147e-06,
+      "loss": 0.0591,
+      "step": 1920000
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 6.900180369946463e-06,
+      "loss": 0.0543,
+      "step": 1925000
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 0.06305810809135437,
+      "eval_runtime": 1683.6555,
+      "eval_samples_per_second": 36.844,
+      "eval_steps_per_second": 36.844,
+      "step": 1925000
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 6.788232786491779e-06,
+      "loss": 0.0622,
+      "step": 1930000
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 6.676285203037093e-06,
+      "loss": 0.0605,
+      "step": 1935000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 6.564337619582408e-06,
+      "loss": 0.0622,
+      "step": 1940000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 6.452390036127724e-06,
+      "loss": 0.0596,
+      "step": 1945000
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 6.34044245267304e-06,
+      "loss": 0.06,
+      "step": 1950000
+    },
+    {
+      "epoch": 1.75,
+      "eval_loss": 0.06286083161830902,
+      "eval_runtime": 1684.2136,
+      "eval_samples_per_second": 36.832,
+      "eval_steps_per_second": 36.832,
+      "step": 1950000
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 6.2284948692183554e-06,
+      "loss": 0.058,
+      "step": 1955000
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 6.116547285763671e-06,
+      "loss": 0.0594,
+      "step": 1960000
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 6.004599702308987e-06,
+      "loss": 0.0679,
+      "step": 1965000
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 5.892652118854302e-06,
+      "loss": 0.0621,
+      "step": 1970000
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 5.780704535399617e-06,
+      "loss": 0.0615,
+      "step": 1975000
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 0.06435712426900864,
+      "eval_runtime": 1684.3427,
+      "eval_samples_per_second": 36.829,
+      "eval_steps_per_second": 36.829,
+      "step": 1975000
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 5.668756951944933e-06,
+      "loss": 0.0602,
+      "step": 1980000
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 5.556809368490248e-06,
+      "loss": 0.0589,
+      "step": 1985000
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 5.444861785035564e-06,
+      "loss": 0.0578,
+      "step": 1990000
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 5.332914201580879e-06,
+      "loss": 0.0626,
+      "step": 1995000
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 5.220966618126195e-06,
+      "loss": 0.0587,
+      "step": 2000000
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.06628864258527756,
+      "eval_runtime": 1682.6389,
+      "eval_samples_per_second": 36.866,
+      "eval_steps_per_second": 36.866,
+      "step": 2000000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 5.109019034671511e-06,
+      "loss": 0.0595,
+      "step": 2005000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 4.997071451216825e-06,
+      "loss": 0.0584,
+      "step": 2010000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 4.885123867762141e-06,
+      "loss": 0.0562,
+      "step": 2015000
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 4.773176284307457e-06,
+      "loss": 0.0694,
+      "step": 2020000
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 4.661228700852772e-06,
+      "loss": 0.0647,
+      "step": 2025000
+    },
+    {
+      "epoch": 1.81,
+      "eval_loss": 0.06544966250658035,
+      "eval_runtime": 1682.8498,
+      "eval_samples_per_second": 36.862,
+      "eval_steps_per_second": 36.862,
+      "step": 2025000
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 4.5492811173980875e-06,
+      "loss": 0.0596,
+      "step": 2030000
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 4.4373335339434035e-06,
+      "loss": 0.062,
+      "step": 2035000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 4.325385950488719e-06,
+      "loss": 0.0656,
+      "step": 2040000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 4.213438367034034e-06,
+      "loss": 0.0632,
+      "step": 2045000
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 4.101490783579349e-06,
+      "loss": 0.0604,
+      "step": 2050000
+    },
+    {
+      "epoch": 1.84,
+      "eval_loss": 0.06386958807706833,
+      "eval_runtime": 1684.8253,
+      "eval_samples_per_second": 36.819,
+      "eval_steps_per_second": 36.819,
+      "step": 2050000
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 3.989543200124665e-06,
+      "loss": 0.0586,
+      "step": 2055000
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 3.87759561666998e-06,
+      "loss": 0.0595,
+      "step": 2060000
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 3.765648033215296e-06,
+      "loss": 0.0628,
+      "step": 2065000
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 3.6537004497606115e-06,
+      "loss": 0.0614,
+      "step": 2070000
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 3.541752866305927e-06,
+      "loss": 0.0641,
+      "step": 2075000
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 0.06358933448791504,
+      "eval_runtime": 1682.4468,
+      "eval_samples_per_second": 36.871,
+      "eval_steps_per_second": 36.871,
+      "step": 2075000
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 3.4298052828512423e-06,
+      "loss": 0.0612,
+      "step": 2080000
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 3.317857699396558e-06,
+      "loss": 0.0675,
+      "step": 2085000
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 3.2059101159418736e-06,
+      "loss": 0.0657,
+      "step": 2090000
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 3.0939625324871888e-06,
+      "loss": 0.0628,
+      "step": 2095000
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 2.9820149490325044e-06,
+      "loss": 0.0604,
+      "step": 2100000
+    },
+    {
+      "epoch": 1.88,
+      "eval_loss": 0.0636412724852562,
+      "eval_runtime": 1687.8932,
+      "eval_samples_per_second": 36.752,
+      "eval_steps_per_second": 36.752,
+      "step": 2100000
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.87006736557782e-06,
+      "loss": 0.0592,
+      "step": 2105000
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.758119782123135e-06,
+      "loss": 0.0619,
+      "step": 2110000
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.6461721986684508e-06,
+      "loss": 0.0623,
+      "step": 2115000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 2.5342246152137664e-06,
+      "loss": 0.0568,
+      "step": 2120000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 2.4222770317590816e-06,
+      "loss": 0.0654,
+      "step": 2125000
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.06523974984884262,
+      "eval_runtime": 1681.6119,
+      "eval_samples_per_second": 36.889,
+      "eval_steps_per_second": 36.889,
+      "step": 2125000
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 2.310329448304397e-06,
+      "loss": 0.0597,
+      "step": 2130000
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 2.198381864849713e-06,
+      "loss": 0.0614,
+      "step": 2135000
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 2.086434281395028e-06,
+      "loss": 0.0576,
+      "step": 2140000
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.9744866979403436e-06,
+      "loss": 0.0625,
+      "step": 2145000
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.862539114485659e-06,
+      "loss": 0.0588,
+      "step": 2150000
+    },
+    {
+      "epoch": 1.93,
+      "eval_loss": 0.06383997201919556,
+      "eval_runtime": 1685.504,
+      "eval_samples_per_second": 36.804,
+      "eval_steps_per_second": 36.804,
+      "step": 2150000
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.7505915310309748e-06,
+      "loss": 0.0525,
+      "step": 2155000
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.63864394757629e-06,
+      "loss": 0.0573,
+      "step": 2160000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.5266963641216056e-06,
+      "loss": 0.0612,
+      "step": 2165000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.4147487806669212e-06,
+      "loss": 0.0625,
+      "step": 2170000
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 1.3028011972122364e-06,
+      "loss": 0.0616,
+      "step": 2175000
+    },
+    {
+      "epoch": 1.95,
+      "eval_loss": 0.06566296517848969,
+      "eval_runtime": 1686.3029,
+      "eval_samples_per_second": 36.786,
+      "eval_steps_per_second": 36.786,
+      "step": 2175000
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 1.190853613757552e-06,
+      "loss": 0.0629,
+      "step": 2180000
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 1.0789060303028674e-06,
+      "loss": 0.0543,
+      "step": 2185000
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 9.66958446848183e-07,
+      "loss": 0.0584,
+      "step": 2190000
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 8.550108633934986e-07,
+      "loss": 0.0595,
+      "step": 2195000
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 7.43063279938814e-07,
+      "loss": 0.0598,
+      "step": 2200000
+    },
+    {
+      "epoch": 1.97,
+      "eval_loss": 0.06455818563699722,
+      "eval_runtime": 1682.3023,
+      "eval_samples_per_second": 36.874,
+      "eval_steps_per_second": 36.874,
+      "step": 2200000
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 6.311156964841294e-07,
+      "loss": 0.0595,
+      "step": 2205000
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 5.191681130294449e-07,
+      "loss": 0.0602,
+      "step": 2210000
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 4.0722052957476043e-07,
+      "loss": 0.0601,
+      "step": 2215000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 2.952729461200759e-07,
+      "loss": 0.0595,
+      "step": 2220000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 1.8332536266539136e-07,
+      "loss": 0.0633,
+      "step": 2225000
+    },
+    {
+      "epoch": 1.99,
+      "eval_loss": 0.06449371576309204,
+      "eval_runtime": 1682.7954,
+      "eval_samples_per_second": 36.863,
+      "eval_steps_per_second": 36.863,
+      "step": 2225000
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 7.137777921070686e-08,
+      "loss": 0.0603,
+      "step": 2230000
+    },
+    {
+      "epoch": 2.0,
+      "step": 2233188,
+      "total_flos": 6.706494317713766e+17,
+      "train_loss": 0.030777697094727392,
+      "train_runtime": 228453.6417,
+      "train_samples_per_second": 9.775,
+      "train_steps_per_second": 9.775
     }
   ],
   "max_steps": 2233188,
   "num_train_epochs": 2,
+  "total_flos": 6.706494317713766e+17,
   "trial_name": null,
   "trial_params": null
 }