Training in progress, epoch 3, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +516 -4

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97ae37313ece2ed08d238c388465b3e41445622b5edcafeb70e7b37126408296
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d3b18816811918972cba42da78818e3c7aa5d8e31f822375470c2f40641e8a2
 size 4976698672

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e94f293539218d0e86b6dcfc6dd06d51caf62e6b9843628b95ffe32d618b912e
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:609faa192d9a31b460e1e9d369f7a2bb92f9ecbedb8d282dfd9a9d86e77b82e2
 size 4999802720

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68f46a57f0cd49116bd86ca8cdbb4f453ac1d305e00dda24f2a61291b0cab5b7
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:1187480a882d25ada76753b8c72449b0e409556587c1ef893ce5b508bb4bb2ba
 size 4915916176

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c8ac884a06c7b7d4299a53261bf24cd674c047620bbb8ed9b34291790b2a549
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7c05715f857592efaf0022aee229538b0cbd4bc4b8784e7e8d58053ec6d017e
 size 1168138808

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b7f666d6c870f95e122d808b00c94d5d21c8d98e0c771e7f511b3c55864e863
 size 32121299754

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e3d3fec74b231513b476c27b7eda7f7d9835dec42b905326e0577ccee3a0cc3
 size 32121299754

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c461c9d337dfc684e9352ec72bfa344e2f5d377f7cfc4475de9acae294dca89
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:69ec6e3926fa071bede113523efa3dc6e630c3c7958c54a9ca321cf4d62ed145
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fae392ec6232cbf9da21d6ed12bc8247d0d24e7f3a3606acd23be00f3e8bbfc5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6127ee4f0c13500ec5038fce65af8f7beec63c137c7d4b7c157aa6303cf5879
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbf3e7ca9991a58b0b16574a3c653483c551c270aa05aba06c162ea593f7b0f2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:da01d1c5eb2cc3a323f97c1f590d13ccfac2a4c5b1479bd378b4e643304f5a4f
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c695bebf6bcb75cbe26378bfe0ab7e2a33c49f713b9d6e4d10632b24322977e7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:49a3f04d76c0d3acc7d3dd95a04215f368f35a451ae8cba8a2fdba38cda9ca0a
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5ebb13c71265c5464c9aa9bb9b66f07764d73befe6cd63a2aaf8e781bf0a374
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:df7d2c9825dba80cb544920f8cc0c72122f96514e6cd259052a8765b034393e2
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12cc6e245e189be568c8dfd43a4dd8f04bb3dbd9f17f41458107935d2c2a6a9d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a20a42d44ff48cc162224010190e898fe28598ddad8cd1896d330a3bb1d8ec3
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36086646e9a8f76fea69f8a227112e83bb63524964ccdfb82f4cdad88b90e5e4
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:18ac0dc4f09f25179860561fcea7c5c8f997aabdc46a170665f9dc5a72bc27c6
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b44153bacf860d0ca6ce4c6b9380a199feab8a72ca613e6745bfb671b02c4e4
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a16fcb5411ff961b47eff7378d85105fe9837e0492d19ea5ce3b7c4b77aa3b6
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48b4bd96da52558b6c8c53763eebae27fa97c77e7808af54519fbcb81c8c8dc4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:04a46754a7468c445356d55f12e6f57375db57b7d43b8c6963579dc82de997b3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 300,
-  "global_step": 726,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1045,6 +1045,518 @@
       "learning_rate": 5.041773562018135e-07,
       "loss": 1.7019,
       "step": 725
     }
   ],
   "logging_steps": 5,
@@ -1059,12 +1571,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.2849341332112015e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 300,
+  "global_step": 1089,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.041773562018135e-07,
       "loss": 1.7019,
       "step": 725
+    },
+    {
+      "epoch": 2.0110192837465566,
+      "grad_norm": 1.265625,
+      "learning_rate": 4.91680188206047e-07,
+      "loss": 1.7011,
+      "step": 730
+    },
+    {
+      "epoch": 2.024793388429752,
+      "grad_norm": 1.265625,
+      "learning_rate": 4.792891678019115e-07,
+      "loss": 1.7013,
+      "step": 735
+    },
+    {
+      "epoch": 2.038567493112948,
+      "grad_norm": 1.2734375,
+      "learning_rate": 4.6700688248834664e-07,
+      "loss": 1.6895,
+      "step": 740
+    },
+    {
+      "epoch": 2.0523415977961434,
+      "grad_norm": 1.3125,
+      "learning_rate": 4.548358970581757e-07,
+      "loss": 1.7029,
+      "step": 745
+    },
+    {
+      "epoch": 2.0661157024793386,
+      "grad_norm": 1.2734375,
+      "learning_rate": 4.427787530625278e-07,
+      "loss": 1.6931,
+      "step": 750
+    },
+    {
+      "epoch": 2.0798898071625342,
+      "grad_norm": 1.2734375,
+      "learning_rate": 4.3083796828010675e-07,
+      "loss": 1.6886,
+      "step": 755
+    },
+    {
+      "epoch": 2.09366391184573,
+      "grad_norm": 1.3046875,
+      "learning_rate": 4.190160361914292e-07,
+      "loss": 1.6907,
+      "step": 760
+    },
+    {
+      "epoch": 2.1074380165289255,
+      "grad_norm": 1.296875,
+      "learning_rate": 4.07315425458134e-07,
+      "loss": 1.6924,
+      "step": 765
+    },
+    {
+      "epoch": 2.121212121212121,
+      "grad_norm": 1.28125,
+      "learning_rate": 3.9573857940747537e-07,
+      "loss": 1.7019,
+      "step": 770
+    },
+    {
+      "epoch": 2.1349862258953167,
+      "grad_norm": 1.28125,
+      "learning_rate": 3.8428791552210594e-07,
+      "loss": 1.6975,
+      "step": 775
+    },
+    {
+      "epoch": 2.1487603305785123,
+      "grad_norm": 1.2890625,
+      "learning_rate": 3.729658249352563e-07,
+      "loss": 1.6986,
+      "step": 780
+    },
+    {
+      "epoch": 2.162534435261708,
+      "grad_norm": 1.3125,
+      "learning_rate": 3.6177467193141886e-07,
+      "loss": 1.6893,
+      "step": 785
+    },
+    {
+      "epoch": 2.1763085399449036,
+      "grad_norm": 1.2734375,
+      "learning_rate": 3.5071679345263537e-07,
+      "loss": 1.6833,
+      "step": 790
+    },
+    {
+      "epoch": 2.190082644628099,
+      "grad_norm": 1.2734375,
+      "learning_rate": 3.397944986104968e-07,
+      "loss": 1.693,
+      "step": 795
+    },
+    {
+      "epoch": 2.203856749311295,
+      "grad_norm": 1.3046875,
+      "learning_rate": 3.290100682039516e-07,
+      "loss": 1.6978,
+      "step": 800
+    },
+    {
+      "epoch": 2.2176308539944904,
+      "grad_norm": 1.28125,
+      "learning_rate": 3.1836575424303034e-07,
+      "loss": 1.7019,
+      "step": 805
+    },
+    {
+      "epoch": 2.231404958677686,
+      "grad_norm": 1.2890625,
+      "learning_rate": 3.078637794785791e-07,
+      "loss": 1.6977,
+      "step": 810
+    },
+    {
+      "epoch": 2.2451790633608817,
+      "grad_norm": 1.28125,
+      "learning_rate": 2.9750633693810224e-07,
+      "loss": 1.6898,
+      "step": 815
+    },
+    {
+      "epoch": 2.2589531680440773,
+      "grad_norm": 1.28125,
+      "learning_rate": 2.872955894678153e-07,
+      "loss": 1.6915,
+      "step": 820
+    },
+    {
+      "epoch": 2.2727272727272725,
+      "grad_norm": 1.265625,
+      "learning_rate": 2.7723366928099754e-07,
+      "loss": 1.6922,
+      "step": 825
+    },
+    {
+      "epoch": 2.2865013774104685,
+      "grad_norm": 1.3046875,
+      "learning_rate": 2.673226775127422e-07,
+      "loss": 1.6922,
+      "step": 830
+    },
+    {
+      "epoch": 2.3002754820936637,
+      "grad_norm": 1.3046875,
+      "learning_rate": 2.5756468378119533e-07,
+      "loss": 1.6873,
+      "step": 835
+    },
+    {
+      "epoch": 2.3140495867768593,
+      "grad_norm": 1.265625,
+      "learning_rate": 2.4796172575537934e-07,
+      "loss": 1.7068,
+      "step": 840
+    },
+    {
+      "epoch": 2.327823691460055,
+      "grad_norm": 1.3203125,
+      "learning_rate": 2.3851580872968435e-07,
+      "loss": 1.6993,
+      "step": 845
+    },
+    {
+      "epoch": 2.3415977961432506,
+      "grad_norm": 1.3046875,
+      "learning_rate": 2.292289052051224e-07,
+      "loss": 1.6992,
+      "step": 850
+    },
+    {
+      "epoch": 2.355371900826446,
+      "grad_norm": 1.2578125,
+      "learning_rate": 2.2010295447742743e-07,
+      "loss": 1.6891,
+      "step": 855
+    },
+    {
+      "epoch": 2.369146005509642,
+      "grad_norm": 1.296875,
+      "learning_rate": 2.111398622320927e-07,
+      "loss": 1.6968,
+      "step": 860
+    },
+    {
+      "epoch": 2.3829201101928374,
+      "grad_norm": 1.296875,
+      "learning_rate": 2.0234150014642305e-07,
+      "loss": 1.6946,
+      "step": 865
+    },
+    {
+      "epoch": 2.396694214876033,
+      "grad_norm": 1.265625,
+      "learning_rate": 1.937097054986915e-07,
+      "loss": 1.6892,
+      "step": 870
+    },
+    {
+      "epoch": 2.4104683195592287,
+      "grad_norm": 1.2578125,
+      "learning_rate": 1.8524628078447602e-07,
+      "loss": 1.6915,
+      "step": 875
+    },
+    {
+      "epoch": 2.4242424242424243,
+      "grad_norm": 1.2890625,
+      "learning_rate": 1.769529933402637e-07,
+      "loss": 1.6946,
+      "step": 880
+    },
+    {
+      "epoch": 2.43801652892562,
+      "grad_norm": 1.2578125,
+      "learning_rate": 1.6883157497439349e-07,
+      "loss": 1.6975,
+      "step": 885
+    },
+    {
+      "epoch": 2.4517906336088156,
+      "grad_norm": 1.2734375,
+      "learning_rate": 1.6088372160541962e-07,
+      "loss": 1.6871,
+      "step": 890
+    },
+    {
+      "epoch": 2.465564738292011,
+      "grad_norm": 1.2734375,
+      "learning_rate": 1.531110929079681e-07,
+      "loss": 1.6909,
+      "step": 895
+    },
+    {
+      "epoch": 2.479338842975207,
+      "grad_norm": 1.28125,
+      "learning_rate": 1.4551531196616396e-07,
+      "loss": 1.6908,
+      "step": 900
+    },
+    {
+      "epoch": 2.479338842975207,
+      "eval_loss": 1.7025996446609497,
+      "eval_runtime": 8.3873,
+      "eval_samples_per_second": 83.936,
+      "eval_steps_per_second": 2.623,
+      "step": 900
+    },
+    {
+      "epoch": 2.4931129476584024,
+      "grad_norm": 1.265625,
+      "learning_rate": 1.3809796493469728e-07,
+      "loss": 1.6981,
+      "step": 905
+    },
+    {
+      "epoch": 2.5068870523415976,
+      "grad_norm": 1.3046875,
+      "learning_rate": 1.3086060070760196e-07,
+      "loss": 1.6902,
+      "step": 910
+    },
+    {
+      "epoch": 2.5206611570247937,
+      "grad_norm": 1.3046875,
+      "learning_rate": 1.23804730594814e-07,
+      "loss": 1.6964,
+      "step": 915
+    },
+    {
+      "epoch": 2.534435261707989,
+      "grad_norm": 1.2890625,
+      "learning_rate": 1.1693182800658042e-07,
+      "loss": 1.6884,
+      "step": 920
+    },
+    {
+      "epoch": 2.5482093663911844,
+      "grad_norm": 1.2890625,
+      "learning_rate": 1.102433281457802e-07,
+      "loss": 1.6969,
+      "step": 925
+    },
+    {
+      "epoch": 2.56198347107438,
+      "grad_norm": 1.265625,
+      "learning_rate": 1.0374062770822411e-07,
+      "loss": 1.7003,
+      "step": 930
+    },
+    {
+      "epoch": 2.5757575757575757,
+      "grad_norm": 1.2578125,
+      "learning_rate": 9.742508459099707e-08,
+      "loss": 1.7095,
+      "step": 935
+    },
+    {
+      "epoch": 2.5895316804407713,
+      "grad_norm": 1.2890625,
+      "learning_rate": 9.129801760890076e-08,
+      "loss": 1.7026,
+      "step": 940
+    },
+    {
+      "epoch": 2.603305785123967,
+      "grad_norm": 1.2578125,
+      "learning_rate": 8.536070621905811e-08,
+      "loss": 1.6964,
+      "step": 945
+    },
+    {
+      "epoch": 2.6170798898071626,
+      "grad_norm": 1.3046875,
+      "learning_rate": 7.961439025373617e-08,
+      "loss": 1.6984,
+      "step": 950
+    },
+    {
+      "epoch": 2.630853994490358,
+      "grad_norm": 1.28125,
+      "learning_rate": 7.40602696614444e-08,
+      "loss": 1.7022,
+      "step": 955
+    },
+    {
+      "epoch": 2.644628099173554,
+      "grad_norm": 1.2734375,
+      "learning_rate": 6.869950425636095e-08,
+      "loss": 1.6955,
+      "step": 960
+    },
+    {
+      "epoch": 2.6584022038567494,
+      "grad_norm": 1.265625,
+      "learning_rate": 6.353321347613815e-08,
+      "loss": 1.6962,
+      "step": 965
+    },
+    {
+      "epoch": 2.672176308539945,
+      "grad_norm": 1.3828125,
+      "learning_rate": 5.856247614814292e-08,
+      "loss": 1.6914,
+      "step": 970
+    },
+    {
+      "epoch": 2.6859504132231407,
+      "grad_norm": 1.296875,
+      "learning_rate": 5.3788330264174506e-08,
+      "loss": 1.6934,
+      "step": 975
+    },
+    {
+      "epoch": 2.6997245179063363,
+      "grad_norm": 1.28125,
+      "learning_rate": 4.921177276371069e-08,
+      "loss": 1.6947,
+      "step": 980
+    },
+    {
+      "epoch": 2.7134986225895315,
+      "grad_norm": 1.2890625,
+      "learning_rate": 4.483375932572597e-08,
+      "loss": 1.6929,
+      "step": 985
+    },
+    {
+      "epoch": 2.7272727272727275,
+      "grad_norm": 1.2890625,
+      "learning_rate": 4.0655204169127156e-08,
+      "loss": 1.6944,
+      "step": 990
+    },
+    {
+      "epoch": 2.7410468319559227,
+      "grad_norm": 1.2734375,
+      "learning_rate": 3.667697986184526e-08,
+      "loss": 1.6898,
+      "step": 995
+    },
+    {
+      "epoch": 2.7548209366391183,
+      "grad_norm": 1.2578125,
+      "learning_rate": 3.2899917138625055e-08,
+      "loss": 1.7061,
+      "step": 1000
+    },
+    {
+      "epoch": 2.768595041322314,
+      "grad_norm": 1.3125,
+      "learning_rate": 2.9324804727551055e-08,
+      "loss": 1.6974,
+      "step": 1005
+    },
+    {
+      "epoch": 2.7823691460055096,
+      "grad_norm": 1.2734375,
+      "learning_rate": 2.5952389185344925e-08,
+      "loss": 1.6892,
+      "step": 1010
+    },
+    {
+      "epoch": 2.796143250688705,
+      "grad_norm": 1.2421875,
+      "learning_rate": 2.2783374741469186e-08,
+      "loss": 1.696,
+      "step": 1015
+    },
+    {
+      "epoch": 2.809917355371901,
+      "grad_norm": 1.28125,
+      "learning_rate": 1.9818423151069406e-08,
+      "loss": 1.6879,
+      "step": 1020
+    },
+    {
+      "epoch": 2.8236914600550964,
+      "grad_norm": 1.3125,
+      "learning_rate": 1.705815355678619e-08,
+      "loss": 1.6943,
+      "step": 1025
+    },
+    {
+      "epoch": 2.837465564738292,
+      "grad_norm": 1.3046875,
+      "learning_rate": 1.4503142359465925e-08,
+      "loss": 1.6919,
+      "step": 1030
+    },
+    {
+      "epoch": 2.8512396694214877,
+      "grad_norm": 1.2421875,
+      "learning_rate": 1.215392309779617e-08,
+      "loss": 1.6907,
+      "step": 1035
+    },
+    {
+      "epoch": 2.8650137741046833,
+      "grad_norm": 1.2734375,
+      "learning_rate": 1.0010986336891458e-08,
+      "loss": 1.704,
+      "step": 1040
+    },
+    {
+      "epoch": 2.878787878787879,
+      "grad_norm": 1.2578125,
+      "learning_rate": 8.074779565854117e-09,
+      "loss": 1.691,
+      "step": 1045
+    },
+    {
+      "epoch": 2.8925619834710745,
+      "grad_norm": 1.3203125,
+      "learning_rate": 6.34570710432869e-09,
+      "loss": 1.6975,
+      "step": 1050
+    },
+    {
+      "epoch": 2.90633608815427,
+      "grad_norm": 1.2734375,
+      "learning_rate": 4.824130018072026e-09,
+      "loss": 1.6918,
+      "step": 1055
+    },
+    {
+      "epoch": 2.9201101928374653,
+      "grad_norm": 1.2890625,
+      "learning_rate": 3.5103660435551465e-09,
+      "loss": 1.6933,
+      "step": 1060
+    },
+    {
+      "epoch": 2.9338842975206614,
+      "grad_norm": 1.3046875,
+      "learning_rate": 2.4046895216136563e-09,
+      "loss": 1.6872,
+      "step": 1065
+    },
+    {
+      "epoch": 2.9476584022038566,
+      "grad_norm": 1.28125,
+      "learning_rate": 1.5073313401594568e-09,
+      "loss": 1.696,
+      "step": 1070
+    },
+    {
+      "epoch": 2.9614325068870526,
+      "grad_norm": 1.234375,
+      "learning_rate": 8.184788859667557e-10,
+      "loss": 1.6964,
+      "step": 1075
+    },
+    {
+      "epoch": 2.975206611570248,
+      "grad_norm": 1.3203125,
+      "learning_rate": 3.3827600554170444e-10,
+      "loss": 1.6941,
+      "step": 1080
+    },
+    {
+      "epoch": 2.9889807162534434,
+      "grad_norm": 1.3125,
+      "learning_rate": 6.682297508464608e-11,
+      "loss": 1.6993,
+      "step": 1085
     }
   ],
   "logging_steps": 5,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.427401199279931e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null