Training in progress, epoch 1, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +445 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ffb3465e71c5bee6f4f5e5da64c699f608f6ead07de1d80f1a26a4a03cdc00e2
 size 201892112

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5e26503ee5864af07ce4030836db51a4668d97e466902ce26562a2ae8f4dbd1
 size 201892112

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ded546b513548abb34555a93329577fda18469633eec4183162817a92eace5f
 size 102864868

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7f87dfd3983905fc6f45e08cd5447e3695907754f080349935e996e48fe7470
 size 102864868

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0630b80e6010b6167b3c914fb039d36d04348e90d73277d6b3ff304e362a145
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba9dafcc54ce9ff084db79366d7b940d91787c2cfb616ba91a4bb22cd048faed
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef947ecdd841018862402e346e260921abb32476179f2a411f99f254c6604aa9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f5dfab0aba1f4849abd9625392cb4af7139fd3842b09daef021f142b39cff71
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:586245ddea8f6eb4fff149afe2c5e522e979b38346ec14e3f918c49a7e94da83
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:43a4c7a3e3866946bfa6c6f5a1716563f36029ceb622e5804a6f396508c55ea3
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc8a51ee6b623fc916968b6c1e8129f92f357e485afa577c074aa455bfec2060
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b39933ef00f6fb7daa29790fb90e8ff14fa4ec97393154716671cac132e30db
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6db9f882e223faff71a3c209174f2d1892ff0b368d3fb3c61032e1410ac2df2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0c37e29f749e6da69d82af0a38f01b394a754fce56fccbdf27902a5d585e43f
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6e5305a0174d753deeee81d904295e1599a3ce6201608b9ca6f559008066ff0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:33c091df1ce77bff431f3379561fab3489657fa2cde7f17e48d31b6b28bf660c
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47b774774389bd6b7d6435db504cd44a21b9f7c3e21aaef3d0f596a0992fdb6a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:83e3de474f59434cf28a8c41406b1e8bd00ec6293d50ff81f9c75db3e70e91e0
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8e3d214fa721bc54b61ba46b56b89c17d23565620f7ba5b29da43974d292d8c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ca6a786fe6d9b25cb7742ed56fbbd3f68052ae10454dcdbf494e787b2682812
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39b0eb8ba61ee085f253937de30f38210900965eda8d8a5143a3bccb3144a58d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4ac31dcfba988823188c44099086577dd09e162577217892c3f4fd5ad8489c2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9996076892899176,
   "eval_steps": 500,
-  "global_step": 637,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4466,6 +4466,447 @@
       "learning_rate": 5.445378758417925e-06,
       "loss": 1.063,
       "step": 637
     }
   ],
   "logging_steps": 1,
@@ -4480,12 +4921,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.2983334799867904e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0984699882306788,
   "eval_steps": 500,
+  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.445378758417925e-06,
       "loss": 1.063,
       "step": 637
+    },
+    {
+      "epoch": 1.001176932130247,
+      "grad_norm": 3.3213553428649902,
+      "learning_rate": 5.275390589031859e-06,
+      "loss": 1.7375,
+      "step": 638
+    },
+    {
+      "epoch": 1.0027461749705766,
+      "grad_norm": 1.4553793668746948,
+      "learning_rate": 5.108026758167719e-06,
+      "loss": 0.9496,
+      "step": 639
+    },
+    {
+      "epoch": 1.0043154178109062,
+      "grad_norm": 1.3991262912750244,
+      "learning_rate": 4.943291854189493e-06,
+      "loss": 0.9158,
+      "step": 640
+    },
+    {
+      "epoch": 1.0058846606512357,
+      "grad_norm": 1.5718517303466797,
+      "learning_rate": 4.781190393387796e-06,
+      "loss": 1.032,
+      "step": 641
+    },
+    {
+      "epoch": 1.0074539034915653,
+      "grad_norm": 1.546706199645996,
+      "learning_rate": 4.6217268198560404e-06,
+      "loss": 0.9635,
+      "step": 642
+    },
+    {
+      "epoch": 1.0090231463318948,
+      "grad_norm": 1.4677547216415405,
+      "learning_rate": 4.464905505368658e-06,
+      "loss": 0.9359,
+      "step": 643
+    },
+    {
+      "epoch": 1.0105923891722244,
+      "grad_norm": 1.4244987964630127,
+      "learning_rate": 4.3107307492612086e-06,
+      "loss": 0.8894,
+      "step": 644
+    },
+    {
+      "epoch": 1.012161632012554,
+      "grad_norm": 1.470013976097107,
+      "learning_rate": 4.1592067783125015e-06,
+      "loss": 1.0618,
+      "step": 645
+    },
+    {
+      "epoch": 1.0137308748528835,
+      "grad_norm": 1.5071467161178589,
+      "learning_rate": 4.010337746628751e-06,
+      "loss": 0.9016,
+      "step": 646
+    },
+    {
+      "epoch": 1.015300117693213,
+      "grad_norm": 1.406595230102539,
+      "learning_rate": 3.864127735529656e-06,
+      "loss": 0.9207,
+      "step": 647
+    },
+    {
+      "epoch": 1.0168693605335426,
+      "grad_norm": 1.355204701423645,
+      "learning_rate": 3.7205807534365315e-06,
+      "loss": 0.9483,
+      "step": 648
+    },
+    {
+      "epoch": 1.0184386033738722,
+      "grad_norm": 1.5814651250839233,
+      "learning_rate": 3.5797007357623945e-06,
+      "loss": 1.0056,
+      "step": 649
+    },
+    {
+      "epoch": 1.0200078462142017,
+      "grad_norm": 1.5514806509017944,
+      "learning_rate": 3.441491544804112e-06,
+      "loss": 0.9282,
+      "step": 650
+    },
+    {
+      "epoch": 1.0215770890545313,
+      "grad_norm": 1.3481324911117554,
+      "learning_rate": 3.3059569696364502e-06,
+      "loss": 0.853,
+      "step": 651
+    },
+    {
+      "epoch": 1.0231463318948608,
+      "grad_norm": 1.4449180364608765,
+      "learning_rate": 3.1731007260082616e-06,
+      "loss": 0.9905,
+      "step": 652
+    },
+    {
+      "epoch": 1.0247155747351904,
+      "grad_norm": 1.6003049612045288,
+      "learning_rate": 3.0429264562405776e-06,
+      "loss": 0.9784,
+      "step": 653
+    },
+    {
+      "epoch": 1.0262848175755197,
+      "grad_norm": 1.501465916633606,
+      "learning_rate": 2.9154377291267674e-06,
+      "loss": 1.0185,
+      "step": 654
+    },
+    {
+      "epoch": 1.0278540604158493,
+      "grad_norm": 1.373434066772461,
+      "learning_rate": 2.790638039834668e-06,
+      "loss": 0.9125,
+      "step": 655
+    },
+    {
+      "epoch": 1.0294233032561788,
+      "grad_norm": 1.6120808124542236,
+      "learning_rate": 2.6685308098108106e-06,
+      "loss": 1.0961,
+      "step": 656
+    },
+    {
+      "epoch": 1.0309925460965084,
+      "grad_norm": 1.455134630203247,
+      "learning_rate": 2.5491193866866025e-06,
+      "loss": 0.8963,
+      "step": 657
+    },
+    {
+      "epoch": 1.032561788936838,
+      "grad_norm": 1.4574368000030518,
+      "learning_rate": 2.432407044186509e-06,
+      "loss": 0.9296,
+      "step": 658
+    },
+    {
+      "epoch": 1.0341310317771675,
+      "grad_norm": 1.5060312747955322,
+      "learning_rate": 2.3183969820383735e-06,
+      "loss": 0.9674,
+      "step": 659
+    },
+    {
+      "epoch": 1.035700274617497,
+      "grad_norm": 1.544988751411438,
+      "learning_rate": 2.2070923258856255e-06,
+      "loss": 0.9882,
+      "step": 660
+    },
+    {
+      "epoch": 1.0372695174578266,
+      "grad_norm": 1.4960849285125732,
+      "learning_rate": 2.098496127201648e-06,
+      "loss": 0.966,
+      "step": 661
+    },
+    {
+      "epoch": 1.0388387602981561,
+      "grad_norm": 1.5136550664901733,
+      "learning_rate": 1.992611363206103e-06,
+      "loss": 0.9574,
+      "step": 662
+    },
+    {
+      "epoch": 1.0404080031384857,
+      "grad_norm": 1.4802120923995972,
+      "learning_rate": 1.889440936783242e-06,
+      "loss": 0.8649,
+      "step": 663
+    },
+    {
+      "epoch": 1.0419772459788152,
+      "grad_norm": 1.5333938598632812,
+      "learning_rate": 1.7889876764024505e-06,
+      "loss": 1.0243,
+      "step": 664
+    },
+    {
+      "epoch": 1.0435464888191448,
+      "grad_norm": 1.5968855619430542,
+      "learning_rate": 1.691254336040595e-06,
+      "loss": 0.9513,
+      "step": 665
+    },
+    {
+      "epoch": 1.0451157316594744,
+      "grad_norm": 1.512230396270752,
+      "learning_rate": 1.59624359510657e-06,
+      "loss": 1.037,
+      "step": 666
+    },
+    {
+      "epoch": 1.046684974499804,
+      "grad_norm": 1.5507651567459106,
+      "learning_rate": 1.5039580583678393e-06,
+      "loss": 0.9005,
+      "step": 667
+    },
+    {
+      "epoch": 1.0482542173401335,
+      "grad_norm": 1.6249401569366455,
+      "learning_rate": 1.414400255879008e-06,
+      "loss": 0.9521,
+      "step": 668
+    },
+    {
+      "epoch": 1.049823460180463,
+      "grad_norm": 1.5170681476593018,
+      "learning_rate": 1.327572642912468e-06,
+      "loss": 1.0033,
+      "step": 669
+    },
+    {
+      "epoch": 1.0513927030207926,
+      "grad_norm": 1.505729079246521,
+      "learning_rate": 1.2434775998910964e-06,
+      "loss": 0.9384,
+      "step": 670
+    },
+    {
+      "epoch": 1.052961945861122,
+      "grad_norm": 1.5404661893844604,
+      "learning_rate": 1.1621174323229612e-06,
+      "loss": 1.0742,
+      "step": 671
+    },
+    {
+      "epoch": 1.0545311887014515,
+      "grad_norm": 1.6279956102371216,
+      "learning_rate": 1.0834943707381784e-06,
+      "loss": 0.8588,
+      "step": 672
+    },
+    {
+      "epoch": 1.056100431541781,
+      "grad_norm": 1.5603866577148438,
+      "learning_rate": 1.0076105706276888e-06,
+      "loss": 1.0602,
+      "step": 673
+    },
+    {
+      "epoch": 1.0576696743821106,
+      "grad_norm": 1.5433942079544067,
+      "learning_rate": 9.344681123841967e-07,
+      "loss": 0.9865,
+      "step": 674
+    },
+    {
+      "epoch": 1.0592389172224401,
+      "grad_norm": 1.5365676879882812,
+      "learning_rate": 8.640690012451515e-07,
+      "loss": 0.967,
+      "step": 675
+    },
+    {
+      "epoch": 1.0608081600627697,
+      "grad_norm": 1.5364326238632202,
+      "learning_rate": 7.964151672377458e-07,
+      "loss": 0.9036,
+      "step": 676
+    },
+    {
+      "epoch": 1.0623774029030992,
+      "grad_norm": 1.4506745338439941,
+      "learning_rate": 7.315084651260009e-07,
+      "loss": 0.8917,
+      "step": 677
+    },
+    {
+      "epoch": 1.0639466457434288,
+      "grad_norm": 1.42936372756958,
+      "learning_rate": 6.69350674359959e-07,
+      "loss": 0.8587,
+      "step": 678
+    },
+    {
+      "epoch": 1.0655158885837583,
+      "grad_norm": 1.4997657537460327,
+      "learning_rate": 6.099434990268609e-07,
+      "loss": 1.0052,
+      "step": 679
+    },
+    {
+      "epoch": 1.067085131424088,
+      "grad_norm": 1.4839539527893066,
+      "learning_rate": 5.532885678043977e-07,
+      "loss": 0.8442,
+      "step": 680
+    },
+    {
+      "epoch": 1.0686543742644175,
+      "grad_norm": 1.5665620565414429,
+      "learning_rate": 4.9938743391615e-07,
+      "loss": 0.9402,
+      "step": 681
+    },
+    {
+      "epoch": 1.070223617104747,
+      "grad_norm": 1.7468892335891724,
+      "learning_rate": 4.482415750889204e-07,
+      "loss": 0.9801,
+      "step": 682
+    },
+    {
+      "epoch": 1.0717928599450766,
+      "grad_norm": 1.5470365285873413,
+      "learning_rate": 3.998523935122772e-07,
+      "loss": 0.9294,
+      "step": 683
+    },
+    {
+      "epoch": 1.0733621027854061,
+      "grad_norm": 1.544100046157837,
+      "learning_rate": 3.5422121580005864e-07,
+      "loss": 0.9683,
+      "step": 684
+    },
+    {
+      "epoch": 1.0749313456257357,
+      "grad_norm": 1.5746307373046875,
+      "learning_rate": 3.1134929295407564e-07,
+      "loss": 0.9611,
+      "step": 685
+    },
+    {
+      "epoch": 1.0765005884660652,
+      "grad_norm": 1.612066388130188,
+      "learning_rate": 2.7123780032973235e-07,
+      "loss": 0.9273,
+      "step": 686
+    },
+    {
+      "epoch": 1.0780698313063946,
+      "grad_norm": 1.5221633911132812,
+      "learning_rate": 2.3388783760386601e-07,
+      "loss": 0.9797,
+      "step": 687
+    },
+    {
+      "epoch": 1.079639074146724,
+      "grad_norm": 1.4008647203445435,
+      "learning_rate": 1.9930042874457254e-07,
+      "loss": 0.9276,
+      "step": 688
+    },
+    {
+      "epoch": 1.0812083169870537,
+      "grad_norm": 1.4528234004974365,
+      "learning_rate": 1.6747652198313957e-07,
+      "loss": 0.9828,
+      "step": 689
+    },
+    {
+      "epoch": 1.0827775598273832,
+      "grad_norm": 1.5776127576828003,
+      "learning_rate": 1.3841698978804285e-07,
+      "loss": 0.9532,
+      "step": 690
+    },
+    {
+      "epoch": 1.0843468026677128,
+      "grad_norm": 1.5421435832977295,
+      "learning_rate": 1.1212262884103974e-07,
+      "loss": 0.9135,
+      "step": 691
+    },
+    {
+      "epoch": 1.0859160455080423,
+      "grad_norm": 1.5392076969146729,
+      "learning_rate": 8.85941600153033e-08,
+      "loss": 0.9884,
+      "step": 692
+    },
+    {
+      "epoch": 1.0874852883483719,
+      "grad_norm": 1.4609785079956055,
+      "learning_rate": 6.783222835572055e-08,
+      "loss": 0.933,
+      "step": 693
+    },
+    {
+      "epoch": 1.0890545311887014,
+      "grad_norm": 1.4286479949951172,
+      "learning_rate": 4.98374030611084e-08,
+      "loss": 0.8715,
+      "step": 694
+    },
+    {
+      "epoch": 1.090623774029031,
+      "grad_norm": 1.6319226026535034,
+      "learning_rate": 3.461017746871675e-08,
+      "loss": 1.0219,
+      "step": 695
+    },
+    {
+      "epoch": 1.0921930168693605,
+      "grad_norm": 1.5931543111801147,
+      "learning_rate": 2.215096904060454e-08,
+      "loss": 0.9608,
+      "step": 696
+    },
+    {
+      "epoch": 1.09376225970969,
+      "grad_norm": 1.4178990125656128,
+      "learning_rate": 1.246011935228064e-08,
+      "loss": 0.8892,
+      "step": 697
+    },
+    {
+      "epoch": 1.0953315025500197,
+      "grad_norm": 1.5912450551986694,
+      "learning_rate": 5.537894083273543e-09,
+      "loss": 0.9645,
+      "step": 698
+    },
+    {
+      "epoch": 1.0969007453903492,
+      "grad_norm": 1.4889562129974365,
+      "learning_rate": 1.384483009898796e-09,
+      "loss": 0.87,
+      "step": 699
+    },
+    {
+      "epoch": 1.0984699882306788,
+      "grad_norm": 1.4964066743850708,
+      "learning_rate": 0.0,
+      "loss": 0.9337,
+      "step": 700
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.524580473166889e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null