Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db93d042417bda2cd5e92eb635e56ac970a42b5d6d5afe939290a20c0ac8c996
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:d74e790a17fa8ab81db18409815e367f89964ccaa3ea830093d1d5fa4538379f
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8316107b7a5d3a94f92548f9c8ecce3a9262a8b1eeffcb6a9373bd463171f5ca
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:7020db2288dc30d5c2f8210a561b8c7cc067ec478c214097afb099cddad42f4c
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48c4ac59ba539a1bab1aa6f1cd57dc7898ffeeb7b0ba848f00c91522557030eb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:80eca96ca022fed76831f59c0941b67503bf26655fc8a190514e5d44bfcef2c2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0751440525054932,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.11723329425556858,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 13.356,
       "eval_steps_per_second": 3.348,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.19077308849193e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9282410144805908,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.23446658851113716,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.356,
       "eval_steps_per_second": 3.348,
       "step": 50
+    },
+    {
+      "epoch": 0.11957796014067995,
+      "grad_norm": 26.25602149963379,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 6.8854,
+      "step": 51
+    },
+    {
+      "epoch": 0.12192262602579132,
+      "grad_norm": 18.95648956298828,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 5.8606,
+      "step": 52
+    },
+    {
+      "epoch": 0.1242672919109027,
+      "grad_norm": 9.83833122253418,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 4.3101,
+      "step": 53
+    },
+    {
+      "epoch": 0.12661195779601406,
+      "grad_norm": 9.714905738830566,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 4.5283,
+      "step": 54
+    },
+    {
+      "epoch": 0.12895662368112543,
+      "grad_norm": 10.457443237304688,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 3.788,
+      "step": 55
+    },
+    {
+      "epoch": 0.13130128956623682,
+      "grad_norm": 8.392775535583496,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 3.9433,
+      "step": 56
+    },
+    {
+      "epoch": 0.1336459554513482,
+      "grad_norm": 8.235962867736816,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 4.0651,
+      "step": 57
+    },
+    {
+      "epoch": 0.13599062133645956,
+      "grad_norm": 9.83517074584961,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 3.9383,
+      "step": 58
+    },
+    {
+      "epoch": 0.13833528722157093,
+      "grad_norm": 7.149994850158691,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 3.9611,
+      "step": 59
+    },
+    {
+      "epoch": 0.1406799531066823,
+      "grad_norm": 7.5323333740234375,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 3.5999,
+      "step": 60
+    },
+    {
+      "epoch": 0.14302461899179367,
+      "grad_norm": 9.259871482849121,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 3.634,
+      "step": 61
+    },
+    {
+      "epoch": 0.14536928487690504,
+      "grad_norm": 8.562212944030762,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 3.7187,
+      "step": 62
+    },
+    {
+      "epoch": 0.1477139507620164,
+      "grad_norm": 8.278037071228027,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 3.6186,
+      "step": 63
+    },
+    {
+      "epoch": 0.15005861664712777,
+      "grad_norm": 8.255841255187988,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 3.5898,
+      "step": 64
+    },
+    {
+      "epoch": 0.15240328253223914,
+      "grad_norm": 8.422991752624512,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 3.465,
+      "step": 65
+    },
+    {
+      "epoch": 0.15474794841735054,
+      "grad_norm": 7.391692638397217,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 3.7774,
+      "step": 66
+    },
+    {
+      "epoch": 0.1570926143024619,
+      "grad_norm": 6.739409923553467,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 3.4421,
+      "step": 67
+    },
+    {
+      "epoch": 0.15943728018757328,
+      "grad_norm": 8.762239456176758,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 3.3068,
+      "step": 68
+    },
+    {
+      "epoch": 0.16178194607268465,
+      "grad_norm": 8.467728614807129,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 3.8213,
+      "step": 69
+    },
+    {
+      "epoch": 0.16412661195779601,
+      "grad_norm": 6.069597244262695,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 3.2578,
+      "step": 70
+    },
+    {
+      "epoch": 0.16647127784290738,
+      "grad_norm": 8.404447555541992,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 3.959,
+      "step": 71
+    },
+    {
+      "epoch": 0.16881594372801875,
+      "grad_norm": 7.48832368850708,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 2.9806,
+      "step": 72
+    },
+    {
+      "epoch": 0.17116060961313012,
+      "grad_norm": 6.894347667694092,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 3.0812,
+      "step": 73
+    },
+    {
+      "epoch": 0.1735052754982415,
+      "grad_norm": 6.712637901306152,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 3.208,
+      "step": 74
+    },
+    {
+      "epoch": 0.17584994138335286,
+      "grad_norm": 6.727443695068359,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 3.1937,
+      "step": 75
+    },
+    {
+      "epoch": 0.17819460726846426,
+      "grad_norm": 7.373191833496094,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 3.103,
+      "step": 76
+    },
+    {
+      "epoch": 0.18053927315357562,
+      "grad_norm": 6.736911296844482,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 2.7025,
+      "step": 77
+    },
+    {
+      "epoch": 0.182883939038687,
+      "grad_norm": 8.696050643920898,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 3.0454,
+      "step": 78
+    },
+    {
+      "epoch": 0.18522860492379836,
+      "grad_norm": 8.053873062133789,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 3.0847,
+      "step": 79
+    },
+    {
+      "epoch": 0.18757327080890973,
+      "grad_norm": 7.666583061218262,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 3.2359,
+      "step": 80
+    },
+    {
+      "epoch": 0.1899179366940211,
+      "grad_norm": 6.970043182373047,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 2.5973,
+      "step": 81
+    },
+    {
+      "epoch": 0.19226260257913247,
+      "grad_norm": 7.732367992401123,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 3.0107,
+      "step": 82
+    },
+    {
+      "epoch": 0.19460726846424384,
+      "grad_norm": 7.392098426818848,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 2.7857,
+      "step": 83
+    },
+    {
+      "epoch": 0.1969519343493552,
+      "grad_norm": 7.76128625869751,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 2.9686,
+      "step": 84
+    },
+    {
+      "epoch": 0.19929660023446658,
+      "grad_norm": 7.578400135040283,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 3.1077,
+      "step": 85
+    },
+    {
+      "epoch": 0.20164126611957797,
+      "grad_norm": 8.27650260925293,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 3.2833,
+      "step": 86
+    },
+    {
+      "epoch": 0.20398593200468934,
+      "grad_norm": 9.004765510559082,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 3.2852,
+      "step": 87
+    },
+    {
+      "epoch": 0.2063305978898007,
+      "grad_norm": 8.086798667907715,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 3.0326,
+      "step": 88
+    },
+    {
+      "epoch": 0.20867526377491208,
+      "grad_norm": 8.294204711914062,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 2.8488,
+      "step": 89
+    },
+    {
+      "epoch": 0.21101992966002345,
+      "grad_norm": 7.493625164031982,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 2.7359,
+      "step": 90
+    },
+    {
+      "epoch": 0.21336459554513482,
+      "grad_norm": 8.053818702697754,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 3.1962,
+      "step": 91
+    },
+    {
+      "epoch": 0.21570926143024619,
+      "grad_norm": 7.4961395263671875,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 3.2751,
+      "step": 92
+    },
+    {
+      "epoch": 0.21805392731535755,
+      "grad_norm": 7.001191139221191,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 2.8502,
+      "step": 93
+    },
+    {
+      "epoch": 0.22039859320046892,
+      "grad_norm": 7.234589576721191,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 2.8708,
+      "step": 94
+    },
+    {
+      "epoch": 0.2227432590855803,
+      "grad_norm": 7.190276145935059,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 2.4968,
+      "step": 95
+    },
+    {
+      "epoch": 0.2250879249706917,
+      "grad_norm": 7.514248371124268,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 2.7352,
+      "step": 96
+    },
+    {
+      "epoch": 0.22743259085580306,
+      "grad_norm": 7.901513576507568,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 2.9496,
+      "step": 97
+    },
+    {
+      "epoch": 0.22977725674091443,
+      "grad_norm": 6.377729892730713,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 2.2929,
+      "step": 98
+    },
+    {
+      "epoch": 0.2321219226260258,
+      "grad_norm": 7.4685797691345215,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 2.2377,
+      "step": 99
+    },
+    {
+      "epoch": 0.23446658851113716,
+      "grad_norm": 7.034140586853027,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 2.407,
+      "step": 100
+    },
+    {
+      "epoch": 0.23446658851113716,
+      "eval_loss": 0.9282410144805908,
+      "eval_runtime": 53.7567,
+      "eval_samples_per_second": 13.356,
+      "eval_steps_per_second": 3.348,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.438154617698386e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null