fatheroffire
/

Affine-5Cy9zW1cxo1hkyzGXfbxLMKTQxSC3dM6rECiKrjvT7BGLNyA

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 63,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016,
+      "grad_norm": 5.178493499755859,
+      "learning_rate": 0.0,
+      "loss": 1.9778,
+      "mean_token_accuracy": 0.5731211602687836,
+      "num_tokens": 18095.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": 4.289798736572266,
+      "learning_rate": 0.0001,
+      "loss": 2.0501,
+      "mean_token_accuracy": 0.5611206591129303,
+      "num_tokens": 33560.0,
+      "step": 2
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 2.592556953430176,
+      "learning_rate": 0.0002,
+      "loss": 1.8085,
+      "mean_token_accuracy": 0.5969144999980927,
+      "num_tokens": 51416.0,
+      "step": 3
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 1.5414831638336182,
+      "learning_rate": 0.00019988066808963474,
+      "loss": 1.825,
+      "mean_token_accuracy": 0.5979213863611221,
+      "num_tokens": 66606.0,
+      "step": 4
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.532880425453186,
+      "learning_rate": 0.000199522988805313,
+      "loss": 1.6023,
+      "mean_token_accuracy": 0.6211032420396805,
+      "num_tokens": 81922.0,
+      "step": 5
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 1.2121299505233765,
+      "learning_rate": 0.00019892791064819693,
+      "loss": 1.5619,
+      "mean_token_accuracy": 0.6331981718540192,
+      "num_tokens": 98973.0,
+      "step": 6
+    },
+    {
+      "epoch": 0.112,
+      "grad_norm": 0.9985714554786682,
+      "learning_rate": 0.00019809701165858222,
+      "loss": 1.401,
+      "mean_token_accuracy": 0.6640438586473465,
+      "num_tokens": 116786.0,
+      "step": 7
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 1.235257863998413,
+      "learning_rate": 0.00019703249523121886,
+      "loss": 1.4001,
+      "mean_token_accuracy": 0.6453036367893219,
+      "num_tokens": 133738.0,
+      "step": 8
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 1.1400103569030762,
+      "learning_rate": 0.00019573718427230442,
+      "loss": 1.2082,
+      "mean_token_accuracy": 0.6753191202878952,
+      "num_tokens": 155466.0,
+      "step": 9
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 1.1436022520065308,
+      "learning_rate": 0.00019421451371364444,
+      "loss": 1.3161,
+      "mean_token_accuracy": 0.6673162132501602,
+      "num_tokens": 171140.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.176,
+      "grad_norm": 0.9463217258453369,
+      "learning_rate": 0.00019246852140383043,
+      "loss": 1.3072,
+      "mean_token_accuracy": 0.662985697388649,
+      "num_tokens": 190013.0,
+      "step": 11
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.718537449836731,
+      "learning_rate": 0.00019050383740059162,
+      "loss": 1.2311,
+      "mean_token_accuracy": 0.6756905913352966,
+      "num_tokens": 204990.0,
+      "step": 12
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 0.5802047252655029,
+      "learning_rate": 0.000188325671692714,
+      "loss": 1.1599,
+      "mean_token_accuracy": 0.6960069835186005,
+      "num_tokens": 221669.0,
+      "step": 13
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 0.6142511367797852,
+      "learning_rate": 0.0001859398003840867,
+      "loss": 1.1385,
+      "mean_token_accuracy": 0.6940146088600159,
+      "num_tokens": 238093.0,
+      "step": 14
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.6557261347770691,
+      "learning_rate": 0.00018335255037651302,
+      "loss": 1.2242,
+      "mean_token_accuracy": 0.676676332950592,
+      "num_tokens": 255351.0,
+      "step": 15
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.6320156455039978,
+      "learning_rate": 0.00018057078259190397,
+      "loss": 1.1493,
+      "mean_token_accuracy": 0.6945444643497467,
+      "num_tokens": 272261.0,
+      "step": 16
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 0.58851158618927,
+      "learning_rate": 0.0001776018737783468,
+      "loss": 1.2255,
+      "mean_token_accuracy": 0.681264117360115,
+      "num_tokens": 288517.0,
+      "step": 17
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 0.5777610540390015,
+      "learning_rate": 0.0001744536969482954,
+      "loss": 1.1277,
+      "mean_token_accuracy": 0.7005439400672913,
+      "num_tokens": 303397.0,
+      "step": 18
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 0.4685754179954529,
+      "learning_rate": 0.00017113460050075638,
+      "loss": 1.0902,
+      "mean_token_accuracy": 0.7063727080821991,
+      "num_tokens": 320794.0,
+      "step": 19
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.4389488101005554,
+      "learning_rate": 0.0001676533860828358,
+      "loss": 1.1166,
+      "mean_token_accuracy": 0.7016228437423706,
+      "num_tokens": 335928.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 0.47058454155921936,
+      "learning_rate": 0.00016401928524935314,
+      "loss": 1.0497,
+      "mean_token_accuracy": 0.7144980132579803,
+      "num_tokens": 353143.0,
+      "step": 21
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 0.444322794675827,
+      "learning_rate": 0.0001602419349824178,
+      "loss": 1.0521,
+      "mean_token_accuracy": 0.7101306021213531,
+      "num_tokens": 371702.0,
+      "step": 22
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 0.3345094621181488,
+      "learning_rate": 0.0001563313521358848,
+      "loss": 1.0394,
+      "mean_token_accuracy": 0.7164563238620758,
+      "num_tokens": 390548.0,
+      "step": 23
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.318149209022522,
+      "learning_rate": 0.00015229790687245882,
+      "loss": 1.0316,
+      "mean_token_accuracy": 0.7225096970796585,
+      "num_tokens": 408577.0,
+      "step": 24
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.36164650321006775,
+      "learning_rate": 0.0001481522951638875,
+      "loss": 1.0928,
+      "mean_token_accuracy": 0.7029632329940796,
+      "num_tokens": 426544.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 0.3186567723751068,
+      "learning_rate": 0.00014390551042716668,
+      "loss": 1.0932,
+      "mean_token_accuracy": 0.7054416686296463,
+      "num_tokens": 444668.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 0.3198276460170746,
+      "learning_rate": 0.00013956881437197514,
+      "loss": 0.8921,
+      "mean_token_accuracy": 0.7491990774869919,
+      "num_tokens": 460783.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.3033614158630371,
+      "learning_rate": 0.00013515370713664487,
+      "loss": 1.0343,
+      "mean_token_accuracy": 0.7144427299499512,
+      "num_tokens": 479754.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.464,
+      "grad_norm": 0.3438175618648529,
+      "learning_rate": 0.00013067189679186162,
+      "loss": 1.0337,
+      "mean_token_accuracy": 0.7172342389822006,
+      "num_tokens": 496210.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.31151092052459717,
+      "learning_rate": 0.00012613526829296622,
+      "loss": 1.0293,
+      "mean_token_accuracy": 0.7132327109575272,
+      "num_tokens": 513602.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.496,
+      "grad_norm": 0.37670907378196716,
+      "learning_rate": 0.0001215558519631896,
+      "loss": 1.0391,
+      "mean_token_accuracy": 0.7135330736637115,
+      "num_tokens": 528716.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.332743376493454,
+      "learning_rate": 0.0001169457915913982,
+      "loss": 1.0581,
+      "mean_token_accuracy": 0.7063487768173218,
+      "num_tokens": 545676.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.528,
+      "grad_norm": 0.33181434869766235,
+      "learning_rate": 0.000112317312228949,
+      "loss": 1.0115,
+      "mean_token_accuracy": 0.7126458883285522,
+      "num_tokens": 558919.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 0.29894986748695374,
+      "learning_rate": 0.00010768268777105104,
+      "loss": 1.1125,
+      "mean_token_accuracy": 0.7048945128917694,
+      "num_tokens": 575928.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.3128003776073456,
+      "learning_rate": 0.00010305420840860182,
+      "loss": 1.0834,
+      "mean_token_accuracy": 0.7064289450645447,
+      "num_tokens": 591942.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.29789265990257263,
+      "learning_rate": 9.844414803681041e-05,
+      "loss": 0.942,
+      "mean_token_accuracy": 0.7331829965114594,
+      "num_tokens": 607626.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.592,
+      "grad_norm": 0.2763383686542511,
+      "learning_rate": 9.386473170703382e-05,
+      "loss": 1.0408,
+      "mean_token_accuracy": 0.705119863152504,
+      "num_tokens": 626687.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 0.27845677733421326,
+      "learning_rate": 8.932810320813843e-05,
+      "loss": 0.963,
+      "mean_token_accuracy": 0.7295580208301544,
+      "num_tokens": 643989.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.624,
+      "grad_norm": 0.2680862247943878,
+      "learning_rate": 8.484629286335517e-05,
+      "loss": 1.0114,
+      "mean_token_accuracy": 0.7323517799377441,
+      "num_tokens": 663165.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.2760467231273651,
+      "learning_rate": 8.043118562802488e-05,
+      "loss": 0.9966,
+      "mean_token_accuracy": 0.7186093181371689,
+      "num_tokens": 681802.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.656,
+      "grad_norm": 0.26565995812416077,
+      "learning_rate": 7.609448957283334e-05,
+      "loss": 0.9775,
+      "mean_token_accuracy": 0.7272415161132812,
+      "num_tokens": 699772.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 0.29315948486328125,
+      "learning_rate": 7.184770483611256e-05,
+      "loss": 0.8769,
+      "mean_token_accuracy": 0.7540310174226761,
+      "num_tokens": 715209.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.688,
+      "grad_norm": 0.24506399035453796,
+      "learning_rate": 6.770209312754124e-05,
+      "loss": 0.9194,
+      "mean_token_accuracy": 0.74180668592453,
+      "num_tokens": 735810.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 0.3123375177383423,
+      "learning_rate": 6.366864786411526e-05,
+      "loss": 1.0908,
+      "mean_token_accuracy": 0.7076454162597656,
+      "num_tokens": 752738.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.2974242866039276,
+      "learning_rate": 5.9758065017582185e-05,
+      "loss": 1.044,
+      "mean_token_accuracy": 0.712090015411377,
+      "num_tokens": 766970.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.736,
+      "grad_norm": 0.3142162561416626,
+      "learning_rate": 5.598071475064688e-05,
+      "loss": 1.1099,
+      "mean_token_accuracy": 0.7006032019853592,
+      "num_tokens": 781115.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.752,
+      "grad_norm": 0.2571069598197937,
+      "learning_rate": 5.2346613917164246e-05,
+      "loss": 0.9873,
+      "mean_token_accuracy": 0.7231301814317703,
+      "num_tokens": 801039.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.2709988057613373,
+      "learning_rate": 4.886539949924362e-05,
+      "loss": 0.8684,
+      "mean_token_accuracy": 0.7532013207674026,
+      "num_tokens": 818783.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.784,
+      "grad_norm": 0.2727779746055603,
+      "learning_rate": 4.554630305170462e-05,
+      "loss": 1.0595,
+      "mean_token_accuracy": 0.712963730096817,
+      "num_tokens": 836166.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.2671469449996948,
+      "learning_rate": 4.2398126221653236e-05,
+      "loss": 0.9982,
+      "mean_token_accuracy": 0.7242924720048904,
+      "num_tokens": 856465.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.816,
+      "grad_norm": 0.29176750779151917,
+      "learning_rate": 3.9429217408096075e-05,
+      "loss": 0.9357,
+      "mean_token_accuracy": 0.7428720593452454,
+      "num_tokens": 874214.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 0.2942723035812378,
+      "learning_rate": 3.664744962348699e-05,
+      "loss": 1.0035,
+      "mean_token_accuracy": 0.7168596237897873,
+      "num_tokens": 890584.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.848,
+      "grad_norm": 0.29683244228363037,
+      "learning_rate": 3.40601996159133e-05,
+      "loss": 1.0647,
+      "mean_token_accuracy": 0.7118570357561111,
+      "num_tokens": 906031.0,
+      "step": 53
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 0.2509916126728058,
+      "learning_rate": 3.167432830728603e-05,
+      "loss": 0.9915,
+      "mean_token_accuracy": 0.7244430631399155,
+      "num_tokens": 926256.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.29129576683044434,
+      "learning_rate": 2.949616259940842e-05,
+      "loss": 1.0276,
+      "mean_token_accuracy": 0.712443009018898,
+      "num_tokens": 942399.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.27668559551239014,
+      "learning_rate": 2.7531478596169587e-05,
+      "loss": 1.0886,
+      "mean_token_accuracy": 0.7021819353103638,
+      "num_tokens": 959208.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": 0.27250081300735474,
+      "learning_rate": 2.5785486286355586e-05,
+      "loss": 1.1176,
+      "mean_token_accuracy": 0.6994952410459518,
+      "num_tokens": 978283.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 0.47203993797302246,
+      "learning_rate": 2.4262815727695575e-05,
+      "loss": 1.0219,
+      "mean_token_accuracy": 0.7143173664808273,
+      "num_tokens": 991015.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.944,
+      "grad_norm": 0.27971458435058594,
+      "learning_rate": 2.2967504768781168e-05,
+      "loss": 1.0169,
+      "mean_token_accuracy": 0.7231282144784927,
+      "num_tokens": 1008413.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.2779776155948639,
+      "learning_rate": 2.19029883414178e-05,
+      "loss": 0.9886,
+      "mean_token_accuracy": 0.721703976392746,
+      "num_tokens": 1025326.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.976,
+      "grad_norm": 0.2798386812210083,
+      "learning_rate": 2.1072089351803067e-05,
+      "loss": 0.9339,
+      "mean_token_accuracy": 0.7390532195568085,
+      "num_tokens": 1041871.0,
+      "step": 61
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 0.27825894951820374,
+      "learning_rate": 2.0477011194686986e-05,
+      "loss": 0.9924,
+      "mean_token_accuracy": 0.7242806553840637,
+      "num_tokens": 1058238.0,
+      "step": 62
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.4403225779533386,
+      "learning_rate": 2.0119331910365256e-05,
+      "loss": 1.0934,
+      "mean_token_accuracy": 0.6979949474334717,
+      "num_tokens": 1065193.0,
+      "step": 63
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 63,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.995467289064105e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}