Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

checkpoints/checkpoint-4966/config.json +26 -0
checkpoints/checkpoint-4966/model.safetensors +3 -0
checkpoints/checkpoint-4966/optimizer.pt +3 -0
checkpoints/checkpoint-4966/rng_state.pth +3 -0
checkpoints/checkpoint-4966/scheduler.pt +3 -0
checkpoints/checkpoint-4966/trainer_state.json +826 -0
checkpoints/checkpoint-4966/training_args.bin +3 -0

checkpoints/checkpoint-4966/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "RobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.47.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 52000
+}

checkpoints/checkpoint-4966/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e157fc53be3295298fff26745a4e98da91fc87e945d30c00328e8318ae9b6069
+size 504150808

checkpoints/checkpoint-4966/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31cbcb460a0753dc627276d637d05ad23ec5dba485c44aac1e71f8d3a36cf3df
+size 1008422138

checkpoints/checkpoint-4966/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c9bd5dd139ab5218d2a176674ad5efa936f8c963f8d79e0e01fae21d512c834
+size 14244

checkpoints/checkpoint-4966/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2ccbc5ec934dd650192ed9e7bb73a559229bfde8832431cf459f508f961cff1
+size 1064

checkpoints/checkpoint-4966/trainer_state.json ADDED Viewed

	@@ -0,0 +1,826 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.998697351280939,
+  "eval_steps": 500,
+  "global_step": 4966,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08684324793747286,
+      "grad_norm": 48.32429885864258,
+      "learning_rate": 2.5e-06,
+      "loss": 10.7455,
+      "step": 50
+    },
+    {
+      "epoch": 0.17368649587494572,
+      "grad_norm": 36.34796142578125,
+      "learning_rate": 5e-06,
+      "loss": 10.0183,
+      "step": 100
+    },
+    {
+      "epoch": 0.26052974381241856,
+      "grad_norm": 33.813438415527344,
+      "learning_rate": 7.5e-06,
+      "loss": 9.6101,
+      "step": 150
+    },
+    {
+      "epoch": 0.34737299174989145,
+      "grad_norm": 32.9961051940918,
+      "learning_rate": 1e-05,
+      "loss": 9.1957,
+      "step": 200
+    },
+    {
+      "epoch": 0.4342162396873643,
+      "grad_norm": 32.04951858520508,
+      "learning_rate": 1.25e-05,
+      "loss": 8.7435,
+      "step": 250
+    },
+    {
+      "epoch": 0.5210594876248371,
+      "grad_norm": 27.619997024536133,
+      "learning_rate": 1.5e-05,
+      "loss": 8.2703,
+      "step": 300
+    },
+    {
+      "epoch": 0.60790273556231,
+      "grad_norm": 34.229496002197266,
+      "learning_rate": 1.7500000000000002e-05,
+      "loss": 7.8107,
+      "step": 350
+    },
+    {
+      "epoch": 0.6947459834997829,
+      "grad_norm": 24.013845443725586,
+      "learning_rate": 2e-05,
+      "loss": 7.3793,
+      "step": 400
+    },
+    {
+      "epoch": 0.7815892314372558,
+      "grad_norm": 22.049392700195312,
+      "learning_rate": 2.2499999999999998e-05,
+      "loss": 7.064,
+      "step": 450
+    },
+    {
+      "epoch": 0.7989578810247503,
+      "eval_accuracy": 0.0,
+      "eval_loss": 6.8795037269592285,
+      "eval_normalizer": 136811.0,
+      "eval_runtime": 153.0785,
+      "eval_samples_per_second": 385.096,
+      "eval_steps_per_second": 0.758,
+      "step": 460
+    },
+    {
+      "epoch": 1.0694745983499783,
+      "grad_norm": 17.628145217895508,
+      "learning_rate": 2.5e-05,
+      "loss": 6.9743,
+      "step": 500
+    },
+    {
+      "epoch": 1.1563178462874513,
+      "grad_norm": 24.724470138549805,
+      "learning_rate": 2.75e-05,
+      "loss": 6.7219,
+      "step": 550
+    },
+    {
+      "epoch": 1.243161094224924,
+      "grad_norm": 26.161134719848633,
+      "learning_rate": 3e-05,
+      "loss": 6.6322,
+      "step": 600
+    },
+    {
+      "epoch": 1.3300043421623968,
+      "grad_norm": 23.512306213378906,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 6.5439,
+      "step": 650
+    },
+    {
+      "epoch": 1.4168475900998696,
+      "grad_norm": 26.923786163330078,
+      "learning_rate": 3.5000000000000004e-05,
+      "loss": 6.4634,
+      "step": 700
+    },
+    {
+      "epoch": 1.5036908380373426,
+      "grad_norm": 23.046533584594727,
+      "learning_rate": 3.75e-05,
+      "loss": 6.3879,
+      "step": 750
+    },
+    {
+      "epoch": 1.5905340859748156,
+      "grad_norm": 22.831220626831055,
+      "learning_rate": 4e-05,
+      "loss": 6.3118,
+      "step": 800
+    },
+    {
+      "epoch": 1.6356925749023015,
+      "eval_accuracy": 0.0,
+      "eval_loss": 5.832508087158203,
+      "eval_normalizer": 136797.0,
+      "eval_runtime": 147.1989,
+      "eval_samples_per_second": 400.478,
+      "eval_steps_per_second": 0.788,
+      "step": 826
+    },
+    {
+      "epoch": 2.041684759009987,
+      "grad_norm": 22.007122039794922,
+      "learning_rate": 4.25e-05,
+      "loss": 6.2933,
+      "step": 850
+    },
+    {
+      "epoch": 2.1285280069474597,
+      "grad_norm": 16.270891189575195,
+      "learning_rate": 4.4999999999999996e-05,
+      "loss": 6.1964,
+      "step": 900
+    },
+    {
+      "epoch": 2.215371254884933,
+      "grad_norm": 22.500335693359375,
+      "learning_rate": 4.75e-05,
+      "loss": 6.1024,
+      "step": 950
+    },
+    {
+      "epoch": 2.3022145028224057,
+      "grad_norm": 24.74261474609375,
+      "learning_rate": 5e-05,
+      "loss": 6.0502,
+      "step": 1000
+    },
+    {
+      "epoch": 2.3890577507598785,
+      "grad_norm": 31.56224822998047,
+      "learning_rate": 5.25e-05,
+      "loss": 5.9904,
+      "step": 1050
+    },
+    {
+      "epoch": 2.4759009986973513,
+      "grad_norm": 18.931520462036133,
+      "learning_rate": 5.5e-05,
+      "loss": 5.9306,
+      "step": 1100
+    },
+    {
+      "epoch": 2.528006947459835,
+      "eval_accuracy": 0.0,
+      "eval_loss": 5.32896089553833,
+      "eval_normalizer": 135800.0,
+      "eval_runtime": 128.1308,
+      "eval_samples_per_second": 460.077,
+      "eval_steps_per_second": 0.905,
+      "step": 1130
+    },
+    {
+      "epoch": 3.034737299174989,
+      "grad_norm": 25.570791244506836,
+      "learning_rate": 5.75e-05,
+      "loss": 5.7977,
+      "step": 1150
+    },
+    {
+      "epoch": 3.121580547112462,
+      "grad_norm": 29.18811798095703,
+      "learning_rate": 6e-05,
+      "loss": 5.5845,
+      "step": 1200
+    },
+    {
+      "epoch": 3.208423795049935,
+      "grad_norm": 23.236276626586914,
+      "learning_rate": 6.25e-05,
+      "loss": 5.4957,
+      "step": 1250
+    },
+    {
+      "epoch": 3.295267042987408,
+      "grad_norm": 23.984031677246094,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 5.4124,
+      "step": 1300
+    },
+    {
+      "epoch": 3.3821102909248806,
+      "grad_norm": 28.23763656616211,
+      "learning_rate": 6.75e-05,
+      "loss": 5.323,
+      "step": 1350
+    },
+    {
+      "epoch": 3.4689535388623534,
+      "grad_norm": 30.71808624267578,
+      "learning_rate": 7.000000000000001e-05,
+      "loss": 5.218,
+      "step": 1400
+    },
+    {
+      "epoch": 3.555796786799826,
+      "grad_norm": 32.23666763305664,
+      "learning_rate": 7.25e-05,
+      "loss": 5.1124,
+      "step": 1450
+    },
+    {
+      "epoch": 3.6426400347372994,
+      "grad_norm": 28.51193618774414,
+      "learning_rate": 7.5e-05,
+      "loss": 5.0115,
+      "step": 1500
+    },
+    {
+      "epoch": 3.6704298740772905,
+      "eval_accuracy": 0.0,
+      "eval_loss": 4.709470748901367,
+      "eval_normalizer": 136953.0,
+      "eval_runtime": 107.2678,
+      "eval_samples_per_second": 549.559,
+      "eval_steps_per_second": 1.081,
+      "step": 1516
+    },
+    {
+      "epoch": 4.059053408597482,
+      "grad_norm": 26.30297088623047,
+      "learning_rate": 7.75e-05,
+      "loss": 4.5805,
+      "step": 1550
+    },
+    {
+      "epoch": 4.145896656534954,
+      "grad_norm": 26.367795944213867,
+      "learning_rate": 8e-05,
+      "loss": 4.2572,
+      "step": 1600
+    },
+    {
+      "epoch": 4.232739904472427,
+      "grad_norm": 27.613256454467773,
+      "learning_rate": 8.25e-05,
+      "loss": 4.1758,
+      "step": 1650
+    },
+    {
+      "epoch": 4.3195831524099,
+      "grad_norm": 26.149005889892578,
+      "learning_rate": 8.5e-05,
+      "loss": 4.1026,
+      "step": 1700
+    },
+    {
+      "epoch": 4.406426400347373,
+      "grad_norm": 25.32581329345703,
+      "learning_rate": 8.75e-05,
+      "loss": 4.0214,
+      "step": 1750
+    },
+    {
+      "epoch": 4.493269648284846,
+      "grad_norm": 25.05300521850586,
+      "learning_rate": 8.999999999999999e-05,
+      "loss": 3.9594,
+      "step": 1800
+    },
+    {
+      "epoch": 4.580112896222319,
+      "grad_norm": 26.33847427368164,
+      "learning_rate": 9.25e-05,
+      "loss": 3.9085,
+      "step": 1850
+    },
+    {
+      "epoch": 4.6669561441597915,
+      "grad_norm": 23.64914894104004,
+      "learning_rate": 9.5e-05,
+      "loss": 3.8477,
+      "step": 1900
+    },
+    {
+      "epoch": 4.753799392097265,
+      "grad_norm": 25.411096572875977,
+      "learning_rate": 9.750000000000001e-05,
+      "loss": 3.8064,
+      "step": 1950
+    },
+    {
+      "epoch": 4.840642640034737,
+      "grad_norm": 25.952960968017578,
+      "learning_rate": 0.0001,
+      "loss": 3.7317,
+      "step": 2000
+    },
+    {
+      "epoch": 4.92748588797221,
+      "grad_norm": 27.8713321685791,
+      "learning_rate": 0.0001025,
+      "loss": 3.7005,
+      "step": 2050
+    },
+    {
+      "epoch": 4.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 4.281714916229248,
+      "eval_normalizer": 136898.0,
+      "eval_runtime": 104.4121,
+      "eval_samples_per_second": 564.59,
+      "eval_steps_per_second": 1.111,
+      "step": 2091
+    },
+    {
+      "epoch": 5.015631784628745,
+      "grad_norm": 23.5882625579834,
+      "learning_rate": 0.000105,
+      "loss": 3.5367,
+      "step": 2100
+    },
+    {
+      "epoch": 5.102475032566218,
+      "grad_norm": 20.266260147094727,
+      "learning_rate": 0.0001075,
+      "loss": 2.6965,
+      "step": 2150
+    },
+    {
+      "epoch": 5.189318280503691,
+      "grad_norm": 18.317874908447266,
+      "learning_rate": 0.00011,
+      "loss": 2.5427,
+      "step": 2200
+    },
+    {
+      "epoch": 5.276161528441164,
+      "grad_norm": 22.011568069458008,
+      "learning_rate": 0.00011250000000000001,
+      "loss": 2.4528,
+      "step": 2250
+    },
+    {
+      "epoch": 5.363004776378636,
+      "grad_norm": 21.177799224853516,
+      "learning_rate": 0.000115,
+      "loss": 2.3982,
+      "step": 2300
+    },
+    {
+      "epoch": 5.449848024316109,
+      "grad_norm": 20.553186416625977,
+      "learning_rate": 0.0001175,
+      "loss": 2.3483,
+      "step": 2350
+    },
+    {
+      "epoch": 5.536691272253583,
+      "grad_norm": 19.31122398376465,
+      "learning_rate": 0.00012,
+      "loss": 2.2953,
+      "step": 2400
+    },
+    {
+      "epoch": 5.623534520191055,
+      "grad_norm": 21.9901180267334,
+      "learning_rate": 0.0001225,
+      "loss": 2.2574,
+      "step": 2450
+    },
+    {
+      "epoch": 5.710377768128528,
+      "grad_norm": 19.90314292907715,
+      "learning_rate": 0.000125,
+      "loss": 2.2118,
+      "step": 2500
+    },
+    {
+      "epoch": 5.7972210160660005,
+      "grad_norm": 21.27450942993164,
+      "learning_rate": 0.0001275,
+      "loss": 2.175,
+      "step": 2550
+    },
+    {
+      "epoch": 5.884064264003474,
+      "grad_norm": 21.723154067993164,
+      "learning_rate": 0.00013000000000000002,
+      "loss": 2.1175,
+      "step": 2600
+    },
+    {
+      "epoch": 5.970907511940947,
+      "grad_norm": 19.191791534423828,
+      "learning_rate": 0.00013250000000000002,
+      "loss": 2.1001,
+      "step": 2650
+    },
+    {
+      "epoch": 5.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 4.229435443878174,
+      "eval_normalizer": 136004.0,
+      "eval_runtime": 102.8723,
+      "eval_samples_per_second": 573.04,
+      "eval_steps_per_second": 1.128,
+      "step": 2666
+    },
+    {
+      "epoch": 6.059053408597482,
+      "grad_norm": 15.839791297912598,
+      "learning_rate": 0.000135,
+      "loss": 1.9955,
+      "step": 2700
+    },
+    {
+      "epoch": 6.145896656534954,
+      "grad_norm": 16.21309471130371,
+      "learning_rate": 0.0001375,
+      "loss": 1.8325,
+      "step": 2750
+    },
+    {
+      "epoch": 6.232739904472427,
+      "grad_norm": 16.051525115966797,
+      "learning_rate": 0.00014000000000000001,
+      "loss": 1.7959,
+      "step": 2800
+    },
+    {
+      "epoch": 6.3195831524099,
+      "grad_norm": 15.809335708618164,
+      "learning_rate": 0.0001425,
+      "loss": 1.7435,
+      "step": 2850
+    },
+    {
+      "epoch": 6.406426400347373,
+      "grad_norm": 16.334001541137695,
+      "learning_rate": 0.000145,
+      "loss": 1.7093,
+      "step": 2900
+    },
+    {
+      "epoch": 6.493269648284846,
+      "grad_norm": 16.464365005493164,
+      "learning_rate": 0.0001475,
+      "loss": 1.694,
+      "step": 2950
+    },
+    {
+      "epoch": 6.580112896222319,
+      "grad_norm": 17.633712768554688,
+      "learning_rate": 0.00015,
+      "loss": 1.6506,
+      "step": 3000
+    },
+    {
+      "epoch": 6.6669561441597915,
+      "grad_norm": 18.032367706298828,
+      "learning_rate": 0.0001525,
+      "loss": 1.6152,
+      "step": 3050
+    },
+    {
+      "epoch": 6.753799392097265,
+      "grad_norm": 15.881841659545898,
+      "learning_rate": 0.000155,
+      "loss": 1.5828,
+      "step": 3100
+    },
+    {
+      "epoch": 6.840642640034737,
+      "grad_norm": 17.653053283691406,
+      "learning_rate": 0.0001575,
+      "loss": 1.5578,
+      "step": 3150
+    },
+    {
+      "epoch": 6.92748588797221,
+      "grad_norm": 16.09905242919922,
+      "learning_rate": 0.00016,
+      "loss": 1.5391,
+      "step": 3200
+    },
+    {
+      "epoch": 6.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 4.745354652404785,
+      "eval_normalizer": 136349.0,
+      "eval_runtime": 103.5677,
+      "eval_samples_per_second": 569.193,
+      "eval_steps_per_second": 1.12,
+      "step": 3241
+    },
+    {
+      "epoch": 7.015631784628745,
+      "grad_norm": 16.049943923950195,
+      "learning_rate": 0.00016250000000000002,
+      "loss": 1.565,
+      "step": 3250
+    },
+    {
+      "epoch": 7.102475032566218,
+      "grad_norm": 15.44378662109375,
+      "learning_rate": 0.000165,
+      "loss": 1.6589,
+      "step": 3300
+    },
+    {
+      "epoch": 7.189318280503691,
+      "grad_norm": 14.940760612487793,
+      "learning_rate": 0.0001675,
+      "loss": 1.604,
+      "step": 3350
+    },
+    {
+      "epoch": 7.276161528441164,
+      "grad_norm": 15.526762008666992,
+      "learning_rate": 0.00017,
+      "loss": 1.5453,
+      "step": 3400
+    },
+    {
+      "epoch": 7.363004776378636,
+      "grad_norm": 15.957108497619629,
+      "learning_rate": 0.0001725,
+      "loss": 1.5156,
+      "step": 3450
+    },
+    {
+      "epoch": 7.449848024316109,
+      "grad_norm": 16.50444221496582,
+      "learning_rate": 0.000175,
+      "loss": 1.4938,
+      "step": 3500
+    },
+    {
+      "epoch": 7.536691272253583,
+      "grad_norm": 16.527673721313477,
+      "learning_rate": 0.0001775,
+      "loss": 1.4478,
+      "step": 3550
+    },
+    {
+      "epoch": 7.623534520191055,
+      "grad_norm": 15.978376388549805,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 1.4137,
+      "step": 3600
+    },
+    {
+      "epoch": 7.710377768128528,
+      "grad_norm": 16.58029556274414,
+      "learning_rate": 0.0001825,
+      "loss": 1.397,
+      "step": 3650
+    },
+    {
+      "epoch": 7.7972210160660005,
+      "grad_norm": 17.977977752685547,
+      "learning_rate": 0.000185,
+      "loss": 1.3734,
+      "step": 3700
+    },
+    {
+      "epoch": 7.884064264003474,
+      "grad_norm": 16.021697998046875,
+      "learning_rate": 0.0001875,
+      "loss": 1.3308,
+      "step": 3750
+    },
+    {
+      "epoch": 7.970907511940947,
+      "grad_norm": 15.896733283996582,
+      "learning_rate": 0.00019,
+      "loss": 1.323,
+      "step": 3800
+    },
+    {
+      "epoch": 7.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 5.486119270324707,
+      "eval_normalizer": 136569.0,
+      "eval_runtime": 103.6313,
+      "eval_samples_per_second": 568.844,
+      "eval_steps_per_second": 1.119,
+      "step": 3816
+    },
+    {
+      "epoch": 8.059053408597482,
+      "grad_norm": 15.037135124206543,
+      "learning_rate": 0.00019250000000000002,
+      "loss": 1.4876,
+      "step": 3850
+    },
+    {
+      "epoch": 8.145896656534955,
+      "grad_norm": 15.31440544128418,
+      "learning_rate": 0.00019500000000000002,
+      "loss": 1.4557,
+      "step": 3900
+    },
+    {
+      "epoch": 8.232739904472428,
+      "grad_norm": 15.17057991027832,
+      "learning_rate": 0.0001975,
+      "loss": 1.4014,
+      "step": 3950
+    },
+    {
+      "epoch": 8.3195831524099,
+      "grad_norm": 16.278615951538086,
+      "learning_rate": 0.0002,
+      "loss": 1.3482,
+      "step": 4000
+    },
+    {
+      "epoch": 8.406426400347373,
+      "grad_norm": 14.423457145690918,
+      "learning_rate": 0.00020250000000000002,
+      "loss": 1.3199,
+      "step": 4050
+    },
+    {
+      "epoch": 8.493269648284846,
+      "grad_norm": 15.386080741882324,
+      "learning_rate": 0.000205,
+      "loss": 1.2817,
+      "step": 4100
+    },
+    {
+      "epoch": 8.58011289622232,
+      "grad_norm": 15.96497917175293,
+      "learning_rate": 0.0002075,
+      "loss": 1.2539,
+      "step": 4150
+    },
+    {
+      "epoch": 8.66695614415979,
+      "grad_norm": 14.696466445922852,
+      "learning_rate": 0.00021,
+      "loss": 1.2161,
+      "step": 4200
+    },
+    {
+      "epoch": 8.753799392097264,
+      "grad_norm": 15.68907642364502,
+      "learning_rate": 0.0002125,
+      "loss": 1.1881,
+      "step": 4250
+    },
+    {
+      "epoch": 8.840642640034737,
+      "grad_norm": 16.16935920715332,
+      "learning_rate": 0.000215,
+      "loss": 1.168,
+      "step": 4300
+    },
+    {
+      "epoch": 8.92748588797221,
+      "grad_norm": 17.611055374145508,
+      "learning_rate": 0.0002175,
+      "loss": 1.1338,
+      "step": 4350
+    },
+    {
+      "epoch": 8.998697351280939,
+      "eval_accuracy": 0.0,
+      "eval_loss": 6.356105804443359,
+      "eval_normalizer": 136839.0,
+      "eval_runtime": 104.8441,
+      "eval_samples_per_second": 562.264,
+      "eval_steps_per_second": 1.106,
+      "step": 4391
+    },
+    {
+      "epoch": 9.015631784628745,
+      "grad_norm": 22.64611053466797,
+      "learning_rate": 0.00022,
+      "loss": 1.1845,
+      "step": 4400
+    },
+    {
+      "epoch": 9.102475032566218,
+      "grad_norm": 14.135415077209473,
+      "learning_rate": 0.00022250000000000001,
+      "loss": 1.2931,
+      "step": 4450
+    },
+    {
+      "epoch": 9.189318280503691,
+      "grad_norm": 14.350916862487793,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 1.195,
+      "step": 4500
+    },
+    {
+      "epoch": 9.276161528441163,
+      "grad_norm": 14.335700988769531,
+      "learning_rate": 0.0002275,
+      "loss": 1.1328,
+      "step": 4550
+    },
+    {
+      "epoch": 9.363004776378636,
+      "grad_norm": 13.810677528381348,
+      "learning_rate": 0.00023,
+      "loss": 1.0703,
+      "step": 4600
+    },
+    {
+      "epoch": 9.44984802431611,
+      "grad_norm": 14.181976318359375,
+      "learning_rate": 0.0002325,
+      "loss": 1.0392,
+      "step": 4650
+    },
+    {
+      "epoch": 9.536691272253583,
+      "grad_norm": 13.69727897644043,
+      "learning_rate": 0.000235,
+      "loss": 1.0131,
+      "step": 4700
+    },
+    {
+      "epoch": 9.623534520191056,
+      "grad_norm": 16.096031188964844,
+      "learning_rate": 0.0002375,
+      "loss": 0.9865,
+      "step": 4750
+    },
+    {
+      "epoch": 9.710377768128527,
+      "grad_norm": 15.79973316192627,
+      "learning_rate": 0.00024,
+      "loss": 0.9347,
+      "step": 4800
+    },
+    {
+      "epoch": 9.797221016066,
+      "grad_norm": 15.413460731506348,
+      "learning_rate": 0.00024249999999999999,
+      "loss": 0.9262,
+      "step": 4850
+    },
+    {
+      "epoch": 9.884064264003474,
+      "grad_norm": 16.058490753173828,
+      "learning_rate": 0.000245,
+      "loss": 0.8874,
+      "step": 4900
+    },
+    {
+      "epoch": 9.970907511940947,
+      "grad_norm": 14.666397094726562,
+      "learning_rate": 0.0002475,
+      "loss": 0.8514,
+      "step": 4950
+    },
+    {
+      "epoch": 9.998697351280939,
+      "eval_accuracy": 0.0,
+      "eval_loss": 7.307034969329834,
+      "eval_normalizer": 136494.0,
+      "eval_runtime": 103.6113,
+      "eval_samples_per_second": 568.954,
+      "eval_steps_per_second": 1.12,
+      "step": 4966
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 5750,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.628310664208394e+17,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-4966/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdc08d0d14aa5507561d445c16c48b1cdaedb8d8bc2b2e27d8757638d2a8aee0
+size 5432