Training in progress, step 146

d7b1b24 verified about 13 hours ago

11.1 kB

	{"loss": 1.04375803, "grad_norm": 12.59006732, "learning_rate": 2e-05, "memory(GiB)": 69.62, "train_speed(iter/s)": 0.024115, "epoch": 0.0137931, "global_step/max_steps": "1/146", "percentage": "0.68%", "elapsed_time": "37s", "remaining_time": "1h 31m 18s"}
	{"loss": 0.82100856, "grad_norm": 1.66379339, "learning_rate": 1.994e-05, "memory(GiB)": 73.38, "train_speed(iter/s)": 0.026842, "epoch": 0.06896552, "global_step/max_steps": "5/146", "percentage": "3.42%", "elapsed_time": "3m 2s", "remaining_time": "1h 25m 48s"}
	{"loss": 0.7056191, "grad_norm": 0.80141812, "learning_rate": 1.977e-05, "memory(GiB)": 73.38, "train_speed(iter/s)": 0.026965, "epoch": 0.13793103, "global_step/max_steps": "10/146", "percentage": "6.85%", "elapsed_time": "6m 7s", "remaining_time": "1h 23m 13s"}
	{"loss": 0.64924746, "grad_norm": 0.63813263, "learning_rate": 1.948e-05, "memory(GiB)": 73.38, "train_speed(iter/s)": 0.026979, "epoch": 0.20689655, "global_step/max_steps": "15/146", "percentage": "10.27%", "elapsed_time": "9m 12s", "remaining_time": "1h 20m 23s"}
	{"eval_loss": 0.58681464, "eval_token_acc": 0.83057618, "eval_runtime": 8.5747, "eval_samples_per_second": 3.032, "eval_steps_per_second": 0.466, "epoch": 0.22068966, "global_step/max_steps": "16/146", "percentage": "10.96%", "elapsed_time": "9m 56s", "remaining_time": "1h 20m 45s"}
	{"loss": 0.62895279, "grad_norm": 0.5966553, "learning_rate": 1.909e-05, "memory(GiB)": 73.38, "train_speed(iter/s)": 0.026781, "epoch": 0.27586207, "global_step/max_steps": "20/146", "percentage": "13.70%", "elapsed_time": "12m 23s", "remaining_time": "1h 18m 1s"}
	{"loss": 0.66884184, "grad_norm": 0.53188157, "learning_rate": 1.859e-05, "memory(GiB)": 73.38, "train_speed(iter/s)": 0.026838, "epoch": 0.34482759, "global_step/max_steps": "25/146", "percentage": "17.12%", "elapsed_time": "15m 27s", "remaining_time": "1h 14m 50s"}
	{"loss": 0.6392498, "grad_norm": 0.50902658, "learning_rate": 1.799e-05, "memory(GiB)": 73.38, "train_speed(iter/s)": 0.027022, "epoch": 0.4137931, "global_step/max_steps": "30/146", "percentage": "20.55%", "elapsed_time": "18m 26s", "remaining_time": "1h 11m 18s"}
	{"eval_loss": 0.55515796, "eval_token_acc": 0.83724661, "eval_runtime": 8.6708, "eval_samples_per_second": 2.999, "eval_steps_per_second": 0.461, "epoch": 0.44137931, "global_step/max_steps": "32/146", "percentage": "21.92%", "elapsed_time": "19m 44s", "remaining_time": "1h 10m 20s"}
	{"loss": 0.63191905, "grad_norm": 0.58271294, "learning_rate": 1.73e-05, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026938, "epoch": 0.48275862, "global_step/max_steps": "35/146", "percentage": "23.97%", "elapsed_time": "21m 35s", "remaining_time": "1h 8m 28s"}
	{"loss": 0.65724192, "grad_norm": 0.48074707, "learning_rate": 1.652e-05, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026997, "epoch": 0.55172414, "global_step/max_steps": "40/146", "percentage": "27.40%", "elapsed_time": "24m 37s", "remaining_time": "1h 5m 16s"}
	{"loss": 0.59139619, "grad_norm": 0.49843404, "learning_rate": 1.567e-05, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.027092, "epoch": 0.62068966, "global_step/max_steps": "45/146", "percentage": "30.82%", "elapsed_time": "27m 37s", "remaining_time": "1h 1m 59s"}
	{"eval_loss": 0.54050124, "eval_token_acc": 0.84015066, "eval_runtime": 8.561, "eval_samples_per_second": 3.037, "eval_steps_per_second": 0.467, "epoch": 0.66206897, "global_step/max_steps": "48/146", "percentage": "32.88%", "elapsed_time": "29m 35s", "remaining_time": "1h 0m 24s"}
	{"loss": 0.60715909, "grad_norm": 0.50508687, "learning_rate": 1.475e-05, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026982, "epoch": 0.68965517, "global_step/max_steps": "50/146", "percentage": "34.25%", "elapsed_time": "30m 49s", "remaining_time": "59m 10s"}
	{"loss": 0.63509035, "grad_norm": 0.47421767, "learning_rate": 1.378e-05, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026994, "epoch": 0.75862069, "global_step/max_steps": "55/146", "percentage": "37.67%", "elapsed_time": "33m 53s", "remaining_time": "56m 4s"}
	{"loss": 0.59680676, "grad_norm": 0.45588523, "learning_rate": 1.276e-05, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.027048, "epoch": 0.82758621, "global_step/max_steps": "60/146", "percentage": "41.10%", "elapsed_time": "36m 54s", "remaining_time": "52m 54s"}
	{"eval_loss": 0.53057516, "eval_token_acc": 0.84299129, "eval_runtime": 8.4852, "eval_samples_per_second": 3.064, "eval_steps_per_second": 0.471, "epoch": 0.88275862, "global_step/max_steps": "64/146", "percentage": "43.84%", "elapsed_time": "39m 28s", "remaining_time": "50m 34s"}
	{"loss": 0.61581488, "grad_norm": 0.46036177, "learning_rate": 1.171e-05, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026975, "epoch": 0.89655172, "global_step/max_steps": "65/146", "percentage": "44.52%", "elapsed_time": "40m 5s", "remaining_time": "49m 58s"}
	{"loss": 0.61231756, "grad_norm": 0.46259776, "learning_rate": 1.065e-05, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.02702, "epoch": 0.96551724, "global_step/max_steps": "70/146", "percentage": "47.95%", "elapsed_time": "43m 6s", "remaining_time": "46m 48s"}
	{"loss": 0.56015501, "grad_norm": 0.5880059, "learning_rate": 9.57e-06, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.027212, "epoch": 1.02758621, "global_step/max_steps": "75/146", "percentage": "51.37%", "elapsed_time": "45m 52s", "remaining_time": "43m 25s"}
	{"loss": 0.47692137, "grad_norm": 0.67269313, "learning_rate": 8.5e-06, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.0272, "epoch": 1.09655172, "global_step/max_steps": "80/146", "percentage": "54.79%", "elapsed_time": "48m 57s", "remaining_time": "40m 23s"}
	{"eval_loss": 0.54464298, "eval_token_acc": 0.84210359, "eval_runtime": 8.5051, "eval_samples_per_second": 3.057, "eval_steps_per_second": 0.47, "epoch": 1.09655172, "global_step/max_steps": "80/146", "percentage": "54.79%", "elapsed_time": "49m 5s", "remaining_time": "40m 30s"}
	{"loss": 0.44103861, "grad_norm": 0.50736644, "learning_rate": 7.45e-06, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.027168, "epoch": 1.16551724, "global_step/max_steps": "85/146", "percentage": "58.22%", "elapsed_time": "52m 5s", "remaining_time": "37m 22s"}
	{"loss": 0.44492459, "grad_norm": 0.46830863, "learning_rate": 6.42e-06, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.027194, "epoch": 1.23448276, "global_step/max_steps": "90/146", "percentage": "61.64%", "elapsed_time": "55m 5s", "remaining_time": "34m 16s"}
	{"loss": 0.46173372, "grad_norm": 0.42215949, "learning_rate": 5.44e-06, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.027224, "epoch": 1.30344828, "global_step/max_steps": "95/146", "percentage": "65.07%", "elapsed_time": "58m 5s", "remaining_time": "31m 11s"}
	{"eval_loss": 0.53646421, "eval_token_acc": 0.84290886, "eval_runtime": 8.5007, "eval_samples_per_second": 3.059, "eval_steps_per_second": 0.471, "epoch": 1.31724138, "global_step/max_steps": "96/146", "percentage": "65.75%", "elapsed_time": "58m 51s", "remaining_time": "30m 39s"}
	{"loss": 0.47173634, "grad_norm": 0.4384318, "learning_rate": 4.51e-06, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.02711, "epoch": 1.37241379, "global_step/max_steps": "100/146", "percentage": "68.49%", "elapsed_time": "1h 1m 24s", "remaining_time": "28m 15s"}
	{"loss": 0.45322523, "grad_norm": 0.43511347, "learning_rate": 3.65e-06, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.02663, "epoch": 1.44137931, "global_step/max_steps": "105/146", "percentage": "71.92%", "elapsed_time": "1h 5m 39s", "remaining_time": "25m 38s"}
	{"loss": 0.44744282, "grad_norm": 0.46345194, "learning_rate": 2.85e-06, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026683, "epoch": 1.51034483, "global_step/max_steps": "110/146", "percentage": "75.34%", "elapsed_time": "1h 8m 38s", "remaining_time": "22m 27s"}
	{"eval_loss": 0.53573835, "eval_token_acc": 0.84379656, "eval_runtime": 8.5241, "eval_samples_per_second": 3.05, "eval_steps_per_second": 0.469, "epoch": 1.53793103, "global_step/max_steps": "112/146", "percentage": "76.71%", "elapsed_time": "1h 9m 59s", "remaining_time": "21m 14s"}
	{"loss": 0.46588821, "grad_norm": 0.45610124, "learning_rate": 2.14e-06, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026671, "epoch": 1.57931034, "global_step/max_steps": "115/146", "percentage": "78.77%", "elapsed_time": "1h 11m 48s", "remaining_time": "19m 21s"}
	{"loss": 0.45798807, "grad_norm": 0.42730329, "learning_rate": 1.52e-06, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026726, "epoch": 1.64827586, "global_step/max_steps": "120/146", "percentage": "82.19%", "elapsed_time": "1h 14m 46s", "remaining_time": "16m 12s"}
	{"loss": 0.48079767, "grad_norm": 0.41608068, "learning_rate": 1e-06, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026752, "epoch": 1.71724138, "global_step/max_steps": "125/146", "percentage": "85.62%", "elapsed_time": "1h 17m 48s", "remaining_time": "13m 4s"}
	{"eval_loss": 0.53436935, "eval_token_acc": 0.84387899, "eval_runtime": 8.5196, "eval_samples_per_second": 3.052, "eval_steps_per_second": 0.47, "epoch": 1.75862069, "global_step/max_steps": "128/146", "percentage": "87.67%", "elapsed_time": "1h 19m 45s", "remaining_time": "11m 13s"}
	{"loss": 0.44431963, "grad_norm": 0.40601544, "learning_rate": 5.9e-07, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026746, "epoch": 1.7862069, "global_step/max_steps": "130/146", "percentage": "89.04%", "elapsed_time": "1h 20m 56s", "remaining_time": "9m 57s"}
	{"loss": 0.44119992, "grad_norm": 0.41481228, "learning_rate": 2.8e-07, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.02677, "epoch": 1.85517241, "global_step/max_steps": "135/146", "percentage": "92.47%", "elapsed_time": "1h 23m 59s", "remaining_time": "6m 50s"}
	{"loss": 0.43953962, "grad_norm": 0.43045046, "learning_rate": 8e-08, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026806, "epoch": 1.92413793, "global_step/max_steps": "140/146", "percentage": "95.89%", "elapsed_time": "1h 26m 58s", "remaining_time": "3m 43s"}
	{"eval_loss": 0.53450143, "eval_token_acc": 0.84422139, "eval_runtime": 8.5309, "eval_samples_per_second": 3.048, "eval_steps_per_second": 0.469, "epoch": 1.97931034, "global_step/max_steps": "144/146", "percentage": "98.63%", "elapsed_time": "1h 29m 32s", "remaining_time": "1m 14s"}
	{"loss": 0.4515357, "grad_norm": 0.41469172, "learning_rate": 0.0, "memory(GiB)": 76.56, "train_speed(iter/s)": 0.026793, "epoch": 1.99310345, "global_step/max_steps": "145/146", "percentage": "99.32%", "elapsed_time": "1h 30m 8s", "remaining_time": "37s"}
	{"eval_loss": 0.53430396, "eval_token_acc": 0.84406922, "eval_runtime": 8.5582, "eval_samples_per_second": 3.038, "eval_steps_per_second": 0.467, "epoch": 2.0, "global_step/max_steps": "146/146", "percentage": "100.00%", "elapsed_time": "1h 30m 35s", "remaining_time": "0s"}
	{"train_runtime": 5505.6101, "train_samples_per_second": 0.844, "train_steps_per_second": 0.027, "total_flos": 5.3165977811655066e+17, "train_loss": 0.55430516, "epoch": 2.0, "global_step/max_steps": "146/146", "percentage": "100.00%", "elapsed_time": "1h 31m 45s", "remaining_time": "0s"}