Training in progress, step 156

77f7fc5 verified about 13 hours ago

11.5 kB

	{"loss": 0.45773429, "grad_norm": 3.31757773, "learning_rate": 2e-05, "memory(GiB)": 42.18, "train_speed(iter/s)": 0.036886, "epoch": 0.01282051, "global_step/max_steps": "1/156", "percentage": "0.64%", "elapsed_time": "24s", "remaining_time": "1h 2m 29s"}
	{"loss": 0.42736366, "grad_norm": 3.84560061, "learning_rate": 1.995e-05, "memory(GiB)": 42.18, "train_speed(iter/s)": 0.046372, "epoch": 0.06410256, "global_step/max_steps": "5/156", "percentage": "3.21%", "elapsed_time": "1m 44s", "remaining_time": "52m 48s"}
	{"loss": 0.36603365, "grad_norm": 0.87268281, "learning_rate": 1.98e-05, "memory(GiB)": 42.18, "train_speed(iter/s)": 0.049217, "epoch": 0.12820513, "global_step/max_steps": "10/156", "percentage": "6.41%", "elapsed_time": "3m 20s", "remaining_time": "48m 43s"}
	{"loss": 0.31988683, "grad_norm": 0.70624463, "learning_rate": 1.955e-05, "memory(GiB)": 42.18, "train_speed(iter/s)": 0.049569, "epoch": 0.19230769, "global_step/max_steps": "15/156", "percentage": "9.62%", "elapsed_time": "4m 59s", "remaining_time": "46m 57s"}
	{"eval_loss": 0.3129352, "eval_token_acc": 0.90296097, "eval_runtime": 3.3263, "eval_samples_per_second": 7.215, "eval_steps_per_second": 0.902, "epoch": 0.20512821, "global_step/max_steps": "16/156", "percentage": "10.26%", "elapsed_time": "5m 23s", "remaining_time": "47m 7s"}
	{"loss": 0.32018156, "grad_norm": 0.52573283, "learning_rate": 1.92e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.049498, "epoch": 0.25641026, "global_step/max_steps": "20/156", "percentage": "12.82%", "elapsed_time": "6m 41s", "remaining_time": "45m 27s"}
	{"loss": 0.32266541, "grad_norm": 0.52885442, "learning_rate": 1.876e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050014, "epoch": 0.32051282, "global_step/max_steps": "25/156", "percentage": "16.03%", "elapsed_time": "8m 16s", "remaining_time": "43m 23s"}
	{"loss": 0.31590428, "grad_norm": 0.52399729, "learning_rate": 1.823e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050061, "epoch": 0.38461538, "global_step/max_steps": "30/156", "percentage": "19.23%", "elapsed_time": "9m 56s", "remaining_time": "41m 44s"}
	{"eval_loss": 0.29449606, "eval_token_acc": 0.90609094, "eval_runtime": 3.2788, "eval_samples_per_second": 7.32, "eval_steps_per_second": 0.915, "epoch": 0.41025641, "global_step/max_steps": "32/156", "percentage": "20.51%", "elapsed_time": "10m 38s", "remaining_time": "41m 15s"}
	{"loss": 0.30322599, "grad_norm": 0.5236066, "learning_rate": 1.762e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.049871, "epoch": 0.44871795, "global_step/max_steps": "35/156", "percentage": "22.44%", "elapsed_time": "11m 38s", "remaining_time": "40m 16s"}
	{"loss": 0.29219537, "grad_norm": 0.4515656, "learning_rate": 1.693e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050009, "epoch": 0.51282051, "global_step/max_steps": "40/156", "percentage": "25.64%", "elapsed_time": "13m 16s", "remaining_time": "38m 31s"}
	{"loss": 0.29451563, "grad_norm": 0.43860005, "learning_rate": 1.617e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050161, "epoch": 0.57692308, "global_step/max_steps": "45/156", "percentage": "28.85%", "elapsed_time": "14m 54s", "remaining_time": "36m 45s"}
	{"eval_loss": 0.28744125, "eval_token_acc": 0.90845092, "eval_runtime": 3.2708, "eval_samples_per_second": 7.338, "eval_steps_per_second": 0.917, "epoch": 0.61538462, "global_step/max_steps": "48/156", "percentage": "30.77%", "elapsed_time": "15m 55s", "remaining_time": "35m 49s"}
	{"loss": 0.31311252, "grad_norm": 0.46399157, "learning_rate": 1.534e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050027, "epoch": 0.64102564, "global_step/max_steps": "50/156", "percentage": "32.05%", "elapsed_time": "16m 36s", "remaining_time": "35m 12s"}
	{"loss": 0.30043838, "grad_norm": 0.42245348, "learning_rate": 1.447e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050156, "epoch": 0.70512821, "global_step/max_steps": "55/156", "percentage": "35.26%", "elapsed_time": "18m 13s", "remaining_time": "33m 28s"}
	{"loss": 0.28910124, "grad_norm": 0.48358094, "learning_rate": 1.355e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050238, "epoch": 0.76923077, "global_step/max_steps": "60/156", "percentage": "38.46%", "elapsed_time": "19m 51s", "remaining_time": "31m 46s"}
	{"eval_loss": 0.27913854, "eval_token_acc": 0.9100409, "eval_runtime": 3.267, "eval_samples_per_second": 7.346, "eval_steps_per_second": 0.918, "epoch": 0.82051282, "global_step/max_steps": "64/156", "percentage": "41.03%", "elapsed_time": "21m 12s", "remaining_time": "30m 29s"}
	{"loss": 0.31042833, "grad_norm": 0.44709558, "learning_rate": 1.259e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050198, "epoch": 0.83333333, "global_step/max_steps": "65/156", "percentage": "41.67%", "elapsed_time": "21m 31s", "remaining_time": "30m 8s"}
	{"loss": 0.28766189, "grad_norm": 0.44920407, "learning_rate": 1.16e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050144, "epoch": 0.8974359, "global_step/max_steps": "70/156", "percentage": "44.87%", "elapsed_time": "23m 13s", "remaining_time": "28m 31s"}
	{"loss": 0.29658356, "grad_norm": 0.43857731, "learning_rate": 1.06e-05, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050224, "epoch": 0.96153846, "global_step/max_steps": "75/156", "percentage": "48.08%", "elapsed_time": "24m 50s", "remaining_time": "26m 49s"}
	{"loss": 0.27131562, "grad_norm": 0.49018582, "learning_rate": 9.6e-06, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050098, "epoch": 1.02564103, "global_step/max_steps": "80/156", "percentage": "51.28%", "elapsed_time": "26m 33s", "remaining_time": "25m 14s"}
	{"eval_loss": 0.27706337, "eval_token_acc": 0.91089089, "eval_runtime": 3.286, "eval_samples_per_second": 7.304, "eval_steps_per_second": 0.913, "epoch": 1.02564103, "global_step/max_steps": "80/156", "percentage": "51.28%", "elapsed_time": "26m 37s", "remaining_time": "25m 17s"}
	{"loss": 0.18546507, "grad_norm": 0.46261698, "learning_rate": 8.59e-06, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050063, "epoch": 1.08974359, "global_step/max_steps": "85/156", "percentage": "54.49%", "elapsed_time": "28m 14s", "remaining_time": "23m 35s"}
	{"loss": 0.19849628, "grad_norm": 0.43615785, "learning_rate": 7.61e-06, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.05019, "epoch": 1.15384615, "global_step/max_steps": "90/156", "percentage": "57.69%", "elapsed_time": "29m 50s", "remaining_time": "21m 52s"}
	{"loss": 0.19062743, "grad_norm": 0.41054828, "learning_rate": 6.64e-06, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050294, "epoch": 1.21794872, "global_step/max_steps": "95/156", "percentage": "60.90%", "elapsed_time": "31m 25s", "remaining_time": "20m 10s"}
	{"eval_loss": 0.28501764, "eval_token_acc": 0.91093089, "eval_runtime": 3.272, "eval_samples_per_second": 7.335, "eval_steps_per_second": 0.917, "epoch": 1.23076923, "global_step/max_steps": "96/156", "percentage": "61.54%", "elapsed_time": "31m 50s", "remaining_time": "19m 54s"}
	{"loss": 0.1772285, "grad_norm": 0.41711043, "learning_rate": 5.71e-06, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.050153, "epoch": 1.28205128, "global_step/max_steps": "100/156", "percentage": "64.10%", "elapsed_time": "33m 10s", "remaining_time": "18m 34s"}
	{"loss": 0.1919517, "grad_norm": 0.48433856, "learning_rate": 4.83e-06, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.049384, "epoch": 1.34615385, "global_step/max_steps": "105/156", "percentage": "67.31%", "elapsed_time": "35m 23s", "remaining_time": "17m 11s"}
	{"loss": 0.19244646, "grad_norm": 0.40587698, "learning_rate": 3.99e-06, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.049459, "epoch": 1.41025641, "global_step/max_steps": "110/156", "percentage": "70.51%", "elapsed_time": "37m 1s", "remaining_time": "15m 28s"}
	{"eval_loss": 0.28125104, "eval_token_acc": 0.91178088, "eval_runtime": 3.304, "eval_samples_per_second": 7.264, "eval_steps_per_second": 0.908, "epoch": 1.43589744, "global_step/max_steps": "112/156", "percentage": "71.79%", "elapsed_time": "37m 44s", "remaining_time": "14m 49s"}
	{"loss": 0.19805574, "grad_norm": 0.42219857, "learning_rate": 3.22e-06, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.049448, "epoch": 1.47435897, "global_step/max_steps": "115/156", "percentage": "73.72%", "elapsed_time": "38m 42s", "remaining_time": "13m 48s"}
	{"loss": 0.19977487, "grad_norm": 0.42325366, "learning_rate": 2.51e-06, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.04953, "epoch": 1.53846154, "global_step/max_steps": "120/156", "percentage": "76.92%", "elapsed_time": "40m 19s", "remaining_time": "12m 5s"}
	{"loss": 0.18577256, "grad_norm": 0.37069617, "learning_rate": 1.89e-06, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.049559, "epoch": 1.6025641, "global_step/max_steps": "125/156", "percentage": "80.13%", "elapsed_time": "41m 59s", "remaining_time": "10m 24s"}
	{"eval_loss": 0.28105363, "eval_token_acc": 0.91225088, "eval_runtime": 3.3056, "eval_samples_per_second": 7.26, "eval_steps_per_second": 0.908, "epoch": 1.64102564, "global_step/max_steps": "128/156", "percentage": "82.05%", "elapsed_time": "43m 2s", "remaining_time": "9m 24s"}
	{"loss": 0.1918309, "grad_norm": 0.35794143, "learning_rate": 1.34e-06, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.049529, "epoch": 1.66666667, "global_step/max_steps": "130/156", "percentage": "83.33%", "elapsed_time": "43m 41s", "remaining_time": "8m 44s"}
	{"loss": 0.19284219, "grad_norm": 0.35415443, "learning_rate": 8.8e-07, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.049686, "epoch": 1.73076923, "global_step/max_steps": "135/156", "percentage": "86.54%", "elapsed_time": "45m 14s", "remaining_time": "7m 2s"}
	{"loss": 0.18681207, "grad_norm": 0.42484709, "learning_rate": 5.1e-07, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.049799, "epoch": 1.79487179, "global_step/max_steps": "140/156", "percentage": "89.74%", "elapsed_time": "46m 48s", "remaining_time": "5m 20s"}
	{"eval_loss": 0.27993664, "eval_token_acc": 0.91251087, "eval_runtime": 3.3019, "eval_samples_per_second": 7.269, "eval_steps_per_second": 0.909, "epoch": 1.84615385, "global_step/max_steps": "144/156", "percentage": "92.31%", "elapsed_time": "48m 9s", "remaining_time": "4m 0s"}
	{"loss": 0.18968751, "grad_norm": 0.40146483, "learning_rate": 2.4e-07, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.04982, "epoch": 1.85897436, "global_step/max_steps": "145/156", "percentage": "92.95%", "elapsed_time": "48m 27s", "remaining_time": "3m 40s"}
	{"loss": 0.18844235, "grad_norm": 0.38144234, "learning_rate": 7e-08, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.049839, "epoch": 1.92307692, "global_step/max_steps": "150/156", "percentage": "96.15%", "elapsed_time": "50m 6s", "remaining_time": "2m 0s"}
	{"loss": 0.17921109, "grad_norm": 0.37658725, "learning_rate": 0.0, "memory(GiB)": 50.07, "train_speed(iter/s)": 0.049908, "epoch": 1.98717949, "global_step/max_steps": "155/156", "percentage": "99.36%", "elapsed_time": "51m 42s", "remaining_time": "20s"}
	{"eval_loss": 0.27991375, "eval_token_acc": 0.91230088, "eval_runtime": 3.2919, "eval_samples_per_second": 7.291, "eval_steps_per_second": 0.911, "epoch": 2.0, "global_step/max_steps": "156/156", "percentage": "100.00%", "elapsed_time": "52m 5s", "remaining_time": "0s"}
	{"train_runtime": 3161.7579, "train_samples_per_second": 1.583, "train_steps_per_second": 0.049, "total_flos": 4.010467253026816e+17, "train_loss": 0.25409367, "epoch": 2.0, "global_step/max_steps": "156/156", "percentage": "100.00%", "elapsed_time": "52m 41s", "remaining_time": "0s"}