Training in progress, step 39800

Browse files

Files changed (2) hide show

adapter_model.safetensors +1 -1
trainer_log.jsonl +40 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e477cd5ad910d180b654d74a78af1cff8c7d5f5440a1285c09570e5b469979c0
 size 1638528

 version https://git-lfs.github.com/spec/v1
+oid sha256:62611ed7ac4e34612bde00a6df2b460325df673c4c925d6b64df06cdb04465b7
 size 1638528

trainer_log.jsonl CHANGED Viewed

@@ -8117,3 +8117,43 @@
 {"current_steps": 39600, "total_steps": 40000, "loss": 0.3618, "lr": 7.4386456836667e-05, "epoch": 18.67043847241867, "percentage": 99.0, "elapsed_time": "5:25:41", "remaining_time": "0:03:17", "throughput": 1879.26, "total_tokens": 36723376}
 {"current_steps": 39600, "total_steps": 40000, "eval_loss": 0.3285972476005554, "epoch": 18.67043847241867, "percentage": 99.0, "elapsed_time": "5:26:14", "remaining_time": "0:03:17", "throughput": 1876.03, "total_tokens": 36723376}
 {"current_steps": 39605, "total_steps": 40000, "loss": 0.3361, "lr": 7.254314656586214e-05, "epoch": 18.672795851013674, "percentage": 99.01, "elapsed_time": "5:26:17", "remaining_time": "0:03:15", "throughput": 1876.04, "total_tokens": 36728448}

 {"current_steps": 39600, "total_steps": 40000, "loss": 0.3618, "lr": 7.4386456836667e-05, "epoch": 18.67043847241867, "percentage": 99.0, "elapsed_time": "5:25:41", "remaining_time": "0:03:17", "throughput": 1879.26, "total_tokens": 36723376}
 {"current_steps": 39600, "total_steps": 40000, "eval_loss": 0.3285972476005554, "epoch": 18.67043847241867, "percentage": 99.0, "elapsed_time": "5:26:14", "remaining_time": "0:03:17", "throughput": 1876.03, "total_tokens": 36723376}
 {"current_steps": 39605, "total_steps": 40000, "loss": 0.3361, "lr": 7.254314656586214e-05, "epoch": 18.672795851013674, "percentage": 99.01, "elapsed_time": "5:26:17", "remaining_time": "0:03:15", "throughput": 1876.04, "total_tokens": 36728448}
+{"current_steps": 39610, "total_steps": 40000, "loss": 0.3194, "lr": 7.07229569929968e-05, "epoch": 18.675153229608675, "percentage": 99.02, "elapsed_time": "5:26:19", "remaining_time": "0:03:12", "throughput": 1876.12, "total_tokens": 36733072}
+{"current_steps": 39615, "total_steps": 40000, "loss": 0.3744, "lr": 6.892588839879643e-05, "epoch": 18.677510608203676, "percentage": 99.04, "elapsed_time": "5:26:20", "remaining_time": "0:03:10", "throughput": 1876.22, "total_tokens": 36738192}
+{"current_steps": 39620, "total_steps": 40000, "loss": 0.3357, "lr": 6.71519410603727e-05, "epoch": 18.67986798679868, "percentage": 99.05, "elapsed_time": "5:26:22", "remaining_time": "0:03:07", "throughput": 1876.29, "total_tokens": 36742304}
+{"current_steps": 39625, "total_steps": 40000, "loss": 0.3368, "lr": 6.540111525129011e-05, "epoch": 18.68222536539368, "percentage": 99.06, "elapsed_time": "5:26:24", "remaining_time": "0:03:05", "throughput": 1876.38, "total_tokens": 36747136}
+{"current_steps": 39630, "total_steps": 40000, "loss": 0.3029, "lr": 6.367341124154934e-05, "epoch": 18.684582743988685, "percentage": 99.08, "elapsed_time": "5:26:25", "remaining_time": "0:03:02", "throughput": 1876.48, "total_tokens": 36752048}
+{"current_steps": 39635, "total_steps": 40000, "loss": 0.3561, "lr": 6.19688292975873e-05, "epoch": 18.686940122583685, "percentage": 99.09, "elapsed_time": "5:26:27", "remaining_time": "0:03:00", "throughput": 1876.53, "total_tokens": 36755952}
+{"current_steps": 39640, "total_steps": 40000, "loss": 0.3233, "lr": 6.0287369682260336e-05, "epoch": 18.68929750117869, "percentage": 99.1, "elapsed_time": "5:26:28", "remaining_time": "0:02:57", "throughput": 1876.61, "total_tokens": 36760592}
+{"current_steps": 39645, "total_steps": 40000, "loss": 0.3482, "lr": 5.8629032654894384e-05, "epoch": 18.69165487977369, "percentage": 99.11, "elapsed_time": "5:26:30", "remaining_time": "0:02:55", "throughput": 1876.73, "total_tokens": 36766032}
+{"current_steps": 39650, "total_steps": 40000, "loss": 0.2781, "lr": 5.699381847120155e-05, "epoch": 18.694012258368694, "percentage": 99.12, "elapsed_time": "5:26:32", "remaining_time": "0:02:52", "throughput": 1876.79, "total_tokens": 36770176}
+{"current_steps": 39655, "total_steps": 40000, "loss": 0.3851, "lr": 5.5381727383380094e-05, "epoch": 18.696369636963695, "percentage": 99.14, "elapsed_time": "5:26:33", "remaining_time": "0:02:50", "throughput": 1876.85, "total_tokens": 36774224}
+{"current_steps": 39660, "total_steps": 40000, "loss": 0.2982, "lr": 5.379275964001451e-05, "epoch": 18.6987270155587, "percentage": 99.15, "elapsed_time": "5:26:35", "remaining_time": "0:02:47", "throughput": 1876.93, "total_tokens": 36778800}
+{"current_steps": 39665, "total_steps": 40000, "loss": 0.3533, "lr": 5.222691548614211e-05, "epoch": 18.7010843941537, "percentage": 99.16, "elapsed_time": "5:26:36", "remaining_time": "0:02:45", "throughput": 1877.04, "total_tokens": 36784064}
+{"current_steps": 39670, "total_steps": 40000, "loss": 0.2933, "lr": 5.068419516323641e-05, "epoch": 18.703441772748704, "percentage": 99.17, "elapsed_time": "5:26:38", "remaining_time": "0:02:43", "throughput": 1877.14, "total_tokens": 36789184}
+{"current_steps": 39675, "total_steps": 40000, "loss": 0.3327, "lr": 4.91645989092071e-05, "epoch": 18.705799151343705, "percentage": 99.19, "elapsed_time": "5:26:40", "remaining_time": "0:02:40", "throughput": 1877.24, "total_tokens": 36794528}
+{"current_steps": 39680, "total_steps": 40000, "loss": 0.3333, "lr": 4.7668126958400056e-05, "epoch": 18.70815652993871, "percentage": 99.2, "elapsed_time": "5:26:41", "remaining_time": "0:02:38", "throughput": 1877.3, "total_tokens": 36798592}
+{"current_steps": 39685, "total_steps": 40000, "loss": 0.3229, "lr": 4.619477954159734e-05, "epoch": 18.71051390853371, "percentage": 99.21, "elapsed_time": "5:26:43", "remaining_time": "0:02:35", "throughput": 1877.39, "total_tokens": 36803360}
+{"current_steps": 39690, "total_steps": 40000, "loss": 0.3983, "lr": 4.4744556885983884e-05, "epoch": 18.712871287128714, "percentage": 99.22, "elapsed_time": "5:26:45", "remaining_time": "0:02:33", "throughput": 1877.45, "total_tokens": 36807536}
+{"current_steps": 39695, "total_steps": 40000, "loss": 0.3287, "lr": 4.331745921523078e-05, "epoch": 18.715228665723714, "percentage": 99.24, "elapsed_time": "5:26:46", "remaining_time": "0:02:30", "throughput": 1877.54, "total_tokens": 36812368}
+{"current_steps": 39700, "total_steps": 40000, "loss": 0.3103, "lr": 4.191348674937867e-05, "epoch": 18.71758604431872, "percentage": 99.25, "elapsed_time": "5:26:48", "remaining_time": "0:02:28", "throughput": 1877.61, "total_tokens": 36816928}
+{"current_steps": 39705, "total_steps": 40000, "loss": 0.3746, "lr": 4.0532639704971006e-05, "epoch": 18.71994342291372, "percentage": 99.26, "elapsed_time": "5:26:49", "remaining_time": "0:02:25", "throughput": 1877.66, "total_tokens": 36820832}
+{"current_steps": 39710, "total_steps": 40000, "loss": 0.2894, "lr": 3.917491829493747e-05, "epoch": 18.722300801508723, "percentage": 99.28, "elapsed_time": "5:26:51", "remaining_time": "0:02:23", "throughput": 1877.73, "total_tokens": 36825072}
+{"current_steps": 39715, "total_steps": 40000, "loss": 0.3383, "lr": 3.78403227286439e-05, "epoch": 18.724658180103724, "percentage": 99.29, "elapsed_time": "5:26:53", "remaining_time": "0:02:20", "throughput": 1877.81, "total_tokens": 36829552}
+{"current_steps": 39720, "total_steps": 40000, "loss": 0.337, "lr": 3.652885321192567e-05, "epoch": 18.727015558698728, "percentage": 99.3, "elapsed_time": "5:26:54", "remaining_time": "0:02:18", "throughput": 1877.86, "total_tokens": 36833312}
+{"current_steps": 39725, "total_steps": 40000, "loss": 0.3517, "lr": 3.524050994702099e-05, "epoch": 18.72937293729373, "percentage": 99.31, "elapsed_time": "5:26:56", "remaining_time": "0:02:15", "throughput": 1877.94, "total_tokens": 36838032}
+{"current_steps": 39730, "total_steps": 40000, "loss": 0.3171, "lr": 3.3975293132604276e-05, "epoch": 18.731730315888733, "percentage": 99.33, "elapsed_time": "5:26:57", "remaining_time": "0:02:13", "throughput": 1878.0, "total_tokens": 36842032}
+{"current_steps": 39735, "total_steps": 40000, "loss": 0.3219, "lr": 3.2733202963786125e-05, "epoch": 18.734087694483733, "percentage": 99.34, "elapsed_time": "5:26:59", "remaining_time": "0:02:10", "throughput": 1878.08, "total_tokens": 36846752}
+{"current_steps": 39740, "total_steps": 40000, "loss": 0.3313, "lr": 3.15142396321133e-05, "epoch": 18.736445073078738, "percentage": 99.35, "elapsed_time": "5:27:01", "remaining_time": "0:02:08", "throughput": 1878.21, "total_tokens": 36852960}
+{"current_steps": 39745, "total_steps": 40000, "loss": 0.2852, "lr": 3.0318403325552132e-05, "epoch": 18.738802451673738, "percentage": 99.36, "elapsed_time": "5:27:02", "remaining_time": "0:02:05", "throughput": 1878.29, "total_tokens": 36857424}
+{"current_steps": 39750, "total_steps": 40000, "loss": 0.2673, "lr": 2.914569422855506e-05, "epoch": 18.741159830268742, "percentage": 99.38, "elapsed_time": "5:27:04", "remaining_time": "0:02:03", "throughput": 1878.35, "total_tokens": 36861408}
+{"current_steps": 39755, "total_steps": 40000, "loss": 0.3021, "lr": 2.7996112521927462e-05, "epoch": 18.743517208863743, "percentage": 99.39, "elapsed_time": "5:27:06", "remaining_time": "0:02:00", "throughput": 1878.43, "total_tokens": 36866176}
+{"current_steps": 39760, "total_steps": 40000, "loss": 0.2962, "lr": 2.68696583829775e-05, "epoch": 18.745874587458747, "percentage": 99.4, "elapsed_time": "5:27:07", "remaining_time": "0:01:58", "throughput": 1878.51, "total_tokens": 36870672}
+{"current_steps": 39765, "total_steps": 40000, "loss": 0.3142, "lr": 2.576633198539957e-05, "epoch": 18.748231966053748, "percentage": 99.41, "elapsed_time": "5:27:09", "remaining_time": "0:01:56", "throughput": 1878.56, "total_tokens": 36874544}
+{"current_steps": 39770, "total_steps": 40000, "loss": 0.3624, "lr": 2.46861334993409e-05, "epoch": 18.750589344648752, "percentage": 99.42, "elapsed_time": "5:27:10", "remaining_time": "0:01:53", "throughput": 1878.68, "total_tokens": 36879888}
+{"current_steps": 39775, "total_steps": 40000, "loss": 0.2724, "lr": 2.3629063091384903e-05, "epoch": 18.752946723243753, "percentage": 99.44, "elapsed_time": "5:27:12", "remaining_time": "0:01:51", "throughput": 1878.78, "total_tokens": 36885008}
+{"current_steps": 39780, "total_steps": 40000, "loss": 0.3355, "lr": 2.2595120924567834e-05, "epoch": 18.755304101838757, "percentage": 99.45, "elapsed_time": "5:27:14", "remaining_time": "0:01:48", "throughput": 1878.9, "total_tokens": 36890608}
+{"current_steps": 39785, "total_steps": 40000, "loss": 0.3447, "lr": 2.158430715829551e-05, "epoch": 18.757661480433757, "percentage": 99.46, "elapsed_time": "5:27:15", "remaining_time": "0:01:46", "throughput": 1878.99, "total_tokens": 36895440}
+{"current_steps": 39790, "total_steps": 40000, "loss": 0.3134, "lr": 2.059662194849321e-05, "epoch": 18.76001885902876, "percentage": 99.48, "elapsed_time": "5:27:17", "remaining_time": "0:01:43", "throughput": 1879.11, "total_tokens": 36900960}
+{"current_steps": 39795, "total_steps": 40000, "loss": 0.3806, "lr": 1.9632065447422463e-05, "epoch": 18.762376237623762, "percentage": 99.49, "elapsed_time": "5:27:19", "remaining_time": "0:01:41", "throughput": 1879.18, "total_tokens": 36905440}
+{"current_steps": 39800, "total_steps": 40000, "loss": 0.3315, "lr": 1.8690637803880916e-05, "epoch": 18.764733616218766, "percentage": 99.5, "elapsed_time": "5:27:20", "remaining_time": "0:01:38", "throughput": 1879.27, "total_tokens": 36910256}
+{"current_steps": 39800, "total_steps": 40000, "eval_loss": 0.3283248841762543, "epoch": 18.764733616218766, "percentage": 99.5, "elapsed_time": "5:27:54", "remaining_time": "0:01:38", "throughput": 1876.06, "total_tokens": 36910256}