|
{ |
|
"best_global_step": null, |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 10.0, |
|
"eval_steps": 500, |
|
"global_step": 750, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 2.856682300567627, |
|
"learning_rate": 2.368421052631579e-05, |
|
"loss": 0.7562, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 2.1593496799468994, |
|
"learning_rate": 5e-05, |
|
"loss": 0.3571, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 5.029506206512451, |
|
"learning_rate": 7.631578947368422e-05, |
|
"loss": 0.3008, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 1.3444815874099731, |
|
"learning_rate": 9.99995132801459e-05, |
|
"loss": 0.2852, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 1.496118187904358, |
|
"learning_rate": 9.994111836256049e-05, |
|
"loss": 0.2588, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 1.1885946989059448, |
|
"learning_rate": 9.978550972536834e-05, |
|
"loss": 0.2427, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"grad_norm": 0.8087589144706726, |
|
"learning_rate": 9.953299027116598e-05, |
|
"loss": 0.2301, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 1.3436691761016846, |
|
"learning_rate": 9.918405154592235e-05, |
|
"loss": 0.226, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 0.9543738961219788, |
|
"learning_rate": 9.87393727821518e-05, |
|
"loss": 0.2297, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 1.0996932983398438, |
|
"learning_rate": 9.819981957674273e-05, |
|
"loss": 0.2016, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 1.4666666666666668, |
|
"grad_norm": 0.7283850908279419, |
|
"learning_rate": 9.756644220601541e-05, |
|
"loss": 0.1829, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 0.8405186533927917, |
|
"learning_rate": 9.6840473581289e-05, |
|
"loss": 0.1961, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 1.7333333333333334, |
|
"grad_norm": 1.5592132806777954, |
|
"learning_rate": 9.602332684893754e-05, |
|
"loss": 0.1844, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 1.8666666666666667, |
|
"grad_norm": 1.8309540748596191, |
|
"learning_rate": 9.511659263960607e-05, |
|
"loss": 0.1779, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 1.4879255294799805, |
|
"learning_rate": 9.412203597194204e-05, |
|
"loss": 0.1815, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 2.1333333333333333, |
|
"grad_norm": 1.1766502857208252, |
|
"learning_rate": 9.304159281686867e-05, |
|
"loss": 0.1699, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 2.2666666666666666, |
|
"grad_norm": 0.6251078844070435, |
|
"learning_rate": 9.187736632908839e-05, |
|
"loss": 0.1481, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"grad_norm": 0.9305304884910583, |
|
"learning_rate": 9.063162275315183e-05, |
|
"loss": 0.1509, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 2.533333333333333, |
|
"grad_norm": 0.4477633535861969, |
|
"learning_rate": 8.930678701206159e-05, |
|
"loss": 0.1462, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"grad_norm": 0.654229462146759, |
|
"learning_rate": 8.790543798699778e-05, |
|
"loss": 0.1477, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 2.8, |
|
"grad_norm": 0.6845827698707581, |
|
"learning_rate": 8.643030349735372e-05, |
|
"loss": 0.14, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 2.9333333333333336, |
|
"grad_norm": 1.044403076171875, |
|
"learning_rate": 8.48842549908535e-05, |
|
"loss": 0.1266, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 3.066666666666667, |
|
"grad_norm": 0.5800396800041199, |
|
"learning_rate": 8.327030195408723e-05, |
|
"loss": 0.1265, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"grad_norm": 0.9593410491943359, |
|
"learning_rate": 8.159158605434469e-05, |
|
"loss": 0.1211, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 3.3333333333333335, |
|
"grad_norm": 1.0110300779342651, |
|
"learning_rate": 7.985137502415026e-05, |
|
"loss": 0.1253, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 3.466666666666667, |
|
"grad_norm": 0.7057809829711914, |
|
"learning_rate": 7.805305630040349e-05, |
|
"loss": 0.121, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 3.6, |
|
"grad_norm": 0.6391778588294983, |
|
"learning_rate": 7.620013043050712e-05, |
|
"loss": 0.125, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 3.7333333333333334, |
|
"grad_norm": 0.607995331287384, |
|
"learning_rate": 7.429620425831795e-05, |
|
"loss": 0.1161, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 3.8666666666666667, |
|
"grad_norm": 0.7533785700798035, |
|
"learning_rate": 7.23449839031846e-05, |
|
"loss": 0.1113, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"grad_norm": 1.0169628858566284, |
|
"learning_rate": 7.035026754573888e-05, |
|
"loss": 0.1188, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 4.133333333333334, |
|
"grad_norm": 0.6760090589523315, |
|
"learning_rate": 6.831593803448366e-05, |
|
"loss": 0.1062, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 4.266666666666667, |
|
"grad_norm": 0.8126936554908752, |
|
"learning_rate": 6.624595532756929e-05, |
|
"loss": 0.1052, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 4.4, |
|
"grad_norm": 0.863543689250946, |
|
"learning_rate": 6.414434878447061e-05, |
|
"loss": 0.1143, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 4.533333333333333, |
|
"grad_norm": 0.8843616247177124, |
|
"learning_rate": 6.201520932257003e-05, |
|
"loss": 0.1101, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 4.666666666666667, |
|
"grad_norm": 0.6530534625053406, |
|
"learning_rate": 5.986268145391368e-05, |
|
"loss": 0.1054, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 4.8, |
|
"grad_norm": 0.4485611915588379, |
|
"learning_rate": 5.7690955217642294e-05, |
|
"loss": 0.0922, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 4.933333333333334, |
|
"grad_norm": 0.7850475907325745, |
|
"learning_rate": 5.550425802380028e-05, |
|
"loss": 0.0974, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 5.066666666666666, |
|
"grad_norm": 0.6851878762245178, |
|
"learning_rate": 5.3306846424400026e-05, |
|
"loss": 0.0909, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 5.2, |
|
"grad_norm": 0.4903821647167206, |
|
"learning_rate": 5.110299782775932e-05, |
|
"loss": 0.0986, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 5.333333333333333, |
|
"grad_norm": 0.6681504249572754, |
|
"learning_rate": 4.889700217224068e-05, |
|
"loss": 0.0997, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 5.466666666666667, |
|
"grad_norm": 0.6663947701454163, |
|
"learning_rate": 4.6693153575599986e-05, |
|
"loss": 0.0893, |
|
"step": 410 |
|
}, |
|
{ |
|
"epoch": 5.6, |
|
"grad_norm": 0.4205131232738495, |
|
"learning_rate": 4.4495741976199726e-05, |
|
"loss": 0.0901, |
|
"step": 420 |
|
}, |
|
{ |
|
"epoch": 5.733333333333333, |
|
"grad_norm": 0.4207931458950043, |
|
"learning_rate": 4.230904478235772e-05, |
|
"loss": 0.0796, |
|
"step": 430 |
|
}, |
|
{ |
|
"epoch": 5.866666666666667, |
|
"grad_norm": 0.7753575444221497, |
|
"learning_rate": 4.013731854608633e-05, |
|
"loss": 0.0971, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"grad_norm": 0.6802049875259399, |
|
"learning_rate": 3.798479067742999e-05, |
|
"loss": 0.0917, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 6.133333333333334, |
|
"grad_norm": 1.2059745788574219, |
|
"learning_rate": 3.585565121552939e-05, |
|
"loss": 0.0945, |
|
"step": 460 |
|
}, |
|
{ |
|
"epoch": 6.266666666666667, |
|
"grad_norm": 0.6750198602676392, |
|
"learning_rate": 3.375404467243073e-05, |
|
"loss": 0.0842, |
|
"step": 470 |
|
}, |
|
{ |
|
"epoch": 6.4, |
|
"grad_norm": 0.6437275409698486, |
|
"learning_rate": 3.168406196551635e-05, |
|
"loss": 0.0763, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 6.533333333333333, |
|
"grad_norm": 0.34197694063186646, |
|
"learning_rate": 2.9649732454261146e-05, |
|
"loss": 0.08, |
|
"step": 490 |
|
}, |
|
{ |
|
"epoch": 6.666666666666667, |
|
"grad_norm": 0.5460636615753174, |
|
"learning_rate": 2.7655016096815394e-05, |
|
"loss": 0.0763, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 6.8, |
|
"grad_norm": 0.6522701382637024, |
|
"learning_rate": 2.570379574168205e-05, |
|
"loss": 0.0741, |
|
"step": 510 |
|
}, |
|
{ |
|
"epoch": 6.933333333333334, |
|
"grad_norm": 0.3515820801258087, |
|
"learning_rate": 2.379986956949289e-05, |
|
"loss": 0.0779, |
|
"step": 520 |
|
}, |
|
{ |
|
"epoch": 7.066666666666666, |
|
"grad_norm": 0.5065327286720276, |
|
"learning_rate": 2.1946943699596518e-05, |
|
"loss": 0.0833, |
|
"step": 530 |
|
}, |
|
{ |
|
"epoch": 7.2, |
|
"grad_norm": 0.3516805171966553, |
|
"learning_rate": 2.0148624975849756e-05, |
|
"loss": 0.0716, |
|
"step": 540 |
|
}, |
|
{ |
|
"epoch": 7.333333333333333, |
|
"grad_norm": 0.3090439438819885, |
|
"learning_rate": 1.8408413945655338e-05, |
|
"loss": 0.0765, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 7.466666666666667, |
|
"grad_norm": 0.4214414060115814, |
|
"learning_rate": 1.672969804591279e-05, |
|
"loss": 0.0779, |
|
"step": 560 |
|
}, |
|
{ |
|
"epoch": 7.6, |
|
"grad_norm": 0.4263613820075989, |
|
"learning_rate": 1.511574500914652e-05, |
|
"loss": 0.0767, |
|
"step": 570 |
|
}, |
|
{ |
|
"epoch": 7.733333333333333, |
|
"grad_norm": 0.49384915828704834, |
|
"learning_rate": 1.3569696502646274e-05, |
|
"loss": 0.0644, |
|
"step": 580 |
|
}, |
|
{ |
|
"epoch": 7.866666666666667, |
|
"grad_norm": 0.3320861756801605, |
|
"learning_rate": 1.2094562013002236e-05, |
|
"loss": 0.0741, |
|
"step": 590 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"grad_norm": 0.44053155183792114, |
|
"learning_rate": 1.0693212987938427e-05, |
|
"loss": 0.071, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 8.133333333333333, |
|
"grad_norm": 0.4971364438533783, |
|
"learning_rate": 9.368377246848176e-06, |
|
"loss": 0.0724, |
|
"step": 610 |
|
}, |
|
{ |
|
"epoch": 8.266666666666667, |
|
"grad_norm": 0.4593380391597748, |
|
"learning_rate": 8.122633670911617e-06, |
|
"loss": 0.0704, |
|
"step": 620 |
|
}, |
|
{ |
|
"epoch": 8.4, |
|
"grad_norm": 0.38243991136550903, |
|
"learning_rate": 6.958407183131338e-06, |
|
"loss": 0.0664, |
|
"step": 630 |
|
}, |
|
{ |
|
"epoch": 8.533333333333333, |
|
"grad_norm": 0.5220152139663696, |
|
"learning_rate": 5.877964028057975e-06, |
|
"loss": 0.0683, |
|
"step": 640 |
|
}, |
|
{ |
|
"epoch": 8.666666666666666, |
|
"grad_norm": 0.5698950290679932, |
|
"learning_rate": 4.883407360393943e-06, |
|
"loss": 0.0636, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 8.8, |
|
"grad_norm": 0.6998140811920166, |
|
"learning_rate": 3.976673151062471e-06, |
|
"loss": 0.072, |
|
"step": 660 |
|
}, |
|
{ |
|
"epoch": 8.933333333333334, |
|
"grad_norm": 0.40603402256965637, |
|
"learning_rate": 3.159526418711006e-06, |
|
"loss": 0.0641, |
|
"step": 670 |
|
}, |
|
{ |
|
"epoch": 9.066666666666666, |
|
"grad_norm": 0.5234900116920471, |
|
"learning_rate": 2.433557793984609e-06, |
|
"loss": 0.0696, |
|
"step": 680 |
|
}, |
|
{ |
|
"epoch": 9.2, |
|
"grad_norm": 0.33110806345939636, |
|
"learning_rate": 1.8001804232572695e-06, |
|
"loss": 0.0667, |
|
"step": 690 |
|
}, |
|
{ |
|
"epoch": 9.333333333333334, |
|
"grad_norm": 0.4102904498577118, |
|
"learning_rate": 1.2606272178482038e-06, |
|
"loss": 0.0715, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 9.466666666666667, |
|
"grad_norm": 0.4770801365375519, |
|
"learning_rate": 8.15948454077664e-07, |
|
"loss": 0.0688, |
|
"step": 710 |
|
}, |
|
{ |
|
"epoch": 9.6, |
|
"grad_norm": 0.36316290497779846, |
|
"learning_rate": 4.6700972883402804e-07, |
|
"loss": 0.0562, |
|
"step": 720 |
|
}, |
|
{ |
|
"epoch": 9.733333333333333, |
|
"grad_norm": 0.3369174599647522, |
|
"learning_rate": 2.1449027463166238e-07, |
|
"loss": 0.0658, |
|
"step": 730 |
|
}, |
|
{ |
|
"epoch": 9.866666666666667, |
|
"grad_norm": 0.4052215814590454, |
|
"learning_rate": 5.8881637439517354e-08, |
|
"loss": 0.0674, |
|
"step": 740 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"grad_norm": 0.48574626445770264, |
|
"learning_rate": 4.867198540980944e-10, |
|
"loss": 0.0645, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"step": 750, |
|
"total_flos": 0.0, |
|
"train_loss": 0.12853396352132163, |
|
"train_runtime": 887.4281, |
|
"train_samples_per_second": 41.277, |
|
"train_steps_per_second": 0.845 |
|
} |
|
], |
|
"logging_steps": 10, |
|
"max_steps": 750, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 10, |
|
"save_steps": 20000, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 0.0, |
|
"train_batch_size": 49, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|