LegrandFrederic's picture
Upload trainer_state.json with huggingface_hub
91a6008 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 10.0,
"eval_steps": 500,
"global_step": 750,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.13333333333333333,
"grad_norm": 2.856682300567627,
"learning_rate": 2.368421052631579e-05,
"loss": 0.7562,
"step": 10
},
{
"epoch": 0.26666666666666666,
"grad_norm": 2.1593496799468994,
"learning_rate": 5e-05,
"loss": 0.3571,
"step": 20
},
{
"epoch": 0.4,
"grad_norm": 5.029506206512451,
"learning_rate": 7.631578947368422e-05,
"loss": 0.3008,
"step": 30
},
{
"epoch": 0.5333333333333333,
"grad_norm": 1.3444815874099731,
"learning_rate": 9.99995132801459e-05,
"loss": 0.2852,
"step": 40
},
{
"epoch": 0.6666666666666666,
"grad_norm": 1.496118187904358,
"learning_rate": 9.994111836256049e-05,
"loss": 0.2588,
"step": 50
},
{
"epoch": 0.8,
"grad_norm": 1.1885946989059448,
"learning_rate": 9.978550972536834e-05,
"loss": 0.2427,
"step": 60
},
{
"epoch": 0.9333333333333333,
"grad_norm": 0.8087589144706726,
"learning_rate": 9.953299027116598e-05,
"loss": 0.2301,
"step": 70
},
{
"epoch": 1.0666666666666667,
"grad_norm": 1.3436691761016846,
"learning_rate": 9.918405154592235e-05,
"loss": 0.226,
"step": 80
},
{
"epoch": 1.2,
"grad_norm": 0.9543738961219788,
"learning_rate": 9.87393727821518e-05,
"loss": 0.2297,
"step": 90
},
{
"epoch": 1.3333333333333333,
"grad_norm": 1.0996932983398438,
"learning_rate": 9.819981957674273e-05,
"loss": 0.2016,
"step": 100
},
{
"epoch": 1.4666666666666668,
"grad_norm": 0.7283850908279419,
"learning_rate": 9.756644220601541e-05,
"loss": 0.1829,
"step": 110
},
{
"epoch": 1.6,
"grad_norm": 0.8405186533927917,
"learning_rate": 9.6840473581289e-05,
"loss": 0.1961,
"step": 120
},
{
"epoch": 1.7333333333333334,
"grad_norm": 1.5592132806777954,
"learning_rate": 9.602332684893754e-05,
"loss": 0.1844,
"step": 130
},
{
"epoch": 1.8666666666666667,
"grad_norm": 1.8309540748596191,
"learning_rate": 9.511659263960607e-05,
"loss": 0.1779,
"step": 140
},
{
"epoch": 2.0,
"grad_norm": 1.4879255294799805,
"learning_rate": 9.412203597194204e-05,
"loss": 0.1815,
"step": 150
},
{
"epoch": 2.1333333333333333,
"grad_norm": 1.1766502857208252,
"learning_rate": 9.304159281686867e-05,
"loss": 0.1699,
"step": 160
},
{
"epoch": 2.2666666666666666,
"grad_norm": 0.6251078844070435,
"learning_rate": 9.187736632908839e-05,
"loss": 0.1481,
"step": 170
},
{
"epoch": 2.4,
"grad_norm": 0.9305304884910583,
"learning_rate": 9.063162275315183e-05,
"loss": 0.1509,
"step": 180
},
{
"epoch": 2.533333333333333,
"grad_norm": 0.4477633535861969,
"learning_rate": 8.930678701206159e-05,
"loss": 0.1462,
"step": 190
},
{
"epoch": 2.6666666666666665,
"grad_norm": 0.654229462146759,
"learning_rate": 8.790543798699778e-05,
"loss": 0.1477,
"step": 200
},
{
"epoch": 2.8,
"grad_norm": 0.6845827698707581,
"learning_rate": 8.643030349735372e-05,
"loss": 0.14,
"step": 210
},
{
"epoch": 2.9333333333333336,
"grad_norm": 1.044403076171875,
"learning_rate": 8.48842549908535e-05,
"loss": 0.1266,
"step": 220
},
{
"epoch": 3.066666666666667,
"grad_norm": 0.5800396800041199,
"learning_rate": 8.327030195408723e-05,
"loss": 0.1265,
"step": 230
},
{
"epoch": 3.2,
"grad_norm": 0.9593410491943359,
"learning_rate": 8.159158605434469e-05,
"loss": 0.1211,
"step": 240
},
{
"epoch": 3.3333333333333335,
"grad_norm": 1.0110300779342651,
"learning_rate": 7.985137502415026e-05,
"loss": 0.1253,
"step": 250
},
{
"epoch": 3.466666666666667,
"grad_norm": 0.7057809829711914,
"learning_rate": 7.805305630040349e-05,
"loss": 0.121,
"step": 260
},
{
"epoch": 3.6,
"grad_norm": 0.6391778588294983,
"learning_rate": 7.620013043050712e-05,
"loss": 0.125,
"step": 270
},
{
"epoch": 3.7333333333333334,
"grad_norm": 0.607995331287384,
"learning_rate": 7.429620425831795e-05,
"loss": 0.1161,
"step": 280
},
{
"epoch": 3.8666666666666667,
"grad_norm": 0.7533785700798035,
"learning_rate": 7.23449839031846e-05,
"loss": 0.1113,
"step": 290
},
{
"epoch": 4.0,
"grad_norm": 1.0169628858566284,
"learning_rate": 7.035026754573888e-05,
"loss": 0.1188,
"step": 300
},
{
"epoch": 4.133333333333334,
"grad_norm": 0.6760090589523315,
"learning_rate": 6.831593803448366e-05,
"loss": 0.1062,
"step": 310
},
{
"epoch": 4.266666666666667,
"grad_norm": 0.8126936554908752,
"learning_rate": 6.624595532756929e-05,
"loss": 0.1052,
"step": 320
},
{
"epoch": 4.4,
"grad_norm": 0.863543689250946,
"learning_rate": 6.414434878447061e-05,
"loss": 0.1143,
"step": 330
},
{
"epoch": 4.533333333333333,
"grad_norm": 0.8843616247177124,
"learning_rate": 6.201520932257003e-05,
"loss": 0.1101,
"step": 340
},
{
"epoch": 4.666666666666667,
"grad_norm": 0.6530534625053406,
"learning_rate": 5.986268145391368e-05,
"loss": 0.1054,
"step": 350
},
{
"epoch": 4.8,
"grad_norm": 0.4485611915588379,
"learning_rate": 5.7690955217642294e-05,
"loss": 0.0922,
"step": 360
},
{
"epoch": 4.933333333333334,
"grad_norm": 0.7850475907325745,
"learning_rate": 5.550425802380028e-05,
"loss": 0.0974,
"step": 370
},
{
"epoch": 5.066666666666666,
"grad_norm": 0.6851878762245178,
"learning_rate": 5.3306846424400026e-05,
"loss": 0.0909,
"step": 380
},
{
"epoch": 5.2,
"grad_norm": 0.4903821647167206,
"learning_rate": 5.110299782775932e-05,
"loss": 0.0986,
"step": 390
},
{
"epoch": 5.333333333333333,
"grad_norm": 0.6681504249572754,
"learning_rate": 4.889700217224068e-05,
"loss": 0.0997,
"step": 400
},
{
"epoch": 5.466666666666667,
"grad_norm": 0.6663947701454163,
"learning_rate": 4.6693153575599986e-05,
"loss": 0.0893,
"step": 410
},
{
"epoch": 5.6,
"grad_norm": 0.4205131232738495,
"learning_rate": 4.4495741976199726e-05,
"loss": 0.0901,
"step": 420
},
{
"epoch": 5.733333333333333,
"grad_norm": 0.4207931458950043,
"learning_rate": 4.230904478235772e-05,
"loss": 0.0796,
"step": 430
},
{
"epoch": 5.866666666666667,
"grad_norm": 0.7753575444221497,
"learning_rate": 4.013731854608633e-05,
"loss": 0.0971,
"step": 440
},
{
"epoch": 6.0,
"grad_norm": 0.6802049875259399,
"learning_rate": 3.798479067742999e-05,
"loss": 0.0917,
"step": 450
},
{
"epoch": 6.133333333333334,
"grad_norm": 1.2059745788574219,
"learning_rate": 3.585565121552939e-05,
"loss": 0.0945,
"step": 460
},
{
"epoch": 6.266666666666667,
"grad_norm": 0.6750198602676392,
"learning_rate": 3.375404467243073e-05,
"loss": 0.0842,
"step": 470
},
{
"epoch": 6.4,
"grad_norm": 0.6437275409698486,
"learning_rate": 3.168406196551635e-05,
"loss": 0.0763,
"step": 480
},
{
"epoch": 6.533333333333333,
"grad_norm": 0.34197694063186646,
"learning_rate": 2.9649732454261146e-05,
"loss": 0.08,
"step": 490
},
{
"epoch": 6.666666666666667,
"grad_norm": 0.5460636615753174,
"learning_rate": 2.7655016096815394e-05,
"loss": 0.0763,
"step": 500
},
{
"epoch": 6.8,
"grad_norm": 0.6522701382637024,
"learning_rate": 2.570379574168205e-05,
"loss": 0.0741,
"step": 510
},
{
"epoch": 6.933333333333334,
"grad_norm": 0.3515820801258087,
"learning_rate": 2.379986956949289e-05,
"loss": 0.0779,
"step": 520
},
{
"epoch": 7.066666666666666,
"grad_norm": 0.5065327286720276,
"learning_rate": 2.1946943699596518e-05,
"loss": 0.0833,
"step": 530
},
{
"epoch": 7.2,
"grad_norm": 0.3516805171966553,
"learning_rate": 2.0148624975849756e-05,
"loss": 0.0716,
"step": 540
},
{
"epoch": 7.333333333333333,
"grad_norm": 0.3090439438819885,
"learning_rate": 1.8408413945655338e-05,
"loss": 0.0765,
"step": 550
},
{
"epoch": 7.466666666666667,
"grad_norm": 0.4214414060115814,
"learning_rate": 1.672969804591279e-05,
"loss": 0.0779,
"step": 560
},
{
"epoch": 7.6,
"grad_norm": 0.4263613820075989,
"learning_rate": 1.511574500914652e-05,
"loss": 0.0767,
"step": 570
},
{
"epoch": 7.733333333333333,
"grad_norm": 0.49384915828704834,
"learning_rate": 1.3569696502646274e-05,
"loss": 0.0644,
"step": 580
},
{
"epoch": 7.866666666666667,
"grad_norm": 0.3320861756801605,
"learning_rate": 1.2094562013002236e-05,
"loss": 0.0741,
"step": 590
},
{
"epoch": 8.0,
"grad_norm": 0.44053155183792114,
"learning_rate": 1.0693212987938427e-05,
"loss": 0.071,
"step": 600
},
{
"epoch": 8.133333333333333,
"grad_norm": 0.4971364438533783,
"learning_rate": 9.368377246848176e-06,
"loss": 0.0724,
"step": 610
},
{
"epoch": 8.266666666666667,
"grad_norm": 0.4593380391597748,
"learning_rate": 8.122633670911617e-06,
"loss": 0.0704,
"step": 620
},
{
"epoch": 8.4,
"grad_norm": 0.38243991136550903,
"learning_rate": 6.958407183131338e-06,
"loss": 0.0664,
"step": 630
},
{
"epoch": 8.533333333333333,
"grad_norm": 0.5220152139663696,
"learning_rate": 5.877964028057975e-06,
"loss": 0.0683,
"step": 640
},
{
"epoch": 8.666666666666666,
"grad_norm": 0.5698950290679932,
"learning_rate": 4.883407360393943e-06,
"loss": 0.0636,
"step": 650
},
{
"epoch": 8.8,
"grad_norm": 0.6998140811920166,
"learning_rate": 3.976673151062471e-06,
"loss": 0.072,
"step": 660
},
{
"epoch": 8.933333333333334,
"grad_norm": 0.40603402256965637,
"learning_rate": 3.159526418711006e-06,
"loss": 0.0641,
"step": 670
},
{
"epoch": 9.066666666666666,
"grad_norm": 0.5234900116920471,
"learning_rate": 2.433557793984609e-06,
"loss": 0.0696,
"step": 680
},
{
"epoch": 9.2,
"grad_norm": 0.33110806345939636,
"learning_rate": 1.8001804232572695e-06,
"loss": 0.0667,
"step": 690
},
{
"epoch": 9.333333333333334,
"grad_norm": 0.4102904498577118,
"learning_rate": 1.2606272178482038e-06,
"loss": 0.0715,
"step": 700
},
{
"epoch": 9.466666666666667,
"grad_norm": 0.4770801365375519,
"learning_rate": 8.15948454077664e-07,
"loss": 0.0688,
"step": 710
},
{
"epoch": 9.6,
"grad_norm": 0.36316290497779846,
"learning_rate": 4.6700972883402804e-07,
"loss": 0.0562,
"step": 720
},
{
"epoch": 9.733333333333333,
"grad_norm": 0.3369174599647522,
"learning_rate": 2.1449027463166238e-07,
"loss": 0.0658,
"step": 730
},
{
"epoch": 9.866666666666667,
"grad_norm": 0.4052215814590454,
"learning_rate": 5.8881637439517354e-08,
"loss": 0.0674,
"step": 740
},
{
"epoch": 10.0,
"grad_norm": 0.48574626445770264,
"learning_rate": 4.867198540980944e-10,
"loss": 0.0645,
"step": 750
},
{
"epoch": 10.0,
"step": 750,
"total_flos": 0.0,
"train_loss": 0.12853396352132163,
"train_runtime": 887.4281,
"train_samples_per_second": 41.277,
"train_steps_per_second": 0.845
}
],
"logging_steps": 10,
"max_steps": 750,
"num_input_tokens_seen": 0,
"num_train_epochs": 10,
"save_steps": 20000,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 0.0,
"train_batch_size": 49,
"trial_name": null,
"trial_params": null
}