gerqwen-audio / trainer_state.json

Upload folder using huggingface_hub

8468e49 verified 7 months ago

19.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.09423752273112121,
	"eval_steps": 100000,
	"global_step": 400,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.000235593806827803,
	"grad_norm": 103.0,
	"learning_rate": 1e-05,
	"loss": 0.7800231,
	"memory(GiB)": 63.62,
	"step": 1,
	"train_speed(iter/s)": 0.015931
	},
	{
	"epoch": 0.001177969034139015,
	"grad_norm": 5.8125,
	"learning_rate": 9.99997807127629e-06,
	"loss": 0.41946995,
	"memory(GiB)": 75.24,
	"step": 5,
	"train_speed(iter/s)": 0.017972
	},
	{
	"epoch": 0.00235593806827803,
	"grad_norm": 2.703125,
	"learning_rate": 9.999888986165874e-06,
	"loss": 0.0869894,
	"memory(GiB)": 75.24,
	"step": 10,
	"train_speed(iter/s)": 0.018238
	},
	{
	"epoch": 0.003533907102417045,
	"grad_norm": 2.140625,
	"learning_rate": 9.99973137534353e-06,
	"loss": 0.06987351,
	"memory(GiB)": 75.24,
	"step": 15,
	"train_speed(iter/s)": 0.018317
	},
	{
	"epoch": 0.00471187613655606,
	"grad_norm": 2.515625,
	"learning_rate": 9.999505240969388e-06,
	"loss": 0.0606461,
	"memory(GiB)": 75.24,
	"step": 20,
	"train_speed(iter/s)": 0.01837
	},
	{
	"epoch": 0.005889845170695076,
	"grad_norm": 2.4375,
	"learning_rate": 9.999210586142718e-06,
	"loss": 0.06591458,
	"memory(GiB)": 75.24,
	"step": 25,
	"train_speed(iter/s)": 0.018407
	},
	{
	"epoch": 0.00706781420483409,
	"grad_norm": 2.8125,
	"learning_rate": 9.998847414901898e-06,
	"loss": 0.06059705,
	"memory(GiB)": 75.24,
	"step": 30,
	"train_speed(iter/s)": 0.018432
	},
	{
	"epoch": 0.008245783238973105,
	"grad_norm": 1.9921875,
	"learning_rate": 9.998415732224352e-06,
	"loss": 0.06047676,
	"memory(GiB)": 75.24,
	"step": 35,
	"train_speed(iter/s)": 0.018453
	},
	{
	"epoch": 0.00942375227311212,
	"grad_norm": 1.921875,
	"learning_rate": 9.997915544026483e-06,
	"loss": 0.06190881,
	"memory(GiB)": 75.24,
	"step": 40,
	"train_speed(iter/s)": 0.018469
	},
	{
	"epoch": 0.010601721307251136,
	"grad_norm": 1.859375,
	"learning_rate": 9.997346857163591e-06,
	"loss": 0.05765554,
	"memory(GiB)": 75.24,
	"step": 45,
	"train_speed(iter/s)": 0.018482
	},
	{
	"epoch": 0.011779690341390151,
	"grad_norm": 2.5625,
	"learning_rate": 9.99670967942979e-06,
	"loss": 0.0662235,
	"memory(GiB)": 75.24,
	"step": 50,
	"train_speed(iter/s)": 0.01849
	},
	{
	"epoch": 0.012957659375529167,
	"grad_norm": 2.390625,
	"learning_rate": 9.996004019557879e-06,
	"loss": 0.06362078,
	"memory(GiB)": 75.24,
	"step": 55,
	"train_speed(iter/s)": 0.0185
	},
	{
	"epoch": 0.01413562840966818,
	"grad_norm": 2.875,
	"learning_rate": 9.995229887219246e-06,
	"loss": 0.06171583,
	"memory(GiB)": 75.24,
	"step": 60,
	"train_speed(iter/s)": 0.018512
	},
	{
	"epoch": 0.015313597443807196,
	"grad_norm": 2.109375,
	"learning_rate": 9.99438729302372e-06,
	"loss": 0.06211852,
	"memory(GiB)": 75.24,
	"step": 65,
	"train_speed(iter/s)": 0.018519
	},
	{
	"epoch": 0.01649156647794621,
	"grad_norm": 1.828125,
	"learning_rate": 9.993476248519429e-06,
	"loss": 0.06484153,
	"memory(GiB)": 75.24,
	"step": 70,
	"train_speed(iter/s)": 0.01852
	},
	{
	"epoch": 0.017669535512085225,
	"grad_norm": 1.90625,
	"learning_rate": 9.992496766192645e-06,
	"loss": 0.06099743,
	"memory(GiB)": 75.24,
	"step": 75,
	"train_speed(iter/s)": 0.018526
	},
	{
	"epoch": 0.01884750454622424,
	"grad_norm": 1.796875,
	"learning_rate": 9.991448859467611e-06,
	"loss": 0.05843818,
	"memory(GiB)": 75.24,
	"step": 80,
	"train_speed(iter/s)": 0.018543
	},
	{
	"epoch": 0.020025473580363256,
	"grad_norm": 1.8203125,
	"learning_rate": 9.99033254270636e-06,
	"loss": 0.05953899,
	"memory(GiB)": 75.24,
	"step": 85,
	"train_speed(iter/s)": 0.018546
	},
	{
	"epoch": 0.02120344261450227,
	"grad_norm": 1.9609375,
	"learning_rate": 9.989147831208508e-06,
	"loss": 0.06501681,
	"memory(GiB)": 75.24,
	"step": 90,
	"train_speed(iter/s)": 0.018554
	},
	{
	"epoch": 0.022381411648641287,
	"grad_norm": 2.609375,
	"learning_rate": 9.987894741211056e-06,
	"loss": 0.06521546,
	"memory(GiB)": 75.24,
	"step": 95,
	"train_speed(iter/s)": 0.01856
	},
	{
	"epoch": 0.023559380682780302,
	"grad_norm": 2.046875,
	"learning_rate": 9.986573289888164e-06,
	"loss": 0.06153967,
	"memory(GiB)": 75.24,
	"step": 100,
	"train_speed(iter/s)": 0.018562
	},
	{
	"epoch": 0.024737349716919318,
	"grad_norm": 2.109375,
	"learning_rate": 9.98518349535091e-06,
	"loss": 0.07089446,
	"memory(GiB)": 75.24,
	"step": 105,
	"train_speed(iter/s)": 0.018452
	},
	{
	"epoch": 0.025915318751058333,
	"grad_norm": 1.7578125,
	"learning_rate": 9.98372537664705e-06,
	"loss": 0.05478874,
	"memory(GiB)": 75.24,
	"step": 110,
	"train_speed(iter/s)": 0.018463
	},
	{
	"epoch": 0.027093287785197345,
	"grad_norm": 2.9375,
	"learning_rate": 9.982198953760752e-06,
	"loss": 0.06532571,
	"memory(GiB)": 75.24,
	"step": 115,
	"train_speed(iter/s)": 0.018473
	},
	{
	"epoch": 0.02827125681933636,
	"grad_norm": 2.234375,
	"learning_rate": 9.980604247612325e-06,
	"loss": 0.06488043,
	"memory(GiB)": 75.24,
	"step": 120,
	"train_speed(iter/s)": 0.018478
	},
	{
	"epoch": 0.029449225853475376,
	"grad_norm": 2.28125,
	"learning_rate": 9.978941280057928e-06,
	"loss": 0.06263313,
	"memory(GiB)": 75.24,
	"step": 125,
	"train_speed(iter/s)": 0.018482
	},
	{
	"epoch": 0.03062719488761439,
	"grad_norm": 2.21875,
	"learning_rate": 9.977210073889273e-06,
	"loss": 0.0654664,
	"memory(GiB)": 75.24,
	"step": 130,
	"train_speed(iter/s)": 0.018487
	},
	{
	"epoch": 0.03180516392175341,
	"grad_norm": 2.171875,
	"learning_rate": 9.975410652833316e-06,
	"loss": 0.06672717,
	"memory(GiB)": 75.24,
	"step": 135,
	"train_speed(iter/s)": 0.018489
	},
	{
	"epoch": 0.03298313295589242,
	"grad_norm": 2.875,
	"learning_rate": 9.973543041551924e-06,
	"loss": 0.06413687,
	"memory(GiB)": 75.24,
	"step": 140,
	"train_speed(iter/s)": 0.01849
	},
	{
	"epoch": 0.03416110199003144,
	"grad_norm": 1.9453125,
	"learning_rate": 9.971607265641547e-06,
	"loss": 0.0582508,
	"memory(GiB)": 75.24,
	"step": 145,
	"train_speed(iter/s)": 0.018495
	},
	{
	"epoch": 0.03533907102417045,
	"grad_norm": 1.9375,
	"learning_rate": 9.969603351632855e-06,
	"loss": 0.06022533,
	"memory(GiB)": 75.24,
	"step": 150,
	"train_speed(iter/s)": 0.0185
	},
	{
	"epoch": 0.03651704005830947,
	"grad_norm": 2.109375,
	"learning_rate": 9.967531326990387e-06,
	"loss": 0.06132371,
	"memory(GiB)": 75.24,
	"step": 155,
	"train_speed(iter/s)": 0.018504
	},
	{
	"epoch": 0.03769500909244848,
	"grad_norm": 2.078125,
	"learning_rate": 9.965391220112165e-06,
	"loss": 0.07101279,
	"memory(GiB)": 75.24,
	"step": 160,
	"train_speed(iter/s)": 0.018506
	},
	{
	"epoch": 0.0388729781265875,
	"grad_norm": 2.140625,
	"learning_rate": 9.96318306032931e-06,
	"loss": 0.0588982,
	"memory(GiB)": 75.24,
	"step": 165,
	"train_speed(iter/s)": 0.018505
	},
	{
	"epoch": 0.04005094716072651,
	"grad_norm": 2.125,
	"learning_rate": 9.96090687790564e-06,
	"loss": 0.06118761,
	"memory(GiB)": 75.24,
	"step": 170,
	"train_speed(iter/s)": 0.018511
	},
	{
	"epoch": 0.04122891619486553,
	"grad_norm": 1.8671875,
	"learning_rate": 9.95856270403725e-06,
	"loss": 0.06012461,
	"memory(GiB)": 75.24,
	"step": 175,
	"train_speed(iter/s)": 0.018517
	},
	{
	"epoch": 0.04240688522900454,
	"grad_norm": 2.234375,
	"learning_rate": 9.956150570852088e-06,
	"loss": 0.0591939,
	"memory(GiB)": 75.24,
	"step": 180,
	"train_speed(iter/s)": 0.01852
	},
	{
	"epoch": 0.043584854263143555,
	"grad_norm": 2.234375,
	"learning_rate": 9.95367051140952e-06,
	"loss": 0.06429687,
	"memory(GiB)": 75.24,
	"step": 185,
	"train_speed(iter/s)": 0.018524
	},
	{
	"epoch": 0.044762823297282574,
	"grad_norm": 1.59375,
	"learning_rate": 9.951122559699868e-06,
	"loss": 0.05647093,
	"memory(GiB)": 75.24,
	"step": 190,
	"train_speed(iter/s)": 0.018525
	},
	{
	"epoch": 0.045940792331421586,
	"grad_norm": 1.9140625,
	"learning_rate": 9.948506750643946e-06,
	"loss": 0.05816346,
	"memory(GiB)": 75.24,
	"step": 195,
	"train_speed(iter/s)": 0.018525
	},
	{
	"epoch": 0.047118761365560605,
	"grad_norm": 2.546875,
	"learning_rate": 9.94582312009259e-06,
	"loss": 0.05947306,
	"memory(GiB)": 75.24,
	"step": 200,
	"train_speed(iter/s)": 0.018527
	},
	{
	"epoch": 0.04829673039969962,
	"grad_norm": 2.359375,
	"learning_rate": 9.943071704826153e-06,
	"loss": 0.06321282,
	"memory(GiB)": 75.24,
	"step": 205,
	"train_speed(iter/s)": 0.018454
	},
	{
	"epoch": 0.049474699433838636,
	"grad_norm": 2.203125,
	"learning_rate": 9.940252542554007e-06,
	"loss": 0.06456767,
	"memory(GiB)": 75.24,
	"step": 210,
	"train_speed(iter/s)": 0.018455
	},
	{
	"epoch": 0.05065266846797765,
	"grad_norm": 2.15625,
	"learning_rate": 9.937365671914037e-06,
	"loss": 0.06057892,
	"memory(GiB)": 75.24,
	"step": 215,
	"train_speed(iter/s)": 0.018456
	},
	{
	"epoch": 0.05183063750211667,
	"grad_norm": 2.0,
	"learning_rate": 9.934411132472088e-06,
	"loss": 0.05920454,
	"memory(GiB)": 75.24,
	"step": 220,
	"train_speed(iter/s)": 0.018458
	},
	{
	"epoch": 0.05300860653625568,
	"grad_norm": 2.015625,
	"learning_rate": 9.931388964721446e-06,
	"loss": 0.05975649,
	"memory(GiB)": 75.24,
	"step": 225,
	"train_speed(iter/s)": 0.018461
	},
	{
	"epoch": 0.05418657557039469,
	"grad_norm": 2.0,
	"learning_rate": 9.92829921008227e-06,
	"loss": 0.06393375,
	"memory(GiB)": 75.24,
	"step": 230,
	"train_speed(iter/s)": 0.018462
	},
	{
	"epoch": 0.05536454460453371,
	"grad_norm": 2.28125,
	"learning_rate": 9.925141910901029e-06,
	"loss": 0.06334119,
	"memory(GiB)": 75.24,
	"step": 235,
	"train_speed(iter/s)": 0.018466
	},
	{
	"epoch": 0.05654251363867272,
	"grad_norm": 2.09375,
	"learning_rate": 9.921917110449914e-06,
	"loss": 0.06911048,
	"memory(GiB)": 75.24,
	"step": 240,
	"train_speed(iter/s)": 0.018468
	},
	{
	"epoch": 0.05772048267281174,
	"grad_norm": 1.984375,
	"learning_rate": 9.918624852926258e-06,
	"loss": 0.05916922,
	"memory(GiB)": 75.24,
	"step": 245,
	"train_speed(iter/s)": 0.01847
	},
	{
	"epoch": 0.05889845170695075,
	"grad_norm": 1.859375,
	"learning_rate": 9.915265183451923e-06,
	"loss": 0.06251335,
	"memory(GiB)": 75.24,
	"step": 250,
	"train_speed(iter/s)": 0.018471
	},
	{
	"epoch": 0.06007642074108977,
	"grad_norm": 1.8515625,
	"learning_rate": 9.911838148072678e-06,
	"loss": 0.06203491,
	"memory(GiB)": 75.24,
	"step": 255,
	"train_speed(iter/s)": 0.018477
	},
	{
	"epoch": 0.06125438977522878,
	"grad_norm": 2.265625,
	"learning_rate": 9.908343793757574e-06,
	"loss": 0.06085759,
	"memory(GiB)": 75.24,
	"step": 260,
	"train_speed(iter/s)": 0.01848
	},
	{
	"epoch": 0.062432358809367795,
	"grad_norm": 2.375,
	"learning_rate": 9.904782168398296e-06,
	"loss": 0.06250409,
	"memory(GiB)": 75.24,
	"step": 265,
	"train_speed(iter/s)": 0.018484
	},
	{
	"epoch": 0.06361032784350681,
	"grad_norm": 1.9609375,
	"learning_rate": 9.901153320808514e-06,
	"loss": 0.05536562,
	"memory(GiB)": 75.24,
	"step": 270,
	"train_speed(iter/s)": 0.018489
	},
	{
	"epoch": 0.06478829687764583,
	"grad_norm": 1.8359375,
	"learning_rate": 9.897457300723202e-06,
	"loss": 0.05569639,
	"memory(GiB)": 75.24,
	"step": 275,
	"train_speed(iter/s)": 0.018491
	},
	{
	"epoch": 0.06596626591178484,
	"grad_norm": 2.40625,
	"learning_rate": 9.893694158797968e-06,
	"loss": 0.05840618,
	"memory(GiB)": 75.24,
	"step": 280,
	"train_speed(iter/s)": 0.018494
	},
	{
	"epoch": 0.06714423494592386,
	"grad_norm": 2.265625,
	"learning_rate": 9.889863946608352e-06,
	"loss": 0.05661937,
	"memory(GiB)": 75.24,
	"step": 285,
	"train_speed(iter/s)": 0.018496
	},
	{
	"epoch": 0.06832220398006288,
	"grad_norm": 2.140625,
	"learning_rate": 9.885966716649125e-06,
	"loss": 0.06150655,
	"memory(GiB)": 75.24,
	"step": 290,
	"train_speed(iter/s)": 0.018497
	},
	{
	"epoch": 0.06950017301420189,
	"grad_norm": 2.09375,
	"learning_rate": 9.88200252233356e-06,
	"loss": 0.06209329,
	"memory(GiB)": 75.24,
	"step": 295,
	"train_speed(iter/s)": 0.018497
	},
	{
	"epoch": 0.0706781420483409,
	"grad_norm": 3.375,
	"learning_rate": 9.877971417992716e-06,
	"loss": 0.05904433,
	"memory(GiB)": 75.24,
	"step": 300,
	"train_speed(iter/s)": 0.018499
	},
	{
	"epoch": 0.07185611108247993,
	"grad_norm": 1.796875,
	"learning_rate": 9.873873458874676e-06,
	"loss": 0.05126434,
	"memory(GiB)": 75.24,
	"step": 305,
	"train_speed(iter/s)": 0.018458
	},
	{
	"epoch": 0.07303408011661894,
	"grad_norm": 2.0,
	"learning_rate": 9.8697087011438e-06,
	"loss": 0.05796698,
	"memory(GiB)": 75.24,
	"step": 310,
	"train_speed(iter/s)": 0.018459
	},
	{
	"epoch": 0.07421204915075795,
	"grad_norm": 1.875,
	"learning_rate": 9.865477201879953e-06,
	"loss": 0.05630487,
	"memory(GiB)": 75.24,
	"step": 315,
	"train_speed(iter/s)": 0.01846
	},
	{
	"epoch": 0.07539001818489696,
	"grad_norm": 2.515625,
	"learning_rate": 9.861179019077725e-06,
	"loss": 0.0567848,
	"memory(GiB)": 75.24,
	"step": 320,
	"train_speed(iter/s)": 0.018461
	},
	{
	"epoch": 0.07656798721903597,
	"grad_norm": 2.109375,
	"learning_rate": 9.856814211645627e-06,
	"loss": 0.05985626,
	"memory(GiB)": 75.24,
	"step": 325,
	"train_speed(iter/s)": 0.018463
	},
	{
	"epoch": 0.077745956253175,
	"grad_norm": 2.09375,
	"learning_rate": 9.852382839405298e-06,
	"loss": 0.05782009,
	"memory(GiB)": 75.24,
	"step": 330,
	"train_speed(iter/s)": 0.018466
	},
	{
	"epoch": 0.07892392528731401,
	"grad_norm": 2.28125,
	"learning_rate": 9.847884963090675e-06,
	"loss": 0.06585214,
	"memory(GiB)": 75.24,
	"step": 335,
	"train_speed(iter/s)": 0.018468
	},
	{
	"epoch": 0.08010189432145302,
	"grad_norm": 2.234375,
	"learning_rate": 9.843320644347156e-06,
	"loss": 0.06263242,
	"memory(GiB)": 75.24,
	"step": 340,
	"train_speed(iter/s)": 0.01847
	},
	{
	"epoch": 0.08127986335559204,
	"grad_norm": 2.203125,
	"learning_rate": 9.838689945730776e-06,
	"loss": 0.05163463,
	"memory(GiB)": 75.24,
	"step": 345,
	"train_speed(iter/s)": 0.018472
	},
	{
	"epoch": 0.08245783238973106,
	"grad_norm": 2.015625,
	"learning_rate": 9.833992930707321e-06,
	"loss": 0.05960041,
	"memory(GiB)": 75.24,
	"step": 350,
	"train_speed(iter/s)": 0.018475
	},
	{
	"epoch": 0.08363580142387007,
	"grad_norm": 2.5,
	"learning_rate": 9.829229663651483e-06,
	"loss": 0.05999585,
	"memory(GiB)": 75.24,
	"step": 355,
	"train_speed(iter/s)": 0.018477
	},
	{
	"epoch": 0.08481377045800909,
	"grad_norm": 1.671875,
	"learning_rate": 9.824400209845967e-06,
	"loss": 0.05059795,
	"memory(GiB)": 75.24,
	"step": 360,
	"train_speed(iter/s)": 0.018479
	},
	{
	"epoch": 0.0859917394921481,
	"grad_norm": 2.171875,
	"learning_rate": 9.81950463548059e-06,
	"loss": 0.05671123,
	"memory(GiB)": 75.24,
	"step": 365,
	"train_speed(iter/s)": 0.018481
	},
	{
	"epoch": 0.08716970852628711,
	"grad_norm": 2.625,
	"learning_rate": 9.814543007651389e-06,
	"loss": 0.05803382,
	"memory(GiB)": 75.24,
	"step": 370,
	"train_speed(iter/s)": 0.018483
	},
	{
	"epoch": 0.08834767756042614,
	"grad_norm": 1.890625,
	"learning_rate": 9.80951539435969e-06,
	"loss": 0.05704566,
	"memory(GiB)": 75.24,
	"step": 375,
	"train_speed(iter/s)": 0.018485
	},
	{
	"epoch": 0.08952564659456515,
	"grad_norm": 2.03125,
	"learning_rate": 9.804421864511175e-06,
	"loss": 0.05998203,
	"memory(GiB)": 75.24,
	"step": 380,
	"train_speed(iter/s)": 0.018487
	},
	{
	"epoch": 0.09070361562870416,
	"grad_norm": 2.53125,
	"learning_rate": 9.79926248791495e-06,
	"loss": 0.06044774,
	"memory(GiB)": 75.24,
	"step": 385,
	"train_speed(iter/s)": 0.018488
	},
	{
	"epoch": 0.09188158466284317,
	"grad_norm": 2.1875,
	"learning_rate": 9.794037335282572e-06,
	"loss": 0.06596763,
	"memory(GiB)": 75.24,
	"step": 390,
	"train_speed(iter/s)": 0.018489
	},
	{
	"epoch": 0.0930595536969822,
	"grad_norm": 2.171875,
	"learning_rate": 9.788746478227097e-06,
	"loss": 0.06313769,
	"memory(GiB)": 75.24,
	"step": 395,
	"train_speed(iter/s)": 0.018489
	},
	{
	"epoch": 0.09423752273112121,
	"grad_norm": 1.9296875,
	"learning_rate": 9.783389989262078e-06,
	"loss": 0.05841722,
	"memory(GiB)": 75.24,
	"step": 400,
	"train_speed(iter/s)": 0.018489
	}
	],
	"logging_steps": 5,
	"max_steps": 4244,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 4.4341415068565504e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}