diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,11742 @@ +{ + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 10.0, + "eval_steps": 100, + "global_step": 15000, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.006666666666666667, + "grad_norm": 9.268775939941406, + "learning_rate": 6.666666666666667e-07, + "loss": 3.0642, + "step": 10 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 9.500263214111328, + "learning_rate": 1.3333333333333334e-06, + "loss": 2.8189, + "step": 20 + }, + { + "epoch": 0.02, + "grad_norm": 7.298404693603516, + "learning_rate": 2.0000000000000003e-06, + "loss": 2.8796, + "step": 30 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 5.893432140350342, + "learning_rate": 2.666666666666667e-06, + "loss": 2.7828, + "step": 40 + }, + { + "epoch": 0.03333333333333333, + "grad_norm": 5.851838111877441, + "learning_rate": 3.3333333333333333e-06, + "loss": 2.5255, + "step": 50 + }, + { + "epoch": 0.04, + "grad_norm": 4.55861759185791, + "learning_rate": 4.000000000000001e-06, + "loss": 2.5538, + "step": 60 + }, + { + "epoch": 0.04666666666666667, + "grad_norm": 6.272013187408447, + "learning_rate": 4.666666666666667e-06, + "loss": 2.5819, + "step": 70 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 6.030414581298828, + "learning_rate": 5.333333333333334e-06, + "loss": 2.4608, + "step": 80 + }, + { + "epoch": 0.06, + "grad_norm": 6.942994117736816, + "learning_rate": 6e-06, + "loss": 2.5688, + "step": 90 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 7.662395000457764, + "learning_rate": 6.666666666666667e-06, + "loss": 2.2455, + "step": 100 + }, + { + "epoch": 0.06666666666666667, + "eval_darija_finetune_val_loss": 2.2932026386260986, + "eval_darija_finetune_val_runtime": 259.0701, + "eval_darija_finetune_val_samples_per_second": 3.86, + "eval_darija_finetune_val_steps_per_second": 1.93, + "step": 100 + }, + { + "epoch": 0.07333333333333333, + "grad_norm": 7.321921348571777, + "learning_rate": 7.333333333333334e-06, + "loss": 2.347, + "step": 110 + }, + { + "epoch": 0.08, + "grad_norm": 8.149300575256348, + "learning_rate": 8.000000000000001e-06, + "loss": 2.221, + "step": 120 + }, + { + "epoch": 0.08666666666666667, + "grad_norm": 6.455135345458984, + "learning_rate": 8.666666666666668e-06, + "loss": 2.2408, + "step": 130 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 6.133583068847656, + "learning_rate": 9.333333333333334e-06, + "loss": 2.3875, + "step": 140 + }, + { + "epoch": 0.1, + "grad_norm": 8.713020324707031, + "learning_rate": 1e-05, + "loss": 2.2372, + "step": 150 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 7.3972978591918945, + "learning_rate": 1.0666666666666667e-05, + "loss": 2.0616, + "step": 160 + }, + { + "epoch": 0.11333333333333333, + "grad_norm": 6.897719860076904, + "learning_rate": 1.1333333333333334e-05, + "loss": 2.0148, + "step": 170 + }, + { + "epoch": 0.12, + "grad_norm": 5.360996246337891, + "learning_rate": 1.2e-05, + "loss": 2.0855, + "step": 180 + }, + { + "epoch": 0.12666666666666668, + "grad_norm": 7.835807800292969, + "learning_rate": 1.2666666666666668e-05, + "loss": 2.117, + "step": 190 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 6.022270679473877, + "learning_rate": 1.3333333333333333e-05, + "loss": 1.7996, + "step": 200 + }, + { + "epoch": 0.13333333333333333, + "eval_darija_finetune_val_loss": 1.892167091369629, + "eval_darija_finetune_val_runtime": 259.1849, + "eval_darija_finetune_val_samples_per_second": 3.858, + "eval_darija_finetune_val_steps_per_second": 1.929, + "step": 200 + }, + { + "epoch": 0.14, + "grad_norm": 8.653072357177734, + "learning_rate": 1.4000000000000001e-05, + "loss": 2.0668, + "step": 210 + }, + { + "epoch": 0.14666666666666667, + "grad_norm": 7.903113842010498, + "learning_rate": 1.4666666666666668e-05, + "loss": 1.7255, + "step": 220 + }, + { + "epoch": 0.15333333333333332, + "grad_norm": 9.175501823425293, + "learning_rate": 1.5333333333333334e-05, + "loss": 1.7861, + "step": 230 + }, + { + "epoch": 0.16, + "grad_norm": 7.112132549285889, + "learning_rate": 1.6000000000000003e-05, + "loss": 1.8126, + "step": 240 + }, + { + "epoch": 0.16666666666666666, + "grad_norm": 6.008356094360352, + "learning_rate": 1.6666666666666667e-05, + "loss": 1.8613, + "step": 250 + }, + { + "epoch": 0.17333333333333334, + "grad_norm": 7.87493896484375, + "learning_rate": 1.7333333333333336e-05, + "loss": 1.7834, + "step": 260 + }, + { + "epoch": 0.18, + "grad_norm": 7.564673900604248, + "learning_rate": 1.8e-05, + "loss": 1.6655, + "step": 270 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 9.032303810119629, + "learning_rate": 1.866666666666667e-05, + "loss": 1.7847, + "step": 280 + }, + { + "epoch": 0.19333333333333333, + "grad_norm": 8.308818817138672, + "learning_rate": 1.9333333333333333e-05, + "loss": 1.7349, + "step": 290 + }, + { + "epoch": 0.2, + "grad_norm": 11.66466999053955, + "learning_rate": 2e-05, + "loss": 1.7058, + "step": 300 + }, + { + "epoch": 0.2, + "eval_darija_finetune_val_loss": 1.6624267101287842, + "eval_darija_finetune_val_runtime": 259.2584, + "eval_darija_finetune_val_samples_per_second": 3.857, + "eval_darija_finetune_val_steps_per_second": 1.929, + "step": 300 + }, + { + "epoch": 0.20666666666666667, + "grad_norm": 8.424105644226074, + "learning_rate": 2.0666666666666666e-05, + "loss": 1.5579, + "step": 310 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 6.0295515060424805, + "learning_rate": 2.1333333333333335e-05, + "loss": 1.6849, + "step": 320 + }, + { + "epoch": 0.22, + "grad_norm": 6.430535793304443, + "learning_rate": 2.2000000000000003e-05, + "loss": 1.5016, + "step": 330 + }, + { + "epoch": 0.22666666666666666, + "grad_norm": 9.018087387084961, + "learning_rate": 2.2666666666666668e-05, + "loss": 1.5056, + "step": 340 + }, + { + "epoch": 0.23333333333333334, + "grad_norm": 13.63873291015625, + "learning_rate": 2.3333333333333336e-05, + "loss": 1.6035, + "step": 350 + }, + { + "epoch": 0.24, + "grad_norm": 8.072099685668945, + "learning_rate": 2.4e-05, + "loss": 1.6494, + "step": 360 + }, + { + "epoch": 0.24666666666666667, + "grad_norm": 8.600571632385254, + "learning_rate": 2.466666666666667e-05, + "loss": 1.6857, + "step": 370 + }, + { + "epoch": 0.25333333333333335, + "grad_norm": 8.418648719787598, + "learning_rate": 2.5333333333333337e-05, + "loss": 1.5152, + "step": 380 + }, + { + "epoch": 0.26, + "grad_norm": 11.158117294311523, + "learning_rate": 2.6000000000000002e-05, + "loss": 1.5183, + "step": 390 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 8.015896797180176, + "learning_rate": 2.6666666666666667e-05, + "loss": 1.5053, + "step": 400 + }, + { + "epoch": 0.26666666666666666, + "eval_darija_finetune_val_loss": 1.5115283727645874, + "eval_darija_finetune_val_runtime": 259.0571, + "eval_darija_finetune_val_samples_per_second": 3.86, + "eval_darija_finetune_val_steps_per_second": 1.93, + "step": 400 + }, + { + "epoch": 0.2733333333333333, + "grad_norm": 8.34165096282959, + "learning_rate": 2.733333333333333e-05, + "loss": 1.4349, + "step": 410 + }, + { + "epoch": 0.28, + "grad_norm": 12.338715553283691, + "learning_rate": 2.8000000000000003e-05, + "loss": 1.6289, + "step": 420 + }, + { + "epoch": 0.2866666666666667, + "grad_norm": 9.469289779663086, + "learning_rate": 2.8666666666666668e-05, + "loss": 1.4067, + "step": 430 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 9.264724731445312, + "learning_rate": 2.9333333333333336e-05, + "loss": 1.4077, + "step": 440 + }, + { + "epoch": 0.3, + "grad_norm": 9.814329147338867, + "learning_rate": 3e-05, + "loss": 1.5959, + "step": 450 + }, + { + "epoch": 0.30666666666666664, + "grad_norm": 8.546180725097656, + "learning_rate": 3.066666666666667e-05, + "loss": 1.5676, + "step": 460 + }, + { + "epoch": 0.31333333333333335, + "grad_norm": 10.333645820617676, + "learning_rate": 3.1333333333333334e-05, + "loss": 1.5621, + "step": 470 + }, + { + "epoch": 0.32, + "grad_norm": 7.376586437225342, + "learning_rate": 3.2000000000000005e-05, + "loss": 1.531, + "step": 480 + }, + { + "epoch": 0.32666666666666666, + "grad_norm": 8.00594425201416, + "learning_rate": 3.266666666666667e-05, + "loss": 1.5122, + "step": 490 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 6.181279182434082, + "learning_rate": 3.3333333333333335e-05, + "loss": 1.3669, + "step": 500 + }, + { + "epoch": 0.3333333333333333, + "eval_darija_finetune_val_loss": 1.3909292221069336, + "eval_darija_finetune_val_runtime": 259.0513, + "eval_darija_finetune_val_samples_per_second": 3.86, + "eval_darija_finetune_val_steps_per_second": 1.93, + "step": 500 + }, + { + "epoch": 0.34, + "grad_norm": 10.580244064331055, + "learning_rate": 3.4000000000000007e-05, + "loss": 1.3636, + "step": 510 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 9.045496940612793, + "learning_rate": 3.466666666666667e-05, + "loss": 1.4212, + "step": 520 + }, + { + "epoch": 0.35333333333333333, + "grad_norm": 8.881861686706543, + "learning_rate": 3.5333333333333336e-05, + "loss": 1.3325, + "step": 530 + }, + { + "epoch": 0.36, + "grad_norm": 9.595781326293945, + "learning_rate": 3.6e-05, + "loss": 1.4583, + "step": 540 + }, + { + "epoch": 0.36666666666666664, + "grad_norm": 11.518074989318848, + "learning_rate": 3.6666666666666666e-05, + "loss": 1.3749, + "step": 550 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 8.431135177612305, + "learning_rate": 3.733333333333334e-05, + "loss": 1.2727, + "step": 560 + }, + { + "epoch": 0.38, + "grad_norm": 6.511448860168457, + "learning_rate": 3.8e-05, + "loss": 1.3439, + "step": 570 + }, + { + "epoch": 0.38666666666666666, + "grad_norm": 6.623229026794434, + "learning_rate": 3.866666666666667e-05, + "loss": 1.3507, + "step": 580 + }, + { + "epoch": 0.3933333333333333, + "grad_norm": 5.989928245544434, + "learning_rate": 3.933333333333333e-05, + "loss": 1.4002, + "step": 590 + }, + { + "epoch": 0.4, + "grad_norm": 8.325176239013672, + "learning_rate": 4e-05, + "loss": 1.4921, + "step": 600 + }, + { + "epoch": 0.4, + "eval_darija_finetune_val_loss": 1.3430975675582886, + "eval_darija_finetune_val_runtime": 259.1413, + "eval_darija_finetune_val_samples_per_second": 3.859, + "eval_darija_finetune_val_steps_per_second": 1.929, + "step": 600 + }, + { + "epoch": 0.4066666666666667, + "grad_norm": 8.644186019897461, + "learning_rate": 4.066666666666667e-05, + "loss": 1.3166, + "step": 610 + }, + { + "epoch": 0.41333333333333333, + "grad_norm": 9.546547889709473, + "learning_rate": 4.133333333333333e-05, + "loss": 1.3947, + "step": 620 + }, + { + "epoch": 0.42, + "grad_norm": 8.993462562561035, + "learning_rate": 4.2e-05, + "loss": 1.2798, + "step": 630 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 6.508462905883789, + "learning_rate": 4.266666666666667e-05, + "loss": 1.4571, + "step": 640 + }, + { + "epoch": 0.43333333333333335, + "grad_norm": 9.184686660766602, + "learning_rate": 4.3333333333333334e-05, + "loss": 1.289, + "step": 650 + }, + { + "epoch": 0.44, + "grad_norm": 9.6285982131958, + "learning_rate": 4.4000000000000006e-05, + "loss": 1.4032, + "step": 660 + }, + { + "epoch": 0.44666666666666666, + "grad_norm": 6.071969509124756, + "learning_rate": 4.466666666666667e-05, + "loss": 1.3622, + "step": 670 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 7.537683010101318, + "learning_rate": 4.5333333333333335e-05, + "loss": 1.2928, + "step": 680 + }, + { + "epoch": 0.46, + "grad_norm": 8.44057559967041, + "learning_rate": 4.600000000000001e-05, + "loss": 1.3812, + "step": 690 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 5.488239765167236, + "learning_rate": 4.666666666666667e-05, + "loss": 1.243, + "step": 700 + }, + { + "epoch": 0.4666666666666667, + "eval_darija_finetune_val_loss": 1.2602548599243164, + "eval_darija_finetune_val_runtime": 258.9013, + "eval_darija_finetune_val_samples_per_second": 3.862, + "eval_darija_finetune_val_steps_per_second": 1.931, + "step": 700 + }, + { + "epoch": 0.47333333333333333, + "grad_norm": 5.492846488952637, + "learning_rate": 4.7333333333333336e-05, + "loss": 1.3066, + "step": 710 + }, + { + "epoch": 0.48, + "grad_norm": 7.109413146972656, + "learning_rate": 4.8e-05, + "loss": 1.3606, + "step": 720 + }, + { + "epoch": 0.4866666666666667, + "grad_norm": 11.760592460632324, + "learning_rate": 4.866666666666667e-05, + "loss": 1.2446, + "step": 730 + }, + { + "epoch": 0.49333333333333335, + "grad_norm": 5.775155067443848, + "learning_rate": 4.933333333333334e-05, + "loss": 1.3106, + "step": 740 + }, + { + "epoch": 0.5, + "grad_norm": 6.971907138824463, + "learning_rate": 5e-05, + "loss": 1.2405, + "step": 750 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 6.336028575897217, + "learning_rate": 5.0666666666666674e-05, + "loss": 1.1877, + "step": 760 + }, + { + "epoch": 0.5133333333333333, + "grad_norm": 6.26092004776001, + "learning_rate": 5.133333333333333e-05, + "loss": 1.3293, + "step": 770 + }, + { + "epoch": 0.52, + "grad_norm": 8.0401611328125, + "learning_rate": 5.2000000000000004e-05, + "loss": 1.2247, + "step": 780 + }, + { + "epoch": 0.5266666666666666, + "grad_norm": 5.937560558319092, + "learning_rate": 5.266666666666666e-05, + "loss": 1.2488, + "step": 790 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 8.2327880859375, + "learning_rate": 5.333333333333333e-05, + "loss": 1.2985, + "step": 800 + }, + { + "epoch": 0.5333333333333333, + "eval_darija_finetune_val_loss": 1.2201435565948486, + "eval_darija_finetune_val_runtime": 258.95, + "eval_darija_finetune_val_samples_per_second": 3.862, + "eval_darija_finetune_val_steps_per_second": 1.931, + "step": 800 + }, + { + "epoch": 0.54, + "grad_norm": 5.258373260498047, + "learning_rate": 5.4000000000000005e-05, + "loss": 1.3941, + "step": 810 + }, + { + "epoch": 0.5466666666666666, + "grad_norm": 5.014212131500244, + "learning_rate": 5.466666666666666e-05, + "loss": 1.1966, + "step": 820 + }, + { + "epoch": 0.5533333333333333, + "grad_norm": 7.084598064422607, + "learning_rate": 5.5333333333333334e-05, + "loss": 1.2925, + "step": 830 + }, + { + "epoch": 0.56, + "grad_norm": 6.852593898773193, + "learning_rate": 5.6000000000000006e-05, + "loss": 1.2783, + "step": 840 + }, + { + "epoch": 0.5666666666666667, + "grad_norm": 9.167802810668945, + "learning_rate": 5.666666666666667e-05, + "loss": 1.3586, + "step": 850 + }, + { + "epoch": 0.5733333333333334, + "grad_norm": 6.771795272827148, + "learning_rate": 5.7333333333333336e-05, + "loss": 1.2028, + "step": 860 + }, + { + "epoch": 0.58, + "grad_norm": 7.078638553619385, + "learning_rate": 5.8e-05, + "loss": 1.1496, + "step": 870 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 6.127044200897217, + "learning_rate": 5.866666666666667e-05, + "loss": 1.0983, + "step": 880 + }, + { + "epoch": 0.5933333333333334, + "grad_norm": 7.207043647766113, + "learning_rate": 5.9333333333333343e-05, + "loss": 1.339, + "step": 890 + }, + { + "epoch": 0.6, + "grad_norm": 5.768194675445557, + "learning_rate": 6e-05, + "loss": 1.3276, + "step": 900 + }, + { + "epoch": 0.6, + "eval_darija_finetune_val_loss": 1.1807993650436401, + "eval_darija_finetune_val_runtime": 259.2335, + "eval_darija_finetune_val_samples_per_second": 3.858, + "eval_darija_finetune_val_steps_per_second": 1.929, + "step": 900 + }, + { + "epoch": 0.6066666666666667, + "grad_norm": 6.089323043823242, + "learning_rate": 6.066666666666667e-05, + "loss": 1.1471, + "step": 910 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 6.14169979095459, + "learning_rate": 6.133333333333334e-05, + "loss": 1.1858, + "step": 920 + }, + { + "epoch": 0.62, + "grad_norm": 4.7474365234375, + "learning_rate": 6.2e-05, + "loss": 1.1622, + "step": 930 + }, + { + "epoch": 0.6266666666666667, + "grad_norm": 5.398898601531982, + "learning_rate": 6.266666666666667e-05, + "loss": 1.2663, + "step": 940 + }, + { + "epoch": 0.6333333333333333, + "grad_norm": 6.233011722564697, + "learning_rate": 6.333333333333333e-05, + "loss": 1.1063, + "step": 950 + }, + { + "epoch": 0.64, + "grad_norm": 5.921813011169434, + "learning_rate": 6.400000000000001e-05, + "loss": 1.239, + "step": 960 + }, + { + "epoch": 0.6466666666666666, + "grad_norm": 5.844018459320068, + "learning_rate": 6.466666666666666e-05, + "loss": 1.3261, + "step": 970 + }, + { + "epoch": 0.6533333333333333, + "grad_norm": 6.646248817443848, + "learning_rate": 6.533333333333334e-05, + "loss": 1.1399, + "step": 980 + }, + { + "epoch": 0.66, + "grad_norm": 10.390483856201172, + "learning_rate": 6.6e-05, + "loss": 1.2144, + "step": 990 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 6.77034330368042, + "learning_rate": 6.666666666666667e-05, + "loss": 1.1979, + "step": 1000 + }, + { + "epoch": 0.6666666666666666, + "eval_darija_finetune_val_loss": 1.1465076208114624, + "eval_darija_finetune_val_runtime": 259.2431, + "eval_darija_finetune_val_samples_per_second": 3.857, + "eval_darija_finetune_val_steps_per_second": 1.929, + "step": 1000 + }, + { + "epoch": 0.6733333333333333, + "grad_norm": 9.357962608337402, + "learning_rate": 6.733333333333333e-05, + "loss": 1.1164, + "step": 1010 + }, + { + "epoch": 0.68, + "grad_norm": 5.477418899536133, + "learning_rate": 6.800000000000001e-05, + "loss": 1.2171, + "step": 1020 + }, + { + "epoch": 0.6866666666666666, + "grad_norm": 5.9419145584106445, + "learning_rate": 6.866666666666666e-05, + "loss": 1.3836, + "step": 1030 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 4.818275451660156, + "learning_rate": 6.933333333333334e-05, + "loss": 1.2752, + "step": 1040 + }, + { + "epoch": 0.7, + "grad_norm": 5.310876369476318, + "learning_rate": 7e-05, + "loss": 1.1561, + "step": 1050 + }, + { + "epoch": 0.7066666666666667, + "grad_norm": 4.976885795593262, + "learning_rate": 7.066666666666667e-05, + "loss": 1.2373, + "step": 1060 + }, + { + "epoch": 0.7133333333333334, + "grad_norm": 5.473275661468506, + "learning_rate": 7.133333333333334e-05, + "loss": 1.2689, + "step": 1070 + }, + { + "epoch": 0.72, + "grad_norm": 5.453042030334473, + "learning_rate": 7.2e-05, + "loss": 1.1333, + "step": 1080 + }, + { + "epoch": 0.7266666666666667, + "grad_norm": 6.581665992736816, + "learning_rate": 7.266666666666667e-05, + "loss": 1.1193, + "step": 1090 + }, + { + "epoch": 0.7333333333333333, + "grad_norm": 8.589400291442871, + "learning_rate": 7.333333333333333e-05, + "loss": 1.1191, + "step": 1100 + }, + { + "epoch": 0.7333333333333333, + "eval_darija_finetune_val_loss": 1.133346676826477, + "eval_darija_finetune_val_runtime": 259.2886, + "eval_darija_finetune_val_samples_per_second": 3.857, + "eval_darija_finetune_val_steps_per_second": 1.928, + "step": 1100 + }, + { + "epoch": 0.74, + "grad_norm": 5.026098251342773, + "learning_rate": 7.4e-05, + "loss": 1.1768, + "step": 1110 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 6.828497409820557, + "learning_rate": 7.466666666666667e-05, + "loss": 1.0822, + "step": 1120 + }, + { + "epoch": 0.7533333333333333, + "grad_norm": 4.4176506996154785, + "learning_rate": 7.533333333333334e-05, + "loss": 1.2606, + "step": 1130 + }, + { + "epoch": 0.76, + "grad_norm": 6.180331230163574, + "learning_rate": 7.6e-05, + "loss": 1.1316, + "step": 1140 + }, + { + "epoch": 0.7666666666666667, + "grad_norm": 6.467658519744873, + "learning_rate": 7.666666666666667e-05, + "loss": 1.2429, + "step": 1150 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 4.510275363922119, + "learning_rate": 7.733333333333333e-05, + "loss": 1.131, + "step": 1160 + }, + { + "epoch": 0.78, + "grad_norm": 3.7357161045074463, + "learning_rate": 7.800000000000001e-05, + "loss": 1.1921, + "step": 1170 + }, + { + "epoch": 0.7866666666666666, + "grad_norm": 4.776608467102051, + "learning_rate": 7.866666666666666e-05, + "loss": 0.9582, + "step": 1180 + }, + { + "epoch": 0.7933333333333333, + "grad_norm": 6.209722518920898, + "learning_rate": 7.933333333333334e-05, + "loss": 1.1675, + "step": 1190 + }, + { + "epoch": 0.8, + "grad_norm": 4.136676788330078, + "learning_rate": 8e-05, + "loss": 1.0882, + "step": 1200 + }, + { + "epoch": 0.8, + "eval_darija_finetune_val_loss": 1.0954782962799072, + "eval_darija_finetune_val_runtime": 258.8885, + "eval_darija_finetune_val_samples_per_second": 3.863, + "eval_darija_finetune_val_steps_per_second": 1.931, + "step": 1200 + }, + { + "epoch": 0.8066666666666666, + "grad_norm": 7.750375270843506, + "learning_rate": 8.066666666666667e-05, + "loss": 1.0362, + "step": 1210 + }, + { + "epoch": 0.8133333333333334, + "grad_norm": 5.690066337585449, + "learning_rate": 8.133333333333334e-05, + "loss": 1.2558, + "step": 1220 + }, + { + "epoch": 0.82, + "grad_norm": 4.080161094665527, + "learning_rate": 8.2e-05, + "loss": 1.0269, + "step": 1230 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 5.080862045288086, + "learning_rate": 8.266666666666667e-05, + "loss": 1.0815, + "step": 1240 + }, + { + "epoch": 0.8333333333333334, + "grad_norm": 5.219364166259766, + "learning_rate": 8.333333333333334e-05, + "loss": 1.0271, + "step": 1250 + }, + { + "epoch": 0.84, + "grad_norm": 5.2107110023498535, + "learning_rate": 8.4e-05, + "loss": 1.1255, + "step": 1260 + }, + { + "epoch": 0.8466666666666667, + "grad_norm": 4.656301975250244, + "learning_rate": 8.466666666666667e-05, + "loss": 1.1378, + "step": 1270 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 3.8970980644226074, + "learning_rate": 8.533333333333334e-05, + "loss": 1.206, + "step": 1280 + }, + { + "epoch": 0.86, + "grad_norm": 4.975044250488281, + "learning_rate": 8.6e-05, + "loss": 1.2404, + "step": 1290 + }, + { + "epoch": 0.8666666666666667, + "grad_norm": 4.831158638000488, + "learning_rate": 8.666666666666667e-05, + "loss": 1.1304, + "step": 1300 + }, + { + "epoch": 0.8666666666666667, + "eval_darija_finetune_val_loss": 1.0803910493850708, + "eval_darija_finetune_val_runtime": 259.5321, + "eval_darija_finetune_val_samples_per_second": 3.853, + "eval_darija_finetune_val_steps_per_second": 1.927, + "step": 1300 + }, + { + "epoch": 0.8733333333333333, + "grad_norm": 3.836491823196411, + "learning_rate": 8.733333333333333e-05, + "loss": 1.0492, + "step": 1310 + }, + { + "epoch": 0.88, + "grad_norm": 5.3841705322265625, + "learning_rate": 8.800000000000001e-05, + "loss": 1.1357, + "step": 1320 + }, + { + "epoch": 0.8866666666666667, + "grad_norm": 5.68634033203125, + "learning_rate": 8.866666666666668e-05, + "loss": 1.0632, + "step": 1330 + }, + { + "epoch": 0.8933333333333333, + "grad_norm": 5.754724502563477, + "learning_rate": 8.933333333333334e-05, + "loss": 1.065, + "step": 1340 + }, + { + "epoch": 0.9, + "grad_norm": 4.7973480224609375, + "learning_rate": 9e-05, + "loss": 1.1566, + "step": 1350 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 4.224844455718994, + "learning_rate": 9.066666666666667e-05, + "loss": 1.0261, + "step": 1360 + }, + { + "epoch": 0.9133333333333333, + "grad_norm": 5.006961822509766, + "learning_rate": 9.133333333333334e-05, + "loss": 1.2965, + "step": 1370 + }, + { + "epoch": 0.92, + "grad_norm": 4.8651123046875, + "learning_rate": 9.200000000000001e-05, + "loss": 0.9672, + "step": 1380 + }, + { + "epoch": 0.9266666666666666, + "grad_norm": 3.8528099060058594, + "learning_rate": 9.266666666666666e-05, + "loss": 1.0329, + "step": 1390 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 4.049446105957031, + "learning_rate": 9.333333333333334e-05, + "loss": 0.9623, + "step": 1400 + }, + { + "epoch": 0.9333333333333333, + "eval_darija_finetune_val_loss": 1.0612068176269531, + "eval_darija_finetune_val_runtime": 259.0329, + "eval_darija_finetune_val_samples_per_second": 3.861, + "eval_darija_finetune_val_steps_per_second": 1.93, + "step": 1400 + }, + { + "epoch": 0.94, + "grad_norm": 4.87253999710083, + "learning_rate": 9.4e-05, + "loss": 1.0968, + "step": 1410 + }, + { + "epoch": 0.9466666666666667, + "grad_norm": 3.6589772701263428, + "learning_rate": 9.466666666666667e-05, + "loss": 1.1834, + "step": 1420 + }, + { + "epoch": 0.9533333333333334, + "grad_norm": 4.781609535217285, + "learning_rate": 9.533333333333334e-05, + "loss": 1.064, + "step": 1430 + }, + { + "epoch": 0.96, + "grad_norm": 5.624181747436523, + "learning_rate": 9.6e-05, + "loss": 1.0991, + "step": 1440 + }, + { + "epoch": 0.9666666666666667, + "grad_norm": 5.692139625549316, + "learning_rate": 9.666666666666667e-05, + "loss": 1.0376, + "step": 1450 + }, + { + "epoch": 0.9733333333333334, + "grad_norm": 4.0106048583984375, + "learning_rate": 9.733333333333335e-05, + "loss": 1.0384, + "step": 1460 + }, + { + "epoch": 0.98, + "grad_norm": 3.4985623359680176, + "learning_rate": 9.8e-05, + "loss": 1.0802, + "step": 1470 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 4.427818775177002, + "learning_rate": 9.866666666666668e-05, + "loss": 0.9319, + "step": 1480 + }, + { + "epoch": 0.9933333333333333, + "grad_norm": 3.985886335372925, + "learning_rate": 9.933333333333334e-05, + "loss": 1.0911, + "step": 1490 + }, + { + "epoch": 1.0, + "grad_norm": 3.8536887168884277, + "learning_rate": 0.0001, + "loss": 1.0366, + "step": 1500 + }, + { + "epoch": 1.0, + "eval_darija_finetune_val_loss": 1.05183744430542, + "eval_darija_finetune_val_runtime": 258.8286, + "eval_darija_finetune_val_samples_per_second": 3.864, + "eval_darija_finetune_val_steps_per_second": 1.932, + "step": 1500 + }, + { + "epoch": 1.0066666666666666, + "grad_norm": 3.327362060546875, + "learning_rate": 9.999986461454119e-05, + "loss": 0.8964, + "step": 1510 + }, + { + "epoch": 1.0133333333333334, + "grad_norm": 3.686005115509033, + "learning_rate": 9.999945845889795e-05, + "loss": 0.8965, + "step": 1520 + }, + { + "epoch": 1.02, + "grad_norm": 3.866366386413574, + "learning_rate": 9.999878153526974e-05, + "loss": 0.9526, + "step": 1530 + }, + { + "epoch": 1.0266666666666666, + "grad_norm": 4.957576274871826, + "learning_rate": 9.999783384732242e-05, + "loss": 0.8125, + "step": 1540 + }, + { + "epoch": 1.0333333333333334, + "grad_norm": 3.748542070388794, + "learning_rate": 9.999661540018812e-05, + "loss": 1.0025, + "step": 1550 + }, + { + "epoch": 1.04, + "grad_norm": 3.2935030460357666, + "learning_rate": 9.999512620046522e-05, + "loss": 0.8528, + "step": 1560 + }, + { + "epoch": 1.0466666666666666, + "grad_norm": 4.921374797821045, + "learning_rate": 9.999336625621836e-05, + "loss": 0.8971, + "step": 1570 + }, + { + "epoch": 1.0533333333333332, + "grad_norm": 2.8826279640197754, + "learning_rate": 9.99913355769784e-05, + "loss": 0.8185, + "step": 1580 + }, + { + "epoch": 1.06, + "grad_norm": 4.904135704040527, + "learning_rate": 9.998903417374228e-05, + "loss": 0.9625, + "step": 1590 + }, + { + "epoch": 1.0666666666666667, + "grad_norm": 4.164255142211914, + "learning_rate": 9.998646205897309e-05, + "loss": 0.8787, + "step": 1600 + }, + { + "epoch": 1.0666666666666667, + "eval_darija_finetune_val_loss": 1.0364619493484497, + "eval_darija_finetune_val_runtime": 259.0043, + "eval_darija_finetune_val_samples_per_second": 3.861, + "eval_darija_finetune_val_steps_per_second": 1.93, + "step": 1600 + }, + { + "epoch": 1.0733333333333333, + "grad_norm": 2.7881083488464355, + "learning_rate": 9.998361924659989e-05, + "loss": 0.8395, + "step": 1610 + }, + { + "epoch": 1.08, + "grad_norm": 4.431478977203369, + "learning_rate": 9.998050575201771e-05, + "loss": 0.8508, + "step": 1620 + }, + { + "epoch": 1.0866666666666667, + "grad_norm": 4.286707401275635, + "learning_rate": 9.997712159208744e-05, + "loss": 0.9273, + "step": 1630 + }, + { + "epoch": 1.0933333333333333, + "grad_norm": 5.6943840980529785, + "learning_rate": 9.997346678513569e-05, + "loss": 0.9695, + "step": 1640 + }, + { + "epoch": 1.1, + "grad_norm": 3.4620420932769775, + "learning_rate": 9.99695413509548e-05, + "loss": 0.9449, + "step": 1650 + }, + { + "epoch": 1.1066666666666667, + "grad_norm": 3.823575019836426, + "learning_rate": 9.99653453108026e-05, + "loss": 0.8977, + "step": 1660 + }, + { + "epoch": 1.1133333333333333, + "grad_norm": 4.5904340744018555, + "learning_rate": 9.996087868740243e-05, + "loss": 0.8862, + "step": 1670 + }, + { + "epoch": 1.12, + "grad_norm": 6.0423970222473145, + "learning_rate": 9.995614150494293e-05, + "loss": 0.9044, + "step": 1680 + }, + { + "epoch": 1.1266666666666667, + "grad_norm": 3.3115224838256836, + "learning_rate": 9.99511337890779e-05, + "loss": 0.8611, + "step": 1690 + }, + { + "epoch": 1.1333333333333333, + "grad_norm": 3.935145854949951, + "learning_rate": 9.994585556692624e-05, + "loss": 0.9772, + "step": 1700 + }, + { + "epoch": 1.1333333333333333, + "eval_darija_finetune_val_loss": 1.0233445167541504, + "eval_darija_finetune_val_runtime": 259.1265, + "eval_darija_finetune_val_samples_per_second": 3.859, + "eval_darija_finetune_val_steps_per_second": 1.93, + "step": 1700 + }, + { + "epoch": 1.1400000000000001, + "grad_norm": 3.3334031105041504, + "learning_rate": 9.99403068670717e-05, + "loss": 0.935, + "step": 1710 + }, + { + "epoch": 1.1466666666666667, + "grad_norm": 4.460405349731445, + "learning_rate": 9.993448771956285e-05, + "loss": 0.8667, + "step": 1720 + }, + { + "epoch": 1.1533333333333333, + "grad_norm": 6.378842830657959, + "learning_rate": 9.992839815591279e-05, + "loss": 0.8861, + "step": 1730 + }, + { + "epoch": 1.16, + "grad_norm": 3.207803964614868, + "learning_rate": 9.992203820909906e-05, + "loss": 0.9196, + "step": 1740 + }, + { + "epoch": 1.1666666666666667, + "grad_norm": 4.251574516296387, + "learning_rate": 9.991540791356342e-05, + "loss": 0.8097, + "step": 1750 + }, + { + "epoch": 1.1733333333333333, + "grad_norm": 3.199049711227417, + "learning_rate": 9.99085073052117e-05, + "loss": 0.9023, + "step": 1760 + }, + { + "epoch": 1.18, + "grad_norm": 3.3237078189849854, + "learning_rate": 9.990133642141359e-05, + "loss": 0.8672, + "step": 1770 + }, + { + "epoch": 1.1866666666666668, + "grad_norm": 3.5124893188476562, + "learning_rate": 9.98938953010024e-05, + "loss": 0.9629, + "step": 1780 + }, + { + "epoch": 1.1933333333333334, + "grad_norm": 3.1842286586761475, + "learning_rate": 9.988618398427494e-05, + "loss": 0.9146, + "step": 1790 + }, + { + "epoch": 1.2, + "grad_norm": 3.5502548217773438, + "learning_rate": 9.987820251299122e-05, + "loss": 0.9352, + "step": 1800 + }, + { + "epoch": 1.2, + "eval_darija_finetune_val_loss": 0.9981254935264587, + "eval_darija_finetune_val_runtime": 258.7949, + "eval_darija_finetune_val_samples_per_second": 3.864, + "eval_darija_finetune_val_steps_per_second": 1.932, + "step": 1800 + }, + { + "epoch": 1.2066666666666666, + "grad_norm": 3.950125217437744, + "learning_rate": 9.986995093037421e-05, + "loss": 0.8471, + "step": 1810 + }, + { + "epoch": 1.2133333333333334, + "grad_norm": 3.5318825244903564, + "learning_rate": 9.986142928110972e-05, + "loss": 0.9174, + "step": 1820 + }, + { + "epoch": 1.22, + "grad_norm": 3.1006879806518555, + "learning_rate": 9.985263761134602e-05, + "loss": 0.805, + "step": 1830 + }, + { + "epoch": 1.2266666666666666, + "grad_norm": 3.6878063678741455, + "learning_rate": 9.984357596869369e-05, + "loss": 0.8373, + "step": 1840 + }, + { + "epoch": 1.2333333333333334, + "grad_norm": 3.5402398109436035, + "learning_rate": 9.983424440222531e-05, + "loss": 0.8438, + "step": 1850 + }, + { + "epoch": 1.24, + "grad_norm": 3.293128728866577, + "learning_rate": 9.982464296247522e-05, + "loss": 1.0276, + "step": 1860 + }, + { + "epoch": 1.2466666666666666, + "grad_norm": 3.384575128555298, + "learning_rate": 9.981477170143924e-05, + "loss": 0.7586, + "step": 1870 + }, + { + "epoch": 1.2533333333333334, + "grad_norm": 2.7154510021209717, + "learning_rate": 9.980463067257437e-05, + "loss": 0.8045, + "step": 1880 + }, + { + "epoch": 1.26, + "grad_norm": 2.7543041706085205, + "learning_rate": 9.979421993079852e-05, + "loss": 0.8943, + "step": 1890 + }, + { + "epoch": 1.2666666666666666, + "grad_norm": 3.615957260131836, + "learning_rate": 9.978353953249022e-05, + "loss": 0.9449, + "step": 1900 + }, + { + "epoch": 1.2666666666666666, + "eval_darija_finetune_val_loss": 0.9809772968292236, + "eval_darija_finetune_val_runtime": 258.9949, + "eval_darija_finetune_val_samples_per_second": 3.861, + "eval_darija_finetune_val_steps_per_second": 1.931, + "step": 1900 + }, + { + "epoch": 1.2733333333333334, + "grad_norm": 4.428312301635742, + "learning_rate": 9.97725895354883e-05, + "loss": 0.8312, + "step": 1910 + }, + { + "epoch": 1.28, + "grad_norm": 2.737647533416748, + "learning_rate": 9.976136999909156e-05, + "loss": 0.8882, + "step": 1920 + }, + { + "epoch": 1.2866666666666666, + "grad_norm": 4.788559913635254, + "learning_rate": 9.97498809840585e-05, + "loss": 0.8784, + "step": 1930 + }, + { + "epoch": 1.2933333333333334, + "grad_norm": 3.592212677001953, + "learning_rate": 9.973812255260692e-05, + "loss": 1.0357, + "step": 1940 + }, + { + "epoch": 1.3, + "grad_norm": 2.963557243347168, + "learning_rate": 9.972609476841367e-05, + "loss": 0.9247, + "step": 1950 + }, + { + "epoch": 1.3066666666666666, + "grad_norm": 3.2090208530426025, + "learning_rate": 9.971379769661422e-05, + "loss": 0.7941, + "step": 1960 + }, + { + "epoch": 1.3133333333333335, + "grad_norm": 3.1923487186431885, + "learning_rate": 9.970123140380237e-05, + "loss": 0.9573, + "step": 1970 + }, + { + "epoch": 1.32, + "grad_norm": 2.6261425018310547, + "learning_rate": 9.968839595802982e-05, + "loss": 0.8315, + "step": 1980 + }, + { + "epoch": 1.3266666666666667, + "grad_norm": 2.566281795501709, + "learning_rate": 9.967529142880592e-05, + "loss": 0.827, + "step": 1990 + }, + { + "epoch": 1.3333333333333333, + "grad_norm": 2.810993194580078, + "learning_rate": 9.966191788709716e-05, + "loss": 0.8148, + "step": 2000 + }, + { + "epoch": 1.3333333333333333, + "eval_darija_finetune_val_loss": 0.9717869758605957, + "eval_darija_finetune_val_runtime": 259.1578, + "eval_darija_finetune_val_samples_per_second": 3.859, + "eval_darija_finetune_val_steps_per_second": 1.929, + "step": 2000 + }, + { + "epoch": 1.34, + "grad_norm": 2.7384212017059326, + "learning_rate": 9.964827540532685e-05, + "loss": 0.7923, + "step": 2010 + }, + { + "epoch": 1.3466666666666667, + "grad_norm": 3.941181182861328, + "learning_rate": 9.963436405737476e-05, + "loss": 0.7904, + "step": 2020 + }, + { + "epoch": 1.3533333333333333, + "grad_norm": 2.8124356269836426, + "learning_rate": 9.962018391857664e-05, + "loss": 0.8274, + "step": 2030 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 4.009180545806885, + "learning_rate": 9.96057350657239e-05, + "loss": 0.9386, + "step": 2040 + }, + { + "epoch": 1.3666666666666667, + "grad_norm": 2.7180652618408203, + "learning_rate": 9.959101757706308e-05, + "loss": 0.8913, + "step": 2050 + }, + { + "epoch": 1.3733333333333333, + "grad_norm": 2.7752609252929688, + "learning_rate": 9.957603153229558e-05, + "loss": 0.8082, + "step": 2060 + }, + { + "epoch": 1.38, + "grad_norm": 4.5498528480529785, + "learning_rate": 9.956077701257709e-05, + "loss": 0.7213, + "step": 2070 + }, + { + "epoch": 1.3866666666666667, + "grad_norm": 2.907214641571045, + "learning_rate": 9.954525410051721e-05, + "loss": 0.9101, + "step": 2080 + }, + { + "epoch": 1.3933333333333333, + "grad_norm": 3.367126941680908, + "learning_rate": 9.952946288017899e-05, + "loss": 0.8171, + "step": 2090 + }, + { + "epoch": 1.4, + "grad_norm": 3.0436556339263916, + "learning_rate": 9.951340343707852e-05, + "loss": 0.8153, + "step": 2100 + }, + { + "epoch": 1.4, + "eval_darija_finetune_val_loss": 0.960893988609314, + "eval_darija_finetune_val_runtime": 259.0224, + "eval_darija_finetune_val_samples_per_second": 3.861, + "eval_darija_finetune_val_steps_per_second": 1.93, + "step": 2100 + }, + { + "epoch": 1.4066666666666667, + "grad_norm": 2.9489970207214355, + "learning_rate": 9.94970758581844e-05, + "loss": 0.7715, + "step": 2110 + }, + { + "epoch": 1.4133333333333333, + "grad_norm": 2.5550808906555176, + "learning_rate": 9.948048023191728e-05, + "loss": 0.8775, + "step": 2120 + }, + { + "epoch": 1.42, + "grad_norm": 3.4954917430877686, + "learning_rate": 9.946361664814943e-05, + "loss": 0.8539, + "step": 2130 + }, + { + "epoch": 1.4266666666666667, + "grad_norm": 4.503929138183594, + "learning_rate": 9.944648519820422e-05, + "loss": 0.8709, + "step": 2140 + }, + { + "epoch": 1.4333333333333333, + "grad_norm": 4.3710479736328125, + "learning_rate": 9.942908597485558e-05, + "loss": 0.8765, + "step": 2150 + }, + { + "epoch": 1.44, + "grad_norm": 3.5678603649139404, + "learning_rate": 9.941141907232765e-05, + "loss": 0.8702, + "step": 2160 + }, + { + "epoch": 1.4466666666666668, + "grad_norm": 3.2361159324645996, + "learning_rate": 9.939348458629405e-05, + "loss": 0.8741, + "step": 2170 + }, + { + "epoch": 1.4533333333333334, + "grad_norm": 3.4972195625305176, + "learning_rate": 9.937528261387753e-05, + "loss": 0.8929, + "step": 2180 + }, + { + "epoch": 1.46, + "grad_norm": 2.8612303733825684, + "learning_rate": 9.93568132536494e-05, + "loss": 0.8716, + "step": 2190 + }, + { + "epoch": 1.4666666666666668, + "grad_norm": 3.2444815635681152, + "learning_rate": 9.933807660562898e-05, + "loss": 0.6803, + "step": 2200 + }, + { + "epoch": 1.4666666666666668, + "eval_darija_finetune_val_loss": 0.9617334008216858, + "eval_darija_finetune_val_runtime": 259.1221, + "eval_darija_finetune_val_samples_per_second": 3.859, + "eval_darija_finetune_val_steps_per_second": 1.93, + "step": 2200 + }, + { + "epoch": 1.4733333333333334, + "grad_norm": 3.6423659324645996, + "learning_rate": 9.931907277128301e-05, + "loss": 0.7591, + "step": 2210 + }, + { + "epoch": 1.48, + "grad_norm": 3.4169416427612305, + "learning_rate": 9.929980185352526e-05, + "loss": 0.8121, + "step": 2220 + }, + { + "epoch": 1.4866666666666668, + "grad_norm": 2.2793283462524414, + "learning_rate": 9.928026395671576e-05, + "loss": 0.7752, + "step": 2230 + }, + { + "epoch": 1.4933333333333334, + "grad_norm": 3.516124963760376, + "learning_rate": 9.926045918666045e-05, + "loss": 0.8669, + "step": 2240 + }, + { + "epoch": 1.5, + "grad_norm": 3.3869433403015137, + "learning_rate": 9.924038765061042e-05, + "loss": 0.908, + "step": 2250 + }, + { + "epoch": 1.5066666666666668, + "grad_norm": 3.552075147628784, + "learning_rate": 9.92200494572614e-05, + "loss": 0.842, + "step": 2260 + }, + { + "epoch": 1.5133333333333332, + "grad_norm": 3.3384084701538086, + "learning_rate": 9.919944471675327e-05, + "loss": 0.7877, + "step": 2270 + }, + { + "epoch": 1.52, + "grad_norm": 3.442007303237915, + "learning_rate": 9.917857354066931e-05, + "loss": 0.7911, + "step": 2280 + }, + { + "epoch": 1.5266666666666666, + "grad_norm": 3.3709042072296143, + "learning_rate": 9.915743604203564e-05, + "loss": 0.8157, + "step": 2290 + }, + { + "epoch": 1.5333333333333332, + "grad_norm": 3.0790200233459473, + "learning_rate": 9.913603233532067e-05, + "loss": 0.9279, + "step": 2300 + }, + { + "epoch": 1.5333333333333332, + "eval_darija_finetune_val_loss": 0.9303565621376038, + "eval_darija_finetune_val_runtime": 259.2687, + "eval_darija_finetune_val_samples_per_second": 3.857, + "eval_darija_finetune_val_steps_per_second": 1.929, + "step": 2300 + }, + { + "epoch": 1.54, + "grad_norm": 2.64736008644104, + "learning_rate": 9.911436253643445e-05, + "loss": 0.8655, + "step": 2310 + }, + { + "epoch": 1.5466666666666666, + "grad_norm": 2.6643307209014893, + "learning_rate": 9.909242676272796e-05, + "loss": 0.9828, + "step": 2320 + }, + { + "epoch": 1.5533333333333332, + "grad_norm": 2.7409019470214844, + "learning_rate": 9.907022513299265e-05, + "loss": 0.8038, + "step": 2330 + }, + { + "epoch": 1.56, + "grad_norm": 2.5893805027008057, + "learning_rate": 9.904775776745958e-05, + "loss": 0.802, + "step": 2340 + }, + { + "epoch": 1.5666666666666667, + "grad_norm": 4.016374588012695, + "learning_rate": 9.902502478779896e-05, + "loss": 0.762, + "step": 2350 + }, + { + "epoch": 1.5733333333333333, + "grad_norm": 3.1738717555999756, + "learning_rate": 9.90020263171194e-05, + "loss": 0.8591, + "step": 2360 + }, + { + "epoch": 1.58, + "grad_norm": 3.1321322917938232, + "learning_rate": 9.89787624799672e-05, + "loss": 0.905, + "step": 2370 + }, + { + "epoch": 1.5866666666666667, + "grad_norm": 3.0032734870910645, + "learning_rate": 9.89552334023258e-05, + "loss": 0.8551, + "step": 2380 + }, + { + "epoch": 1.5933333333333333, + "grad_norm": 3.1861000061035156, + "learning_rate": 9.893143921161501e-05, + "loss": 0.8005, + "step": 2390 + }, + { + "epoch": 1.6, + "grad_norm": 4.1898298263549805, + "learning_rate": 9.890738003669029e-05, + "loss": 0.7665, + "step": 2400 + }, + { + "epoch": 1.6, + "eval_darija_finetune_val_loss": 0.9258391857147217, + "eval_darija_finetune_val_runtime": 259.3121, + "eval_darija_finetune_val_samples_per_second": 3.856, + "eval_darija_finetune_val_steps_per_second": 1.928, + "step": 2400 + }, + { + "epoch": 1.6066666666666667, + "grad_norm": 4.970395565032959, + "learning_rate": 9.888305600784216e-05, + "loss": 0.8582, + "step": 2410 + }, + { + "epoch": 1.6133333333333333, + "grad_norm": 2.877307415008545, + "learning_rate": 9.88584672567954e-05, + "loss": 0.6879, + "step": 2420 + }, + { + "epoch": 1.62, + "grad_norm": 3.475067138671875, + "learning_rate": 9.88336139167084e-05, + "loss": 0.8817, + "step": 2430 + }, + { + "epoch": 1.6266666666666667, + "grad_norm": 3.0083086490631104, + "learning_rate": 9.880849612217238e-05, + "loss": 0.8289, + "step": 2440 + }, + { + "epoch": 1.6333333333333333, + "grad_norm": 3.1783089637756348, + "learning_rate": 9.878311400921072e-05, + "loss": 0.7242, + "step": 2450 + }, + { + "epoch": 1.6400000000000001, + "grad_norm": 3.38813853263855, + "learning_rate": 9.875746771527816e-05, + "loss": 0.8258, + "step": 2460 + }, + { + "epoch": 1.6466666666666665, + "grad_norm": 2.982194423675537, + "learning_rate": 9.873155737926014e-05, + "loss": 0.8143, + "step": 2470 + }, + { + "epoch": 1.6533333333333333, + "grad_norm": 3.2365424633026123, + "learning_rate": 9.870538314147193e-05, + "loss": 0.8852, + "step": 2480 + }, + { + "epoch": 1.6600000000000001, + "grad_norm": 3.057668447494507, + "learning_rate": 9.867894514365802e-05, + "loss": 0.861, + "step": 2490 + }, + { + "epoch": 1.6666666666666665, + "grad_norm": 3.9007954597473145, + "learning_rate": 9.865224352899119e-05, + "loss": 0.7791, + "step": 2500 + }, + { + "epoch": 1.6666666666666665, + "eval_darija_finetune_val_loss": 0.9088011384010315, + "eval_darija_finetune_val_runtime": 258.9658, + "eval_darija_finetune_val_samples_per_second": 3.862, + "eval_darija_finetune_val_steps_per_second": 1.931, + "step": 2500 + }, + { + "epoch": 1.6733333333333333, + "grad_norm": 4.700470924377441, + "learning_rate": 9.862527844207189e-05, + "loss": 0.7518, + "step": 2510 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 3.265174627304077, + "learning_rate": 9.859805002892732e-05, + "loss": 0.8362, + "step": 2520 + }, + { + "epoch": 1.6866666666666665, + "grad_norm": 3.8933801651000977, + "learning_rate": 9.857055843701073e-05, + "loss": 0.8017, + "step": 2530 + }, + { + "epoch": 1.6933333333333334, + "grad_norm": 3.0484282970428467, + "learning_rate": 9.85428038152006e-05, + "loss": 0.8274, + "step": 2540 + }, + { + "epoch": 1.7, + "grad_norm": 3.7863783836364746, + "learning_rate": 9.851478631379982e-05, + "loss": 0.8106, + "step": 2550 + }, + { + "epoch": 1.7066666666666666, + "grad_norm": 3.20194935798645, + "learning_rate": 9.84865060845349e-05, + "loss": 0.8743, + "step": 2560 + }, + { + "epoch": 1.7133333333333334, + "grad_norm": 2.3237102031707764, + "learning_rate": 9.845796328055505e-05, + "loss": 0.8526, + "step": 2570 + }, + { + "epoch": 1.72, + "grad_norm": 3.3712496757507324, + "learning_rate": 9.842915805643155e-05, + "loss": 0.8445, + "step": 2580 + }, + { + "epoch": 1.7266666666666666, + "grad_norm": 3.5435147285461426, + "learning_rate": 9.840009056815673e-05, + "loss": 0.7833, + "step": 2590 + }, + { + "epoch": 1.7333333333333334, + "grad_norm": 2.165213108062744, + "learning_rate": 9.837076097314319e-05, + "loss": 0.8185, + "step": 2600 + }, + { + "epoch": 1.7333333333333334, + "eval_darija_finetune_val_loss": 0.9130555391311646, + "eval_darija_finetune_val_runtime": 259.2206, + "eval_darija_finetune_val_samples_per_second": 3.858, + "eval_darija_finetune_val_steps_per_second": 1.929, + "step": 2600 + }, + { + "epoch": 1.74, + "grad_norm": 4.111995220184326, + "learning_rate": 9.834116943022298e-05, + "loss": 0.7513, + "step": 2610 + }, + { + "epoch": 1.7466666666666666, + "grad_norm": 3.4534389972686768, + "learning_rate": 9.831131609964665e-05, + "loss": 0.7641, + "step": 2620 + }, + { + "epoch": 1.7533333333333334, + "grad_norm": 3.720684051513672, + "learning_rate": 9.828120114308249e-05, + "loss": 0.7523, + "step": 2630 + }, + { + "epoch": 1.76, + "grad_norm": 3.11759877204895, + "learning_rate": 9.825082472361557e-05, + "loss": 0.8522, + "step": 2640 + }, + { + "epoch": 1.7666666666666666, + "grad_norm": 3.5697948932647705, + "learning_rate": 9.822018700574695e-05, + "loss": 0.8416, + "step": 2650 + }, + { + "epoch": 1.7733333333333334, + "grad_norm": 3.2978744506835938, + "learning_rate": 9.818928815539266e-05, + "loss": 0.7737, + "step": 2660 + }, + { + "epoch": 1.78, + "grad_norm": 2.9185791015625, + "learning_rate": 9.815812833988291e-05, + "loss": 0.7921, + "step": 2670 + }, + { + "epoch": 1.7866666666666666, + "grad_norm": 2.754081964492798, + "learning_rate": 9.812670772796113e-05, + "loss": 0.8106, + "step": 2680 + }, + { + "epoch": 1.7933333333333334, + "grad_norm": 3.0147602558135986, + "learning_rate": 9.80950264897831e-05, + "loss": 0.6842, + "step": 2690 + }, + { + "epoch": 1.8, + "grad_norm": 3.6710753440856934, + "learning_rate": 9.806308479691595e-05, + "loss": 0.9451, + "step": 2700 + }, + { + "epoch": 1.8, + "eval_darija_finetune_val_loss": 0.897102952003479, + "eval_darija_finetune_val_runtime": 258.7621, + "eval_darija_finetune_val_samples_per_second": 3.865, + "eval_darija_finetune_val_steps_per_second": 1.932, + "step": 2700 + }, + { + "epoch": 1.8066666666666666, + "grad_norm": 3.5396676063537598, + "learning_rate": 9.803088282233732e-05, + "loss": 0.8039, + "step": 2710 + }, + { + "epoch": 1.8133333333333335, + "grad_norm": 2.907780647277832, + "learning_rate": 9.799842074043439e-05, + "loss": 0.7939, + "step": 2720 + }, + { + "epoch": 1.8199999999999998, + "grad_norm": 2.928069591522217, + "learning_rate": 9.796569872700288e-05, + "loss": 0.8399, + "step": 2730 + }, + { + "epoch": 1.8266666666666667, + "grad_norm": 2.8561289310455322, + "learning_rate": 9.793271695924621e-05, + "loss": 0.7776, + "step": 2740 + }, + { + "epoch": 1.8333333333333335, + "grad_norm": 3.380655527114868, + "learning_rate": 9.789947561577445e-05, + "loss": 0.7011, + "step": 2750 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 3.6421566009521484, + "learning_rate": 9.786597487660337e-05, + "loss": 0.7719, + "step": 2760 + }, + { + "epoch": 1.8466666666666667, + "grad_norm": 4.199822425842285, + "learning_rate": 9.783221492315349e-05, + "loss": 0.8528, + "step": 2770 + }, + { + "epoch": 1.8533333333333335, + "grad_norm": 3.8535680770874023, + "learning_rate": 9.779819593824908e-05, + "loss": 0.8523, + "step": 2780 + }, + { + "epoch": 1.8599999999999999, + "grad_norm": 2.4134390354156494, + "learning_rate": 9.776391810611718e-05, + "loss": 0.759, + "step": 2790 + }, + { + "epoch": 1.8666666666666667, + "grad_norm": 3.8791043758392334, + "learning_rate": 9.77293816123866e-05, + "loss": 0.8792, + "step": 2800 + }, + { + "epoch": 1.8666666666666667, + "eval_darija_finetune_val_loss": 0.8713967204093933, + "eval_darija_finetune_val_runtime": 259.0133, + "eval_darija_finetune_val_samples_per_second": 3.861, + "eval_darija_finetune_val_steps_per_second": 1.93, + "step": 2800 + }, + { + "epoch": 1.8733333333333333, + "grad_norm": 3.181145668029785, + "learning_rate": 9.769458664408688e-05, + "loss": 0.8269, + "step": 2810 + }, + { + "epoch": 1.88, + "grad_norm": 2.218883752822876, + "learning_rate": 9.765953338964735e-05, + "loss": 0.7744, + "step": 2820 + }, + { + "epoch": 1.8866666666666667, + "grad_norm": 2.839035987854004, + "learning_rate": 9.762422203889604e-05, + "loss": 0.8303, + "step": 2830 + }, + { + "epoch": 1.8933333333333333, + "grad_norm": 3.600214958190918, + "learning_rate": 9.758865278305869e-05, + "loss": 0.7508, + "step": 2840 + }, + { + "epoch": 1.9, + "grad_norm": 3.6240673065185547, + "learning_rate": 9.755282581475769e-05, + "loss": 0.8494, + "step": 2850 + }, + { + "epoch": 1.9066666666666667, + "grad_norm": 2.885326862335205, + "learning_rate": 9.751674132801107e-05, + "loss": 0.7427, + "step": 2860 + }, + { + "epoch": 1.9133333333333333, + "grad_norm": 4.163845062255859, + "learning_rate": 9.74803995182314e-05, + "loss": 0.8282, + "step": 2870 + }, + { + "epoch": 1.92, + "grad_norm": 5.7469635009765625, + "learning_rate": 9.744380058222483e-05, + "loss": 0.9194, + "step": 2880 + }, + { + "epoch": 1.9266666666666667, + "grad_norm": 3.1125876903533936, + "learning_rate": 9.740694471818988e-05, + "loss": 0.7829, + "step": 2890 + }, + { + "epoch": 1.9333333333333333, + "grad_norm": 4.915224552154541, + "learning_rate": 9.736983212571646e-05, + "loss": 0.7434, + "step": 2900 + }, + { + "epoch": 1.9333333333333333, + "eval_darija_finetune_val_loss": 0.8751777410507202, + "eval_darija_finetune_val_runtime": 258.6409, + "eval_darija_finetune_val_samples_per_second": 3.866, + "eval_darija_finetune_val_steps_per_second": 1.933, + "step": 2900 + }, + { + "epoch": 1.94, + "grad_norm": 2.8097968101501465, + "learning_rate": 9.733246300578483e-05, + "loss": 0.879, + "step": 2910 + }, + { + "epoch": 1.9466666666666668, + "grad_norm": 3.9113807678222656, + "learning_rate": 9.729483756076435e-05, + "loss": 0.797, + "step": 2920 + }, + { + "epoch": 1.9533333333333334, + "grad_norm": 3.2525947093963623, + "learning_rate": 9.725695599441258e-05, + "loss": 0.7819, + "step": 2930 + }, + { + "epoch": 1.96, + "grad_norm": 1.8628346920013428, + "learning_rate": 9.721881851187406e-05, + "loss": 0.8352, + "step": 2940 + }, + { + "epoch": 1.9666666666666668, + "grad_norm": 3.213836669921875, + "learning_rate": 9.718042531967918e-05, + "loss": 0.7687, + "step": 2950 + }, + { + "epoch": 1.9733333333333334, + "grad_norm": 4.873043537139893, + "learning_rate": 9.714177662574316e-05, + "loss": 0.8942, + "step": 2960 + }, + { + "epoch": 1.98, + "grad_norm": 2.820124626159668, + "learning_rate": 9.710287263936484e-05, + "loss": 0.7091, + "step": 2970 + }, + { + "epoch": 1.9866666666666668, + "grad_norm": 4.061056137084961, + "learning_rate": 9.706371357122559e-05, + "loss": 0.7501, + "step": 2980 + }, + { + "epoch": 1.9933333333333332, + "grad_norm": 3.3817555904388428, + "learning_rate": 9.702429963338813e-05, + "loss": 0.8478, + "step": 2990 + }, + { + "epoch": 2.0, + "grad_norm": 2.533857822418213, + "learning_rate": 9.698463103929542e-05, + "loss": 0.858, + "step": 3000 + }, + { + "epoch": 2.0, + "eval_darija_finetune_val_loss": 0.8658854961395264, + "eval_darija_finetune_val_runtime": 258.7364, + "eval_darija_finetune_val_samples_per_second": 3.865, + "eval_darija_finetune_val_steps_per_second": 1.932, + "step": 3000 + }, + { + "epoch": 2.006666666666667, + "grad_norm": 3.462456464767456, + "learning_rate": 9.694470800376952e-05, + "loss": 0.4433, + "step": 3010 + }, + { + "epoch": 2.013333333333333, + "grad_norm": 2.477503776550293, + "learning_rate": 9.690453074301035e-05, + "loss": 0.4594, + "step": 3020 + }, + { + "epoch": 2.02, + "grad_norm": 2.2593841552734375, + "learning_rate": 9.686409947459458e-05, + "loss": 0.4173, + "step": 3030 + }, + { + "epoch": 2.026666666666667, + "grad_norm": 3.446082830429077, + "learning_rate": 9.682341441747446e-05, + "loss": 0.4026, + "step": 3040 + }, + { + "epoch": 2.033333333333333, + "grad_norm": 2.698472738265991, + "learning_rate": 9.678247579197657e-05, + "loss": 0.413, + "step": 3050 + }, + { + "epoch": 2.04, + "grad_norm": 4.878231048583984, + "learning_rate": 9.674128381980072e-05, + "loss": 0.4848, + "step": 3060 + }, + { + "epoch": 2.046666666666667, + "grad_norm": 3.500419855117798, + "learning_rate": 9.669983872401867e-05, + "loss": 0.4403, + "step": 3070 + }, + { + "epoch": 2.0533333333333332, + "grad_norm": 3.9468274116516113, + "learning_rate": 9.665814072907293e-05, + "loss": 0.4356, + "step": 3080 + }, + { + "epoch": 2.06, + "grad_norm": 3.612614631652832, + "learning_rate": 9.661619006077561e-05, + "loss": 0.4541, + "step": 3090 + }, + { + "epoch": 2.066666666666667, + "grad_norm": 2.7881417274475098, + "learning_rate": 9.657398694630712e-05, + "loss": 0.436, + "step": 3100 + }, + { + "epoch": 2.066666666666667, + "eval_darija_finetune_val_loss": 0.9355879426002502, + "eval_darija_finetune_val_runtime": 258.7381, + "eval_darija_finetune_val_samples_per_second": 3.865, + "eval_darija_finetune_val_steps_per_second": 1.932, + "step": 3100 + }, + { + "epoch": 2.0733333333333333, + "grad_norm": 2.5073893070220947, + "learning_rate": 9.653153161421497e-05, + "loss": 0.4025, + "step": 3110 + }, + { + "epoch": 2.08, + "grad_norm": 2.9307687282562256, + "learning_rate": 9.648882429441257e-05, + "loss": 0.4659, + "step": 3120 + }, + { + "epoch": 2.086666666666667, + "grad_norm": 3.455474376678467, + "learning_rate": 9.644586521817791e-05, + "loss": 0.3019, + "step": 3130 + }, + { + "epoch": 2.0933333333333333, + "grad_norm": 4.271946907043457, + "learning_rate": 9.640265461815234e-05, + "loss": 0.5062, + "step": 3140 + }, + { + "epoch": 2.1, + "grad_norm": 3.2588741779327393, + "learning_rate": 9.635919272833938e-05, + "loss": 0.4803, + "step": 3150 + }, + { + "epoch": 2.1066666666666665, + "grad_norm": 2.1197714805603027, + "learning_rate": 9.63154797841033e-05, + "loss": 0.4529, + "step": 3160 + }, + { + "epoch": 2.1133333333333333, + "grad_norm": 4.36895751953125, + "learning_rate": 9.6271516022168e-05, + "loss": 0.4684, + "step": 3170 + }, + { + "epoch": 2.12, + "grad_norm": 3.7385189533233643, + "learning_rate": 9.622730168061567e-05, + "loss": 0.4205, + "step": 3180 + }, + { + "epoch": 2.1266666666666665, + "grad_norm": 2.6625452041625977, + "learning_rate": 9.618283699888541e-05, + "loss": 0.5048, + "step": 3190 + }, + { + "epoch": 2.1333333333333333, + "grad_norm": 2.3059322834014893, + "learning_rate": 9.613812221777212e-05, + "loss": 0.5194, + "step": 3200 + }, + { + "epoch": 2.1333333333333333, + "eval_darija_finetune_val_loss": 0.900266170501709, + "eval_darija_finetune_val_runtime": 259.0092, + "eval_darija_finetune_val_samples_per_second": 3.861, + "eval_darija_finetune_val_steps_per_second": 1.93, + "step": 3200 + }, + { + "epoch": 2.14, + "grad_norm": 2.7250349521636963, + "learning_rate": 9.609315757942503e-05, + "loss": 0.4902, + "step": 3210 + }, + { + "epoch": 2.1466666666666665, + "grad_norm": 3.2016725540161133, + "learning_rate": 9.604794332734646e-05, + "loss": 0.5208, + "step": 3220 + }, + { + "epoch": 2.1533333333333333, + "grad_norm": 3.055562734603882, + "learning_rate": 9.600247970639053e-05, + "loss": 0.4815, + "step": 3230 + }, + { + "epoch": 2.16, + "grad_norm": 3.2699763774871826, + "learning_rate": 9.595676696276172e-05, + "loss": 0.515, + "step": 3240 + }, + { + "epoch": 2.1666666666666665, + "grad_norm": 3.208446502685547, + "learning_rate": 9.591080534401371e-05, + "loss": 0.4092, + "step": 3250 + }, + { + "epoch": 2.1733333333333333, + "grad_norm": 3.395871877670288, + "learning_rate": 9.586459509904786e-05, + "loss": 0.447, + "step": 3260 + }, + { + "epoch": 2.18, + "grad_norm": 3.570553779602051, + "learning_rate": 9.581813647811198e-05, + "loss": 0.4679, + "step": 3270 + }, + { + "epoch": 2.1866666666666665, + "grad_norm": 2.619385242462158, + "learning_rate": 9.577142973279896e-05, + "loss": 0.4268, + "step": 3280 + }, + { + "epoch": 2.1933333333333334, + "grad_norm": 3.3416481018066406, + "learning_rate": 9.572447511604535e-05, + "loss": 0.4988, + "step": 3290 + }, + { + "epoch": 2.2, + "grad_norm": 2.2750625610351562, + "learning_rate": 9.567727288213005e-05, + "loss": 0.5014, + "step": 3300 + }, + { + "epoch": 2.2, + "eval_darija_finetune_val_loss": 0.9333375692367554, + "eval_darija_finetune_val_runtime": 258.7121, + "eval_darija_finetune_val_samples_per_second": 3.865, + "eval_darija_finetune_val_steps_per_second": 1.933, + "step": 3300 + }, + { + "epoch": 2.2066666666666666, + "grad_norm": 2.3995261192321777, + "learning_rate": 9.562982328667289e-05, + "loss": 0.4786, + "step": 3310 + }, + { + "epoch": 2.2133333333333334, + "grad_norm": 3.333108901977539, + "learning_rate": 9.55821265866333e-05, + "loss": 0.4589, + "step": 3320 + }, + { + "epoch": 2.22, + "grad_norm": 3.0467498302459717, + "learning_rate": 9.553418304030886e-05, + "loss": 0.4994, + "step": 3330 + }, + { + "epoch": 2.2266666666666666, + "grad_norm": 2.771735191345215, + "learning_rate": 9.548599290733392e-05, + "loss": 0.4635, + "step": 3340 + }, + { + "epoch": 2.2333333333333334, + "grad_norm": 3.1078433990478516, + "learning_rate": 9.543755644867822e-05, + "loss": 0.4345, + "step": 3350 + }, + { + "epoch": 2.24, + "grad_norm": 2.6101598739624023, + "learning_rate": 9.538887392664544e-05, + "loss": 0.5221, + "step": 3360 + }, + { + "epoch": 2.2466666666666666, + "grad_norm": 3.371260404586792, + "learning_rate": 9.53399456048718e-05, + "loss": 0.473, + "step": 3370 + }, + { + "epoch": 2.2533333333333334, + "grad_norm": 2.5337367057800293, + "learning_rate": 9.529077174832466e-05, + "loss": 0.4837, + "step": 3380 + }, + { + "epoch": 2.26, + "grad_norm": 2.1054067611694336, + "learning_rate": 9.524135262330098e-05, + "loss": 0.4989, + "step": 3390 + }, + { + "epoch": 2.2666666666666666, + "grad_norm": 2.5737295150756836, + "learning_rate": 9.519168849742604e-05, + "loss": 0.4135, + "step": 3400 + }, + { + "epoch": 2.2666666666666666, + "eval_darija_finetune_val_loss": 0.9492976069450378, + "eval_darija_finetune_val_runtime": 259.2238, + "eval_darija_finetune_val_samples_per_second": 3.858, + "eval_darija_finetune_val_steps_per_second": 1.929, + "step": 3400 + }, + { + "epoch": 2.2733333333333334, + "grad_norm": 3.2887966632843018, + "learning_rate": 9.514177963965182e-05, + "loss": 0.4409, + "step": 3410 + }, + { + "epoch": 2.2800000000000002, + "grad_norm": 2.431375503540039, + "learning_rate": 9.50916263202557e-05, + "loss": 0.4754, + "step": 3420 + }, + { + "epoch": 2.2866666666666666, + "grad_norm": 3.692216157913208, + "learning_rate": 9.504122881083886e-05, + "loss": 0.4233, + "step": 3430 + }, + { + "epoch": 2.2933333333333334, + "grad_norm": 2.728694438934326, + "learning_rate": 9.499058738432492e-05, + "loss": 0.4592, + "step": 3440 + }, + { + "epoch": 2.3, + "grad_norm": 2.8839800357818604, + "learning_rate": 9.493970231495835e-05, + "loss": 0.4929, + "step": 3450 + }, + { + "epoch": 2.3066666666666666, + "grad_norm": 2.2823827266693115, + "learning_rate": 9.488857387830314e-05, + "loss": 0.4603, + "step": 3460 + }, + { + "epoch": 2.3133333333333335, + "grad_norm": 3.233095407485962, + "learning_rate": 9.483720235124114e-05, + "loss": 0.4985, + "step": 3470 + }, + { + "epoch": 2.32, + "grad_norm": 3.0135116577148438, + "learning_rate": 9.478558801197065e-05, + "loss": 0.4744, + "step": 3480 + }, + { + "epoch": 2.3266666666666667, + "grad_norm": 3.681504487991333, + "learning_rate": 9.473373114000492e-05, + "loss": 0.4741, + "step": 3490 + }, + { + "epoch": 2.3333333333333335, + "grad_norm": 4.907854080200195, + "learning_rate": 9.468163201617062e-05, + "loss": 0.5545, + "step": 3500 + }, + { + "epoch": 2.3333333333333335, + "eval_darija_finetune_val_loss": 0.9177870750427246, + "eval_darija_finetune_val_runtime": 258.8756, + "eval_darija_finetune_val_samples_per_second": 3.863, + "eval_darija_finetune_val_steps_per_second": 1.931, + "step": 3500 + }, + { + "epoch": 2.34, + "grad_norm": 2.6049962043762207, + "learning_rate": 9.462929092260628e-05, + "loss": 0.512, + "step": 3510 + }, + { + "epoch": 2.3466666666666667, + "grad_norm": 2.6209774017333984, + "learning_rate": 9.457670814276083e-05, + "loss": 0.4718, + "step": 3520 + }, + { + "epoch": 2.3533333333333335, + "grad_norm": 2.216315746307373, + "learning_rate": 9.452388396139202e-05, + "loss": 0.5062, + "step": 3530 + }, + { + "epoch": 2.36, + "grad_norm": 3.2410600185394287, + "learning_rate": 9.447081866456489e-05, + "loss": 0.4155, + "step": 3540 + }, + { + "epoch": 2.3666666666666667, + "grad_norm": 3.463554620742798, + "learning_rate": 9.441751253965021e-05, + "loss": 0.5516, + "step": 3550 + }, + { + "epoch": 2.3733333333333335, + "grad_norm": 4.310747146606445, + "learning_rate": 9.436396587532296e-05, + "loss": 0.4774, + "step": 3560 + }, + { + "epoch": 2.38, + "grad_norm": 2.7729079723358154, + "learning_rate": 9.431017896156074e-05, + "loss": 0.4601, + "step": 3570 + }, + { + "epoch": 2.3866666666666667, + "grad_norm": 2.728466749191284, + "learning_rate": 9.425615208964216e-05, + "loss": 0.5205, + "step": 3580 + }, + { + "epoch": 2.3933333333333335, + "grad_norm": 3.1162445545196533, + "learning_rate": 9.420188555214537e-05, + "loss": 0.4549, + "step": 3590 + }, + { + "epoch": 2.4, + "grad_norm": 2.819366455078125, + "learning_rate": 9.414737964294636e-05, + "loss": 0.4813, + "step": 3600 + }, + { + "epoch": 2.4, + "eval_darija_finetune_val_loss": 0.91963130235672, + "eval_darija_finetune_val_runtime": 259.6933, + "eval_darija_finetune_val_samples_per_second": 3.851, + "eval_darija_finetune_val_steps_per_second": 1.925, + "step": 3600 + }, + { + "epoch": 2.4066666666666667, + "grad_norm": 2.8475654125213623, + "learning_rate": 9.40926346572174e-05, + "loss": 0.4844, + "step": 3610 + }, + { + "epoch": 2.413333333333333, + "grad_norm": 2.59702205657959, + "learning_rate": 9.403765089142554e-05, + "loss": 0.4221, + "step": 3620 + }, + { + "epoch": 2.42, + "grad_norm": 4.916239261627197, + "learning_rate": 9.398242864333083e-05, + "loss": 0.4051, + "step": 3630 + }, + { + "epoch": 2.4266666666666667, + "grad_norm": 2.544158458709717, + "learning_rate": 9.392696821198488e-05, + "loss": 0.4434, + "step": 3640 + }, + { + "epoch": 2.4333333333333336, + "grad_norm": 2.3633363246917725, + "learning_rate": 9.38712698977291e-05, + "loss": 0.4728, + "step": 3650 + }, + { + "epoch": 2.44, + "grad_norm": 3.70890474319458, + "learning_rate": 9.381533400219318e-05, + "loss": 0.4827, + "step": 3660 + }, + { + "epoch": 2.4466666666666668, + "grad_norm": 3.5090901851654053, + "learning_rate": 9.37591608282934e-05, + "loss": 0.4524, + "step": 3670 + }, + { + "epoch": 2.453333333333333, + "grad_norm": 2.0714354515075684, + "learning_rate": 9.370275068023098e-05, + "loss": 0.4424, + "step": 3680 + }, + { + "epoch": 2.46, + "grad_norm": 2.4309346675872803, + "learning_rate": 9.364610386349049e-05, + "loss": 0.4447, + "step": 3690 + }, + { + "epoch": 2.466666666666667, + "grad_norm": 2.9133565425872803, + "learning_rate": 9.358922068483812e-05, + "loss": 0.5139, + "step": 3700 + }, + { + "epoch": 2.466666666666667, + "eval_darija_finetune_val_loss": 0.9047917723655701, + "eval_darija_finetune_val_runtime": 259.3129, + "eval_darija_finetune_val_samples_per_second": 3.856, + "eval_darija_finetune_val_steps_per_second": 1.928, + "step": 3700 + }, + { + "epoch": 2.473333333333333, + "grad_norm": 3.6195969581604004, + "learning_rate": 9.35321014523201e-05, + "loss": 0.4064, + "step": 3710 + }, + { + "epoch": 2.48, + "grad_norm": 2.217879295349121, + "learning_rate": 9.347474647526095e-05, + "loss": 0.4448, + "step": 3720 + }, + { + "epoch": 2.486666666666667, + "grad_norm": 2.8738131523132324, + "learning_rate": 9.341715606426189e-05, + "loss": 0.5126, + "step": 3730 + }, + { + "epoch": 2.493333333333333, + "grad_norm": 3.0710952281951904, + "learning_rate": 9.335933053119906e-05, + "loss": 0.4086, + "step": 3740 + }, + { + "epoch": 2.5, + "grad_norm": 6.325509548187256, + "learning_rate": 9.330127018922194e-05, + "loss": 0.4113, + "step": 3750 + }, + { + "epoch": 2.506666666666667, + "grad_norm": 2.797027349472046, + "learning_rate": 9.324297535275155e-05, + "loss": 0.5194, + "step": 3760 + }, + { + "epoch": 2.513333333333333, + "grad_norm": 2.059788942337036, + "learning_rate": 9.318444633747883e-05, + "loss": 0.4295, + "step": 3770 + }, + { + "epoch": 2.52, + "grad_norm": 2.2633543014526367, + "learning_rate": 9.312568346036288e-05, + "loss": 0.4642, + "step": 3780 + }, + { + "epoch": 2.5266666666666664, + "grad_norm": 4.4395575523376465, + "learning_rate": 9.306668703962927e-05, + "loss": 0.4765, + "step": 3790 + }, + { + "epoch": 2.533333333333333, + "grad_norm": 2.4455292224884033, + "learning_rate": 9.300745739476829e-05, + "loss": 0.5334, + "step": 3800 + }, + { + "epoch": 2.533333333333333, + "eval_darija_finetune_val_loss": 0.905290424823761, + "eval_darija_finetune_val_runtime": 259.5605, + "eval_darija_finetune_val_samples_per_second": 3.853, + "eval_darija_finetune_val_steps_per_second": 1.926, + "step": 3800 + }, + { + "epoch": 2.54, + "grad_norm": 3.7455124855041504, + "learning_rate": 9.294799484653323e-05, + "loss": 0.5974, + "step": 3810 + }, + { + "epoch": 2.546666666666667, + "grad_norm": 3.3515355587005615, + "learning_rate": 9.288829971693868e-05, + "loss": 0.5438, + "step": 3820 + }, + { + "epoch": 2.5533333333333332, + "grad_norm": 3.5098655223846436, + "learning_rate": 9.282837232925876e-05, + "loss": 0.4833, + "step": 3830 + }, + { + "epoch": 2.56, + "grad_norm": 2.3161559104919434, + "learning_rate": 9.276821300802534e-05, + "loss": 0.4868, + "step": 3840 + }, + { + "epoch": 2.5666666666666664, + "grad_norm": 2.91372013092041, + "learning_rate": 9.270782207902629e-05, + "loss": 0.505, + "step": 3850 + }, + { + "epoch": 2.5733333333333333, + "grad_norm": 2.8373541831970215, + "learning_rate": 9.264719986930376e-05, + "loss": 0.4685, + "step": 3860 + }, + { + "epoch": 2.58, + "grad_norm": 2.676431655883789, + "learning_rate": 9.258634670715238e-05, + "loss": 0.4442, + "step": 3870 + }, + { + "epoch": 2.586666666666667, + "grad_norm": 3.6998441219329834, + "learning_rate": 9.25252629221175e-05, + "loss": 0.4605, + "step": 3880 + }, + { + "epoch": 2.5933333333333333, + "grad_norm": 1.7402496337890625, + "learning_rate": 9.246394884499334e-05, + "loss": 0.4471, + "step": 3890 + }, + { + "epoch": 2.6, + "grad_norm": 3.7280309200286865, + "learning_rate": 9.24024048078213e-05, + "loss": 0.5033, + "step": 3900 + }, + { + "epoch": 2.6, + "eval_darija_finetune_val_loss": 0.9073901772499084, + "eval_darija_finetune_val_runtime": 259.5347, + "eval_darija_finetune_val_samples_per_second": 3.853, + "eval_darija_finetune_val_steps_per_second": 1.927, + "step": 3900 + }, + { + "epoch": 2.6066666666666665, + "grad_norm": 3.1785483360290527, + "learning_rate": 9.234063114388809e-05, + "loss": 0.446, + "step": 3910 + }, + { + "epoch": 2.6133333333333333, + "grad_norm": 2.9536683559417725, + "learning_rate": 9.227862818772393e-05, + "loss": 0.4933, + "step": 3920 + }, + { + "epoch": 2.62, + "grad_norm": 3.449967861175537, + "learning_rate": 9.221639627510076e-05, + "loss": 0.4192, + "step": 3930 + }, + { + "epoch": 2.626666666666667, + "grad_norm": 4.238481521606445, + "learning_rate": 9.215393574303043e-05, + "loss": 0.3819, + "step": 3940 + }, + { + "epoch": 2.6333333333333333, + "grad_norm": 2.9021008014678955, + "learning_rate": 9.209124692976287e-05, + "loss": 0.4703, + "step": 3950 + }, + { + "epoch": 2.64, + "grad_norm": 3.3554530143737793, + "learning_rate": 9.202833017478422e-05, + "loss": 0.4855, + "step": 3960 + }, + { + "epoch": 2.6466666666666665, + "grad_norm": 3.0041258335113525, + "learning_rate": 9.196518581881501e-05, + "loss": 0.3899, + "step": 3970 + }, + { + "epoch": 2.6533333333333333, + "grad_norm": 2.397251844406128, + "learning_rate": 9.190181420380836e-05, + "loss": 0.543, + "step": 3980 + }, + { + "epoch": 2.66, + "grad_norm": 2.5618643760681152, + "learning_rate": 9.183821567294809e-05, + "loss": 0.4851, + "step": 3990 + }, + { + "epoch": 2.6666666666666665, + "grad_norm": 2.831705331802368, + "learning_rate": 9.177439057064683e-05, + "loss": 0.4919, + "step": 4000 + }, + { + "epoch": 2.6666666666666665, + "eval_darija_finetune_val_loss": 0.89859938621521, + "eval_darija_finetune_val_runtime": 259.657, + "eval_darija_finetune_val_samples_per_second": 3.851, + "eval_darija_finetune_val_steps_per_second": 1.926, + "step": 4000 + }, + { + "epoch": 2.6733333333333333, + "grad_norm": 2.256920576095581, + "learning_rate": 9.171033924254421e-05, + "loss": 0.5251, + "step": 4010 + }, + { + "epoch": 2.68, + "grad_norm": 2.483616828918457, + "learning_rate": 9.164606203550497e-05, + "loss": 0.5081, + "step": 4020 + }, + { + "epoch": 2.6866666666666665, + "grad_norm": 2.360711097717285, + "learning_rate": 9.158155929761709e-05, + "loss": 0.4864, + "step": 4030 + }, + { + "epoch": 2.6933333333333334, + "grad_norm": 4.500398635864258, + "learning_rate": 9.151683137818988e-05, + "loss": 0.4859, + "step": 4040 + }, + { + "epoch": 2.7, + "grad_norm": 2.828977346420288, + "learning_rate": 9.145187862775209e-05, + "loss": 0.4988, + "step": 4050 + }, + { + "epoch": 2.7066666666666666, + "grad_norm": 2.995166540145874, + "learning_rate": 9.138670139805003e-05, + "loss": 0.4224, + "step": 4060 + }, + { + "epoch": 2.7133333333333334, + "grad_norm": 2.7564573287963867, + "learning_rate": 9.132130004204568e-05, + "loss": 0.4975, + "step": 4070 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 2.320847511291504, + "learning_rate": 9.125567491391476e-05, + "loss": 0.4726, + "step": 4080 + }, + { + "epoch": 2.7266666666666666, + "grad_norm": 3.20310640335083, + "learning_rate": 9.118982636904476e-05, + "loss": 0.5424, + "step": 4090 + }, + { + "epoch": 2.7333333333333334, + "grad_norm": 2.4192585945129395, + "learning_rate": 9.112375476403312e-05, + "loss": 0.3785, + "step": 4100 + }, + { + "epoch": 2.7333333333333334, + "eval_darija_finetune_val_loss": 0.8971062898635864, + "eval_darija_finetune_val_runtime": 251.3505, + "eval_darija_finetune_val_samples_per_second": 3.979, + "eval_darija_finetune_val_steps_per_second": 1.989, + "step": 4100 + }, + { + "epoch": 2.74, + "grad_norm": 3.080637216567993, + "learning_rate": 9.105746045668521e-05, + "loss": 0.4513, + "step": 4110 + }, + { + "epoch": 2.7466666666666666, + "grad_norm": 3.1852269172668457, + "learning_rate": 9.099094380601244e-05, + "loss": 0.4594, + "step": 4120 + }, + { + "epoch": 2.7533333333333334, + "grad_norm": 4.018466472625732, + "learning_rate": 9.09242051722303e-05, + "loss": 0.4815, + "step": 4130 + }, + { + "epoch": 2.76, + "grad_norm": 2.8463821411132812, + "learning_rate": 9.085724491675642e-05, + "loss": 0.4365, + "step": 4140 + }, + { + "epoch": 2.7666666666666666, + "grad_norm": 2.3291406631469727, + "learning_rate": 9.079006340220862e-05, + "loss": 0.6037, + "step": 4150 + }, + { + "epoch": 2.7733333333333334, + "grad_norm": 2.934995174407959, + "learning_rate": 9.072266099240285e-05, + "loss": 0.4599, + "step": 4160 + }, + { + "epoch": 2.7800000000000002, + "grad_norm": 2.6450164318084717, + "learning_rate": 9.065503805235138e-05, + "loss": 0.4258, + "step": 4170 + }, + { + "epoch": 2.7866666666666666, + "grad_norm": 2.965301036834717, + "learning_rate": 9.058719494826075e-05, + "loss": 0.5256, + "step": 4180 + }, + { + "epoch": 2.7933333333333334, + "grad_norm": 3.525001287460327, + "learning_rate": 9.051913204752972e-05, + "loss": 0.4829, + "step": 4190 + }, + { + "epoch": 2.8, + "grad_norm": 2.098442316055298, + "learning_rate": 9.045084971874738e-05, + "loss": 0.444, + "step": 4200 + }, + { + "epoch": 2.8, + "eval_darija_finetune_val_loss": 0.887423574924469, + "eval_darija_finetune_val_runtime": 250.9563, + "eval_darija_finetune_val_samples_per_second": 3.985, + "eval_darija_finetune_val_steps_per_second": 1.992, + "step": 4200 + }, + { + "epoch": 2.8066666666666666, + "grad_norm": 3.247077703475952, + "learning_rate": 9.03823483316911e-05, + "loss": 0.5507, + "step": 4210 + }, + { + "epoch": 2.8133333333333335, + "grad_norm": 4.736733436584473, + "learning_rate": 9.031362825732457e-05, + "loss": 0.5055, + "step": 4220 + }, + { + "epoch": 2.82, + "grad_norm": 2.4618537425994873, + "learning_rate": 9.02446898677957e-05, + "loss": 0.5268, + "step": 4230 + }, + { + "epoch": 2.8266666666666667, + "grad_norm": 3.827387571334839, + "learning_rate": 9.017553353643477e-05, + "loss": 0.4801, + "step": 4240 + }, + { + "epoch": 2.8333333333333335, + "grad_norm": 2.41296648979187, + "learning_rate": 9.01061596377522e-05, + "loss": 0.4713, + "step": 4250 + }, + { + "epoch": 2.84, + "grad_norm": 2.5777714252471924, + "learning_rate": 9.003656854743667e-05, + "loss": 0.4031, + "step": 4260 + }, + { + "epoch": 2.8466666666666667, + "grad_norm": 4.091146945953369, + "learning_rate": 8.996676064235308e-05, + "loss": 0.4721, + "step": 4270 + }, + { + "epoch": 2.8533333333333335, + "grad_norm": 3.001485586166382, + "learning_rate": 8.989673630054043e-05, + "loss": 0.4534, + "step": 4280 + }, + { + "epoch": 2.86, + "grad_norm": 2.824066638946533, + "learning_rate": 8.982649590120982e-05, + "loss": 0.509, + "step": 4290 + }, + { + "epoch": 2.8666666666666667, + "grad_norm": 2.778568983078003, + "learning_rate": 8.97560398247424e-05, + "loss": 0.4981, + "step": 4300 + }, + { + "epoch": 2.8666666666666667, + "eval_darija_finetune_val_loss": 0.8759488463401794, + "eval_darija_finetune_val_runtime": 251.4316, + "eval_darija_finetune_val_samples_per_second": 3.977, + "eval_darija_finetune_val_steps_per_second": 1.989, + "step": 4300 + }, + { + "epoch": 2.873333333333333, + "grad_norm": 2.995847463607788, + "learning_rate": 8.968536845268728e-05, + "loss": 0.5226, + "step": 4310 + }, + { + "epoch": 2.88, + "grad_norm": 2.981295347213745, + "learning_rate": 8.961448216775954e-05, + "loss": 0.5132, + "step": 4320 + }, + { + "epoch": 2.8866666666666667, + "grad_norm": 3.0876119136810303, + "learning_rate": 8.954338135383804e-05, + "loss": 0.499, + "step": 4330 + }, + { + "epoch": 2.8933333333333335, + "grad_norm": 2.1924006938934326, + "learning_rate": 8.947206639596346e-05, + "loss": 0.4384, + "step": 4340 + }, + { + "epoch": 2.9, + "grad_norm": 2.539808750152588, + "learning_rate": 8.940053768033609e-05, + "loss": 0.5027, + "step": 4350 + }, + { + "epoch": 2.9066666666666667, + "grad_norm": 3.5509376525878906, + "learning_rate": 8.932879559431391e-05, + "loss": 0.5328, + "step": 4360 + }, + { + "epoch": 2.913333333333333, + "grad_norm": 2.5831844806671143, + "learning_rate": 8.925684052641027e-05, + "loss": 0.4974, + "step": 4370 + }, + { + "epoch": 2.92, + "grad_norm": 5.035901069641113, + "learning_rate": 8.9184672866292e-05, + "loss": 0.4574, + "step": 4380 + }, + { + "epoch": 2.9266666666666667, + "grad_norm": 2.053206443786621, + "learning_rate": 8.911229300477715e-05, + "loss": 0.4519, + "step": 4390 + }, + { + "epoch": 2.9333333333333336, + "grad_norm": 3.245105504989624, + "learning_rate": 8.903970133383297e-05, + "loss": 0.4781, + "step": 4400 + }, + { + "epoch": 2.9333333333333336, + "eval_darija_finetune_val_loss": 0.8895308971405029, + "eval_darija_finetune_val_runtime": 251.4279, + "eval_darija_finetune_val_samples_per_second": 3.977, + "eval_darija_finetune_val_steps_per_second": 1.989, + "step": 4400 + }, + { + "epoch": 2.94, + "grad_norm": 2.6374382972717285, + "learning_rate": 8.896689824657372e-05, + "loss": 0.487, + "step": 4410 + }, + { + "epoch": 2.9466666666666668, + "grad_norm": 1.806517243385315, + "learning_rate": 8.889388413725857e-05, + "loss": 0.4264, + "step": 4420 + }, + { + "epoch": 2.953333333333333, + "grad_norm": 3.0584867000579834, + "learning_rate": 8.882065940128945e-05, + "loss": 0.4153, + "step": 4430 + }, + { + "epoch": 2.96, + "grad_norm": 3.021517753601074, + "learning_rate": 8.874722443520899e-05, + "loss": 0.4164, + "step": 4440 + }, + { + "epoch": 2.966666666666667, + "grad_norm": 3.099745035171509, + "learning_rate": 8.86735796366982e-05, + "loss": 0.4933, + "step": 4450 + }, + { + "epoch": 2.9733333333333336, + "grad_norm": 3.2537477016448975, + "learning_rate": 8.859972540457451e-05, + "loss": 0.4904, + "step": 4460 + }, + { + "epoch": 2.98, + "grad_norm": 2.7414116859436035, + "learning_rate": 8.852566213878947e-05, + "loss": 0.4874, + "step": 4470 + }, + { + "epoch": 2.986666666666667, + "grad_norm": 3.194587230682373, + "learning_rate": 8.845139024042664e-05, + "loss": 0.3631, + "step": 4480 + }, + { + "epoch": 2.993333333333333, + "grad_norm": 4.515594482421875, + "learning_rate": 8.837691011169945e-05, + "loss": 0.4648, + "step": 4490 + }, + { + "epoch": 3.0, + "grad_norm": 4.6998395919799805, + "learning_rate": 8.83022221559489e-05, + "loss": 0.4993, + "step": 4500 + }, + { + "epoch": 3.0, + "eval_darija_finetune_val_loss": 0.8925855159759521, + "eval_darija_finetune_val_runtime": 251.3709, + "eval_darija_finetune_val_samples_per_second": 3.978, + "eval_darija_finetune_val_steps_per_second": 1.989, + "step": 4500 + }, + { + "epoch": 3.006666666666667, + "grad_norm": 1.823826789855957, + "learning_rate": 8.822732677764159e-05, + "loss": 0.2106, + "step": 4510 + }, + { + "epoch": 3.013333333333333, + "grad_norm": 2.4042251110076904, + "learning_rate": 8.815222438236725e-05, + "loss": 0.244, + "step": 4520 + }, + { + "epoch": 3.02, + "grad_norm": 2.4971282482147217, + "learning_rate": 8.807691537683685e-05, + "loss": 0.2415, + "step": 4530 + }, + { + "epoch": 3.026666666666667, + "grad_norm": 3.0913209915161133, + "learning_rate": 8.800140016888009e-05, + "loss": 0.2253, + "step": 4540 + }, + { + "epoch": 3.033333333333333, + "grad_norm": 2.229099988937378, + "learning_rate": 8.792567916744346e-05, + "loss": 0.1907, + "step": 4550 + }, + { + "epoch": 3.04, + "grad_norm": 1.9151448011398315, + "learning_rate": 8.784975278258783e-05, + "loss": 0.2329, + "step": 4560 + }, + { + "epoch": 3.046666666666667, + "grad_norm": 2.3971974849700928, + "learning_rate": 8.777362142548635e-05, + "loss": 0.221, + "step": 4570 + }, + { + "epoch": 3.0533333333333332, + "grad_norm": 3.471412420272827, + "learning_rate": 8.769728550842217e-05, + "loss": 0.2122, + "step": 4580 + }, + { + "epoch": 3.06, + "grad_norm": 3.316473960876465, + "learning_rate": 8.762074544478623e-05, + "loss": 0.204, + "step": 4590 + }, + { + "epoch": 3.066666666666667, + "grad_norm": 1.8444600105285645, + "learning_rate": 8.754400164907497e-05, + "loss": 0.2312, + "step": 4600 + }, + { + "epoch": 3.066666666666667, + "eval_darija_finetune_val_loss": 1.007398009300232, + "eval_darija_finetune_val_runtime": 251.2815, + "eval_darija_finetune_val_samples_per_second": 3.98, + "eval_darija_finetune_val_steps_per_second": 1.99, + "step": 4600 + }, + { + "epoch": 3.0733333333333333, + "grad_norm": 2.501553773880005, + "learning_rate": 8.746705453688814e-05, + "loss": 0.2262, + "step": 4610 + }, + { + "epoch": 3.08, + "grad_norm": 3.3800642490386963, + "learning_rate": 8.73899045249266e-05, + "loss": 0.2068, + "step": 4620 + }, + { + "epoch": 3.086666666666667, + "grad_norm": 2.3769423961639404, + "learning_rate": 8.73125520309899e-05, + "loss": 0.2222, + "step": 4630 + }, + { + "epoch": 3.0933333333333333, + "grad_norm": 1.821824312210083, + "learning_rate": 8.723499747397414e-05, + "loss": 0.1762, + "step": 4640 + }, + { + "epoch": 3.1, + "grad_norm": 2.5198006629943848, + "learning_rate": 8.715724127386972e-05, + "loss": 0.2157, + "step": 4650 + }, + { + "epoch": 3.1066666666666665, + "grad_norm": 2.1359009742736816, + "learning_rate": 8.707928385175899e-05, + "loss": 0.1837, + "step": 4660 + }, + { + "epoch": 3.1133333333333333, + "grad_norm": 1.916326880455017, + "learning_rate": 8.700112562981398e-05, + "loss": 0.2074, + "step": 4670 + }, + { + "epoch": 3.12, + "grad_norm": 2.310263156890869, + "learning_rate": 8.692276703129421e-05, + "loss": 0.2496, + "step": 4680 + }, + { + "epoch": 3.1266666666666665, + "grad_norm": 1.868833303451538, + "learning_rate": 8.68442084805442e-05, + "loss": 0.1913, + "step": 4690 + }, + { + "epoch": 3.1333333333333333, + "grad_norm": 1.8050462007522583, + "learning_rate": 8.676545040299145e-05, + "loss": 0.2279, + "step": 4700 + }, + { + "epoch": 3.1333333333333333, + "eval_darija_finetune_val_loss": 1.0413212776184082, + "eval_darija_finetune_val_runtime": 251.187, + "eval_darija_finetune_val_samples_per_second": 3.981, + "eval_darija_finetune_val_steps_per_second": 1.991, + "step": 4700 + }, + { + "epoch": 3.14, + "grad_norm": 2.6362838745117188, + "learning_rate": 8.668649322514382e-05, + "loss": 0.2357, + "step": 4710 + }, + { + "epoch": 3.1466666666666665, + "grad_norm": 2.305816173553467, + "learning_rate": 8.660733737458752e-05, + "loss": 0.2524, + "step": 4720 + }, + { + "epoch": 3.1533333333333333, + "grad_norm": 2.29388165473938, + "learning_rate": 8.652798327998457e-05, + "loss": 0.2316, + "step": 4730 + }, + { + "epoch": 3.16, + "grad_norm": 1.877356767654419, + "learning_rate": 8.644843137107059e-05, + "loss": 0.2406, + "step": 4740 + }, + { + "epoch": 3.1666666666666665, + "grad_norm": 1.6484549045562744, + "learning_rate": 8.636868207865244e-05, + "loss": 0.2022, + "step": 4750 + }, + { + "epoch": 3.1733333333333333, + "grad_norm": 3.2983007431030273, + "learning_rate": 8.628873583460593e-05, + "loss": 0.2028, + "step": 4760 + }, + { + "epoch": 3.18, + "grad_norm": 3.223153591156006, + "learning_rate": 8.620859307187339e-05, + "loss": 0.1929, + "step": 4770 + }, + { + "epoch": 3.1866666666666665, + "grad_norm": 4.037556171417236, + "learning_rate": 8.61282542244614e-05, + "loss": 0.2524, + "step": 4780 + }, + { + "epoch": 3.1933333333333334, + "grad_norm": 1.7328327894210815, + "learning_rate": 8.604771972743848e-05, + "loss": 0.173, + "step": 4790 + }, + { + "epoch": 3.2, + "grad_norm": 3.0235466957092285, + "learning_rate": 8.596699001693255e-05, + "loss": 0.1816, + "step": 4800 + }, + { + "epoch": 3.2, + "eval_darija_finetune_val_loss": 1.0150939226150513, + "eval_darija_finetune_val_runtime": 251.3841, + "eval_darija_finetune_val_samples_per_second": 3.978, + "eval_darija_finetune_val_steps_per_second": 1.989, + "step": 4800 + }, + { + "epoch": 3.2066666666666666, + "grad_norm": 2.2320821285247803, + "learning_rate": 8.588606553012883e-05, + "loss": 0.2359, + "step": 4810 + }, + { + "epoch": 3.2133333333333334, + "grad_norm": 2.2894415855407715, + "learning_rate": 8.580494670526725e-05, + "loss": 0.2274, + "step": 4820 + }, + { + "epoch": 3.22, + "grad_norm": 2.2599453926086426, + "learning_rate": 8.572363398164017e-05, + "loss": 0.2698, + "step": 4830 + }, + { + "epoch": 3.2266666666666666, + "grad_norm": 2.3848133087158203, + "learning_rate": 8.564212779959002e-05, + "loss": 0.265, + "step": 4840 + }, + { + "epoch": 3.2333333333333334, + "grad_norm": 1.965518593788147, + "learning_rate": 8.556042860050687e-05, + "loss": 0.23, + "step": 4850 + }, + { + "epoch": 3.24, + "grad_norm": 2.819265127182007, + "learning_rate": 8.547853682682604e-05, + "loss": 0.245, + "step": 4860 + }, + { + "epoch": 3.2466666666666666, + "grad_norm": 2.2343597412109375, + "learning_rate": 8.539645292202579e-05, + "loss": 0.2554, + "step": 4870 + }, + { + "epoch": 3.2533333333333334, + "grad_norm": 3.8273537158966064, + "learning_rate": 8.531417733062477e-05, + "loss": 0.2546, + "step": 4880 + }, + { + "epoch": 3.26, + "grad_norm": 2.7234230041503906, + "learning_rate": 8.523171049817974e-05, + "loss": 0.2207, + "step": 4890 + }, + { + "epoch": 3.2666666666666666, + "grad_norm": 2.224846839904785, + "learning_rate": 8.51490528712831e-05, + "loss": 0.2564, + "step": 4900 + }, + { + "epoch": 3.2666666666666666, + "eval_darija_finetune_val_loss": 1.0404167175292969, + "eval_darija_finetune_val_runtime": 251.1021, + "eval_darija_finetune_val_samples_per_second": 3.982, + "eval_darija_finetune_val_steps_per_second": 1.991, + "step": 4900 + }, + { + "epoch": 3.2733333333333334, + "grad_norm": 3.1341285705566406, + "learning_rate": 8.506620489756045e-05, + "loss": 0.249, + "step": 4910 + }, + { + "epoch": 3.2800000000000002, + "grad_norm": 1.9943166971206665, + "learning_rate": 8.498316702566828e-05, + "loss": 0.219, + "step": 4920 + }, + { + "epoch": 3.2866666666666666, + "grad_norm": 2.4646964073181152, + "learning_rate": 8.489993970529137e-05, + "loss": 0.1874, + "step": 4930 + }, + { + "epoch": 3.2933333333333334, + "grad_norm": 2.276768207550049, + "learning_rate": 8.481652338714048e-05, + "loss": 0.1987, + "step": 4940 + }, + { + "epoch": 3.3, + "grad_norm": 2.0752384662628174, + "learning_rate": 8.473291852294987e-05, + "loss": 0.2453, + "step": 4950 + }, + { + "epoch": 3.3066666666666666, + "grad_norm": 2.5768744945526123, + "learning_rate": 8.464912556547486e-05, + "loss": 0.2268, + "step": 4960 + }, + { + "epoch": 3.3133333333333335, + "grad_norm": 2.315326690673828, + "learning_rate": 8.456514496848939e-05, + "loss": 0.2723, + "step": 4970 + }, + { + "epoch": 3.32, + "grad_norm": 2.7668704986572266, + "learning_rate": 8.44809771867835e-05, + "loss": 0.2232, + "step": 4980 + }, + { + "epoch": 3.3266666666666667, + "grad_norm": 2.1656723022460938, + "learning_rate": 8.439662267616093e-05, + "loss": 0.2425, + "step": 4990 + }, + { + "epoch": 3.3333333333333335, + "grad_norm": 1.4497921466827393, + "learning_rate": 8.43120818934367e-05, + "loss": 0.2126, + "step": 5000 + }, + { + "epoch": 3.3333333333333335, + "eval_darija_finetune_val_loss": 1.0469905138015747, + "eval_darija_finetune_val_runtime": 251.0783, + "eval_darija_finetune_val_samples_per_second": 3.983, + "eval_darija_finetune_val_steps_per_second": 1.991, + "step": 5000 + }, + { + "epoch": 3.34, + "grad_norm": 1.7154805660247803, + "learning_rate": 8.422735529643444e-05, + "loss": 0.2186, + "step": 5010 + }, + { + "epoch": 3.3466666666666667, + "grad_norm": 3.647848606109619, + "learning_rate": 8.414244334398417e-05, + "loss": 0.2334, + "step": 5020 + }, + { + "epoch": 3.3533333333333335, + "grad_norm": 3.1218526363372803, + "learning_rate": 8.405734649591963e-05, + "loss": 0.2486, + "step": 5030 + }, + { + "epoch": 3.36, + "grad_norm": 2.9084227085113525, + "learning_rate": 8.397206521307584e-05, + "loss": 0.2628, + "step": 5040 + }, + { + "epoch": 3.3666666666666667, + "grad_norm": 3.001922369003296, + "learning_rate": 8.388659995728663e-05, + "loss": 0.2532, + "step": 5050 + }, + { + "epoch": 3.3733333333333335, + "grad_norm": 2.368091344833374, + "learning_rate": 8.380095119138209e-05, + "loss": 0.2115, + "step": 5060 + }, + { + "epoch": 3.38, + "grad_norm": 5.028636932373047, + "learning_rate": 8.371511937918616e-05, + "loss": 0.2112, + "step": 5070 + }, + { + "epoch": 3.3866666666666667, + "grad_norm": 3.2939071655273438, + "learning_rate": 8.362910498551401e-05, + "loss": 0.235, + "step": 5080 + }, + { + "epoch": 3.3933333333333335, + "grad_norm": 2.3428657054901123, + "learning_rate": 8.354290847616954e-05, + "loss": 0.245, + "step": 5090 + }, + { + "epoch": 3.4, + "grad_norm": 2.3399736881256104, + "learning_rate": 8.345653031794292e-05, + "loss": 0.2237, + "step": 5100 + }, + { + "epoch": 3.4, + "eval_darija_finetune_val_loss": 1.0369892120361328, + "eval_darija_finetune_val_runtime": 251.5024, + "eval_darija_finetune_val_samples_per_second": 3.976, + "eval_darija_finetune_val_steps_per_second": 1.988, + "step": 5100 + }, + { + "epoch": 3.4066666666666667, + "grad_norm": 2.359717845916748, + "learning_rate": 8.336997097860799e-05, + "loss": 0.2634, + "step": 5110 + }, + { + "epoch": 3.413333333333333, + "grad_norm": 2.942824602127075, + "learning_rate": 8.328323092691985e-05, + "loss": 0.2756, + "step": 5120 + }, + { + "epoch": 3.42, + "grad_norm": 2.4180054664611816, + "learning_rate": 8.319631063261209e-05, + "loss": 0.229, + "step": 5130 + }, + { + "epoch": 3.4266666666666667, + "grad_norm": 2.408891201019287, + "learning_rate": 8.310921056639451e-05, + "loss": 0.2407, + "step": 5140 + }, + { + "epoch": 3.4333333333333336, + "grad_norm": 2.9477765560150146, + "learning_rate": 8.302193119995039e-05, + "loss": 0.2109, + "step": 5150 + }, + { + "epoch": 3.44, + "grad_norm": 3.364929676055908, + "learning_rate": 8.293447300593402e-05, + "loss": 0.3058, + "step": 5160 + }, + { + "epoch": 3.4466666666666668, + "grad_norm": 2.6221022605895996, + "learning_rate": 8.284683645796813e-05, + "loss": 0.2055, + "step": 5170 + }, + { + "epoch": 3.453333333333333, + "grad_norm": 3.367511510848999, + "learning_rate": 8.275902203064125e-05, + "loss": 0.2211, + "step": 5180 + }, + { + "epoch": 3.46, + "grad_norm": 2.6877329349517822, + "learning_rate": 8.267103019950529e-05, + "loss": 0.2194, + "step": 5190 + }, + { + "epoch": 3.466666666666667, + "grad_norm": 3.1895358562469482, + "learning_rate": 8.258286144107276e-05, + "loss": 0.2027, + "step": 5200 + }, + { + "epoch": 3.466666666666667, + "eval_darija_finetune_val_loss": 1.0741537809371948, + "eval_darija_finetune_val_runtime": 251.3038, + "eval_darija_finetune_val_samples_per_second": 3.979, + "eval_darija_finetune_val_steps_per_second": 1.99, + "step": 5200 + }, + { + "epoch": 3.473333333333333, + "grad_norm": 4.237334728240967, + "learning_rate": 8.249451623281443e-05, + "loss": 0.2229, + "step": 5210 + }, + { + "epoch": 3.48, + "grad_norm": 2.828191041946411, + "learning_rate": 8.240599505315655e-05, + "loss": 0.2753, + "step": 5220 + }, + { + "epoch": 3.486666666666667, + "grad_norm": 2.673659324645996, + "learning_rate": 8.231729838147833e-05, + "loss": 0.2145, + "step": 5230 + }, + { + "epoch": 3.493333333333333, + "grad_norm": 2.8129754066467285, + "learning_rate": 8.222842669810935e-05, + "loss": 0.2259, + "step": 5240 + }, + { + "epoch": 3.5, + "grad_norm": 2.43515682220459, + "learning_rate": 8.213938048432697e-05, + "loss": 0.2007, + "step": 5250 + }, + { + "epoch": 3.506666666666667, + "grad_norm": 2.3466885089874268, + "learning_rate": 8.205016022235368e-05, + "loss": 0.2385, + "step": 5260 + }, + { + "epoch": 3.513333333333333, + "grad_norm": 2.269193410873413, + "learning_rate": 8.196076639535452e-05, + "loss": 0.2161, + "step": 5270 + }, + { + "epoch": 3.52, + "grad_norm": 3.5568225383758545, + "learning_rate": 8.18711994874345e-05, + "loss": 0.2808, + "step": 5280 + }, + { + "epoch": 3.5266666666666664, + "grad_norm": 2.0893423557281494, + "learning_rate": 8.178145998363584e-05, + "loss": 0.2379, + "step": 5290 + }, + { + "epoch": 3.533333333333333, + "grad_norm": 1.8583208322525024, + "learning_rate": 8.169154836993551e-05, + "loss": 0.2238, + "step": 5300 + }, + { + "epoch": 3.533333333333333, + "eval_darija_finetune_val_loss": 1.0195205211639404, + "eval_darija_finetune_val_runtime": 251.1216, + "eval_darija_finetune_val_samples_per_second": 3.982, + "eval_darija_finetune_val_steps_per_second": 1.991, + "step": 5300 + }, + { + "epoch": 3.54, + "grad_norm": 2.975292682647705, + "learning_rate": 8.160146513324254e-05, + "loss": 0.2178, + "step": 5310 + }, + { + "epoch": 3.546666666666667, + "grad_norm": 2.822932243347168, + "learning_rate": 8.151121076139534e-05, + "loss": 0.2056, + "step": 5320 + }, + { + "epoch": 3.5533333333333332, + "grad_norm": 2.1111984252929688, + "learning_rate": 8.142078574315907e-05, + "loss": 0.2385, + "step": 5330 + }, + { + "epoch": 3.56, + "grad_norm": 1.798490047454834, + "learning_rate": 8.133019056822304e-05, + "loss": 0.2064, + "step": 5340 + }, + { + "epoch": 3.5666666666666664, + "grad_norm": 1.7281253337860107, + "learning_rate": 8.1239425727198e-05, + "loss": 0.236, + "step": 5350 + }, + { + "epoch": 3.5733333333333333, + "grad_norm": 2.7913970947265625, + "learning_rate": 8.114849171161361e-05, + "loss": 0.2536, + "step": 5360 + }, + { + "epoch": 3.58, + "grad_norm": 2.904644012451172, + "learning_rate": 8.105738901391552e-05, + "loss": 0.2749, + "step": 5370 + }, + { + "epoch": 3.586666666666667, + "grad_norm": 2.63820219039917, + "learning_rate": 8.096611812746301e-05, + "loss": 0.2378, + "step": 5380 + }, + { + "epoch": 3.5933333333333333, + "grad_norm": 2.440889358520508, + "learning_rate": 8.087467954652608e-05, + "loss": 0.2355, + "step": 5390 + }, + { + "epoch": 3.6, + "grad_norm": 2.161442279815674, + "learning_rate": 8.07830737662829e-05, + "loss": 0.2298, + "step": 5400 + }, + { + "epoch": 3.6, + "eval_darija_finetune_val_loss": 1.025424599647522, + "eval_darija_finetune_val_runtime": 251.2511, + "eval_darija_finetune_val_samples_per_second": 3.98, + "eval_darija_finetune_val_steps_per_second": 1.99, + "step": 5400 + }, + { + "epoch": 3.6066666666666665, + "grad_norm": 2.747871160507202, + "learning_rate": 8.069130128281714e-05, + "loss": 0.2526, + "step": 5410 + }, + { + "epoch": 3.6133333333333333, + "grad_norm": 2.4200148582458496, + "learning_rate": 8.059936259311514e-05, + "loss": 0.2293, + "step": 5420 + }, + { + "epoch": 3.62, + "grad_norm": 1.8841699361801147, + "learning_rate": 8.05072581950634e-05, + "loss": 0.2234, + "step": 5430 + }, + { + "epoch": 3.626666666666667, + "grad_norm": 2.579508066177368, + "learning_rate": 8.041498858744572e-05, + "loss": 0.279, + "step": 5440 + }, + { + "epoch": 3.6333333333333333, + "grad_norm": 2.3305304050445557, + "learning_rate": 8.032255426994069e-05, + "loss": 0.2353, + "step": 5450 + }, + { + "epoch": 3.64, + "grad_norm": 2.868994951248169, + "learning_rate": 8.022995574311876e-05, + "loss": 0.2226, + "step": 5460 + }, + { + "epoch": 3.6466666666666665, + "grad_norm": 2.3868560791015625, + "learning_rate": 8.01371935084397e-05, + "loss": 0.249, + "step": 5470 + }, + { + "epoch": 3.6533333333333333, + "grad_norm": 2.943885326385498, + "learning_rate": 8.004426806824984e-05, + "loss": 0.3229, + "step": 5480 + }, + { + "epoch": 3.66, + "grad_norm": 2.316537857055664, + "learning_rate": 7.99511799257793e-05, + "loss": 0.2828, + "step": 5490 + }, + { + "epoch": 3.6666666666666665, + "grad_norm": 2.02138090133667, + "learning_rate": 7.985792958513931e-05, + "loss": 0.1803, + "step": 5500 + }, + { + "epoch": 3.6666666666666665, + "eval_darija_finetune_val_loss": 1.008547306060791, + "eval_darija_finetune_val_runtime": 251.3185, + "eval_darija_finetune_val_samples_per_second": 3.979, + "eval_darija_finetune_val_steps_per_second": 1.99, + "step": 5500 + }, + { + "epoch": 3.6733333333333333, + "grad_norm": 3.3682403564453125, + "learning_rate": 7.976451755131949e-05, + "loss": 0.2675, + "step": 5510 + }, + { + "epoch": 3.68, + "grad_norm": 3.031627893447876, + "learning_rate": 7.967094433018508e-05, + "loss": 0.2144, + "step": 5520 + }, + { + "epoch": 3.6866666666666665, + "grad_norm": 3.2531402111053467, + "learning_rate": 7.95772104284742e-05, + "loss": 0.3021, + "step": 5530 + }, + { + "epoch": 3.6933333333333334, + "grad_norm": 4.269306182861328, + "learning_rate": 7.948331635379517e-05, + "loss": 0.2816, + "step": 5540 + }, + { + "epoch": 3.7, + "grad_norm": 2.0204973220825195, + "learning_rate": 7.938926261462366e-05, + "loss": 0.2168, + "step": 5550 + }, + { + "epoch": 3.7066666666666666, + "grad_norm": 1.8356093168258667, + "learning_rate": 7.929504972030003e-05, + "loss": 0.2017, + "step": 5560 + }, + { + "epoch": 3.7133333333333334, + "grad_norm": 3.627718210220337, + "learning_rate": 7.920067818102653e-05, + "loss": 0.2425, + "step": 5570 + }, + { + "epoch": 3.7199999999999998, + "grad_norm": 3.0302562713623047, + "learning_rate": 7.910614850786448e-05, + "loss": 0.2156, + "step": 5580 + }, + { + "epoch": 3.7266666666666666, + "grad_norm": 2.1058509349823, + "learning_rate": 7.901146121273164e-05, + "loss": 0.2735, + "step": 5590 + }, + { + "epoch": 3.7333333333333334, + "grad_norm": 2.344343423843384, + "learning_rate": 7.891661680839932e-05, + "loss": 0.2651, + "step": 5600 + }, + { + "epoch": 3.7333333333333334, + "eval_darija_finetune_val_loss": 1.0205721855163574, + "eval_darija_finetune_val_runtime": 251.4868, + "eval_darija_finetune_val_samples_per_second": 3.976, + "eval_darija_finetune_val_steps_per_second": 1.988, + "step": 5600 + }, + { + "epoch": 3.74, + "grad_norm": 2.012836456298828, + "learning_rate": 7.882161580848967e-05, + "loss": 0.2743, + "step": 5610 + }, + { + "epoch": 3.7466666666666666, + "grad_norm": 3.078923225402832, + "learning_rate": 7.872645872747281e-05, + "loss": 0.2281, + "step": 5620 + }, + { + "epoch": 3.7533333333333334, + "grad_norm": 1.9616963863372803, + "learning_rate": 7.863114608066418e-05, + "loss": 0.2404, + "step": 5630 + }, + { + "epoch": 3.76, + "grad_norm": 5.728672027587891, + "learning_rate": 7.85356783842216e-05, + "loss": 0.2758, + "step": 5640 + }, + { + "epoch": 3.7666666666666666, + "grad_norm": 2.951751470565796, + "learning_rate": 7.844005615514259e-05, + "loss": 0.2537, + "step": 5650 + }, + { + "epoch": 3.7733333333333334, + "grad_norm": 2.2014782428741455, + "learning_rate": 7.834427991126155e-05, + "loss": 0.1909, + "step": 5660 + }, + { + "epoch": 3.7800000000000002, + "grad_norm": 2.443965435028076, + "learning_rate": 7.82483501712469e-05, + "loss": 0.2366, + "step": 5670 + }, + { + "epoch": 3.7866666666666666, + "grad_norm": 2.583838701248169, + "learning_rate": 7.815226745459831e-05, + "loss": 0.2177, + "step": 5680 + }, + { + "epoch": 3.7933333333333334, + "grad_norm": 2.9162487983703613, + "learning_rate": 7.805603228164388e-05, + "loss": 0.2534, + "step": 5690 + }, + { + "epoch": 3.8, + "grad_norm": 2.1015121936798096, + "learning_rate": 7.795964517353735e-05, + "loss": 0.2859, + "step": 5700 + }, + { + "epoch": 3.8, + "eval_darija_finetune_val_loss": 1.0077942609786987, + "eval_darija_finetune_val_runtime": 251.2826, + "eval_darija_finetune_val_samples_per_second": 3.98, + "eval_darija_finetune_val_steps_per_second": 1.99, + "step": 5700 + }, + { + "epoch": 3.8066666666666666, + "grad_norm": 2.98486590385437, + "learning_rate": 7.786310665225522e-05, + "loss": 0.1902, + "step": 5710 + }, + { + "epoch": 3.8133333333333335, + "grad_norm": 2.402819871902466, + "learning_rate": 7.776641724059396e-05, + "loss": 0.2081, + "step": 5720 + }, + { + "epoch": 3.82, + "grad_norm": 2.5473134517669678, + "learning_rate": 7.766957746216721e-05, + "loss": 0.2439, + "step": 5730 + }, + { + "epoch": 3.8266666666666667, + "grad_norm": 2.5024635791778564, + "learning_rate": 7.757258784140287e-05, + "loss": 0.2468, + "step": 5740 + }, + { + "epoch": 3.8333333333333335, + "grad_norm": 2.2013115882873535, + "learning_rate": 7.74754489035403e-05, + "loss": 0.2502, + "step": 5750 + }, + { + "epoch": 3.84, + "grad_norm": 3.7163047790527344, + "learning_rate": 7.737816117462752e-05, + "loss": 0.2532, + "step": 5760 + }, + { + "epoch": 3.8466666666666667, + "grad_norm": 2.2949864864349365, + "learning_rate": 7.728072518151825e-05, + "loss": 0.2143, + "step": 5770 + }, + { + "epoch": 3.8533333333333335, + "grad_norm": 4.1935272216796875, + "learning_rate": 7.718314145186916e-05, + "loss": 0.2839, + "step": 5780 + }, + { + "epoch": 3.86, + "grad_norm": 2.3369812965393066, + "learning_rate": 7.7085410514137e-05, + "loss": 0.2315, + "step": 5790 + }, + { + "epoch": 3.8666666666666667, + "grad_norm": 2.7561328411102295, + "learning_rate": 7.698753289757565e-05, + "loss": 0.2568, + "step": 5800 + }, + { + "epoch": 3.8666666666666667, + "eval_darija_finetune_val_loss": 1.0073825120925903, + "eval_darija_finetune_val_runtime": 251.447, + "eval_darija_finetune_val_samples_per_second": 3.977, + "eval_darija_finetune_val_steps_per_second": 1.988, + "step": 5800 + }, + { + "epoch": 3.873333333333333, + "grad_norm": 2.505526065826416, + "learning_rate": 7.688950913223336e-05, + "loss": 0.2665, + "step": 5810 + }, + { + "epoch": 3.88, + "grad_norm": 2.3254647254943848, + "learning_rate": 7.679133974894983e-05, + "loss": 0.2051, + "step": 5820 + }, + { + "epoch": 3.8866666666666667, + "grad_norm": 2.684469223022461, + "learning_rate": 7.669302527935335e-05, + "loss": 0.2399, + "step": 5830 + }, + { + "epoch": 3.8933333333333335, + "grad_norm": 2.4674019813537598, + "learning_rate": 7.65945662558579e-05, + "loss": 0.2513, + "step": 5840 + }, + { + "epoch": 3.9, + "grad_norm": 2.324890375137329, + "learning_rate": 7.649596321166024e-05, + "loss": 0.2578, + "step": 5850 + }, + { + "epoch": 3.9066666666666667, + "grad_norm": 1.9754526615142822, + "learning_rate": 7.639721668073718e-05, + "loss": 0.2418, + "step": 5860 + }, + { + "epoch": 3.913333333333333, + "grad_norm": 2.599031448364258, + "learning_rate": 7.629832719784245e-05, + "loss": 0.2188, + "step": 5870 + }, + { + "epoch": 3.92, + "grad_norm": 1.9351656436920166, + "learning_rate": 7.619929529850397e-05, + "loss": 0.2012, + "step": 5880 + }, + { + "epoch": 3.9266666666666667, + "grad_norm": 2.376443386077881, + "learning_rate": 7.61001215190209e-05, + "loss": 0.2701, + "step": 5890 + }, + { + "epoch": 3.9333333333333336, + "grad_norm": 2.8685805797576904, + "learning_rate": 7.600080639646077e-05, + "loss": 0.2386, + "step": 5900 + }, + { + "epoch": 3.9333333333333336, + "eval_darija_finetune_val_loss": 1.0074583292007446, + "eval_darija_finetune_val_runtime": 251.0219, + "eval_darija_finetune_val_samples_per_second": 3.984, + "eval_darija_finetune_val_steps_per_second": 1.992, + "step": 5900 + }, + { + "epoch": 3.94, + "grad_norm": 3.851602792739868, + "learning_rate": 7.590135046865651e-05, + "loss": 0.2471, + "step": 5910 + }, + { + "epoch": 3.9466666666666668, + "grad_norm": 2.2755990028381348, + "learning_rate": 7.580175427420358e-05, + "loss": 0.2603, + "step": 5920 + }, + { + "epoch": 3.953333333333333, + "grad_norm": 7.685105323791504, + "learning_rate": 7.570201835245703e-05, + "loss": 0.2691, + "step": 5930 + }, + { + "epoch": 3.96, + "grad_norm": 2.0916025638580322, + "learning_rate": 7.560214324352858e-05, + "loss": 0.2136, + "step": 5940 + }, + { + "epoch": 3.966666666666667, + "grad_norm": 4.028635025024414, + "learning_rate": 7.550212948828377e-05, + "loss": 0.2113, + "step": 5950 + }, + { + "epoch": 3.9733333333333336, + "grad_norm": 3.4427528381347656, + "learning_rate": 7.54019776283389e-05, + "loss": 0.2727, + "step": 5960 + }, + { + "epoch": 3.98, + "grad_norm": 2.966076135635376, + "learning_rate": 7.530168820605818e-05, + "loss": 0.2541, + "step": 5970 + }, + { + "epoch": 3.986666666666667, + "grad_norm": 3.3527421951293945, + "learning_rate": 7.520126176455083e-05, + "loss": 0.2316, + "step": 5980 + }, + { + "epoch": 3.993333333333333, + "grad_norm": 2.543290853500366, + "learning_rate": 7.510069884766802e-05, + "loss": 0.2634, + "step": 5990 + }, + { + "epoch": 4.0, + "grad_norm": 2.858429431915283, + "learning_rate": 7.500000000000001e-05, + "loss": 0.2452, + "step": 6000 + }, + { + "epoch": 4.0, + "eval_darija_finetune_val_loss": 0.991529643535614, + "eval_darija_finetune_val_runtime": 251.3832, + "eval_darija_finetune_val_samples_per_second": 3.978, + "eval_darija_finetune_val_steps_per_second": 1.989, + "step": 6000 + }, + { + "epoch": 4.006666666666667, + "grad_norm": 1.7823318243026733, + "learning_rate": 7.489916576687319e-05, + "loss": 0.0924, + "step": 6010 + }, + { + "epoch": 4.013333333333334, + "grad_norm": 2.36570143699646, + "learning_rate": 7.479819669434711e-05, + "loss": 0.1274, + "step": 6020 + }, + { + "epoch": 4.02, + "grad_norm": 1.4261804819107056, + "learning_rate": 7.469709332921155e-05, + "loss": 0.124, + "step": 6030 + }, + { + "epoch": 4.026666666666666, + "grad_norm": 2.184540271759033, + "learning_rate": 7.459585621898353e-05, + "loss": 0.1111, + "step": 6040 + }, + { + "epoch": 4.033333333333333, + "grad_norm": 1.5436240434646606, + "learning_rate": 7.449448591190435e-05, + "loss": 0.0952, + "step": 6050 + }, + { + "epoch": 4.04, + "grad_norm": 0.9817466735839844, + "learning_rate": 7.439298295693665e-05, + "loss": 0.1044, + "step": 6060 + }, + { + "epoch": 4.046666666666667, + "grad_norm": 2.263059616088867, + "learning_rate": 7.429134790376135e-05, + "loss": 0.1049, + "step": 6070 + }, + { + "epoch": 4.053333333333334, + "grad_norm": 3.8617911338806152, + "learning_rate": 7.418958130277483e-05, + "loss": 0.0984, + "step": 6080 + }, + { + "epoch": 4.06, + "grad_norm": 3.456857204437256, + "learning_rate": 7.408768370508576e-05, + "loss": 0.1276, + "step": 6090 + }, + { + "epoch": 4.066666666666666, + "grad_norm": 2.9018609523773193, + "learning_rate": 7.398565566251232e-05, + "loss": 0.1283, + "step": 6100 + }, + { + "epoch": 4.066666666666666, + "eval_darija_finetune_val_loss": 1.1392104625701904, + "eval_darija_finetune_val_runtime": 251.2402, + "eval_darija_finetune_val_samples_per_second": 3.98, + "eval_darija_finetune_val_steps_per_second": 1.99, + "step": 6100 + }, + { + "epoch": 4.073333333333333, + "grad_norm": 1.631217122077942, + "learning_rate": 7.3883497727579e-05, + "loss": 0.1551, + "step": 6110 + }, + { + "epoch": 4.08, + "grad_norm": 1.9083203077316284, + "learning_rate": 7.378121045351378e-05, + "loss": 0.1399, + "step": 6120 + }, + { + "epoch": 4.086666666666667, + "grad_norm": 1.6848344802856445, + "learning_rate": 7.3678794394245e-05, + "loss": 0.1124, + "step": 6130 + }, + { + "epoch": 4.093333333333334, + "grad_norm": 2.780228614807129, + "learning_rate": 7.357625010439852e-05, + "loss": 0.1194, + "step": 6140 + }, + { + "epoch": 4.1, + "grad_norm": 1.741235613822937, + "learning_rate": 7.347357813929454e-05, + "loss": 0.1049, + "step": 6150 + }, + { + "epoch": 4.1066666666666665, + "grad_norm": 2.2520713806152344, + "learning_rate": 7.337077905494471e-05, + "loss": 0.1109, + "step": 6160 + }, + { + "epoch": 4.113333333333333, + "grad_norm": 1.5675185918807983, + "learning_rate": 7.326785340804908e-05, + "loss": 0.116, + "step": 6170 + }, + { + "epoch": 4.12, + "grad_norm": 2.0669965744018555, + "learning_rate": 7.316480175599309e-05, + "loss": 0.1191, + "step": 6180 + }, + { + "epoch": 4.126666666666667, + "grad_norm": 2.8209307193756104, + "learning_rate": 7.306162465684454e-05, + "loss": 0.1184, + "step": 6190 + }, + { + "epoch": 4.133333333333334, + "grad_norm": 2.190453052520752, + "learning_rate": 7.295832266935059e-05, + "loss": 0.1144, + "step": 6200 + }, + { + "epoch": 4.133333333333334, + "eval_darija_finetune_val_loss": 1.1063228845596313, + "eval_darija_finetune_val_runtime": 251.5357, + "eval_darija_finetune_val_samples_per_second": 3.976, + "eval_darija_finetune_val_steps_per_second": 1.988, + "step": 6200 + }, + { + "epoch": 4.14, + "grad_norm": 1.9842904806137085, + "learning_rate": 7.285489635293472e-05, + "loss": 0.0819, + "step": 6210 + }, + { + "epoch": 4.1466666666666665, + "grad_norm": 0.9656934142112732, + "learning_rate": 7.275134626769369e-05, + "loss": 0.1147, + "step": 6220 + }, + { + "epoch": 4.153333333333333, + "grad_norm": 3.5494492053985596, + "learning_rate": 7.264767297439454e-05, + "loss": 0.1037, + "step": 6230 + }, + { + "epoch": 4.16, + "grad_norm": 3.0361685752868652, + "learning_rate": 7.254387703447154e-05, + "loss": 0.1446, + "step": 6240 + }, + { + "epoch": 4.166666666666667, + "grad_norm": 0.9815531969070435, + "learning_rate": 7.243995901002312e-05, + "loss": 0.1033, + "step": 6250 + }, + { + "epoch": 4.173333333333334, + "grad_norm": 1.4423681497573853, + "learning_rate": 7.233591946380885e-05, + "loss": 0.1152, + "step": 6260 + }, + { + "epoch": 4.18, + "grad_norm": 1.7994564771652222, + "learning_rate": 7.223175895924638e-05, + "loss": 0.1168, + "step": 6270 + }, + { + "epoch": 4.1866666666666665, + "grad_norm": 4.3155107498168945, + "learning_rate": 7.212747806040845e-05, + "loss": 0.1425, + "step": 6280 + }, + { + "epoch": 4.193333333333333, + "grad_norm": 1.702054738998413, + "learning_rate": 7.202307733201975e-05, + "loss": 0.0918, + "step": 6290 + }, + { + "epoch": 4.2, + "grad_norm": 1.3968626260757446, + "learning_rate": 7.191855733945387e-05, + "loss": 0.1101, + "step": 6300 + }, + { + "epoch": 4.2, + "eval_darija_finetune_val_loss": 1.1337895393371582, + "eval_darija_finetune_val_runtime": 251.5264, + "eval_darija_finetune_val_samples_per_second": 3.976, + "eval_darija_finetune_val_steps_per_second": 1.988, + "step": 6300 + }, + { + "epoch": 4.206666666666667, + "grad_norm": 2.5605881214141846, + "learning_rate": 7.181391864873034e-05, + "loss": 0.1587, + "step": 6310 + }, + { + "epoch": 4.213333333333333, + "grad_norm": 2.3713390827178955, + "learning_rate": 7.170916182651141e-05, + "loss": 0.1118, + "step": 6320 + }, + { + "epoch": 4.22, + "grad_norm": 1.4577856063842773, + "learning_rate": 7.160428744009912e-05, + "loss": 0.091, + "step": 6330 + }, + { + "epoch": 4.226666666666667, + "grad_norm": 2.9399588108062744, + "learning_rate": 7.149929605743214e-05, + "loss": 0.1118, + "step": 6340 + }, + { + "epoch": 4.233333333333333, + "grad_norm": 2.117471933364868, + "learning_rate": 7.139418824708272e-05, + "loss": 0.1471, + "step": 6350 + }, + { + "epoch": 4.24, + "grad_norm": 1.355743408203125, + "learning_rate": 7.128896457825364e-05, + "loss": 0.112, + "step": 6360 + }, + { + "epoch": 4.246666666666667, + "grad_norm": 3.3612260818481445, + "learning_rate": 7.118362562077507e-05, + "loss": 0.1086, + "step": 6370 + }, + { + "epoch": 4.253333333333333, + "grad_norm": 1.7723010778427124, + "learning_rate": 7.107817194510156e-05, + "loss": 0.1241, + "step": 6380 + }, + { + "epoch": 4.26, + "grad_norm": 1.2121965885162354, + "learning_rate": 7.097260412230886e-05, + "loss": 0.1104, + "step": 6390 + }, + { + "epoch": 4.266666666666667, + "grad_norm": 2.359118938446045, + "learning_rate": 7.08669227240909e-05, + "loss": 0.1181, + "step": 6400 + }, + { + "epoch": 4.266666666666667, + "eval_darija_finetune_val_loss": 1.1338962316513062, + "eval_darija_finetune_val_runtime": 250.7166, + "eval_darija_finetune_val_samples_per_second": 3.989, + "eval_darija_finetune_val_steps_per_second": 1.994, + "step": 6400 + }, + { + "epoch": 4.273333333333333, + "grad_norm": 2.4427218437194824, + "learning_rate": 7.076112832275666e-05, + "loss": 0.114, + "step": 6410 + }, + { + "epoch": 4.28, + "grad_norm": 2.8912808895111084, + "learning_rate": 7.06552214912271e-05, + "loss": 0.1286, + "step": 6420 + }, + { + "epoch": 4.286666666666667, + "grad_norm": 1.7848323583602905, + "learning_rate": 7.054920280303198e-05, + "loss": 0.1212, + "step": 6430 + }, + { + "epoch": 4.293333333333333, + "grad_norm": 1.7807093858718872, + "learning_rate": 7.04430728323069e-05, + "loss": 0.1232, + "step": 6440 + }, + { + "epoch": 4.3, + "grad_norm": 2.2855074405670166, + "learning_rate": 7.033683215379002e-05, + "loss": 0.1299, + "step": 6450 + }, + { + "epoch": 4.306666666666667, + "grad_norm": 4.981772422790527, + "learning_rate": 7.023048134281906e-05, + "loss": 0.1037, + "step": 6460 + }, + { + "epoch": 4.3133333333333335, + "grad_norm": 3.561656951904297, + "learning_rate": 7.012402097532816e-05, + "loss": 0.1021, + "step": 6470 + }, + { + "epoch": 4.32, + "grad_norm": 2.332230806350708, + "learning_rate": 7.001745162784477e-05, + "loss": 0.1057, + "step": 6480 + }, + { + "epoch": 4.326666666666666, + "grad_norm": 2.583981990814209, + "learning_rate": 6.991077387748644e-05, + "loss": 0.1213, + "step": 6490 + }, + { + "epoch": 4.333333333333333, + "grad_norm": 2.34023380279541, + "learning_rate": 6.980398830195785e-05, + "loss": 0.159, + "step": 6500 + }, + { + "epoch": 4.333333333333333, + "eval_darija_finetune_val_loss": 1.1607309579849243, + "eval_darija_finetune_val_runtime": 251.0775, + "eval_darija_finetune_val_samples_per_second": 3.983, + "eval_darija_finetune_val_steps_per_second": 1.991, + "step": 6500 + }, + { + "epoch": 4.34, + "grad_norm": 4.256485462188721, + "learning_rate": 6.969709547954756e-05, + "loss": 0.1146, + "step": 6510 + }, + { + "epoch": 4.346666666666667, + "grad_norm": 1.3155460357666016, + "learning_rate": 6.959009598912492e-05, + "loss": 0.1133, + "step": 6520 + }, + { + "epoch": 4.3533333333333335, + "grad_norm": 2.4420251846313477, + "learning_rate": 6.948299041013696e-05, + "loss": 0.1131, + "step": 6530 + }, + { + "epoch": 4.36, + "grad_norm": 1.7522600889205933, + "learning_rate": 6.937577932260515e-05, + "loss": 0.1148, + "step": 6540 + }, + { + "epoch": 4.366666666666666, + "grad_norm": 1.9587124586105347, + "learning_rate": 6.926846330712242e-05, + "loss": 0.1078, + "step": 6550 + }, + { + "epoch": 4.373333333333333, + "grad_norm": 2.6009035110473633, + "learning_rate": 6.916104294484988e-05, + "loss": 0.1234, + "step": 6560 + }, + { + "epoch": 4.38, + "grad_norm": 2.749417304992676, + "learning_rate": 6.905351881751372e-05, + "loss": 0.1084, + "step": 6570 + }, + { + "epoch": 4.386666666666667, + "grad_norm": 2.5170063972473145, + "learning_rate": 6.894589150740207e-05, + "loss": 0.1134, + "step": 6580 + }, + { + "epoch": 4.3933333333333335, + "grad_norm": 0.7062837481498718, + "learning_rate": 6.883816159736186e-05, + "loss": 0.1158, + "step": 6590 + }, + { + "epoch": 4.4, + "grad_norm": 2.230564594268799, + "learning_rate": 6.873032967079561e-05, + "loss": 0.1744, + "step": 6600 + }, + { + "epoch": 4.4, + "eval_darija_finetune_val_loss": 1.1640223264694214, + "eval_darija_finetune_val_runtime": 250.6628, + "eval_darija_finetune_val_samples_per_second": 3.989, + "eval_darija_finetune_val_steps_per_second": 1.995, + "step": 6600 + }, + { + "epoch": 4.406666666666666, + "grad_norm": 2.5334784984588623, + "learning_rate": 6.862239631165832e-05, + "loss": 0.1336, + "step": 6610 + }, + { + "epoch": 4.413333333333333, + "grad_norm": 5.693446159362793, + "learning_rate": 6.851436210445427e-05, + "loss": 0.1513, + "step": 6620 + }, + { + "epoch": 4.42, + "grad_norm": 1.204634666442871, + "learning_rate": 6.840622763423391e-05, + "loss": 0.1046, + "step": 6630 + }, + { + "epoch": 4.426666666666667, + "grad_norm": 2.1321589946746826, + "learning_rate": 6.82979934865906e-05, + "loss": 0.0969, + "step": 6640 + }, + { + "epoch": 4.433333333333334, + "grad_norm": 2.5171074867248535, + "learning_rate": 6.818966024765758e-05, + "loss": 0.1099, + "step": 6650 + }, + { + "epoch": 4.44, + "grad_norm": 1.5263279676437378, + "learning_rate": 6.808122850410461e-05, + "loss": 0.1207, + "step": 6660 + }, + { + "epoch": 4.446666666666666, + "grad_norm": 2.026616096496582, + "learning_rate": 6.797269884313499e-05, + "loss": 0.1226, + "step": 6670 + }, + { + "epoch": 4.453333333333333, + "grad_norm": 2.2255218029022217, + "learning_rate": 6.78640718524822e-05, + "loss": 0.1271, + "step": 6680 + }, + { + "epoch": 4.46, + "grad_norm": 1.994191288948059, + "learning_rate": 6.775534812040685e-05, + "loss": 0.1432, + "step": 6690 + }, + { + "epoch": 4.466666666666667, + "grad_norm": 1.748871088027954, + "learning_rate": 6.764652823569344e-05, + "loss": 0.1352, + "step": 6700 + }, + { + "epoch": 4.466666666666667, + "eval_darija_finetune_val_loss": 1.131036639213562, + "eval_darija_finetune_val_runtime": 250.7291, + "eval_darija_finetune_val_samples_per_second": 3.988, + "eval_darija_finetune_val_steps_per_second": 1.994, + "step": 6700 + }, + { + "epoch": 4.473333333333334, + "grad_norm": 1.844069004058838, + "learning_rate": 6.753761278764719e-05, + "loss": 0.1111, + "step": 6710 + }, + { + "epoch": 4.48, + "grad_norm": 1.6589782238006592, + "learning_rate": 6.742860236609077e-05, + "loss": 0.1263, + "step": 6720 + }, + { + "epoch": 4.486666666666666, + "grad_norm": 1.656043529510498, + "learning_rate": 6.731949756136125e-05, + "loss": 0.0967, + "step": 6730 + }, + { + "epoch": 4.493333333333333, + "grad_norm": 2.5150537490844727, + "learning_rate": 6.721029896430678e-05, + "loss": 0.133, + "step": 6740 + }, + { + "epoch": 4.5, + "grad_norm": 0.9953697323799133, + "learning_rate": 6.710100716628344e-05, + "loss": 0.105, + "step": 6750 + }, + { + "epoch": 4.506666666666667, + "grad_norm": 1.0099587440490723, + "learning_rate": 6.699162275915208e-05, + "loss": 0.1353, + "step": 6760 + }, + { + "epoch": 4.513333333333334, + "grad_norm": 1.0515936613082886, + "learning_rate": 6.688214633527495e-05, + "loss": 0.1362, + "step": 6770 + }, + { + "epoch": 4.52, + "grad_norm": 1.194707989692688, + "learning_rate": 6.677257848751277e-05, + "loss": 0.1059, + "step": 6780 + }, + { + "epoch": 4.526666666666666, + "grad_norm": 3.6087021827697754, + "learning_rate": 6.666291980922121e-05, + "loss": 0.1297, + "step": 6790 + }, + { + "epoch": 4.533333333333333, + "grad_norm": 1.7717890739440918, + "learning_rate": 6.65531708942479e-05, + "loss": 0.1213, + "step": 6800 + }, + { + "epoch": 4.533333333333333, + "eval_darija_finetune_val_loss": 1.149727702140808, + "eval_darija_finetune_val_runtime": 250.4475, + "eval_darija_finetune_val_samples_per_second": 3.993, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 6800 + }, + { + "epoch": 4.54, + "grad_norm": 1.3409775495529175, + "learning_rate": 6.644333233692916e-05, + "loss": 0.1002, + "step": 6810 + }, + { + "epoch": 4.546666666666667, + "grad_norm": 2.2486448287963867, + "learning_rate": 6.633340473208673e-05, + "loss": 0.1141, + "step": 6820 + }, + { + "epoch": 4.553333333333334, + "grad_norm": 2.8300209045410156, + "learning_rate": 6.622338867502452e-05, + "loss": 0.1318, + "step": 6830 + }, + { + "epoch": 4.5600000000000005, + "grad_norm": 1.8849334716796875, + "learning_rate": 6.611328476152557e-05, + "loss": 0.1222, + "step": 6840 + }, + { + "epoch": 4.566666666666666, + "grad_norm": 1.4102360010147095, + "learning_rate": 6.600309358784857e-05, + "loss": 0.117, + "step": 6850 + }, + { + "epoch": 4.573333333333333, + "grad_norm": 4.0373101234436035, + "learning_rate": 6.58928157507249e-05, + "loss": 0.1519, + "step": 6860 + }, + { + "epoch": 4.58, + "grad_norm": 2.19834566116333, + "learning_rate": 6.578245184735513e-05, + "loss": 0.1406, + "step": 6870 + }, + { + "epoch": 4.586666666666667, + "grad_norm": 1.9497387409210205, + "learning_rate": 6.567200247540598e-05, + "loss": 0.1023, + "step": 6880 + }, + { + "epoch": 4.593333333333334, + "grad_norm": 1.6798151731491089, + "learning_rate": 6.5561468233007e-05, + "loss": 0.1274, + "step": 6890 + }, + { + "epoch": 4.6, + "grad_norm": 1.5722401142120361, + "learning_rate": 6.545084971874738e-05, + "loss": 0.1312, + "step": 6900 + }, + { + "epoch": 4.6, + "eval_darija_finetune_val_loss": 1.1598743200302124, + "eval_darija_finetune_val_runtime": 250.9767, + "eval_darija_finetune_val_samples_per_second": 3.984, + "eval_darija_finetune_val_steps_per_second": 1.992, + "step": 6900 + }, + { + "epoch": 4.6066666666666665, + "grad_norm": 3.296430826187134, + "learning_rate": 6.534014753167262e-05, + "loss": 0.1347, + "step": 6910 + }, + { + "epoch": 4.613333333333333, + "grad_norm": 3.979606866836548, + "learning_rate": 6.52293622712814e-05, + "loss": 0.1317, + "step": 6920 + }, + { + "epoch": 4.62, + "grad_norm": 2.885796308517456, + "learning_rate": 6.511849453752223e-05, + "loss": 0.1394, + "step": 6930 + }, + { + "epoch": 4.626666666666667, + "grad_norm": 1.8883413076400757, + "learning_rate": 6.50075449307903e-05, + "loss": 0.1027, + "step": 6940 + }, + { + "epoch": 4.633333333333333, + "grad_norm": 1.542133092880249, + "learning_rate": 6.48965140519241e-05, + "loss": 0.1241, + "step": 6950 + }, + { + "epoch": 4.64, + "grad_norm": 1.0382766723632812, + "learning_rate": 6.478540250220234e-05, + "loss": 0.1321, + "step": 6960 + }, + { + "epoch": 4.6466666666666665, + "grad_norm": 1.6641182899475098, + "learning_rate": 6.467421088334052e-05, + "loss": 0.1274, + "step": 6970 + }, + { + "epoch": 4.653333333333333, + "grad_norm": 1.650255799293518, + "learning_rate": 6.456293979748778e-05, + "loss": 0.1086, + "step": 6980 + }, + { + "epoch": 4.66, + "grad_norm": 3.1123459339141846, + "learning_rate": 6.445158984722358e-05, + "loss": 0.1006, + "step": 6990 + }, + { + "epoch": 4.666666666666667, + "grad_norm": 2.706857919692993, + "learning_rate": 6.434016163555452e-05, + "loss": 0.1134, + "step": 7000 + }, + { + "epoch": 4.666666666666667, + "eval_darija_finetune_val_loss": 1.1582876443862915, + "eval_darija_finetune_val_runtime": 250.7529, + "eval_darija_finetune_val_samples_per_second": 3.988, + "eval_darija_finetune_val_steps_per_second": 1.994, + "step": 7000 + }, + { + "epoch": 4.673333333333334, + "grad_norm": 1.6895631551742554, + "learning_rate": 6.422865576591096e-05, + "loss": 0.0996, + "step": 7010 + }, + { + "epoch": 4.68, + "grad_norm": 1.6471974849700928, + "learning_rate": 6.411707284214384e-05, + "loss": 0.1202, + "step": 7020 + }, + { + "epoch": 4.6866666666666665, + "grad_norm": 2.9169414043426514, + "learning_rate": 6.400541346852136e-05, + "loss": 0.1536, + "step": 7030 + }, + { + "epoch": 4.693333333333333, + "grad_norm": 2.272585868835449, + "learning_rate": 6.389367824972574e-05, + "loss": 0.1105, + "step": 7040 + }, + { + "epoch": 4.7, + "grad_norm": 2.646923303604126, + "learning_rate": 6.378186779084995e-05, + "loss": 0.1466, + "step": 7050 + }, + { + "epoch": 4.706666666666667, + "grad_norm": 1.3121691942214966, + "learning_rate": 6.366998269739441e-05, + "loss": 0.1286, + "step": 7060 + }, + { + "epoch": 4.713333333333333, + "grad_norm": 3.063016891479492, + "learning_rate": 6.35580235752637e-05, + "loss": 0.1326, + "step": 7070 + }, + { + "epoch": 4.72, + "grad_norm": 2.264636754989624, + "learning_rate": 6.344599103076329e-05, + "loss": 0.1004, + "step": 7080 + }, + { + "epoch": 4.726666666666667, + "grad_norm": 2.810906171798706, + "learning_rate": 6.333388567059628e-05, + "loss": 0.149, + "step": 7090 + }, + { + "epoch": 4.733333333333333, + "grad_norm": 1.6284946203231812, + "learning_rate": 6.322170810186012e-05, + "loss": 0.1182, + "step": 7100 + }, + { + "epoch": 4.733333333333333, + "eval_darija_finetune_val_loss": 1.1296817064285278, + "eval_darija_finetune_val_runtime": 251.1445, + "eval_darija_finetune_val_samples_per_second": 3.982, + "eval_darija_finetune_val_steps_per_second": 1.991, + "step": 7100 + }, + { + "epoch": 4.74, + "grad_norm": 2.5914769172668457, + "learning_rate": 6.310945893204324e-05, + "loss": 0.1382, + "step": 7110 + }, + { + "epoch": 4.746666666666667, + "grad_norm": 2.053025960922241, + "learning_rate": 6.299713876902187e-05, + "loss": 0.1103, + "step": 7120 + }, + { + "epoch": 4.753333333333333, + "grad_norm": 3.0918776988983154, + "learning_rate": 6.28847482210567e-05, + "loss": 0.1127, + "step": 7130 + }, + { + "epoch": 4.76, + "grad_norm": 3.1514220237731934, + "learning_rate": 6.277228789678953e-05, + "loss": 0.1379, + "step": 7140 + }, + { + "epoch": 4.766666666666667, + "grad_norm": 1.768611192703247, + "learning_rate": 6.26597584052401e-05, + "loss": 0.1153, + "step": 7150 + }, + { + "epoch": 4.773333333333333, + "grad_norm": 1.8044191598892212, + "learning_rate": 6.254716035580263e-05, + "loss": 0.119, + "step": 7160 + }, + { + "epoch": 4.78, + "grad_norm": 1.5287675857543945, + "learning_rate": 6.243449435824276e-05, + "loss": 0.0896, + "step": 7170 + }, + { + "epoch": 4.786666666666667, + "grad_norm": 2.2437193393707275, + "learning_rate": 6.23217610226939e-05, + "loss": 0.122, + "step": 7180 + }, + { + "epoch": 4.793333333333333, + "grad_norm": 3.784885883331299, + "learning_rate": 6.220896095965427e-05, + "loss": 0.1413, + "step": 7190 + }, + { + "epoch": 4.8, + "grad_norm": 2.44252610206604, + "learning_rate": 6.209609477998338e-05, + "loss": 0.12, + "step": 7200 + }, + { + "epoch": 4.8, + "eval_darija_finetune_val_loss": 1.1357548236846924, + "eval_darija_finetune_val_runtime": 251.12, + "eval_darija_finetune_val_samples_per_second": 3.982, + "eval_darija_finetune_val_steps_per_second": 1.991, + "step": 7200 + }, + { + "epoch": 4.806666666666667, + "grad_norm": 1.4872726202011108, + "learning_rate": 6.198316309489885e-05, + "loss": 0.1422, + "step": 7210 + }, + { + "epoch": 4.8133333333333335, + "grad_norm": 2.061249017715454, + "learning_rate": 6.187016651597298e-05, + "loss": 0.1111, + "step": 7220 + }, + { + "epoch": 4.82, + "grad_norm": 2.2852370738983154, + "learning_rate": 6.17571056551295e-05, + "loss": 0.1229, + "step": 7230 + }, + { + "epoch": 4.826666666666666, + "grad_norm": 2.49603271484375, + "learning_rate": 6.164398112464029e-05, + "loss": 0.1061, + "step": 7240 + }, + { + "epoch": 4.833333333333333, + "grad_norm": 2.6090288162231445, + "learning_rate": 6.153079353712201e-05, + "loss": 0.1363, + "step": 7250 + }, + { + "epoch": 4.84, + "grad_norm": 2.1548407077789307, + "learning_rate": 6.141754350553279e-05, + "loss": 0.103, + "step": 7260 + }, + { + "epoch": 4.846666666666667, + "grad_norm": 2.032132863998413, + "learning_rate": 6.130423164316893e-05, + "loss": 0.1141, + "step": 7270 + }, + { + "epoch": 4.8533333333333335, + "grad_norm": 2.2787234783172607, + "learning_rate": 6.119085856366157e-05, + "loss": 0.1181, + "step": 7280 + }, + { + "epoch": 4.86, + "grad_norm": 2.259946346282959, + "learning_rate": 6.107742488097338e-05, + "loss": 0.1036, + "step": 7290 + }, + { + "epoch": 4.866666666666667, + "grad_norm": 1.1073516607284546, + "learning_rate": 6.096393120939516e-05, + "loss": 0.1125, + "step": 7300 + }, + { + "epoch": 4.866666666666667, + "eval_darija_finetune_val_loss": 1.1512614488601685, + "eval_darija_finetune_val_runtime": 250.9704, + "eval_darija_finetune_val_samples_per_second": 3.985, + "eval_darija_finetune_val_steps_per_second": 1.992, + "step": 7300 + }, + { + "epoch": 4.873333333333333, + "grad_norm": 2.818178415298462, + "learning_rate": 6.0850378163542685e-05, + "loss": 0.1025, + "step": 7310 + }, + { + "epoch": 4.88, + "grad_norm": 1.3745754957199097, + "learning_rate": 6.073676635835317e-05, + "loss": 0.1405, + "step": 7320 + }, + { + "epoch": 4.886666666666667, + "grad_norm": 1.1218392848968506, + "learning_rate": 6.062309640908206e-05, + "loss": 0.1349, + "step": 7330 + }, + { + "epoch": 4.8933333333333335, + "grad_norm": 1.891350269317627, + "learning_rate": 6.05093689312997e-05, + "loss": 0.1527, + "step": 7340 + }, + { + "epoch": 4.9, + "grad_norm": 2.118053436279297, + "learning_rate": 6.0395584540887963e-05, + "loss": 0.1138, + "step": 7350 + }, + { + "epoch": 4.906666666666666, + "grad_norm": 3.6721489429473877, + "learning_rate": 6.0281743854036934e-05, + "loss": 0.1456, + "step": 7360 + }, + { + "epoch": 4.913333333333333, + "grad_norm": 2.1043777465820312, + "learning_rate": 6.0167847487241526e-05, + "loss": 0.132, + "step": 7370 + }, + { + "epoch": 4.92, + "grad_norm": 3.062847137451172, + "learning_rate": 6.005389605729824e-05, + "loss": 0.1388, + "step": 7380 + }, + { + "epoch": 4.926666666666667, + "grad_norm": 2.496518611907959, + "learning_rate": 5.993989018130173e-05, + "loss": 0.1069, + "step": 7390 + }, + { + "epoch": 4.933333333333334, + "grad_norm": 1.0401902198791504, + "learning_rate": 5.982583047664151e-05, + "loss": 0.1058, + "step": 7400 + }, + { + "epoch": 4.933333333333334, + "eval_darija_finetune_val_loss": 1.13973069190979, + "eval_darija_finetune_val_runtime": 251.0228, + "eval_darija_finetune_val_samples_per_second": 3.984, + "eval_darija_finetune_val_steps_per_second": 1.992, + "step": 7400 + }, + { + "epoch": 4.9399999999999995, + "grad_norm": 2.9795641899108887, + "learning_rate": 5.97117175609986e-05, + "loss": 0.1352, + "step": 7410 + }, + { + "epoch": 4.946666666666666, + "grad_norm": 1.8589378595352173, + "learning_rate": 5.959755205234217e-05, + "loss": 0.1037, + "step": 7420 + }, + { + "epoch": 4.953333333333333, + "grad_norm": 4.485324859619141, + "learning_rate": 5.948333456892624e-05, + "loss": 0.1381, + "step": 7430 + }, + { + "epoch": 4.96, + "grad_norm": 4.885230541229248, + "learning_rate": 5.9369065729286245e-05, + "loss": 0.0892, + "step": 7440 + }, + { + "epoch": 4.966666666666667, + "grad_norm": 1.403702735900879, + "learning_rate": 5.925474615223573e-05, + "loss": 0.1021, + "step": 7450 + }, + { + "epoch": 4.973333333333334, + "grad_norm": 2.48933482170105, + "learning_rate": 5.914037645686308e-05, + "loss": 0.1352, + "step": 7460 + }, + { + "epoch": 4.98, + "grad_norm": 3.1890311241149902, + "learning_rate": 5.902595726252801e-05, + "loss": 0.1472, + "step": 7470 + }, + { + "epoch": 4.986666666666666, + "grad_norm": 1.6501593589782715, + "learning_rate": 5.891148918885834e-05, + "loss": 0.1349, + "step": 7480 + }, + { + "epoch": 4.993333333333333, + "grad_norm": 2.1183598041534424, + "learning_rate": 5.879697285574655e-05, + "loss": 0.1231, + "step": 7490 + }, + { + "epoch": 5.0, + "grad_norm": 2.1824440956115723, + "learning_rate": 5.868240888334653e-05, + "loss": 0.1132, + "step": 7500 + }, + { + "epoch": 5.0, + "eval_darija_finetune_val_loss": 1.1795510053634644, + "eval_darija_finetune_val_runtime": 250.9684, + "eval_darija_finetune_val_samples_per_second": 3.985, + "eval_darija_finetune_val_steps_per_second": 1.992, + "step": 7500 + }, + { + "epoch": 5.006666666666667, + "grad_norm": 2.23877215385437, + "learning_rate": 5.85677978920701e-05, + "loss": 0.0618, + "step": 7510 + }, + { + "epoch": 5.013333333333334, + "grad_norm": 2.471526622772217, + "learning_rate": 5.84531405025837e-05, + "loss": 0.0584, + "step": 7520 + }, + { + "epoch": 5.02, + "grad_norm": 2.3049094676971436, + "learning_rate": 5.833843733580512e-05, + "loss": 0.0594, + "step": 7530 + }, + { + "epoch": 5.026666666666666, + "grad_norm": 2.900526523590088, + "learning_rate": 5.822368901289994e-05, + "loss": 0.0647, + "step": 7540 + }, + { + "epoch": 5.033333333333333, + "grad_norm": 1.1554726362228394, + "learning_rate": 5.810889615527838e-05, + "loss": 0.06, + "step": 7550 + }, + { + "epoch": 5.04, + "grad_norm": 2.980794668197632, + "learning_rate": 5.799405938459175e-05, + "loss": 0.0709, + "step": 7560 + }, + { + "epoch": 5.046666666666667, + "grad_norm": 1.1436100006103516, + "learning_rate": 5.787917932272922e-05, + "loss": 0.0507, + "step": 7570 + }, + { + "epoch": 5.053333333333334, + "grad_norm": 2.328636407852173, + "learning_rate": 5.776425659181438e-05, + "loss": 0.0558, + "step": 7580 + }, + { + "epoch": 5.06, + "grad_norm": 1.6394574642181396, + "learning_rate": 5.764929181420191e-05, + "loss": 0.0721, + "step": 7590 + }, + { + "epoch": 5.066666666666666, + "grad_norm": 1.8003982305526733, + "learning_rate": 5.753428561247416e-05, + "loss": 0.0584, + "step": 7600 + }, + { + "epoch": 5.066666666666666, + "eval_darija_finetune_val_loss": 1.2997612953186035, + "eval_darija_finetune_val_runtime": 251.4359, + "eval_darija_finetune_val_samples_per_second": 3.977, + "eval_darija_finetune_val_steps_per_second": 1.989, + "step": 7600 + }, + { + "epoch": 5.073333333333333, + "grad_norm": 2.29107666015625, + "learning_rate": 5.741923860943783e-05, + "loss": 0.0577, + "step": 7610 + }, + { + "epoch": 5.08, + "grad_norm": 1.6476086378097534, + "learning_rate": 5.730415142812059e-05, + "loss": 0.0526, + "step": 7620 + }, + { + "epoch": 5.086666666666667, + "grad_norm": 1.0528260469436646, + "learning_rate": 5.7189024691767644e-05, + "loss": 0.0598, + "step": 7630 + }, + { + "epoch": 5.093333333333334, + "grad_norm": 0.8882933855056763, + "learning_rate": 5.707385902383845e-05, + "loss": 0.0733, + "step": 7640 + }, + { + "epoch": 5.1, + "grad_norm": 2.0562684535980225, + "learning_rate": 5.695865504800327e-05, + "loss": 0.0718, + "step": 7650 + }, + { + "epoch": 5.1066666666666665, + "grad_norm": 2.260718584060669, + "learning_rate": 5.684341338813985e-05, + "loss": 0.0493, + "step": 7660 + }, + { + "epoch": 5.113333333333333, + "grad_norm": 2.2664506435394287, + "learning_rate": 5.672813466832998e-05, + "loss": 0.0531, + "step": 7670 + }, + { + "epoch": 5.12, + "grad_norm": 1.9369488954544067, + "learning_rate": 5.661281951285613e-05, + "loss": 0.0622, + "step": 7680 + }, + { + "epoch": 5.126666666666667, + "grad_norm": 2.823375701904297, + "learning_rate": 5.649746854619814e-05, + "loss": 0.0776, + "step": 7690 + }, + { + "epoch": 5.133333333333334, + "grad_norm": 2.585181713104248, + "learning_rate": 5.6382082393029746e-05, + "loss": 0.0646, + "step": 7700 + }, + { + "epoch": 5.133333333333334, + "eval_darija_finetune_val_loss": 1.2274469137191772, + "eval_darija_finetune_val_runtime": 251.1932, + "eval_darija_finetune_val_samples_per_second": 3.981, + "eval_darija_finetune_val_steps_per_second": 1.99, + "step": 7700 + }, + { + "epoch": 5.14, + "grad_norm": 3.1397130489349365, + "learning_rate": 5.6266661678215216e-05, + "loss": 0.0739, + "step": 7710 + }, + { + "epoch": 5.1466666666666665, + "grad_norm": 1.5548475980758667, + "learning_rate": 5.615120702680604e-05, + "loss": 0.0634, + "step": 7720 + }, + { + "epoch": 5.153333333333333, + "grad_norm": 1.8686720132827759, + "learning_rate": 5.603571906403744e-05, + "loss": 0.0753, + "step": 7730 + }, + { + "epoch": 5.16, + "grad_norm": 1.7115989923477173, + "learning_rate": 5.5920198415325064e-05, + "loss": 0.0616, + "step": 7740 + }, + { + "epoch": 5.166666666666667, + "grad_norm": 2.0831711292266846, + "learning_rate": 5.5804645706261514e-05, + "loss": 0.0585, + "step": 7750 + }, + { + "epoch": 5.173333333333334, + "grad_norm": 2.360543727874756, + "learning_rate": 5.568906156261309e-05, + "loss": 0.0673, + "step": 7760 + }, + { + "epoch": 5.18, + "grad_norm": 1.7016955614089966, + "learning_rate": 5.557344661031627e-05, + "loss": 0.0549, + "step": 7770 + }, + { + "epoch": 5.1866666666666665, + "grad_norm": 2.0327515602111816, + "learning_rate": 5.54578014754744e-05, + "loss": 0.0532, + "step": 7780 + }, + { + "epoch": 5.193333333333333, + "grad_norm": 1.35123872756958, + "learning_rate": 5.534212678435426e-05, + "loss": 0.0642, + "step": 7790 + }, + { + "epoch": 5.2, + "grad_norm": 2.388533115386963, + "learning_rate": 5.522642316338268e-05, + "loss": 0.0618, + "step": 7800 + }, + { + "epoch": 5.2, + "eval_darija_finetune_val_loss": 1.2665941715240479, + "eval_darija_finetune_val_runtime": 251.0834, + "eval_darija_finetune_val_samples_per_second": 3.983, + "eval_darija_finetune_val_steps_per_second": 1.991, + "step": 7800 + }, + { + "epoch": 5.206666666666667, + "grad_norm": 1.145627498626709, + "learning_rate": 5.511069123914319e-05, + "loss": 0.0685, + "step": 7810 + }, + { + "epoch": 5.213333333333333, + "grad_norm": 1.7416365146636963, + "learning_rate": 5.499493163837257e-05, + "loss": 0.0637, + "step": 7820 + }, + { + "epoch": 5.22, + "grad_norm": 4.63102912902832, + "learning_rate": 5.487914498795747e-05, + "loss": 0.0646, + "step": 7830 + }, + { + "epoch": 5.226666666666667, + "grad_norm": 3.3398470878601074, + "learning_rate": 5.4763331914931084e-05, + "loss": 0.059, + "step": 7840 + }, + { + "epoch": 5.233333333333333, + "grad_norm": 1.0949503183364868, + "learning_rate": 5.464749304646962e-05, + "loss": 0.081, + "step": 7850 + }, + { + "epoch": 5.24, + "grad_norm": 0.8816141486167908, + "learning_rate": 5.453162900988902e-05, + "loss": 0.0688, + "step": 7860 + }, + { + "epoch": 5.246666666666667, + "grad_norm": 0.8794529438018799, + "learning_rate": 5.44157404326415e-05, + "loss": 0.046, + "step": 7870 + }, + { + "epoch": 5.253333333333333, + "grad_norm": 1.4905996322631836, + "learning_rate": 5.4299827942312206e-05, + "loss": 0.0699, + "step": 7880 + }, + { + "epoch": 5.26, + "grad_norm": 2.6474852561950684, + "learning_rate": 5.418389216661579e-05, + "loss": 0.052, + "step": 7890 + }, + { + "epoch": 5.266666666666667, + "grad_norm": 2.9993815422058105, + "learning_rate": 5.4067933733392915e-05, + "loss": 0.0647, + "step": 7900 + }, + { + "epoch": 5.266666666666667, + "eval_darija_finetune_val_loss": 1.2712538242340088, + "eval_darija_finetune_val_runtime": 250.7455, + "eval_darija_finetune_val_samples_per_second": 3.988, + "eval_darija_finetune_val_steps_per_second": 1.994, + "step": 7900 + }, + { + "epoch": 5.273333333333333, + "grad_norm": 1.6823506355285645, + "learning_rate": 5.395195327060707e-05, + "loss": 0.0654, + "step": 7910 + }, + { + "epoch": 5.28, + "grad_norm": 1.9661020040512085, + "learning_rate": 5.383595140634093e-05, + "loss": 0.084, + "step": 7920 + }, + { + "epoch": 5.286666666666667, + "grad_norm": 2.0941078662872314, + "learning_rate": 5.371992876879318e-05, + "loss": 0.0689, + "step": 7930 + }, + { + "epoch": 5.293333333333333, + "grad_norm": 1.579991340637207, + "learning_rate": 5.360388598627487e-05, + "loss": 0.0509, + "step": 7940 + }, + { + "epoch": 5.3, + "grad_norm": 1.7776626348495483, + "learning_rate": 5.348782368720626e-05, + "loss": 0.0732, + "step": 7950 + }, + { + "epoch": 5.306666666666667, + "grad_norm": 3.191277027130127, + "learning_rate": 5.337174250011327e-05, + "loss": 0.0635, + "step": 7960 + }, + { + "epoch": 5.3133333333333335, + "grad_norm": 2.231858253479004, + "learning_rate": 5.325564305362404e-05, + "loss": 0.0427, + "step": 7970 + }, + { + "epoch": 5.32, + "grad_norm": 0.9214258790016174, + "learning_rate": 5.313952597646568e-05, + "loss": 0.0463, + "step": 7980 + }, + { + "epoch": 5.326666666666666, + "grad_norm": 1.6483027935028076, + "learning_rate": 5.3023391897460715e-05, + "loss": 0.0498, + "step": 7990 + }, + { + "epoch": 5.333333333333333, + "grad_norm": 0.9848579168319702, + "learning_rate": 5.290724144552379e-05, + "loss": 0.0812, + "step": 8000 + }, + { + "epoch": 5.333333333333333, + "eval_darija_finetune_val_loss": 1.2937934398651123, + "eval_darija_finetune_val_runtime": 251.5433, + "eval_darija_finetune_val_samples_per_second": 3.975, + "eval_darija_finetune_val_steps_per_second": 1.988, + "step": 8000 + }, + { + "epoch": 5.34, + "grad_norm": 2.540947675704956, + "learning_rate": 5.279107524965819e-05, + "loss": 0.0516, + "step": 8010 + }, + { + "epoch": 5.346666666666667, + "grad_norm": 2.9750566482543945, + "learning_rate": 5.267489393895246e-05, + "loss": 0.0645, + "step": 8020 + }, + { + "epoch": 5.3533333333333335, + "grad_norm": 2.303624391555786, + "learning_rate": 5.2558698142577014e-05, + "loss": 0.0693, + "step": 8030 + }, + { + "epoch": 5.36, + "grad_norm": 1.1007741689682007, + "learning_rate": 5.244248848978067e-05, + "loss": 0.0462, + "step": 8040 + }, + { + "epoch": 5.366666666666666, + "grad_norm": 1.939629316329956, + "learning_rate": 5.232626560988735e-05, + "loss": 0.0723, + "step": 8050 + }, + { + "epoch": 5.373333333333333, + "grad_norm": 1.4235588312149048, + "learning_rate": 5.221003013229253e-05, + "loss": 0.0586, + "step": 8060 + }, + { + "epoch": 5.38, + "grad_norm": 1.4025421142578125, + "learning_rate": 5.209378268645998e-05, + "loss": 0.0658, + "step": 8070 + }, + { + "epoch": 5.386666666666667, + "grad_norm": 1.3068290948867798, + "learning_rate": 5.197752390191827e-05, + "loss": 0.0729, + "step": 8080 + }, + { + "epoch": 5.3933333333333335, + "grad_norm": 2.137641429901123, + "learning_rate": 5.1861254408257296e-05, + "loss": 0.0727, + "step": 8090 + }, + { + "epoch": 5.4, + "grad_norm": 2.777925491333008, + "learning_rate": 5.174497483512506e-05, + "loss": 0.062, + "step": 8100 + }, + { + "epoch": 5.4, + "eval_darija_finetune_val_loss": 1.2237080335617065, + "eval_darija_finetune_val_runtime": 251.1275, + "eval_darija_finetune_val_samples_per_second": 3.982, + "eval_darija_finetune_val_steps_per_second": 1.991, + "step": 8100 + }, + { + "epoch": 5.406666666666666, + "grad_norm": 1.6651339530944824, + "learning_rate": 5.162868581222406e-05, + "loss": 0.0918, + "step": 8110 + }, + { + "epoch": 5.413333333333333, + "grad_norm": 1.7358318567276, + "learning_rate": 5.151238796930804e-05, + "loss": 0.0605, + "step": 8120 + }, + { + "epoch": 5.42, + "grad_norm": 1.2620487213134766, + "learning_rate": 5.139608193617845e-05, + "loss": 0.0586, + "step": 8130 + }, + { + "epoch": 5.426666666666667, + "grad_norm": 1.2466048002243042, + "learning_rate": 5.127976834268111e-05, + "loss": 0.0653, + "step": 8140 + }, + { + "epoch": 5.433333333333334, + "grad_norm": 1.4595955610275269, + "learning_rate": 5.116344781870281e-05, + "loss": 0.0589, + "step": 8150 + }, + { + "epoch": 5.44, + "grad_norm": 0.7730015516281128, + "learning_rate": 5.104712099416785e-05, + "loss": 0.0458, + "step": 8160 + }, + { + "epoch": 5.446666666666666, + "grad_norm": 1.3240584135055542, + "learning_rate": 5.093078849903464e-05, + "loss": 0.0742, + "step": 8170 + }, + { + "epoch": 5.453333333333333, + "grad_norm": 1.1920605897903442, + "learning_rate": 5.0814450963292295e-05, + "loss": 0.0677, + "step": 8180 + }, + { + "epoch": 5.46, + "grad_norm": 0.8866370320320129, + "learning_rate": 5.0698109016957274e-05, + "loss": 0.0483, + "step": 8190 + }, + { + "epoch": 5.466666666666667, + "grad_norm": 0.9725927710533142, + "learning_rate": 5.0581763290069865e-05, + "loss": 0.0644, + "step": 8200 + }, + { + "epoch": 5.466666666666667, + "eval_darija_finetune_val_loss": 1.2755696773529053, + "eval_darija_finetune_val_runtime": 251.3179, + "eval_darija_finetune_val_samples_per_second": 3.979, + "eval_darija_finetune_val_steps_per_second": 1.99, + "step": 8200 + }, + { + "epoch": 5.473333333333334, + "grad_norm": 1.6509956121444702, + "learning_rate": 5.046541441269085e-05, + "loss": 0.0547, + "step": 8210 + }, + { + "epoch": 5.48, + "grad_norm": 1.4547119140625, + "learning_rate": 5.034906301489808e-05, + "loss": 0.0609, + "step": 8220 + }, + { + "epoch": 5.486666666666666, + "grad_norm": 2.4744632244110107, + "learning_rate": 5.023270972678307e-05, + "loss": 0.0901, + "step": 8230 + }, + { + "epoch": 5.493333333333333, + "grad_norm": 1.1388969421386719, + "learning_rate": 5.0116355178447525e-05, + "loss": 0.0698, + "step": 8240 + }, + { + "epoch": 5.5, + "grad_norm": 1.6075586080551147, + "learning_rate": 5e-05, + "loss": 0.0663, + "step": 8250 + }, + { + "epoch": 5.506666666666667, + "grad_norm": 2.4390969276428223, + "learning_rate": 4.9883644821552494e-05, + "loss": 0.0934, + "step": 8260 + }, + { + "epoch": 5.513333333333334, + "grad_norm": 2.0987679958343506, + "learning_rate": 4.976729027321694e-05, + "loss": 0.0701, + "step": 8270 + }, + { + "epoch": 5.52, + "grad_norm": 2.0108115673065186, + "learning_rate": 4.965093698510193e-05, + "loss": 0.062, + "step": 8280 + }, + { + "epoch": 5.526666666666666, + "grad_norm": 1.7241452932357788, + "learning_rate": 4.953458558730917e-05, + "loss": 0.0682, + "step": 8290 + }, + { + "epoch": 5.533333333333333, + "grad_norm": 1.5872305631637573, + "learning_rate": 4.941823670993016e-05, + "loss": 0.0868, + "step": 8300 + }, + { + "epoch": 5.533333333333333, + "eval_darija_finetune_val_loss": 1.228666067123413, + "eval_darija_finetune_val_runtime": 251.4894, + "eval_darija_finetune_val_samples_per_second": 3.976, + "eval_darija_finetune_val_steps_per_second": 1.988, + "step": 8300 + }, + { + "epoch": 5.54, + "grad_norm": 0.7067036032676697, + "learning_rate": 4.9301890983042744e-05, + "loss": 0.0585, + "step": 8310 + }, + { + "epoch": 5.546666666666667, + "grad_norm": 1.8270646333694458, + "learning_rate": 4.918554903670771e-05, + "loss": 0.0674, + "step": 8320 + }, + { + "epoch": 5.553333333333334, + "grad_norm": 1.6985547542572021, + "learning_rate": 4.9069211500965376e-05, + "loss": 0.0775, + "step": 8330 + }, + { + "epoch": 5.5600000000000005, + "grad_norm": 2.5389156341552734, + "learning_rate": 4.895287900583216e-05, + "loss": 0.061, + "step": 8340 + }, + { + "epoch": 5.566666666666666, + "grad_norm": 1.8453867435455322, + "learning_rate": 4.883655218129719e-05, + "loss": 0.0692, + "step": 8350 + }, + { + "epoch": 5.573333333333333, + "grad_norm": 2.115257740020752, + "learning_rate": 4.87202316573189e-05, + "loss": 0.0739, + "step": 8360 + }, + { + "epoch": 5.58, + "grad_norm": 1.3817392587661743, + "learning_rate": 4.860391806382157e-05, + "loss": 0.0515, + "step": 8370 + }, + { + "epoch": 5.586666666666667, + "grad_norm": 2.1890881061553955, + "learning_rate": 4.848761203069197e-05, + "loss": 0.0489, + "step": 8380 + }, + { + "epoch": 5.593333333333334, + "grad_norm": 2.6112964153289795, + "learning_rate": 4.837131418777595e-05, + "loss": 0.0797, + "step": 8390 + }, + { + "epoch": 5.6, + "grad_norm": 1.2393476963043213, + "learning_rate": 4.825502516487497e-05, + "loss": 0.0656, + "step": 8400 + }, + { + "epoch": 5.6, + "eval_darija_finetune_val_loss": 1.22938871383667, + "eval_darija_finetune_val_runtime": 251.4539, + "eval_darija_finetune_val_samples_per_second": 3.977, + "eval_darija_finetune_val_steps_per_second": 1.988, + "step": 8400 + }, + { + "epoch": 5.6066666666666665, + "grad_norm": 1.1704304218292236, + "learning_rate": 4.813874559174271e-05, + "loss": 0.0595, + "step": 8410 + }, + { + "epoch": 5.613333333333333, + "grad_norm": 1.3565338850021362, + "learning_rate": 4.802247609808175e-05, + "loss": 0.0548, + "step": 8420 + }, + { + "epoch": 5.62, + "grad_norm": 1.1226392984390259, + "learning_rate": 4.790621731354003e-05, + "loss": 0.0583, + "step": 8430 + }, + { + "epoch": 5.626666666666667, + "grad_norm": 1.534467339515686, + "learning_rate": 4.7789969867707466e-05, + "loss": 0.0675, + "step": 8440 + }, + { + "epoch": 5.633333333333333, + "grad_norm": 1.2419626712799072, + "learning_rate": 4.767373439011267e-05, + "loss": 0.0514, + "step": 8450 + }, + { + "epoch": 5.64, + "grad_norm": 2.0198440551757812, + "learning_rate": 4.755751151021934e-05, + "loss": 0.069, + "step": 8460 + }, + { + "epoch": 5.6466666666666665, + "grad_norm": 1.6115813255310059, + "learning_rate": 4.744130185742302e-05, + "loss": 0.0642, + "step": 8470 + }, + { + "epoch": 5.653333333333333, + "grad_norm": 1.2796847820281982, + "learning_rate": 4.732510606104754e-05, + "loss": 0.0658, + "step": 8480 + }, + { + "epoch": 5.66, + "grad_norm": 2.426217794418335, + "learning_rate": 4.720892475034181e-05, + "loss": 0.0754, + "step": 8490 + }, + { + "epoch": 5.666666666666667, + "grad_norm": 1.07455575466156, + "learning_rate": 4.709275855447621e-05, + "loss": 0.0781, + "step": 8500 + }, + { + "epoch": 5.666666666666667, + "eval_darija_finetune_val_loss": 1.2232787609100342, + "eval_darija_finetune_val_runtime": 251.3714, + "eval_darija_finetune_val_samples_per_second": 3.978, + "eval_darija_finetune_val_steps_per_second": 1.989, + "step": 8500 + }, + { + "epoch": 5.673333333333334, + "grad_norm": 1.71642005443573, + "learning_rate": 4.697660810253928e-05, + "loss": 0.0894, + "step": 8510 + }, + { + "epoch": 5.68, + "grad_norm": 1.4257092475891113, + "learning_rate": 4.6860474023534335e-05, + "loss": 0.0633, + "step": 8520 + }, + { + "epoch": 5.6866666666666665, + "grad_norm": 0.8825823664665222, + "learning_rate": 4.674435694637597e-05, + "loss": 0.0608, + "step": 8530 + }, + { + "epoch": 5.693333333333333, + "grad_norm": 2.008882761001587, + "learning_rate": 4.662825749988675e-05, + "loss": 0.0802, + "step": 8540 + }, + { + "epoch": 5.7, + "grad_norm": 1.6433957815170288, + "learning_rate": 4.6512176312793736e-05, + "loss": 0.0696, + "step": 8550 + }, + { + "epoch": 5.706666666666667, + "grad_norm": 2.9183971881866455, + "learning_rate": 4.639611401372513e-05, + "loss": 0.0879, + "step": 8560 + }, + { + "epoch": 5.713333333333333, + "grad_norm": 1.7496119737625122, + "learning_rate": 4.628007123120684e-05, + "loss": 0.057, + "step": 8570 + }, + { + "epoch": 5.72, + "grad_norm": 1.247615933418274, + "learning_rate": 4.616404859365907e-05, + "loss": 0.0681, + "step": 8580 + }, + { + "epoch": 5.726666666666667, + "grad_norm": 0.47007256746292114, + "learning_rate": 4.604804672939295e-05, + "loss": 0.0501, + "step": 8590 + }, + { + "epoch": 5.733333333333333, + "grad_norm": 1.553373098373413, + "learning_rate": 4.593206626660709e-05, + "loss": 0.0614, + "step": 8600 + }, + { + "epoch": 5.733333333333333, + "eval_darija_finetune_val_loss": 1.2798725366592407, + "eval_darija_finetune_val_runtime": 250.8376, + "eval_darija_finetune_val_samples_per_second": 3.987, + "eval_darija_finetune_val_steps_per_second": 1.993, + "step": 8600 + }, + { + "epoch": 5.74, + "grad_norm": 0.9789950251579285, + "learning_rate": 4.5816107833384234e-05, + "loss": 0.0552, + "step": 8610 + }, + { + "epoch": 5.746666666666667, + "grad_norm": 2.616753101348877, + "learning_rate": 4.570017205768779e-05, + "loss": 0.045, + "step": 8620 + }, + { + "epoch": 5.753333333333333, + "grad_norm": 0.9554610848426819, + "learning_rate": 4.558425956735851e-05, + "loss": 0.0509, + "step": 8630 + }, + { + "epoch": 5.76, + "grad_norm": 2.8962302207946777, + "learning_rate": 4.5468370990111006e-05, + "loss": 0.0772, + "step": 8640 + }, + { + "epoch": 5.766666666666667, + "grad_norm": 0.7186405658721924, + "learning_rate": 4.535250695353039e-05, + "loss": 0.0664, + "step": 8650 + }, + { + "epoch": 5.773333333333333, + "grad_norm": 2.5407843589782715, + "learning_rate": 4.523666808506893e-05, + "loss": 0.0553, + "step": 8660 + }, + { + "epoch": 5.78, + "grad_norm": 2.115316152572632, + "learning_rate": 4.512085501204253e-05, + "loss": 0.0622, + "step": 8670 + }, + { + "epoch": 5.786666666666667, + "grad_norm": 1.2670726776123047, + "learning_rate": 4.5005068361627455e-05, + "loss": 0.0637, + "step": 8680 + }, + { + "epoch": 5.793333333333333, + "grad_norm": 1.6296573877334595, + "learning_rate": 4.4889308760856824e-05, + "loss": 0.0632, + "step": 8690 + }, + { + "epoch": 5.8, + "grad_norm": 1.1136101484298706, + "learning_rate": 4.477357683661734e-05, + "loss": 0.1017, + "step": 8700 + }, + { + "epoch": 5.8, + "eval_darija_finetune_val_loss": 1.2554179430007935, + "eval_darija_finetune_val_runtime": 251.3787, + "eval_darija_finetune_val_samples_per_second": 3.978, + "eval_darija_finetune_val_steps_per_second": 1.989, + "step": 8700 + }, + { + "epoch": 5.806666666666667, + "grad_norm": 0.9940670132637024, + "learning_rate": 4.465787321564576e-05, + "loss": 0.0481, + "step": 8710 + }, + { + "epoch": 5.8133333333333335, + "grad_norm": 1.0235865116119385, + "learning_rate": 4.4542198524525596e-05, + "loss": 0.0709, + "step": 8720 + }, + { + "epoch": 5.82, + "grad_norm": 1.0836740732192993, + "learning_rate": 4.442655338968373e-05, + "loss": 0.0681, + "step": 8730 + }, + { + "epoch": 5.826666666666666, + "grad_norm": 2.385263204574585, + "learning_rate": 4.431093843738692e-05, + "loss": 0.0647, + "step": 8740 + }, + { + "epoch": 5.833333333333333, + "grad_norm": 4.232539653778076, + "learning_rate": 4.4195354293738484e-05, + "loss": 0.0582, + "step": 8750 + }, + { + "epoch": 5.84, + "grad_norm": 2.0027859210968018, + "learning_rate": 4.407980158467495e-05, + "loss": 0.0592, + "step": 8760 + }, + { + "epoch": 5.846666666666667, + "grad_norm": 2.5481772422790527, + "learning_rate": 4.396428093596258e-05, + "loss": 0.0769, + "step": 8770 + }, + { + "epoch": 5.8533333333333335, + "grad_norm": 2.9110665321350098, + "learning_rate": 4.384879297319398e-05, + "loss": 0.0681, + "step": 8780 + }, + { + "epoch": 5.86, + "grad_norm": 1.3947993516921997, + "learning_rate": 4.373333832178478e-05, + "loss": 0.0708, + "step": 8790 + }, + { + "epoch": 5.866666666666667, + "grad_norm": 1.3824599981307983, + "learning_rate": 4.361791760697027e-05, + "loss": 0.0563, + "step": 8800 + }, + { + "epoch": 5.866666666666667, + "eval_darija_finetune_val_loss": 1.2596887350082397, + "eval_darija_finetune_val_runtime": 251.8189, + "eval_darija_finetune_val_samples_per_second": 3.971, + "eval_darija_finetune_val_steps_per_second": 1.986, + "step": 8800 + }, + { + "epoch": 5.873333333333333, + "grad_norm": 2.5603954792022705, + "learning_rate": 4.350253145380189e-05, + "loss": 0.0518, + "step": 8810 + }, + { + "epoch": 5.88, + "grad_norm": 2.0834574699401855, + "learning_rate": 4.3387180487143876e-05, + "loss": 0.068, + "step": 8820 + }, + { + "epoch": 5.886666666666667, + "grad_norm": 2.329651117324829, + "learning_rate": 4.3271865331670034e-05, + "loss": 0.0538, + "step": 8830 + }, + { + "epoch": 5.8933333333333335, + "grad_norm": 1.0373562574386597, + "learning_rate": 4.315658661186016e-05, + "loss": 0.0555, + "step": 8840 + }, + { + "epoch": 5.9, + "grad_norm": 2.1047096252441406, + "learning_rate": 4.3041344951996746e-05, + "loss": 0.0814, + "step": 8850 + }, + { + "epoch": 5.906666666666666, + "grad_norm": 1.5799607038497925, + "learning_rate": 4.292614097616155e-05, + "loss": 0.0661, + "step": 8860 + }, + { + "epoch": 5.913333333333333, + "grad_norm": 1.2504569292068481, + "learning_rate": 4.281097530823237e-05, + "loss": 0.0676, + "step": 8870 + }, + { + "epoch": 5.92, + "grad_norm": 2.4727377891540527, + "learning_rate": 4.269584857187943e-05, + "loss": 0.0955, + "step": 8880 + }, + { + "epoch": 5.926666666666667, + "grad_norm": 1.5501047372817993, + "learning_rate": 4.2580761390562166e-05, + "loss": 0.0507, + "step": 8890 + }, + { + "epoch": 5.933333333333334, + "grad_norm": 1.0148085355758667, + "learning_rate": 4.246571438752585e-05, + "loss": 0.0805, + "step": 8900 + }, + { + "epoch": 5.933333333333334, + "eval_darija_finetune_val_loss": 1.2342748641967773, + "eval_darija_finetune_val_runtime": 251.4197, + "eval_darija_finetune_val_samples_per_second": 3.977, + "eval_darija_finetune_val_steps_per_second": 1.989, + "step": 8900 + }, + { + "epoch": 5.9399999999999995, + "grad_norm": 2.1895272731781006, + "learning_rate": 4.23507081857981e-05, + "loss": 0.0798, + "step": 8910 + }, + { + "epoch": 5.946666666666666, + "grad_norm": 1.3004837036132812, + "learning_rate": 4.223574340818563e-05, + "loss": 0.062, + "step": 8920 + }, + { + "epoch": 5.953333333333333, + "grad_norm": 2.082949161529541, + "learning_rate": 4.2120820677270787e-05, + "loss": 0.052, + "step": 8930 + }, + { + "epoch": 5.96, + "grad_norm": 1.6618324518203735, + "learning_rate": 4.2005940615408264e-05, + "loss": 0.066, + "step": 8940 + }, + { + "epoch": 5.966666666666667, + "grad_norm": 2.7575180530548096, + "learning_rate": 4.1891103844721636e-05, + "loss": 0.0651, + "step": 8950 + }, + { + "epoch": 5.973333333333334, + "grad_norm": 1.7879823446273804, + "learning_rate": 4.177631098710005e-05, + "loss": 0.0828, + "step": 8960 + }, + { + "epoch": 5.98, + "grad_norm": 2.325397491455078, + "learning_rate": 4.166156266419489e-05, + "loss": 0.0717, + "step": 8970 + }, + { + "epoch": 5.986666666666666, + "grad_norm": 3.2670581340789795, + "learning_rate": 4.1546859497416305e-05, + "loss": 0.0616, + "step": 8980 + }, + { + "epoch": 5.993333333333333, + "grad_norm": 1.1830976009368896, + "learning_rate": 4.143220210792993e-05, + "loss": 0.0615, + "step": 8990 + }, + { + "epoch": 6.0, + "grad_norm": 2.1980292797088623, + "learning_rate": 4.131759111665349e-05, + "loss": 0.0722, + "step": 9000 + }, + { + "epoch": 6.0, + "eval_darija_finetune_val_loss": 1.2291557788848877, + "eval_darija_finetune_val_runtime": 251.6333, + "eval_darija_finetune_val_samples_per_second": 3.974, + "eval_darija_finetune_val_steps_per_second": 1.987, + "step": 9000 + }, + { + "epoch": 6.006666666666667, + "grad_norm": 0.5339612364768982, + "learning_rate": 4.1203027144253464e-05, + "loss": 0.0244, + "step": 9010 + }, + { + "epoch": 6.013333333333334, + "grad_norm": 1.0790480375289917, + "learning_rate": 4.108851081114169e-05, + "loss": 0.0416, + "step": 9020 + }, + { + "epoch": 6.02, + "grad_norm": 5.62170934677124, + "learning_rate": 4.0974042737472006e-05, + "loss": 0.0432, + "step": 9030 + }, + { + "epoch": 6.026666666666666, + "grad_norm": 1.2824726104736328, + "learning_rate": 4.085962354313694e-05, + "loss": 0.0299, + "step": 9040 + }, + { + "epoch": 6.033333333333333, + "grad_norm": 1.6971455812454224, + "learning_rate": 4.074525384776428e-05, + "loss": 0.0339, + "step": 9050 + }, + { + "epoch": 6.04, + "grad_norm": 0.6380660533905029, + "learning_rate": 4.063093427071376e-05, + "loss": 0.0277, + "step": 9060 + }, + { + "epoch": 6.046666666666667, + "grad_norm": 0.9631791710853577, + "learning_rate": 4.051666543107377e-05, + "loss": 0.027, + "step": 9070 + }, + { + "epoch": 6.053333333333334, + "grad_norm": 1.714126706123352, + "learning_rate": 4.040244794765783e-05, + "loss": 0.0342, + "step": 9080 + }, + { + "epoch": 6.06, + "grad_norm": 0.9239168763160706, + "learning_rate": 4.028828243900141e-05, + "loss": 0.0402, + "step": 9090 + }, + { + "epoch": 6.066666666666666, + "grad_norm": 1.5617748498916626, + "learning_rate": 4.017416952335849e-05, + "loss": 0.045, + "step": 9100 + }, + { + "epoch": 6.066666666666666, + "eval_darija_finetune_val_loss": 1.2899894714355469, + "eval_darija_finetune_val_runtime": 254.5797, + "eval_darija_finetune_val_samples_per_second": 3.928, + "eval_darija_finetune_val_steps_per_second": 1.964, + "step": 9100 + }, + { + "epoch": 6.073333333333333, + "grad_norm": 0.9952075481414795, + "learning_rate": 4.006010981869829e-05, + "loss": 0.0219, + "step": 9110 + }, + { + "epoch": 6.08, + "grad_norm": 0.7669902443885803, + "learning_rate": 3.9946103942701777e-05, + "loss": 0.0209, + "step": 9120 + }, + { + "epoch": 6.086666666666667, + "grad_norm": 2.5425870418548584, + "learning_rate": 3.983215251275847e-05, + "loss": 0.0297, + "step": 9130 + }, + { + "epoch": 6.093333333333334, + "grad_norm": 1.0282870531082153, + "learning_rate": 3.971825614596307e-05, + "loss": 0.0436, + "step": 9140 + }, + { + "epoch": 6.1, + "grad_norm": 0.9991323947906494, + "learning_rate": 3.960441545911204e-05, + "loss": 0.0222, + "step": 9150 + }, + { + "epoch": 6.1066666666666665, + "grad_norm": 0.8793168663978577, + "learning_rate": 3.949063106870031e-05, + "loss": 0.0401, + "step": 9160 + }, + { + "epoch": 6.113333333333333, + "grad_norm": 0.16705554723739624, + "learning_rate": 3.937690359091794e-05, + "loss": 0.031, + "step": 9170 + }, + { + "epoch": 6.12, + "grad_norm": 0.47579896450042725, + "learning_rate": 3.926323364164684e-05, + "loss": 0.0226, + "step": 9180 + }, + { + "epoch": 6.126666666666667, + "grad_norm": 2.142932653427124, + "learning_rate": 3.9149621836457334e-05, + "loss": 0.022, + "step": 9190 + }, + { + "epoch": 6.133333333333334, + "grad_norm": 0.7722986936569214, + "learning_rate": 3.903606879060483e-05, + "loss": 0.0311, + "step": 9200 + }, + { + "epoch": 6.133333333333334, + "eval_darija_finetune_val_loss": 1.384487271308899, + "eval_darija_finetune_val_runtime": 250.5632, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 9200 + }, + { + "epoch": 6.14, + "grad_norm": 1.6268746852874756, + "learning_rate": 3.892257511902664e-05, + "loss": 0.0427, + "step": 9210 + }, + { + "epoch": 6.1466666666666665, + "grad_norm": 1.5878088474273682, + "learning_rate": 3.880914143633844e-05, + "loss": 0.0303, + "step": 9220 + }, + { + "epoch": 6.153333333333333, + "grad_norm": 0.5893556475639343, + "learning_rate": 3.869576835683109e-05, + "loss": 0.0304, + "step": 9230 + }, + { + "epoch": 6.16, + "grad_norm": 1.4732837677001953, + "learning_rate": 3.858245649446721e-05, + "loss": 0.0314, + "step": 9240 + }, + { + "epoch": 6.166666666666667, + "grad_norm": 1.3739421367645264, + "learning_rate": 3.846920646287799e-05, + "loss": 0.0286, + "step": 9250 + }, + { + "epoch": 6.173333333333334, + "grad_norm": 0.3482811152935028, + "learning_rate": 3.8356018875359714e-05, + "loss": 0.0204, + "step": 9260 + }, + { + "epoch": 6.18, + "grad_norm": 1.0704655647277832, + "learning_rate": 3.82428943448705e-05, + "loss": 0.0373, + "step": 9270 + }, + { + "epoch": 6.1866666666666665, + "grad_norm": 0.785554826259613, + "learning_rate": 3.812983348402703e-05, + "loss": 0.0276, + "step": 9280 + }, + { + "epoch": 6.193333333333333, + "grad_norm": 0.5813551545143127, + "learning_rate": 3.801683690510115e-05, + "loss": 0.0252, + "step": 9290 + }, + { + "epoch": 6.2, + "grad_norm": 1.0862988233566284, + "learning_rate": 3.790390522001662e-05, + "loss": 0.0296, + "step": 9300 + }, + { + "epoch": 6.2, + "eval_darija_finetune_val_loss": 1.3559480905532837, + "eval_darija_finetune_val_runtime": 250.5502, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 9300 + }, + { + "epoch": 6.206666666666667, + "grad_norm": 2.426614999771118, + "learning_rate": 3.779103904034574e-05, + "loss": 0.0395, + "step": 9310 + }, + { + "epoch": 6.213333333333333, + "grad_norm": 1.4268959760665894, + "learning_rate": 3.767823897730612e-05, + "loss": 0.0351, + "step": 9320 + }, + { + "epoch": 6.22, + "grad_norm": 0.8054866194725037, + "learning_rate": 3.756550564175727e-05, + "loss": 0.0245, + "step": 9330 + }, + { + "epoch": 6.226666666666667, + "grad_norm": 1.0174524784088135, + "learning_rate": 3.745283964419736e-05, + "loss": 0.0345, + "step": 9340 + }, + { + "epoch": 6.233333333333333, + "grad_norm": 0.632827639579773, + "learning_rate": 3.7340241594759916e-05, + "loss": 0.0378, + "step": 9350 + }, + { + "epoch": 6.24, + "grad_norm": 1.2559140920639038, + "learning_rate": 3.7227712103210486e-05, + "loss": 0.0248, + "step": 9360 + }, + { + "epoch": 6.246666666666667, + "grad_norm": 4.587792873382568, + "learning_rate": 3.711525177894331e-05, + "loss": 0.0396, + "step": 9370 + }, + { + "epoch": 6.253333333333333, + "grad_norm": 1.2746589183807373, + "learning_rate": 3.700286123097814e-05, + "loss": 0.0277, + "step": 9380 + }, + { + "epoch": 6.26, + "grad_norm": 0.4739038050174713, + "learning_rate": 3.6890541067956776e-05, + "loss": 0.028, + "step": 9390 + }, + { + "epoch": 6.266666666666667, + "grad_norm": 2.830815076828003, + "learning_rate": 3.67782918981399e-05, + "loss": 0.0338, + "step": 9400 + }, + { + "epoch": 6.266666666666667, + "eval_darija_finetune_val_loss": 1.356597661972046, + "eval_darija_finetune_val_runtime": 256.2738, + "eval_darija_finetune_val_samples_per_second": 3.902, + "eval_darija_finetune_val_steps_per_second": 1.951, + "step": 9400 + }, + { + "epoch": 6.273333333333333, + "grad_norm": 0.2607637941837311, + "learning_rate": 3.666611432940372e-05, + "loss": 0.0325, + "step": 9410 + }, + { + "epoch": 6.28, + "grad_norm": 0.4107038080692291, + "learning_rate": 3.655400896923672e-05, + "loss": 0.0364, + "step": 9420 + }, + { + "epoch": 6.286666666666667, + "grad_norm": 2.3216798305511475, + "learning_rate": 3.644197642473631e-05, + "loss": 0.0302, + "step": 9430 + }, + { + "epoch": 6.293333333333333, + "grad_norm": 1.3894157409667969, + "learning_rate": 3.6330017302605576e-05, + "loss": 0.0411, + "step": 9440 + }, + { + "epoch": 6.3, + "grad_norm": 1.3153550624847412, + "learning_rate": 3.6218132209150045e-05, + "loss": 0.0272, + "step": 9450 + }, + { + "epoch": 6.306666666666667, + "grad_norm": 1.2552138566970825, + "learning_rate": 3.6106321750274274e-05, + "loss": 0.0287, + "step": 9460 + }, + { + "epoch": 6.3133333333333335, + "grad_norm": 1.1113656759262085, + "learning_rate": 3.599458653147867e-05, + "loss": 0.0306, + "step": 9470 + }, + { + "epoch": 6.32, + "grad_norm": 1.3658963441848755, + "learning_rate": 3.588292715785617e-05, + "loss": 0.0312, + "step": 9480 + }, + { + "epoch": 6.326666666666666, + "grad_norm": 1.3768936395645142, + "learning_rate": 3.577134423408906e-05, + "loss": 0.0389, + "step": 9490 + }, + { + "epoch": 6.333333333333333, + "grad_norm": 0.7220675349235535, + "learning_rate": 3.5659838364445505e-05, + "loss": 0.0179, + "step": 9500 + }, + { + "epoch": 6.333333333333333, + "eval_darija_finetune_val_loss": 1.3408358097076416, + "eval_darija_finetune_val_runtime": 265.1071, + "eval_darija_finetune_val_samples_per_second": 3.772, + "eval_darija_finetune_val_steps_per_second": 1.886, + "step": 9500 + }, + { + "epoch": 6.34, + "grad_norm": 2.875005006790161, + "learning_rate": 3.554841015277641e-05, + "loss": 0.0415, + "step": 9510 + }, + { + "epoch": 6.346666666666667, + "grad_norm": 0.7959535717964172, + "learning_rate": 3.5437060202512226e-05, + "loss": 0.0212, + "step": 9520 + }, + { + "epoch": 6.3533333333333335, + "grad_norm": 1.9800838232040405, + "learning_rate": 3.532578911665949e-05, + "loss": 0.0284, + "step": 9530 + }, + { + "epoch": 6.36, + "grad_norm": 1.3791842460632324, + "learning_rate": 3.5214597497797684e-05, + "loss": 0.0357, + "step": 9540 + }, + { + "epoch": 6.366666666666666, + "grad_norm": 0.7212793827056885, + "learning_rate": 3.51034859480759e-05, + "loss": 0.0368, + "step": 9550 + }, + { + "epoch": 6.373333333333333, + "grad_norm": 1.3476487398147583, + "learning_rate": 3.499245506920972e-05, + "loss": 0.028, + "step": 9560 + }, + { + "epoch": 6.38, + "grad_norm": 0.8300289511680603, + "learning_rate": 3.488150546247778e-05, + "loss": 0.0374, + "step": 9570 + }, + { + "epoch": 6.386666666666667, + "grad_norm": 1.7510759830474854, + "learning_rate": 3.477063772871861e-05, + "loss": 0.0328, + "step": 9580 + }, + { + "epoch": 6.3933333333333335, + "grad_norm": 2.751322031021118, + "learning_rate": 3.465985246832739e-05, + "loss": 0.036, + "step": 9590 + }, + { + "epoch": 6.4, + "grad_norm": 1.3000589609146118, + "learning_rate": 3.4549150281252636e-05, + "loss": 0.0212, + "step": 9600 + }, + { + "epoch": 6.4, + "eval_darija_finetune_val_loss": 1.3742585182189941, + "eval_darija_finetune_val_runtime": 250.467, + "eval_darija_finetune_val_samples_per_second": 3.993, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 9600 + }, + { + "epoch": 6.406666666666666, + "grad_norm": 0.6995733380317688, + "learning_rate": 3.4438531766993006e-05, + "loss": 0.0252, + "step": 9610 + }, + { + "epoch": 6.413333333333333, + "grad_norm": 0.9628202319145203, + "learning_rate": 3.4327997524594026e-05, + "loss": 0.0351, + "step": 9620 + }, + { + "epoch": 6.42, + "grad_norm": 1.4695868492126465, + "learning_rate": 3.4217548152644885e-05, + "loss": 0.0373, + "step": 9630 + }, + { + "epoch": 6.426666666666667, + "grad_norm": 0.431176096200943, + "learning_rate": 3.4107184249275116e-05, + "loss": 0.0284, + "step": 9640 + }, + { + "epoch": 6.433333333333334, + "grad_norm": 1.0080585479736328, + "learning_rate": 3.399690641215142e-05, + "loss": 0.0332, + "step": 9650 + }, + { + "epoch": 6.44, + "grad_norm": 0.4913191795349121, + "learning_rate": 3.388671523847445e-05, + "loss": 0.0316, + "step": 9660 + }, + { + "epoch": 6.446666666666666, + "grad_norm": 1.5698894262313843, + "learning_rate": 3.3776611324975494e-05, + "loss": 0.0344, + "step": 9670 + }, + { + "epoch": 6.453333333333333, + "grad_norm": 1.3251452445983887, + "learning_rate": 3.366659526791329e-05, + "loss": 0.034, + "step": 9680 + }, + { + "epoch": 6.46, + "grad_norm": 1.4884124994277954, + "learning_rate": 3.355666766307084e-05, + "loss": 0.0238, + "step": 9690 + }, + { + "epoch": 6.466666666666667, + "grad_norm": 0.6539409756660461, + "learning_rate": 3.34468291057521e-05, + "loss": 0.0344, + "step": 9700 + }, + { + "epoch": 6.466666666666667, + "eval_darija_finetune_val_loss": 1.3934155702590942, + "eval_darija_finetune_val_runtime": 250.4773, + "eval_darija_finetune_val_samples_per_second": 3.992, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 9700 + }, + { + "epoch": 6.473333333333334, + "grad_norm": 1.292454481124878, + "learning_rate": 3.333708019077881e-05, + "loss": 0.0334, + "step": 9710 + }, + { + "epoch": 6.48, + "grad_norm": 0.33494049310684204, + "learning_rate": 3.322742151248725e-05, + "loss": 0.0344, + "step": 9720 + }, + { + "epoch": 6.486666666666666, + "grad_norm": 2.2404277324676514, + "learning_rate": 3.3117853664725065e-05, + "loss": 0.0351, + "step": 9730 + }, + { + "epoch": 6.493333333333333, + "grad_norm": 0.8290155529975891, + "learning_rate": 3.3008377240847955e-05, + "loss": 0.0312, + "step": 9740 + }, + { + "epoch": 6.5, + "grad_norm": 2.7143092155456543, + "learning_rate": 3.289899283371657e-05, + "loss": 0.0348, + "step": 9750 + }, + { + "epoch": 6.506666666666667, + "grad_norm": 0.8929982781410217, + "learning_rate": 3.278970103569324e-05, + "loss": 0.0281, + "step": 9760 + }, + { + "epoch": 6.513333333333334, + "grad_norm": 0.7086141705513, + "learning_rate": 3.268050243863877e-05, + "loss": 0.0261, + "step": 9770 + }, + { + "epoch": 6.52, + "grad_norm": 1.1378717422485352, + "learning_rate": 3.257139763390925e-05, + "loss": 0.0307, + "step": 9780 + }, + { + "epoch": 6.526666666666666, + "grad_norm": 0.6620413661003113, + "learning_rate": 3.246238721235283e-05, + "loss": 0.0203, + "step": 9790 + }, + { + "epoch": 6.533333333333333, + "grad_norm": 0.5613699555397034, + "learning_rate": 3.235347176430656e-05, + "loss": 0.0248, + "step": 9800 + }, + { + "epoch": 6.533333333333333, + "eval_darija_finetune_val_loss": 1.3571847677230835, + "eval_darija_finetune_val_runtime": 250.5301, + "eval_darija_finetune_val_samples_per_second": 3.992, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 9800 + }, + { + "epoch": 6.54, + "grad_norm": 1.7108628749847412, + "learning_rate": 3.224465187959316e-05, + "loss": 0.032, + "step": 9810 + }, + { + "epoch": 6.546666666666667, + "grad_norm": 0.728110671043396, + "learning_rate": 3.21359281475178e-05, + "loss": 0.0381, + "step": 9820 + }, + { + "epoch": 6.553333333333334, + "grad_norm": 0.8126703500747681, + "learning_rate": 3.202730115686501e-05, + "loss": 0.0332, + "step": 9830 + }, + { + "epoch": 6.5600000000000005, + "grad_norm": 1.4342361688613892, + "learning_rate": 3.1918771495895396e-05, + "loss": 0.0246, + "step": 9840 + }, + { + "epoch": 6.566666666666666, + "grad_norm": 3.83314847946167, + "learning_rate": 3.1810339752342446e-05, + "loss": 0.0312, + "step": 9850 + }, + { + "epoch": 6.573333333333333, + "grad_norm": 2.3666865825653076, + "learning_rate": 3.1702006513409396e-05, + "loss": 0.0313, + "step": 9860 + }, + { + "epoch": 6.58, + "grad_norm": 2.030949831008911, + "learning_rate": 3.1593772365766105e-05, + "loss": 0.033, + "step": 9870 + }, + { + "epoch": 6.586666666666667, + "grad_norm": 1.4678274393081665, + "learning_rate": 3.148563789554575e-05, + "loss": 0.0339, + "step": 9880 + }, + { + "epoch": 6.593333333333334, + "grad_norm": 2.77532696723938, + "learning_rate": 3.137760368834169e-05, + "loss": 0.0336, + "step": 9890 + }, + { + "epoch": 6.6, + "grad_norm": 0.7674930095672607, + "learning_rate": 3.12696703292044e-05, + "loss": 0.0384, + "step": 9900 + }, + { + "epoch": 6.6, + "eval_darija_finetune_val_loss": 1.3854442834854126, + "eval_darija_finetune_val_runtime": 265.4556, + "eval_darija_finetune_val_samples_per_second": 3.767, + "eval_darija_finetune_val_steps_per_second": 1.884, + "step": 9900 + }, + { + "epoch": 6.6066666666666665, + "grad_norm": 1.8699959516525269, + "learning_rate": 3.1161838402638156e-05, + "loss": 0.0586, + "step": 9910 + }, + { + "epoch": 6.613333333333333, + "grad_norm": 1.7532342672348022, + "learning_rate": 3.105410849259795e-05, + "loss": 0.037, + "step": 9920 + }, + { + "epoch": 6.62, + "grad_norm": 0.8087218999862671, + "learning_rate": 3.09464811824863e-05, + "loss": 0.0322, + "step": 9930 + }, + { + "epoch": 6.626666666666667, + "grad_norm": 0.5620930194854736, + "learning_rate": 3.0838957055150135e-05, + "loss": 0.0214, + "step": 9940 + }, + { + "epoch": 6.633333333333333, + "grad_norm": 1.3528122901916504, + "learning_rate": 3.073153669287759e-05, + "loss": 0.0293, + "step": 9950 + }, + { + "epoch": 6.64, + "grad_norm": 0.7834060192108154, + "learning_rate": 3.062422067739485e-05, + "loss": 0.0341, + "step": 9960 + }, + { + "epoch": 6.6466666666666665, + "grad_norm": 1.2553811073303223, + "learning_rate": 3.0517009589863056e-05, + "loss": 0.0396, + "step": 9970 + }, + { + "epoch": 6.653333333333333, + "grad_norm": 0.43643563985824585, + "learning_rate": 3.040990401087508e-05, + "loss": 0.0242, + "step": 9980 + }, + { + "epoch": 6.66, + "grad_norm": 0.6430667042732239, + "learning_rate": 3.0302904520452447e-05, + "loss": 0.031, + "step": 9990 + }, + { + "epoch": 6.666666666666667, + "grad_norm": 1.19424307346344, + "learning_rate": 3.019601169804216e-05, + "loss": 0.0268, + "step": 10000 + }, + { + "epoch": 6.666666666666667, + "eval_darija_finetune_val_loss": 1.3425136804580688, + "eval_darija_finetune_val_runtime": 250.5674, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.995, + "step": 10000 + }, + { + "epoch": 6.673333333333334, + "grad_norm": 0.6129315495491028, + "learning_rate": 3.008922612251358e-05, + "loss": 0.0228, + "step": 10010 + }, + { + "epoch": 6.68, + "grad_norm": 0.9501780271530151, + "learning_rate": 2.9982548372155263e-05, + "loss": 0.0363, + "step": 10020 + }, + { + "epoch": 6.6866666666666665, + "grad_norm": 2.135282278060913, + "learning_rate": 2.9875979024671846e-05, + "loss": 0.0415, + "step": 10030 + }, + { + "epoch": 6.693333333333333, + "grad_norm": 1.958332896232605, + "learning_rate": 2.976951865718095e-05, + "loss": 0.0332, + "step": 10040 + }, + { + "epoch": 6.7, + "grad_norm": 0.44372403621673584, + "learning_rate": 2.9663167846209998e-05, + "loss": 0.0233, + "step": 10050 + }, + { + "epoch": 6.706666666666667, + "grad_norm": 0.4999712109565735, + "learning_rate": 2.9556927167693105e-05, + "loss": 0.0258, + "step": 10060 + }, + { + "epoch": 6.713333333333333, + "grad_norm": 0.8392794728279114, + "learning_rate": 2.9450797196968023e-05, + "loss": 0.0255, + "step": 10070 + }, + { + "epoch": 6.72, + "grad_norm": 0.36225426197052, + "learning_rate": 2.934477850877292e-05, + "loss": 0.0307, + "step": 10080 + }, + { + "epoch": 6.726666666666667, + "grad_norm": 1.2110157012939453, + "learning_rate": 2.9238871677243353e-05, + "loss": 0.0426, + "step": 10090 + }, + { + "epoch": 6.733333333333333, + "grad_norm": 0.46212244033813477, + "learning_rate": 2.9133077275909108e-05, + "loss": 0.0379, + "step": 10100 + }, + { + "epoch": 6.733333333333333, + "eval_darija_finetune_val_loss": 1.343625783920288, + "eval_darija_finetune_val_runtime": 250.5415, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 10100 + }, + { + "epoch": 6.74, + "grad_norm": 0.7049572467803955, + "learning_rate": 2.9027395877691144e-05, + "loss": 0.0212, + "step": 10110 + }, + { + "epoch": 6.746666666666667, + "grad_norm": 3.3003151416778564, + "learning_rate": 2.892182805489846e-05, + "loss": 0.0412, + "step": 10120 + }, + { + "epoch": 6.753333333333333, + "grad_norm": 0.5393081307411194, + "learning_rate": 2.881637437922493e-05, + "loss": 0.0265, + "step": 10130 + }, + { + "epoch": 6.76, + "grad_norm": 0.5625379085540771, + "learning_rate": 2.8711035421746367e-05, + "loss": 0.0322, + "step": 10140 + }, + { + "epoch": 6.766666666666667, + "grad_norm": 3.5489444732666016, + "learning_rate": 2.86058117529173e-05, + "loss": 0.0312, + "step": 10150 + }, + { + "epoch": 6.773333333333333, + "grad_norm": 0.8058772683143616, + "learning_rate": 2.8500703942567874e-05, + "loss": 0.0232, + "step": 10160 + }, + { + "epoch": 6.78, + "grad_norm": 1.059539556503296, + "learning_rate": 2.8395712559900877e-05, + "loss": 0.032, + "step": 10170 + }, + { + "epoch": 6.786666666666667, + "grad_norm": 0.7896603941917419, + "learning_rate": 2.8290838173488598e-05, + "loss": 0.041, + "step": 10180 + }, + { + "epoch": 6.793333333333333, + "grad_norm": 0.32140910625457764, + "learning_rate": 2.8186081351269665e-05, + "loss": 0.0327, + "step": 10190 + }, + { + "epoch": 6.8, + "grad_norm": 1.5110868215560913, + "learning_rate": 2.8081442660546125e-05, + "loss": 0.0287, + "step": 10200 + }, + { + "epoch": 6.8, + "eval_darija_finetune_val_loss": 1.3467305898666382, + "eval_darija_finetune_val_runtime": 250.5578, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 10200 + }, + { + "epoch": 6.806666666666667, + "grad_norm": 0.5423595309257507, + "learning_rate": 2.7976922667980272e-05, + "loss": 0.0317, + "step": 10210 + }, + { + "epoch": 6.8133333333333335, + "grad_norm": 1.381052017211914, + "learning_rate": 2.7872521939591556e-05, + "loss": 0.0436, + "step": 10220 + }, + { + "epoch": 6.82, + "grad_norm": 0.564425528049469, + "learning_rate": 2.776824104075364e-05, + "loss": 0.0287, + "step": 10230 + }, + { + "epoch": 6.826666666666666, + "grad_norm": 0.9667544960975647, + "learning_rate": 2.766408053619118e-05, + "loss": 0.0293, + "step": 10240 + }, + { + "epoch": 6.833333333333333, + "grad_norm": 1.0691485404968262, + "learning_rate": 2.7560040989976892e-05, + "loss": 0.0309, + "step": 10250 + }, + { + "epoch": 6.84, + "grad_norm": 2.081775188446045, + "learning_rate": 2.7456122965528475e-05, + "loss": 0.0317, + "step": 10260 + }, + { + "epoch": 6.846666666666667, + "grad_norm": 2.2379462718963623, + "learning_rate": 2.7352327025605463e-05, + "loss": 0.031, + "step": 10270 + }, + { + "epoch": 6.8533333333333335, + "grad_norm": 0.6882135272026062, + "learning_rate": 2.7248653732306316e-05, + "loss": 0.0317, + "step": 10280 + }, + { + "epoch": 6.86, + "grad_norm": 0.8074826598167419, + "learning_rate": 2.7145103647065308e-05, + "loss": 0.0236, + "step": 10290 + }, + { + "epoch": 6.866666666666667, + "grad_norm": 0.6985708475112915, + "learning_rate": 2.7041677330649407e-05, + "loss": 0.0233, + "step": 10300 + }, + { + "epoch": 6.866666666666667, + "eval_darija_finetune_val_loss": 1.3581726551055908, + "eval_darija_finetune_val_runtime": 265.5978, + "eval_darija_finetune_val_samples_per_second": 3.765, + "eval_darija_finetune_val_steps_per_second": 1.883, + "step": 10300 + }, + { + "epoch": 6.873333333333333, + "grad_norm": 1.006028413772583, + "learning_rate": 2.6938375343155464e-05, + "loss": 0.0305, + "step": 10310 + }, + { + "epoch": 6.88, + "grad_norm": 2.202904224395752, + "learning_rate": 2.6835198244006927e-05, + "loss": 0.0345, + "step": 10320 + }, + { + "epoch": 6.886666666666667, + "grad_norm": 0.66089928150177, + "learning_rate": 2.6732146591950924e-05, + "loss": 0.0322, + "step": 10330 + }, + { + "epoch": 6.8933333333333335, + "grad_norm": 1.3550727367401123, + "learning_rate": 2.662922094505529e-05, + "loss": 0.0432, + "step": 10340 + }, + { + "epoch": 6.9, + "grad_norm": 2.0010318756103516, + "learning_rate": 2.6526421860705473e-05, + "loss": 0.0266, + "step": 10350 + }, + { + "epoch": 6.906666666666666, + "grad_norm": 0.8032817244529724, + "learning_rate": 2.642374989560149e-05, + "loss": 0.0286, + "step": 10360 + }, + { + "epoch": 6.913333333333333, + "grad_norm": 3.5804355144500732, + "learning_rate": 2.6321205605755e-05, + "loss": 0.0271, + "step": 10370 + }, + { + "epoch": 6.92, + "grad_norm": 0.8018805980682373, + "learning_rate": 2.6218789546486234e-05, + "loss": 0.0248, + "step": 10380 + }, + { + "epoch": 6.926666666666667, + "grad_norm": 1.4587112665176392, + "learning_rate": 2.6116502272421017e-05, + "loss": 0.0387, + "step": 10390 + }, + { + "epoch": 6.933333333333334, + "grad_norm": 0.9303746819496155, + "learning_rate": 2.6014344337487707e-05, + "loss": 0.0407, + "step": 10400 + }, + { + "epoch": 6.933333333333334, + "eval_darija_finetune_val_loss": 1.383918285369873, + "eval_darija_finetune_val_runtime": 250.7908, + "eval_darija_finetune_val_samples_per_second": 3.987, + "eval_darija_finetune_val_steps_per_second": 1.994, + "step": 10400 + }, + { + "epoch": 6.9399999999999995, + "grad_norm": 1.1113524436950684, + "learning_rate": 2.591231629491423e-05, + "loss": 0.0307, + "step": 10410 + }, + { + "epoch": 6.946666666666666, + "grad_norm": 0.490433007478714, + "learning_rate": 2.581041869722519e-05, + "loss": 0.0295, + "step": 10420 + }, + { + "epoch": 6.953333333333333, + "grad_norm": 1.4901899099349976, + "learning_rate": 2.5708652096238673e-05, + "loss": 0.0316, + "step": 10430 + }, + { + "epoch": 6.96, + "grad_norm": 0.9278210997581482, + "learning_rate": 2.560701704306336e-05, + "loss": 0.0219, + "step": 10440 + }, + { + "epoch": 6.966666666666667, + "grad_norm": 0.726537823677063, + "learning_rate": 2.5505514088095655e-05, + "loss": 0.0292, + "step": 10450 + }, + { + "epoch": 6.973333333333334, + "grad_norm": 1.572264552116394, + "learning_rate": 2.540414378101647e-05, + "loss": 0.053, + "step": 10460 + }, + { + "epoch": 6.98, + "grad_norm": 2.733429431915283, + "learning_rate": 2.5302906670788462e-05, + "loss": 0.0358, + "step": 10470 + }, + { + "epoch": 6.986666666666666, + "grad_norm": 1.2057594060897827, + "learning_rate": 2.5201803305652898e-05, + "loss": 0.029, + "step": 10480 + }, + { + "epoch": 6.993333333333333, + "grad_norm": 0.4498349130153656, + "learning_rate": 2.5100834233126823e-05, + "loss": 0.0221, + "step": 10490 + }, + { + "epoch": 7.0, + "grad_norm": 0.9137202501296997, + "learning_rate": 2.500000000000001e-05, + "loss": 0.0399, + "step": 10500 + }, + { + "epoch": 7.0, + "eval_darija_finetune_val_loss": 1.3511145114898682, + "eval_darija_finetune_val_runtime": 250.5732, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.995, + "step": 10500 + }, + { + "epoch": 7.006666666666667, + "grad_norm": 0.4869658350944519, + "learning_rate": 2.4899301152331988e-05, + "loss": 0.0131, + "step": 10510 + }, + { + "epoch": 7.013333333333334, + "grad_norm": 0.28732672333717346, + "learning_rate": 2.4798738235449166e-05, + "loss": 0.0132, + "step": 10520 + }, + { + "epoch": 7.02, + "grad_norm": 1.8180230855941772, + "learning_rate": 2.469831179394182e-05, + "loss": 0.0366, + "step": 10530 + }, + { + "epoch": 7.026666666666666, + "grad_norm": 0.8313825130462646, + "learning_rate": 2.459802237166111e-05, + "loss": 0.0187, + "step": 10540 + }, + { + "epoch": 7.033333333333333, + "grad_norm": 0.4890539348125458, + "learning_rate": 2.4497870511716235e-05, + "loss": 0.0109, + "step": 10550 + }, + { + "epoch": 7.04, + "grad_norm": 1.007691502571106, + "learning_rate": 2.4397856756471432e-05, + "loss": 0.0132, + "step": 10560 + }, + { + "epoch": 7.046666666666667, + "grad_norm": 0.4944383502006531, + "learning_rate": 2.4297981647542988e-05, + "loss": 0.0085, + "step": 10570 + }, + { + "epoch": 7.053333333333334, + "grad_norm": 0.25455233454704285, + "learning_rate": 2.4198245725796425e-05, + "loss": 0.0102, + "step": 10580 + }, + { + "epoch": 7.06, + "grad_norm": 1.9974218606948853, + "learning_rate": 2.4098649531343497e-05, + "loss": 0.0239, + "step": 10590 + }, + { + "epoch": 7.066666666666666, + "grad_norm": 0.6611557602882385, + "learning_rate": 2.399919360353923e-05, + "loss": 0.0135, + "step": 10600 + }, + { + "epoch": 7.066666666666666, + "eval_darija_finetune_val_loss": 1.4292609691619873, + "eval_darija_finetune_val_runtime": 250.1301, + "eval_darija_finetune_val_samples_per_second": 3.998, + "eval_darija_finetune_val_steps_per_second": 1.999, + "step": 10600 + }, + { + "epoch": 7.073333333333333, + "grad_norm": 0.7832401990890503, + "learning_rate": 2.38998784809791e-05, + "loss": 0.0136, + "step": 10610 + }, + { + "epoch": 7.08, + "grad_norm": 1.087872862815857, + "learning_rate": 2.3800704701496053e-05, + "loss": 0.0111, + "step": 10620 + }, + { + "epoch": 7.086666666666667, + "grad_norm": 0.42933040857315063, + "learning_rate": 2.3701672802157566e-05, + "loss": 0.017, + "step": 10630 + }, + { + "epoch": 7.093333333333334, + "grad_norm": 0.24502092599868774, + "learning_rate": 2.3602783319262846e-05, + "loss": 0.0105, + "step": 10640 + }, + { + "epoch": 7.1, + "grad_norm": 0.2132781594991684, + "learning_rate": 2.350403678833976e-05, + "loss": 0.0121, + "step": 10650 + }, + { + "epoch": 7.1066666666666665, + "grad_norm": 0.563618540763855, + "learning_rate": 2.340543374414212e-05, + "loss": 0.0261, + "step": 10660 + }, + { + "epoch": 7.113333333333333, + "grad_norm": 0.12659993767738342, + "learning_rate": 2.3306974720646668e-05, + "loss": 0.0114, + "step": 10670 + }, + { + "epoch": 7.12, + "grad_norm": 0.4564799964427948, + "learning_rate": 2.3208660251050158e-05, + "loss": 0.0073, + "step": 10680 + }, + { + "epoch": 7.126666666666667, + "grad_norm": 0.7747268080711365, + "learning_rate": 2.3110490867766645e-05, + "loss": 0.0207, + "step": 10690 + }, + { + "epoch": 7.133333333333334, + "grad_norm": 0.8675358891487122, + "learning_rate": 2.3012467102424373e-05, + "loss": 0.017, + "step": 10700 + }, + { + "epoch": 7.133333333333334, + "eval_darija_finetune_val_loss": 1.474469780921936, + "eval_darija_finetune_val_runtime": 265.4592, + "eval_darija_finetune_val_samples_per_second": 3.767, + "eval_darija_finetune_val_steps_per_second": 1.884, + "step": 10700 + }, + { + "epoch": 7.14, + "grad_norm": 0.35858863592147827, + "learning_rate": 2.2914589485863014e-05, + "loss": 0.0091, + "step": 10710 + }, + { + "epoch": 7.1466666666666665, + "grad_norm": 0.06106061488389969, + "learning_rate": 2.2816858548130836e-05, + "loss": 0.0088, + "step": 10720 + }, + { + "epoch": 7.153333333333333, + "grad_norm": 3.338531017303467, + "learning_rate": 2.2719274818481767e-05, + "loss": 0.0165, + "step": 10730 + }, + { + "epoch": 7.16, + "grad_norm": 0.0803118348121643, + "learning_rate": 2.2621838825372493e-05, + "loss": 0.0099, + "step": 10740 + }, + { + "epoch": 7.166666666666667, + "grad_norm": 0.5640498399734497, + "learning_rate": 2.25245510964597e-05, + "loss": 0.008, + "step": 10750 + }, + { + "epoch": 7.173333333333334, + "grad_norm": 0.35814613103866577, + "learning_rate": 2.2427412158597132e-05, + "loss": 0.0224, + "step": 10760 + }, + { + "epoch": 7.18, + "grad_norm": 0.7000964879989624, + "learning_rate": 2.23304225378328e-05, + "loss": 0.0097, + "step": 10770 + }, + { + "epoch": 7.1866666666666665, + "grad_norm": 0.5090903639793396, + "learning_rate": 2.223358275940606e-05, + "loss": 0.0138, + "step": 10780 + }, + { + "epoch": 7.193333333333333, + "grad_norm": 0.5432352423667908, + "learning_rate": 2.2136893347744785e-05, + "loss": 0.0109, + "step": 10790 + }, + { + "epoch": 7.2, + "grad_norm": 2.413524866104126, + "learning_rate": 2.2040354826462668e-05, + "loss": 0.0198, + "step": 10800 + }, + { + "epoch": 7.2, + "eval_darija_finetune_val_loss": 1.4919685125350952, + "eval_darija_finetune_val_runtime": 257.168, + "eval_darija_finetune_val_samples_per_second": 3.889, + "eval_darija_finetune_val_steps_per_second": 1.944, + "step": 10800 + }, + { + "epoch": 7.206666666666667, + "grad_norm": 1.0743085145950317, + "learning_rate": 2.1943967718356122e-05, + "loss": 0.0107, + "step": 10810 + }, + { + "epoch": 7.213333333333333, + "grad_norm": 1.5545814037322998, + "learning_rate": 2.1847732545401687e-05, + "loss": 0.0171, + "step": 10820 + }, + { + "epoch": 7.22, + "grad_norm": 0.8275210857391357, + "learning_rate": 2.1751649828753106e-05, + "loss": 0.0117, + "step": 10830 + }, + { + "epoch": 7.226666666666667, + "grad_norm": 0.0738702192902565, + "learning_rate": 2.1655720088738453e-05, + "loss": 0.0213, + "step": 10840 + }, + { + "epoch": 7.233333333333333, + "grad_norm": 0.134023055434227, + "learning_rate": 2.1559943844857422e-05, + "loss": 0.0112, + "step": 10850 + }, + { + "epoch": 7.24, + "grad_norm": 0.48925071954727173, + "learning_rate": 2.1464321615778422e-05, + "loss": 0.0185, + "step": 10860 + }, + { + "epoch": 7.246666666666667, + "grad_norm": 0.8943356871604919, + "learning_rate": 2.1368853919335835e-05, + "loss": 0.0162, + "step": 10870 + }, + { + "epoch": 7.253333333333333, + "grad_norm": 0.0831894725561142, + "learning_rate": 2.1273541272527204e-05, + "loss": 0.0147, + "step": 10880 + }, + { + "epoch": 7.26, + "grad_norm": 0.1651422083377838, + "learning_rate": 2.117838419151034e-05, + "loss": 0.0122, + "step": 10890 + }, + { + "epoch": 7.266666666666667, + "grad_norm": 0.20411431789398193, + "learning_rate": 2.1083383191600674e-05, + "loss": 0.0159, + "step": 10900 + }, + { + "epoch": 7.266666666666667, + "eval_darija_finetune_val_loss": 1.4519089460372925, + "eval_darija_finetune_val_runtime": 250.5949, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.995, + "step": 10900 + }, + { + "epoch": 7.273333333333333, + "grad_norm": 0.7387892007827759, + "learning_rate": 2.0988538787268374e-05, + "loss": 0.0112, + "step": 10910 + }, + { + "epoch": 7.28, + "grad_norm": 0.1590908020734787, + "learning_rate": 2.0893851492135537e-05, + "loss": 0.0137, + "step": 10920 + }, + { + "epoch": 7.286666666666667, + "grad_norm": 0.5782284140586853, + "learning_rate": 2.079932181897349e-05, + "loss": 0.0202, + "step": 10930 + }, + { + "epoch": 7.293333333333333, + "grad_norm": 1.294769048690796, + "learning_rate": 2.0704950279699985e-05, + "loss": 0.0114, + "step": 10940 + }, + { + "epoch": 7.3, + "grad_norm": 0.2845187187194824, + "learning_rate": 2.061073738537635e-05, + "loss": 0.0236, + "step": 10950 + }, + { + "epoch": 7.306666666666667, + "grad_norm": 0.20199687778949738, + "learning_rate": 2.0516683646204837e-05, + "loss": 0.0112, + "step": 10960 + }, + { + "epoch": 7.3133333333333335, + "grad_norm": 0.5802366733551025, + "learning_rate": 2.0422789571525812e-05, + "loss": 0.0169, + "step": 10970 + }, + { + "epoch": 7.32, + "grad_norm": 0.3581444323062897, + "learning_rate": 2.0329055669814934e-05, + "loss": 0.0083, + "step": 10980 + }, + { + "epoch": 7.326666666666666, + "grad_norm": 0.4833220839500427, + "learning_rate": 2.0235482448680508e-05, + "loss": 0.0192, + "step": 10990 + }, + { + "epoch": 7.333333333333333, + "grad_norm": 1.8665688037872314, + "learning_rate": 2.0142070414860704e-05, + "loss": 0.0108, + "step": 11000 + }, + { + "epoch": 7.333333333333333, + "eval_darija_finetune_val_loss": 1.4639713764190674, + "eval_darija_finetune_val_runtime": 250.2383, + "eval_darija_finetune_val_samples_per_second": 3.996, + "eval_darija_finetune_val_steps_per_second": 1.998, + "step": 11000 + }, + { + "epoch": 7.34, + "grad_norm": 0.6149994134902954, + "learning_rate": 2.0048820074220715e-05, + "loss": 0.0153, + "step": 11010 + }, + { + "epoch": 7.346666666666667, + "grad_norm": 0.17923642694950104, + "learning_rate": 1.995573193175018e-05, + "loss": 0.0117, + "step": 11020 + }, + { + "epoch": 7.3533333333333335, + "grad_norm": 1.4560751914978027, + "learning_rate": 1.9862806491560316e-05, + "loss": 0.0154, + "step": 11030 + }, + { + "epoch": 7.36, + "grad_norm": 0.9625307321548462, + "learning_rate": 1.977004425688126e-05, + "loss": 0.0125, + "step": 11040 + }, + { + "epoch": 7.366666666666666, + "grad_norm": 0.9499362707138062, + "learning_rate": 1.9677445730059346e-05, + "loss": 0.0069, + "step": 11050 + }, + { + "epoch": 7.373333333333333, + "grad_norm": 0.4464150667190552, + "learning_rate": 1.958501141255427e-05, + "loss": 0.0149, + "step": 11060 + }, + { + "epoch": 7.38, + "grad_norm": 0.742856502532959, + "learning_rate": 1.9492741804936622e-05, + "loss": 0.0214, + "step": 11070 + }, + { + "epoch": 7.386666666666667, + "grad_norm": 1.2604210376739502, + "learning_rate": 1.9400637406884876e-05, + "loss": 0.0085, + "step": 11080 + }, + { + "epoch": 7.3933333333333335, + "grad_norm": 0.2106940597295761, + "learning_rate": 1.9308698717182873e-05, + "loss": 0.0202, + "step": 11090 + }, + { + "epoch": 7.4, + "grad_norm": 0.34856340289115906, + "learning_rate": 1.9216926233717085e-05, + "loss": 0.0168, + "step": 11100 + }, + { + "epoch": 7.4, + "eval_darija_finetune_val_loss": 1.4535713195800781, + "eval_darija_finetune_val_runtime": 250.6135, + "eval_darija_finetune_val_samples_per_second": 3.99, + "eval_darija_finetune_val_steps_per_second": 1.995, + "step": 11100 + }, + { + "epoch": 7.406666666666666, + "grad_norm": 1.3091719150543213, + "learning_rate": 1.912532045347392e-05, + "loss": 0.0106, + "step": 11110 + }, + { + "epoch": 7.413333333333333, + "grad_norm": 0.11175484955310822, + "learning_rate": 1.9033881872537006e-05, + "loss": 0.0094, + "step": 11120 + }, + { + "epoch": 7.42, + "grad_norm": 0.22422368824481964, + "learning_rate": 1.8942610986084486e-05, + "loss": 0.0106, + "step": 11130 + }, + { + "epoch": 7.426666666666667, + "grad_norm": 1.4672881364822388, + "learning_rate": 1.88515082883864e-05, + "loss": 0.0176, + "step": 11140 + }, + { + "epoch": 7.433333333333334, + "grad_norm": 0.8831882476806641, + "learning_rate": 1.8760574272802e-05, + "loss": 0.0148, + "step": 11150 + }, + { + "epoch": 7.44, + "grad_norm": 0.6916608214378357, + "learning_rate": 1.866980943177699e-05, + "loss": 0.0096, + "step": 11160 + }, + { + "epoch": 7.446666666666666, + "grad_norm": 0.1393132507801056, + "learning_rate": 1.8579214256840937e-05, + "loss": 0.0192, + "step": 11170 + }, + { + "epoch": 7.453333333333333, + "grad_norm": 0.37859782576560974, + "learning_rate": 1.8488789238604677e-05, + "loss": 0.0091, + "step": 11180 + }, + { + "epoch": 7.46, + "grad_norm": 0.7181972861289978, + "learning_rate": 1.8398534866757454e-05, + "loss": 0.0172, + "step": 11190 + }, + { + "epoch": 7.466666666666667, + "grad_norm": 0.41773903369903564, + "learning_rate": 1.8308451630064484e-05, + "loss": 0.0148, + "step": 11200 + }, + { + "epoch": 7.466666666666667, + "eval_darija_finetune_val_loss": 1.4723854064941406, + "eval_darija_finetune_val_runtime": 265.447, + "eval_darija_finetune_val_samples_per_second": 3.767, + "eval_darija_finetune_val_steps_per_second": 1.884, + "step": 11200 + }, + { + "epoch": 7.473333333333334, + "grad_norm": 0.9690839648246765, + "learning_rate": 1.8218540016364176e-05, + "loss": 0.0117, + "step": 11210 + }, + { + "epoch": 7.48, + "grad_norm": 0.2838076949119568, + "learning_rate": 1.8128800512565513e-05, + "loss": 0.007, + "step": 11220 + }, + { + "epoch": 7.486666666666666, + "grad_norm": 0.280867338180542, + "learning_rate": 1.8039233604645466e-05, + "loss": 0.0102, + "step": 11230 + }, + { + "epoch": 7.493333333333333, + "grad_norm": 0.3091605305671692, + "learning_rate": 1.7949839777646328e-05, + "loss": 0.0106, + "step": 11240 + }, + { + "epoch": 7.5, + "grad_norm": 0.2149946391582489, + "learning_rate": 1.7860619515673033e-05, + "loss": 0.0104, + "step": 11250 + }, + { + "epoch": 7.506666666666667, + "grad_norm": 0.1450308859348297, + "learning_rate": 1.7771573301890664e-05, + "loss": 0.0136, + "step": 11260 + }, + { + "epoch": 7.513333333333334, + "grad_norm": 0.5702688097953796, + "learning_rate": 1.7682701618521685e-05, + "loss": 0.0094, + "step": 11270 + }, + { + "epoch": 7.52, + "grad_norm": 0.4627874791622162, + "learning_rate": 1.7594004946843456e-05, + "loss": 0.0146, + "step": 11280 + }, + { + "epoch": 7.526666666666666, + "grad_norm": 0.49083375930786133, + "learning_rate": 1.750548376718558e-05, + "loss": 0.0276, + "step": 11290 + }, + { + "epoch": 7.533333333333333, + "grad_norm": 0.3530993163585663, + "learning_rate": 1.7417138558927244e-05, + "loss": 0.0173, + "step": 11300 + }, + { + "epoch": 7.533333333333333, + "eval_darija_finetune_val_loss": 1.4827287197113037, + "eval_darija_finetune_val_runtime": 250.5472, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 11300 + }, + { + "epoch": 7.54, + "grad_norm": 0.7300192713737488, + "learning_rate": 1.7328969800494726e-05, + "loss": 0.0114, + "step": 11310 + }, + { + "epoch": 7.546666666666667, + "grad_norm": 0.5650764107704163, + "learning_rate": 1.7240977969358756e-05, + "loss": 0.0109, + "step": 11320 + }, + { + "epoch": 7.553333333333334, + "grad_norm": 0.7303014397621155, + "learning_rate": 1.715316354203188e-05, + "loss": 0.0128, + "step": 11330 + }, + { + "epoch": 7.5600000000000005, + "grad_norm": 1.3529999256134033, + "learning_rate": 1.7065526994065973e-05, + "loss": 0.0119, + "step": 11340 + }, + { + "epoch": 7.566666666666666, + "grad_norm": 0.5838479399681091, + "learning_rate": 1.6978068800049624e-05, + "loss": 0.0123, + "step": 11350 + }, + { + "epoch": 7.573333333333333, + "grad_norm": 0.41113483905792236, + "learning_rate": 1.6890789433605508e-05, + "loss": 0.0095, + "step": 11360 + }, + { + "epoch": 7.58, + "grad_norm": 0.3789176940917969, + "learning_rate": 1.680368936738792e-05, + "loss": 0.0123, + "step": 11370 + }, + { + "epoch": 7.586666666666667, + "grad_norm": 0.16640841960906982, + "learning_rate": 1.671676907308018e-05, + "loss": 0.0147, + "step": 11380 + }, + { + "epoch": 7.593333333333334, + "grad_norm": 0.3992992043495178, + "learning_rate": 1.6630029021392008e-05, + "loss": 0.0131, + "step": 11390 + }, + { + "epoch": 7.6, + "grad_norm": 0.22906959056854248, + "learning_rate": 1.6543469682057106e-05, + "loss": 0.0113, + "step": 11400 + }, + { + "epoch": 7.6, + "eval_darija_finetune_val_loss": 1.4704524278640747, + "eval_darija_finetune_val_runtime": 250.4598, + "eval_darija_finetune_val_samples_per_second": 3.993, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 11400 + }, + { + "epoch": 7.6066666666666665, + "grad_norm": 0.9592879414558411, + "learning_rate": 1.6457091523830458e-05, + "loss": 0.0101, + "step": 11410 + }, + { + "epoch": 7.613333333333333, + "grad_norm": 0.16911837458610535, + "learning_rate": 1.6370895014485997e-05, + "loss": 0.0111, + "step": 11420 + }, + { + "epoch": 7.62, + "grad_norm": 1.1758335828781128, + "learning_rate": 1.6284880620813848e-05, + "loss": 0.0286, + "step": 11430 + }, + { + "epoch": 7.626666666666667, + "grad_norm": 1.1936180591583252, + "learning_rate": 1.6199048808617896e-05, + "loss": 0.0191, + "step": 11440 + }, + { + "epoch": 7.633333333333333, + "grad_norm": 0.5314960479736328, + "learning_rate": 1.611340004271339e-05, + "loss": 0.0119, + "step": 11450 + }, + { + "epoch": 7.64, + "grad_norm": 1.3258557319641113, + "learning_rate": 1.602793478692419e-05, + "loss": 0.0087, + "step": 11460 + }, + { + "epoch": 7.6466666666666665, + "grad_norm": 0.5103572010993958, + "learning_rate": 1.594265350408039e-05, + "loss": 0.0123, + "step": 11470 + }, + { + "epoch": 7.653333333333333, + "grad_norm": 0.4195655286312103, + "learning_rate": 1.585755665601584e-05, + "loss": 0.0106, + "step": 11480 + }, + { + "epoch": 7.66, + "grad_norm": 0.40997862815856934, + "learning_rate": 1.5772644703565565e-05, + "loss": 0.0153, + "step": 11490 + }, + { + "epoch": 7.666666666666667, + "grad_norm": 0.27691975235939026, + "learning_rate": 1.5687918106563326e-05, + "loss": 0.0105, + "step": 11500 + }, + { + "epoch": 7.666666666666667, + "eval_darija_finetune_val_loss": 1.4966390132904053, + "eval_darija_finetune_val_runtime": 250.3342, + "eval_darija_finetune_val_samples_per_second": 3.995, + "eval_darija_finetune_val_steps_per_second": 1.997, + "step": 11500 + }, + { + "epoch": 7.673333333333334, + "grad_norm": 0.6267826557159424, + "learning_rate": 1.560337732383907e-05, + "loss": 0.014, + "step": 11510 + }, + { + "epoch": 7.68, + "grad_norm": 0.6017012000083923, + "learning_rate": 1.551902281321651e-05, + "loss": 0.0104, + "step": 11520 + }, + { + "epoch": 7.6866666666666665, + "grad_norm": 0.043926652520895004, + "learning_rate": 1.5434855031510626e-05, + "loss": 0.0087, + "step": 11530 + }, + { + "epoch": 7.693333333333333, + "grad_norm": 2.0500335693359375, + "learning_rate": 1.5350874434525142e-05, + "loss": 0.0079, + "step": 11540 + }, + { + "epoch": 7.7, + "grad_norm": 1.1792404651641846, + "learning_rate": 1.526708147705013e-05, + "loss": 0.0137, + "step": 11550 + }, + { + "epoch": 7.706666666666667, + "grad_norm": 0.627058744430542, + "learning_rate": 1.5183476612859538e-05, + "loss": 0.0095, + "step": 11560 + }, + { + "epoch": 7.713333333333333, + "grad_norm": 1.0945696830749512, + "learning_rate": 1.5100060294708646e-05, + "loss": 0.0174, + "step": 11570 + }, + { + "epoch": 7.72, + "grad_norm": 0.16005145013332367, + "learning_rate": 1.5016832974331724e-05, + "loss": 0.0162, + "step": 11580 + }, + { + "epoch": 7.726666666666667, + "grad_norm": 1.351417899131775, + "learning_rate": 1.4933795102439557e-05, + "loss": 0.0116, + "step": 11590 + }, + { + "epoch": 7.733333333333333, + "grad_norm": 3.7795872688293457, + "learning_rate": 1.4850947128716913e-05, + "loss": 0.019, + "step": 11600 + }, + { + "epoch": 7.733333333333333, + "eval_darija_finetune_val_loss": 1.4956837892532349, + "eval_darija_finetune_val_runtime": 265.2786, + "eval_darija_finetune_val_samples_per_second": 3.77, + "eval_darija_finetune_val_steps_per_second": 1.885, + "step": 11600 + }, + { + "epoch": 7.74, + "grad_norm": 0.523195743560791, + "learning_rate": 1.4768289501820265e-05, + "loss": 0.0167, + "step": 11610 + }, + { + "epoch": 7.746666666666667, + "grad_norm": 0.13515359163284302, + "learning_rate": 1.4685822669375238e-05, + "loss": 0.0156, + "step": 11620 + }, + { + "epoch": 7.753333333333333, + "grad_norm": 0.2541927695274353, + "learning_rate": 1.4603547077974216e-05, + "loss": 0.0042, + "step": 11630 + }, + { + "epoch": 7.76, + "grad_norm": 0.8858708143234253, + "learning_rate": 1.4521463173173965e-05, + "loss": 0.0136, + "step": 11640 + }, + { + "epoch": 7.766666666666667, + "grad_norm": 0.6197282075881958, + "learning_rate": 1.4439571399493146e-05, + "loss": 0.0117, + "step": 11650 + }, + { + "epoch": 7.773333333333333, + "grad_norm": 0.4577317535877228, + "learning_rate": 1.4357872200409988e-05, + "loss": 0.0114, + "step": 11660 + }, + { + "epoch": 7.78, + "grad_norm": 0.6005869507789612, + "learning_rate": 1.4276366018359844e-05, + "loss": 0.0174, + "step": 11670 + }, + { + "epoch": 7.786666666666667, + "grad_norm": 0.8898574113845825, + "learning_rate": 1.4195053294732758e-05, + "loss": 0.0114, + "step": 11680 + }, + { + "epoch": 7.793333333333333, + "grad_norm": 0.09638239443302155, + "learning_rate": 1.4113934469871165e-05, + "loss": 0.0229, + "step": 11690 + }, + { + "epoch": 7.8, + "grad_norm": 0.20493578910827637, + "learning_rate": 1.4033009983067452e-05, + "loss": 0.0106, + "step": 11700 + }, + { + "epoch": 7.8, + "eval_darija_finetune_val_loss": 1.4410459995269775, + "eval_darija_finetune_val_runtime": 250.9783, + "eval_darija_finetune_val_samples_per_second": 3.984, + "eval_darija_finetune_val_steps_per_second": 1.992, + "step": 11700 + }, + { + "epoch": 7.806666666666667, + "grad_norm": 0.2332812249660492, + "learning_rate": 1.395228027256154e-05, + "loss": 0.0081, + "step": 11710 + }, + { + "epoch": 7.8133333333333335, + "grad_norm": 0.31493258476257324, + "learning_rate": 1.3871745775538597e-05, + "loss": 0.0102, + "step": 11720 + }, + { + "epoch": 7.82, + "grad_norm": 0.13378724455833435, + "learning_rate": 1.3791406928126638e-05, + "loss": 0.0128, + "step": 11730 + }, + { + "epoch": 7.826666666666666, + "grad_norm": 0.0796724408864975, + "learning_rate": 1.371126416539409e-05, + "loss": 0.0106, + "step": 11740 + }, + { + "epoch": 7.833333333333333, + "grad_norm": 0.1401483565568924, + "learning_rate": 1.3631317921347563e-05, + "loss": 0.02, + "step": 11750 + }, + { + "epoch": 7.84, + "grad_norm": 1.003839373588562, + "learning_rate": 1.3551568628929434e-05, + "loss": 0.0157, + "step": 11760 + }, + { + "epoch": 7.846666666666667, + "grad_norm": 0.7491680979728699, + "learning_rate": 1.3472016720015445e-05, + "loss": 0.0277, + "step": 11770 + }, + { + "epoch": 7.8533333333333335, + "grad_norm": 0.18377631902694702, + "learning_rate": 1.3392662625412488e-05, + "loss": 0.0113, + "step": 11780 + }, + { + "epoch": 7.86, + "grad_norm": 0.5623847246170044, + "learning_rate": 1.3313506774856177e-05, + "loss": 0.0093, + "step": 11790 + }, + { + "epoch": 7.866666666666667, + "grad_norm": 0.22527731955051422, + "learning_rate": 1.3234549597008571e-05, + "loss": 0.0133, + "step": 11800 + }, + { + "epoch": 7.866666666666667, + "eval_darija_finetune_val_loss": 1.4556713104248047, + "eval_darija_finetune_val_runtime": 250.5414, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 11800 + }, + { + "epoch": 7.873333333333333, + "grad_norm": 3.9331328868865967, + "learning_rate": 1.3155791519455812e-05, + "loss": 0.0137, + "step": 11810 + }, + { + "epoch": 7.88, + "grad_norm": 0.8482990264892578, + "learning_rate": 1.3077232968705805e-05, + "loss": 0.008, + "step": 11820 + }, + { + "epoch": 7.886666666666667, + "grad_norm": 0.1828973889350891, + "learning_rate": 1.2998874370186026e-05, + "loss": 0.0193, + "step": 11830 + }, + { + "epoch": 7.8933333333333335, + "grad_norm": 0.5119267106056213, + "learning_rate": 1.2920716148241035e-05, + "loss": 0.0216, + "step": 11840 + }, + { + "epoch": 7.9, + "grad_norm": 0.7971997261047363, + "learning_rate": 1.2842758726130283e-05, + "loss": 0.0145, + "step": 11850 + }, + { + "epoch": 7.906666666666666, + "grad_norm": 0.6649556159973145, + "learning_rate": 1.276500252602587e-05, + "loss": 0.007, + "step": 11860 + }, + { + "epoch": 7.913333333333333, + "grad_norm": 0.7500569224357605, + "learning_rate": 1.2687447969010113e-05, + "loss": 0.008, + "step": 11870 + }, + { + "epoch": 7.92, + "grad_norm": 0.4853861629962921, + "learning_rate": 1.2610095475073414e-05, + "loss": 0.0125, + "step": 11880 + }, + { + "epoch": 7.926666666666667, + "grad_norm": 0.07684378325939178, + "learning_rate": 1.2532945463111855e-05, + "loss": 0.0064, + "step": 11890 + }, + { + "epoch": 7.933333333333334, + "grad_norm": 0.400642991065979, + "learning_rate": 1.245599835092504e-05, + "loss": 0.0123, + "step": 11900 + }, + { + "epoch": 7.933333333333334, + "eval_darija_finetune_val_loss": 1.4704902172088623, + "eval_darija_finetune_val_runtime": 250.4039, + "eval_darija_finetune_val_samples_per_second": 3.994, + "eval_darija_finetune_val_steps_per_second": 1.997, + "step": 11900 + }, + { + "epoch": 7.9399999999999995, + "grad_norm": 1.0983566045761108, + "learning_rate": 1.2379254555213788e-05, + "loss": 0.0173, + "step": 11910 + }, + { + "epoch": 7.946666666666666, + "grad_norm": 1.0410782098770142, + "learning_rate": 1.2302714491577832e-05, + "loss": 0.0088, + "step": 11920 + }, + { + "epoch": 7.953333333333333, + "grad_norm": 1.0373562574386597, + "learning_rate": 1.2226378574513653e-05, + "loss": 0.0176, + "step": 11930 + }, + { + "epoch": 7.96, + "grad_norm": 0.38929957151412964, + "learning_rate": 1.2150247217412186e-05, + "loss": 0.0091, + "step": 11940 + }, + { + "epoch": 7.966666666666667, + "grad_norm": 0.13650855422019958, + "learning_rate": 1.2074320832556556e-05, + "loss": 0.0135, + "step": 11950 + }, + { + "epoch": 7.973333333333334, + "grad_norm": 0.12430144846439362, + "learning_rate": 1.1998599831119912e-05, + "loss": 0.0249, + "step": 11960 + }, + { + "epoch": 7.98, + "grad_norm": 2.9459192752838135, + "learning_rate": 1.1923084623163172e-05, + "loss": 0.0217, + "step": 11970 + }, + { + "epoch": 7.986666666666666, + "grad_norm": 0.2195548564195633, + "learning_rate": 1.1847775617632744e-05, + "loss": 0.0082, + "step": 11980 + }, + { + "epoch": 7.993333333333333, + "grad_norm": 0.18355263769626617, + "learning_rate": 1.1772673222358422e-05, + "loss": 0.0322, + "step": 11990 + }, + { + "epoch": 8.0, + "grad_norm": 1.2263121604919434, + "learning_rate": 1.1697777844051105e-05, + "loss": 0.0161, + "step": 12000 + }, + { + "epoch": 8.0, + "eval_darija_finetune_val_loss": 1.4245766401290894, + "eval_darija_finetune_val_runtime": 265.9131, + "eval_darija_finetune_val_samples_per_second": 3.761, + "eval_darija_finetune_val_steps_per_second": 1.88, + "step": 12000 + }, + { + "epoch": 8.006666666666666, + "grad_norm": 0.08609981834888458, + "learning_rate": 1.162308988830057e-05, + "loss": 0.0085, + "step": 12010 + }, + { + "epoch": 8.013333333333334, + "grad_norm": 0.17070208489894867, + "learning_rate": 1.1548609759573376e-05, + "loss": 0.0049, + "step": 12020 + }, + { + "epoch": 8.02, + "grad_norm": 0.07406102120876312, + "learning_rate": 1.1474337861210543e-05, + "loss": 0.0084, + "step": 12030 + }, + { + "epoch": 8.026666666666667, + "grad_norm": 0.33377769589424133, + "learning_rate": 1.1400274595425497e-05, + "loss": 0.0122, + "step": 12040 + }, + { + "epoch": 8.033333333333333, + "grad_norm": 0.09024637937545776, + "learning_rate": 1.132642036330181e-05, + "loss": 0.0043, + "step": 12050 + }, + { + "epoch": 8.04, + "grad_norm": 0.07344413548707962, + "learning_rate": 1.1252775564791024e-05, + "loss": 0.0038, + "step": 12060 + }, + { + "epoch": 8.046666666666667, + "grad_norm": 0.05278643220663071, + "learning_rate": 1.1179340598710547e-05, + "loss": 0.0038, + "step": 12070 + }, + { + "epoch": 8.053333333333333, + "grad_norm": 0.057049963623285294, + "learning_rate": 1.1106115862741456e-05, + "loss": 0.0022, + "step": 12080 + }, + { + "epoch": 8.06, + "grad_norm": 0.3770892024040222, + "learning_rate": 1.1033101753426283e-05, + "loss": 0.0076, + "step": 12090 + }, + { + "epoch": 8.066666666666666, + "grad_norm": 0.07745039463043213, + "learning_rate": 1.096029866616704e-05, + "loss": 0.0058, + "step": 12100 + }, + { + "epoch": 8.066666666666666, + "eval_darija_finetune_val_loss": 1.4896591901779175, + "eval_darija_finetune_val_runtime": 251.731, + "eval_darija_finetune_val_samples_per_second": 3.972, + "eval_darija_finetune_val_steps_per_second": 1.986, + "step": 12100 + }, + { + "epoch": 8.073333333333334, + "grad_norm": 0.05681150034070015, + "learning_rate": 1.0887706995222863e-05, + "loss": 0.0121, + "step": 12110 + }, + { + "epoch": 8.08, + "grad_norm": 0.2378658503293991, + "learning_rate": 1.0815327133708015e-05, + "loss": 0.0079, + "step": 12120 + }, + { + "epoch": 8.086666666666666, + "grad_norm": 0.39461803436279297, + "learning_rate": 1.0743159473589736e-05, + "loss": 0.0029, + "step": 12130 + }, + { + "epoch": 8.093333333333334, + "grad_norm": 0.05840815603733063, + "learning_rate": 1.0671204405686108e-05, + "loss": 0.0029, + "step": 12140 + }, + { + "epoch": 8.1, + "grad_norm": 0.4522372782230377, + "learning_rate": 1.0599462319663905e-05, + "loss": 0.0041, + "step": 12150 + }, + { + "epoch": 8.106666666666667, + "grad_norm": 0.15236909687519073, + "learning_rate": 1.052793360403655e-05, + "loss": 0.0022, + "step": 12160 + }, + { + "epoch": 8.113333333333333, + "grad_norm": 0.7041260600090027, + "learning_rate": 1.0456618646161954e-05, + "loss": 0.0072, + "step": 12170 + }, + { + "epoch": 8.12, + "grad_norm": 0.1901869773864746, + "learning_rate": 1.0385517832240471e-05, + "loss": 0.0059, + "step": 12180 + }, + { + "epoch": 8.126666666666667, + "grad_norm": 0.18194204568862915, + "learning_rate": 1.0314631547312737e-05, + "loss": 0.0037, + "step": 12190 + }, + { + "epoch": 8.133333333333333, + "grad_norm": 0.0764666423201561, + "learning_rate": 1.0243960175257606e-05, + "loss": 0.0032, + "step": 12200 + }, + { + "epoch": 8.133333333333333, + "eval_darija_finetune_val_loss": 1.561044454574585, + "eval_darija_finetune_val_runtime": 250.6353, + "eval_darija_finetune_val_samples_per_second": 3.99, + "eval_darija_finetune_val_steps_per_second": 1.995, + "step": 12200 + }, + { + "epoch": 8.14, + "grad_norm": 0.21180236339569092, + "learning_rate": 1.0173504098790187e-05, + "loss": 0.0047, + "step": 12210 + }, + { + "epoch": 8.146666666666667, + "grad_norm": 0.10165326297283173, + "learning_rate": 1.010326369945957e-05, + "loss": 0.0074, + "step": 12220 + }, + { + "epoch": 8.153333333333332, + "grad_norm": 0.3362244665622711, + "learning_rate": 1.0033239357646912e-05, + "loss": 0.0059, + "step": 12230 + }, + { + "epoch": 8.16, + "grad_norm": 0.06367061287164688, + "learning_rate": 9.963431452563332e-06, + "loss": 0.0103, + "step": 12240 + }, + { + "epoch": 8.166666666666666, + "grad_norm": 0.3550460934638977, + "learning_rate": 9.893840362247809e-06, + "loss": 0.005, + "step": 12250 + }, + { + "epoch": 8.173333333333334, + "grad_norm": 0.18271596729755402, + "learning_rate": 9.824466463565246e-06, + "loss": 0.0029, + "step": 12260 + }, + { + "epoch": 8.18, + "grad_norm": 0.04875782132148743, + "learning_rate": 9.755310132204298e-06, + "loss": 0.0027, + "step": 12270 + }, + { + "epoch": 8.186666666666667, + "grad_norm": 0.4754827916622162, + "learning_rate": 9.686371742675442e-06, + "loss": 0.0048, + "step": 12280 + }, + { + "epoch": 8.193333333333333, + "grad_norm": 0.04321402683854103, + "learning_rate": 9.617651668308913e-06, + "loss": 0.0019, + "step": 12290 + }, + { + "epoch": 8.2, + "grad_norm": 0.06353393942117691, + "learning_rate": 9.549150281252633e-06, + "loss": 0.0076, + "step": 12300 + }, + { + "epoch": 8.2, + "eval_darija_finetune_val_loss": 1.5893007516860962, + "eval_darija_finetune_val_runtime": 250.6104, + "eval_darija_finetune_val_samples_per_second": 3.99, + "eval_darija_finetune_val_steps_per_second": 1.995, + "step": 12300 + }, + { + "epoch": 8.206666666666667, + "grad_norm": 0.2754848003387451, + "learning_rate": 9.480867952470284e-06, + "loss": 0.0042, + "step": 12310 + }, + { + "epoch": 8.213333333333333, + "grad_norm": 0.4728236794471741, + "learning_rate": 9.412805051739265e-06, + "loss": 0.0055, + "step": 12320 + }, + { + "epoch": 8.22, + "grad_norm": 0.8028184771537781, + "learning_rate": 9.344961947648623e-06, + "loss": 0.0061, + "step": 12330 + }, + { + "epoch": 8.226666666666667, + "grad_norm": 0.17571142315864563, + "learning_rate": 9.277339007597157e-06, + "loss": 0.0089, + "step": 12340 + }, + { + "epoch": 8.233333333333333, + "grad_norm": 0.05168858915567398, + "learning_rate": 9.209936597791407e-06, + "loss": 0.0033, + "step": 12350 + }, + { + "epoch": 8.24, + "grad_norm": 0.1291073113679886, + "learning_rate": 9.142755083243576e-06, + "loss": 0.0053, + "step": 12360 + }, + { + "epoch": 8.246666666666666, + "grad_norm": 0.37406083941459656, + "learning_rate": 9.075794827769696e-06, + "loss": 0.0054, + "step": 12370 + }, + { + "epoch": 8.253333333333334, + "grad_norm": 0.31437385082244873, + "learning_rate": 9.00905619398757e-06, + "loss": 0.0041, + "step": 12380 + }, + { + "epoch": 8.26, + "grad_norm": 0.4166501462459564, + "learning_rate": 8.9425395433148e-06, + "loss": 0.0039, + "step": 12390 + }, + { + "epoch": 8.266666666666667, + "grad_norm": 0.07990922778844833, + "learning_rate": 8.876245235966885e-06, + "loss": 0.0035, + "step": 12400 + }, + { + "epoch": 8.266666666666667, + "eval_darija_finetune_val_loss": 1.6011133193969727, + "eval_darija_finetune_val_runtime": 264.9364, + "eval_darija_finetune_val_samples_per_second": 3.774, + "eval_darija_finetune_val_steps_per_second": 1.887, + "step": 12400 + }, + { + "epoch": 8.273333333333333, + "grad_norm": 0.09283588826656342, + "learning_rate": 8.81017363095525e-06, + "loss": 0.0063, + "step": 12410 + }, + { + "epoch": 8.28, + "grad_norm": 0.20738175511360168, + "learning_rate": 8.744325086085248e-06, + "loss": 0.0088, + "step": 12420 + }, + { + "epoch": 8.286666666666667, + "grad_norm": 0.4497198164463043, + "learning_rate": 8.678699957954323e-06, + "loss": 0.0044, + "step": 12430 + }, + { + "epoch": 8.293333333333333, + "grad_norm": 1.2163628339767456, + "learning_rate": 8.61329860194997e-06, + "loss": 0.0049, + "step": 12440 + }, + { + "epoch": 8.3, + "grad_norm": 0.05014641582965851, + "learning_rate": 8.548121372247918e-06, + "loss": 0.0085, + "step": 12450 + }, + { + "epoch": 8.306666666666667, + "grad_norm": 0.11638117581605911, + "learning_rate": 8.483168621810134e-06, + "loss": 0.0037, + "step": 12460 + }, + { + "epoch": 8.313333333333333, + "grad_norm": 0.06613584607839584, + "learning_rate": 8.418440702382896e-06, + "loss": 0.0043, + "step": 12470 + }, + { + "epoch": 8.32, + "grad_norm": 0.09914179146289825, + "learning_rate": 8.353937964495029e-06, + "loss": 0.0033, + "step": 12480 + }, + { + "epoch": 8.326666666666666, + "grad_norm": 0.27168866991996765, + "learning_rate": 8.289660757455803e-06, + "loss": 0.0022, + "step": 12490 + }, + { + "epoch": 8.333333333333334, + "grad_norm": 1.2782204151153564, + "learning_rate": 8.225609429353187e-06, + "loss": 0.0074, + "step": 12500 + }, + { + "epoch": 8.333333333333334, + "eval_darija_finetune_val_loss": 1.6022087335586548, + "eval_darija_finetune_val_runtime": 258.2443, + "eval_darija_finetune_val_samples_per_second": 3.872, + "eval_darija_finetune_val_steps_per_second": 1.936, + "step": 12500 + }, + { + "epoch": 8.34, + "grad_norm": 0.47283756732940674, + "learning_rate": 8.16178432705192e-06, + "loss": 0.0036, + "step": 12510 + }, + { + "epoch": 8.346666666666668, + "grad_norm": 0.04406055435538292, + "learning_rate": 8.098185796191631e-06, + "loss": 0.0038, + "step": 12520 + }, + { + "epoch": 8.353333333333333, + "grad_norm": 0.3461424708366394, + "learning_rate": 8.034814181184996e-06, + "loss": 0.004, + "step": 12530 + }, + { + "epoch": 8.36, + "grad_norm": 0.6620818376541138, + "learning_rate": 7.971669825215788e-06, + "loss": 0.0068, + "step": 12540 + }, + { + "epoch": 8.366666666666667, + "grad_norm": 0.050441596657037735, + "learning_rate": 7.908753070237123e-06, + "loss": 0.0105, + "step": 12550 + }, + { + "epoch": 8.373333333333333, + "grad_norm": 1.0241178274154663, + "learning_rate": 7.846064256969572e-06, + "loss": 0.0088, + "step": 12560 + }, + { + "epoch": 8.38, + "grad_norm": 0.16556735336780548, + "learning_rate": 7.783603724899257e-06, + "loss": 0.0038, + "step": 12570 + }, + { + "epoch": 8.386666666666667, + "grad_norm": 0.05714572221040726, + "learning_rate": 7.72137181227608e-06, + "loss": 0.0058, + "step": 12580 + }, + { + "epoch": 8.393333333333333, + "grad_norm": 0.05167282000184059, + "learning_rate": 7.659368856111926e-06, + "loss": 0.0086, + "step": 12590 + }, + { + "epoch": 8.4, + "grad_norm": 0.09242786467075348, + "learning_rate": 7.597595192178702e-06, + "loss": 0.0115, + "step": 12600 + }, + { + "epoch": 8.4, + "eval_darija_finetune_val_loss": 1.576709508895874, + "eval_darija_finetune_val_runtime": 250.1748, + "eval_darija_finetune_val_samples_per_second": 3.997, + "eval_darija_finetune_val_steps_per_second": 1.999, + "step": 12600 + }, + { + "epoch": 8.406666666666666, + "grad_norm": 1.4508870840072632, + "learning_rate": 7.536051155006657e-06, + "loss": 0.0071, + "step": 12610 + }, + { + "epoch": 8.413333333333334, + "grad_norm": 0.3281956911087036, + "learning_rate": 7.4747370778825096e-06, + "loss": 0.0065, + "step": 12620 + }, + { + "epoch": 8.42, + "grad_norm": 0.06436146795749664, + "learning_rate": 7.413653292847617e-06, + "loss": 0.0027, + "step": 12630 + }, + { + "epoch": 8.426666666666666, + "grad_norm": 0.059195585548877716, + "learning_rate": 7.352800130696252e-06, + "loss": 0.0042, + "step": 12640 + }, + { + "epoch": 8.433333333333334, + "grad_norm": 0.16553771495819092, + "learning_rate": 7.292177920973725e-06, + "loss": 0.0068, + "step": 12650 + }, + { + "epoch": 8.44, + "grad_norm": 0.06275280565023422, + "learning_rate": 7.2317869919746705e-06, + "loss": 0.0034, + "step": 12660 + }, + { + "epoch": 8.446666666666667, + "grad_norm": 0.15334519743919373, + "learning_rate": 7.1716276707412435e-06, + "loss": 0.0017, + "step": 12670 + }, + { + "epoch": 8.453333333333333, + "grad_norm": 0.6445468664169312, + "learning_rate": 7.111700283061318e-06, + "loss": 0.0077, + "step": 12680 + }, + { + "epoch": 8.46, + "grad_norm": 0.06432273983955383, + "learning_rate": 7.052005153466779e-06, + "loss": 0.0054, + "step": 12690 + }, + { + "epoch": 8.466666666666667, + "grad_norm": 0.13467851281166077, + "learning_rate": 6.992542605231739e-06, + "loss": 0.0038, + "step": 12700 + }, + { + "epoch": 8.466666666666667, + "eval_darija_finetune_val_loss": 1.594235897064209, + "eval_darija_finetune_val_runtime": 250.5565, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 12700 + }, + { + "epoch": 8.473333333333333, + "grad_norm": 0.03832093998789787, + "learning_rate": 6.933312960370747e-06, + "loss": 0.0027, + "step": 12710 + }, + { + "epoch": 8.48, + "grad_norm": 0.5227253437042236, + "learning_rate": 6.874316539637127e-06, + "loss": 0.0118, + "step": 12720 + }, + { + "epoch": 8.486666666666666, + "grad_norm": 0.04040858894586563, + "learning_rate": 6.815553662521185e-06, + "loss": 0.004, + "step": 12730 + }, + { + "epoch": 8.493333333333334, + "grad_norm": 0.21073365211486816, + "learning_rate": 6.757024647248456e-06, + "loss": 0.0057, + "step": 12740 + }, + { + "epoch": 8.5, + "grad_norm": 0.9592951536178589, + "learning_rate": 6.698729810778065e-06, + "loss": 0.008, + "step": 12750 + }, + { + "epoch": 8.506666666666666, + "grad_norm": 0.23504698276519775, + "learning_rate": 6.640669468800947e-06, + "loss": 0.005, + "step": 12760 + }, + { + "epoch": 8.513333333333334, + "grad_norm": 0.4424934983253479, + "learning_rate": 6.58284393573812e-06, + "loss": 0.0042, + "step": 12770 + }, + { + "epoch": 8.52, + "grad_norm": 0.04243454709649086, + "learning_rate": 6.52525352473905e-06, + "loss": 0.0056, + "step": 12780 + }, + { + "epoch": 8.526666666666667, + "grad_norm": 0.11924248188734055, + "learning_rate": 6.467898547679913e-06, + "loss": 0.0083, + "step": 12790 + }, + { + "epoch": 8.533333333333333, + "grad_norm": 0.46693548560142517, + "learning_rate": 6.410779315161886e-06, + "loss": 0.0049, + "step": 12800 + }, + { + "epoch": 8.533333333333333, + "eval_darija_finetune_val_loss": 1.592907190322876, + "eval_darija_finetune_val_runtime": 254.3065, + "eval_darija_finetune_val_samples_per_second": 3.932, + "eval_darija_finetune_val_steps_per_second": 1.966, + "step": 12800 + }, + { + "epoch": 8.54, + "grad_norm": 0.11220778524875641, + "learning_rate": 6.353896136509524e-06, + "loss": 0.0086, + "step": 12810 + }, + { + "epoch": 8.546666666666667, + "grad_norm": 0.7819949388504028, + "learning_rate": 6.2972493197690165e-06, + "loss": 0.0033, + "step": 12820 + }, + { + "epoch": 8.553333333333333, + "grad_norm": 0.5099851489067078, + "learning_rate": 6.240839171706609e-06, + "loss": 0.0025, + "step": 12830 + }, + { + "epoch": 8.56, + "grad_norm": 0.09966694563627243, + "learning_rate": 6.184665997806832e-06, + "loss": 0.0028, + "step": 12840 + }, + { + "epoch": 8.566666666666666, + "grad_norm": 0.2144446074962616, + "learning_rate": 6.128730102270897e-06, + "loss": 0.0101, + "step": 12850 + }, + { + "epoch": 8.573333333333334, + "grad_norm": 0.28710564970970154, + "learning_rate": 6.073031788015132e-06, + "loss": 0.0065, + "step": 12860 + }, + { + "epoch": 8.58, + "grad_norm": 0.2297709584236145, + "learning_rate": 6.017571356669183e-06, + "loss": 0.0052, + "step": 12870 + }, + { + "epoch": 8.586666666666666, + "grad_norm": 0.20941366255283356, + "learning_rate": 5.9623491085744776e-06, + "loss": 0.0079, + "step": 12880 + }, + { + "epoch": 8.593333333333334, + "grad_norm": 0.2541310489177704, + "learning_rate": 5.9073653427826e-06, + "loss": 0.0083, + "step": 12890 + }, + { + "epoch": 8.6, + "grad_norm": 0.09419357776641846, + "learning_rate": 5.852620357053651e-06, + "loss": 0.0069, + "step": 12900 + }, + { + "epoch": 8.6, + "eval_darija_finetune_val_loss": 1.5749590396881104, + "eval_darija_finetune_val_runtime": 265.6318, + "eval_darija_finetune_val_samples_per_second": 3.765, + "eval_darija_finetune_val_steps_per_second": 1.882, + "step": 12900 + }, + { + "epoch": 8.606666666666667, + "grad_norm": 0.03804778307676315, + "learning_rate": 5.798114447854636e-06, + "loss": 0.0047, + "step": 12910 + }, + { + "epoch": 8.613333333333333, + "grad_norm": 0.0280041191726923, + "learning_rate": 5.743847910357836e-06, + "loss": 0.012, + "step": 12920 + }, + { + "epoch": 8.62, + "grad_norm": 0.029186446219682693, + "learning_rate": 5.689821038439263e-06, + "loss": 0.0034, + "step": 12930 + }, + { + "epoch": 8.626666666666667, + "grad_norm": 0.5319533944129944, + "learning_rate": 5.636034124677042e-06, + "loss": 0.0074, + "step": 12940 + }, + { + "epoch": 8.633333333333333, + "grad_norm": 0.04417566955089569, + "learning_rate": 5.582487460349805e-06, + "loss": 0.0069, + "step": 12950 + }, + { + "epoch": 8.64, + "grad_norm": 0.045511480420827866, + "learning_rate": 5.529181335435124e-06, + "loss": 0.0115, + "step": 12960 + }, + { + "epoch": 8.646666666666667, + "grad_norm": 0.05741780251264572, + "learning_rate": 5.4761160386079925e-06, + "loss": 0.0046, + "step": 12970 + }, + { + "epoch": 8.653333333333332, + "grad_norm": 0.07989388704299927, + "learning_rate": 5.4232918572391765e-06, + "loss": 0.0119, + "step": 12980 + }, + { + "epoch": 8.66, + "grad_norm": 0.12608270347118378, + "learning_rate": 5.370709077393721e-06, + "loss": 0.0112, + "step": 12990 + }, + { + "epoch": 8.666666666666666, + "grad_norm": 0.06874611228704453, + "learning_rate": 5.318367983829392e-06, + "loss": 0.0028, + "step": 13000 + }, + { + "epoch": 8.666666666666666, + "eval_darija_finetune_val_loss": 1.5754203796386719, + "eval_darija_finetune_val_runtime": 250.7402, + "eval_darija_finetune_val_samples_per_second": 3.988, + "eval_darija_finetune_val_steps_per_second": 1.994, + "step": 13000 + }, + { + "epoch": 8.673333333333334, + "grad_norm": 0.47966885566711426, + "learning_rate": 5.266268859995083e-06, + "loss": 0.0067, + "step": 13010 + }, + { + "epoch": 8.68, + "grad_norm": 0.05521605908870697, + "learning_rate": 5.214411988029355e-06, + "loss": 0.007, + "step": 13020 + }, + { + "epoch": 8.686666666666667, + "grad_norm": 0.04805421084165573, + "learning_rate": 5.162797648758877e-06, + "loss": 0.0039, + "step": 13030 + }, + { + "epoch": 8.693333333333333, + "grad_norm": 0.2605985701084137, + "learning_rate": 5.111426121696866e-06, + "loss": 0.006, + "step": 13040 + }, + { + "epoch": 8.7, + "grad_norm": 0.22338831424713135, + "learning_rate": 5.060297685041659e-06, + "loss": 0.0045, + "step": 13050 + }, + { + "epoch": 8.706666666666667, + "grad_norm": 0.029982976615428925, + "learning_rate": 5.009412615675102e-06, + "loss": 0.0026, + "step": 13060 + }, + { + "epoch": 8.713333333333333, + "grad_norm": 0.36318710446357727, + "learning_rate": 4.958771189161149e-06, + "loss": 0.0039, + "step": 13070 + }, + { + "epoch": 8.72, + "grad_norm": 0.06858726590871811, + "learning_rate": 4.908373679744316e-06, + "loss": 0.0079, + "step": 13080 + }, + { + "epoch": 8.726666666666667, + "grad_norm": 0.33520272374153137, + "learning_rate": 4.858220360348187e-06, + "loss": 0.0023, + "step": 13090 + }, + { + "epoch": 8.733333333333333, + "grad_norm": 0.0328017883002758, + "learning_rate": 4.8083115025739756e-06, + "loss": 0.0083, + "step": 13100 + }, + { + "epoch": 8.733333333333333, + "eval_darija_finetune_val_loss": 1.594786286354065, + "eval_darija_finetune_val_runtime": 250.6094, + "eval_darija_finetune_val_samples_per_second": 3.99, + "eval_darija_finetune_val_steps_per_second": 1.995, + "step": 13100 + }, + { + "epoch": 8.74, + "grad_norm": 0.13382871448993683, + "learning_rate": 4.758647376699032e-06, + "loss": 0.0043, + "step": 13110 + }, + { + "epoch": 8.746666666666666, + "grad_norm": 2.2931134700775146, + "learning_rate": 4.709228251675357e-06, + "loss": 0.0095, + "step": 13120 + }, + { + "epoch": 8.753333333333334, + "grad_norm": 0.19221606850624084, + "learning_rate": 4.6600543951282e-06, + "loss": 0.0106, + "step": 13130 + }, + { + "epoch": 8.76, + "grad_norm": 0.06268720328807831, + "learning_rate": 4.611126073354571e-06, + "loss": 0.0046, + "step": 13140 + }, + { + "epoch": 8.766666666666667, + "grad_norm": 0.14558126032352448, + "learning_rate": 4.562443551321788e-06, + "loss": 0.0061, + "step": 13150 + }, + { + "epoch": 8.773333333333333, + "grad_norm": 0.0859072282910347, + "learning_rate": 4.514007092666084e-06, + "loss": 0.0036, + "step": 13160 + }, + { + "epoch": 8.78, + "grad_norm": 0.1994837075471878, + "learning_rate": 4.465816959691149e-06, + "loss": 0.0046, + "step": 13170 + }, + { + "epoch": 8.786666666666667, + "grad_norm": 0.5880971550941467, + "learning_rate": 4.417873413366702e-06, + "loss": 0.0053, + "step": 13180 + }, + { + "epoch": 8.793333333333333, + "grad_norm": 0.057995326817035675, + "learning_rate": 4.370176713327118e-06, + "loss": 0.004, + "step": 13190 + }, + { + "epoch": 8.8, + "grad_norm": 0.8214117288589478, + "learning_rate": 4.322727117869951e-06, + "loss": 0.0093, + "step": 13200 + }, + { + "epoch": 8.8, + "eval_darija_finetune_val_loss": 1.5887227058410645, + "eval_darija_finetune_val_runtime": 250.4523, + "eval_darija_finetune_val_samples_per_second": 3.993, + "eval_darija_finetune_val_steps_per_second": 1.996, + "step": 13200 + }, + { + "epoch": 8.806666666666667, + "grad_norm": 0.15790344774723053, + "learning_rate": 4.275524883954657e-06, + "loss": 0.0063, + "step": 13210 + }, + { + "epoch": 8.813333333333333, + "grad_norm": 3.205167293548584, + "learning_rate": 4.228570267201049e-06, + "loss": 0.0187, + "step": 13220 + }, + { + "epoch": 8.82, + "grad_norm": 0.259084016084671, + "learning_rate": 4.181863521888019e-06, + "loss": 0.0074, + "step": 13230 + }, + { + "epoch": 8.826666666666666, + "grad_norm": 0.03491247072815895, + "learning_rate": 4.13540490095215e-06, + "loss": 0.0065, + "step": 13240 + }, + { + "epoch": 8.833333333333334, + "grad_norm": 0.03994598612189293, + "learning_rate": 4.089194655986306e-06, + "loss": 0.0042, + "step": 13250 + }, + { + "epoch": 8.84, + "grad_norm": 0.053238485008478165, + "learning_rate": 4.043233037238281e-06, + "loss": 0.0033, + "step": 13260 + }, + { + "epoch": 8.846666666666668, + "grad_norm": 0.04695656895637512, + "learning_rate": 3.99752029360948e-06, + "loss": 0.0014, + "step": 13270 + }, + { + "epoch": 8.853333333333333, + "grad_norm": 0.06474554538726807, + "learning_rate": 3.952056672653537e-06, + "loss": 0.0043, + "step": 13280 + }, + { + "epoch": 8.86, + "grad_norm": 0.26049867272377014, + "learning_rate": 3.90684242057498e-06, + "loss": 0.0025, + "step": 13290 + }, + { + "epoch": 8.866666666666667, + "grad_norm": 0.08340281248092651, + "learning_rate": 3.861877782227885e-06, + "loss": 0.0034, + "step": 13300 + }, + { + "epoch": 8.866666666666667, + "eval_darija_finetune_val_loss": 1.5937612056732178, + "eval_darija_finetune_val_runtime": 265.2177, + "eval_darija_finetune_val_samples_per_second": 3.77, + "eval_darija_finetune_val_steps_per_second": 1.885, + "step": 13300 + }, + { + "epoch": 8.873333333333333, + "grad_norm": 0.49471744894981384, + "learning_rate": 3.817163001114588e-06, + "loss": 0.0032, + "step": 13310 + }, + { + "epoch": 8.88, + "grad_norm": 0.08420747518539429, + "learning_rate": 3.772698319384349e-06, + "loss": 0.0078, + "step": 13320 + }, + { + "epoch": 8.886666666666667, + "grad_norm": 0.03979449346661568, + "learning_rate": 3.728483977831998e-06, + "loss": 0.0028, + "step": 13330 + }, + { + "epoch": 8.893333333333333, + "grad_norm": 0.41675490140914917, + "learning_rate": 3.6845202158967027e-06, + "loss": 0.0046, + "step": 13340 + }, + { + "epoch": 8.9, + "grad_norm": 0.17865143716335297, + "learning_rate": 3.6408072716606346e-06, + "loss": 0.0043, + "step": 13350 + }, + { + "epoch": 8.906666666666666, + "grad_norm": 0.04296640306711197, + "learning_rate": 3.5973453818476556e-06, + "loss": 0.0038, + "step": 13360 + }, + { + "epoch": 8.913333333333334, + "grad_norm": 0.3471742868423462, + "learning_rate": 3.5541347818220936e-06, + "loss": 0.0035, + "step": 13370 + }, + { + "epoch": 8.92, + "grad_norm": 0.5155211687088013, + "learning_rate": 3.511175705587433e-06, + "loss": 0.0055, + "step": 13380 + }, + { + "epoch": 8.926666666666666, + "grad_norm": 0.05027766898274422, + "learning_rate": 3.4684683857850233e-06, + "loss": 0.0027, + "step": 13390 + }, + { + "epoch": 8.933333333333334, + "grad_norm": 0.11581618338823318, + "learning_rate": 3.426013053692878e-06, + "loss": 0.0026, + "step": 13400 + }, + { + "epoch": 8.933333333333334, + "eval_darija_finetune_val_loss": 1.6068100929260254, + "eval_darija_finetune_val_runtime": 250.6055, + "eval_darija_finetune_val_samples_per_second": 3.99, + "eval_darija_finetune_val_steps_per_second": 1.995, + "step": 13400 + }, + { + "epoch": 8.94, + "grad_norm": 0.4353666305541992, + "learning_rate": 3.3838099392243916e-06, + "loss": 0.0046, + "step": 13410 + }, + { + "epoch": 8.946666666666667, + "grad_norm": 0.36944469809532166, + "learning_rate": 3.341859270927067e-06, + "loss": 0.0029, + "step": 13420 + }, + { + "epoch": 8.953333333333333, + "grad_norm": 0.043054450303316116, + "learning_rate": 3.3001612759813393e-06, + "loss": 0.0106, + "step": 13430 + }, + { + "epoch": 8.96, + "grad_norm": 0.033374808728694916, + "learning_rate": 3.258716180199278e-06, + "loss": 0.0041, + "step": 13440 + }, + { + "epoch": 8.966666666666667, + "grad_norm": 0.34446877241134644, + "learning_rate": 3.2175242080234313e-06, + "loss": 0.0028, + "step": 13450 + }, + { + "epoch": 8.973333333333333, + "grad_norm": 0.08432984352111816, + "learning_rate": 3.176585582525554e-06, + "loss": 0.0059, + "step": 13460 + }, + { + "epoch": 8.98, + "grad_norm": 1.2169749736785889, + "learning_rate": 3.1359005254054273e-06, + "loss": 0.006, + "step": 13470 + }, + { + "epoch": 8.986666666666666, + "grad_norm": 0.16553735733032227, + "learning_rate": 3.095469256989658e-06, + "loss": 0.011, + "step": 13480 + }, + { + "epoch": 8.993333333333334, + "grad_norm": 0.49264994263648987, + "learning_rate": 3.0552919962304916e-06, + "loss": 0.0035, + "step": 13490 + }, + { + "epoch": 9.0, + "grad_norm": 0.6509057879447937, + "learning_rate": 3.0153689607045845e-06, + "loss": 0.0138, + "step": 13500 + }, + { + "epoch": 9.0, + "eval_darija_finetune_val_loss": 1.6042463779449463, + "eval_darija_finetune_val_runtime": 250.3963, + "eval_darija_finetune_val_samples_per_second": 3.994, + "eval_darija_finetune_val_steps_per_second": 1.997, + "step": 13500 + }, + { + "epoch": 9.006666666666666, + "grad_norm": 0.12561754882335663, + "learning_rate": 2.975700366611883e-06, + "loss": 0.002, + "step": 13510 + }, + { + "epoch": 9.013333333333334, + "grad_norm": 0.021809114143252373, + "learning_rate": 2.936286428774426e-06, + "loss": 0.0025, + "step": 13520 + }, + { + "epoch": 9.02, + "grad_norm": 0.3599202036857605, + "learning_rate": 2.8971273606351658e-06, + "loss": 0.002, + "step": 13530 + }, + { + "epoch": 9.026666666666667, + "grad_norm": 0.049321990460157394, + "learning_rate": 2.858223374256841e-06, + "loss": 0.0014, + "step": 13540 + }, + { + "epoch": 9.033333333333333, + "grad_norm": 0.04616083204746246, + "learning_rate": 2.8195746803208244e-06, + "loss": 0.0024, + "step": 13550 + }, + { + "epoch": 9.04, + "grad_norm": 0.08672983199357986, + "learning_rate": 2.7811814881259503e-06, + "loss": 0.0021, + "step": 13560 + }, + { + "epoch": 9.046666666666667, + "grad_norm": 0.03193218633532524, + "learning_rate": 2.743044005587425e-06, + "loss": 0.0014, + "step": 13570 + }, + { + "epoch": 9.053333333333333, + "grad_norm": 0.1774233728647232, + "learning_rate": 2.7051624392356477e-06, + "loss": 0.0029, + "step": 13580 + }, + { + "epoch": 9.06, + "grad_norm": 0.23276670277118683, + "learning_rate": 2.667536994215186e-06, + "loss": 0.0052, + "step": 13590 + }, + { + "epoch": 9.066666666666666, + "grad_norm": 0.02511504665017128, + "learning_rate": 2.63016787428354e-06, + "loss": 0.0018, + "step": 13600 + }, + { + "epoch": 9.066666666666666, + "eval_darija_finetune_val_loss": 1.6198582649230957, + "eval_darija_finetune_val_runtime": 250.3537, + "eval_darija_finetune_val_samples_per_second": 3.994, + "eval_darija_finetune_val_steps_per_second": 1.997, + "step": 13600 + }, + { + "epoch": 9.073333333333334, + "grad_norm": 0.16608285903930664, + "learning_rate": 2.593055281810125e-06, + "loss": 0.0073, + "step": 13610 + }, + { + "epoch": 9.08, + "grad_norm": 0.07170232385396957, + "learning_rate": 2.5561994177751737e-06, + "loss": 0.0033, + "step": 13620 + }, + { + "epoch": 9.086666666666666, + "grad_norm": 0.10964661836624146, + "learning_rate": 2.5196004817685968e-06, + "loss": 0.0031, + "step": 13630 + }, + { + "epoch": 9.093333333333334, + "grad_norm": 0.09167282283306122, + "learning_rate": 2.4832586719889416e-06, + "loss": 0.0016, + "step": 13640 + }, + { + "epoch": 9.1, + "grad_norm": 0.05601055920124054, + "learning_rate": 2.4471741852423237e-06, + "loss": 0.0046, + "step": 13650 + }, + { + "epoch": 9.106666666666667, + "grad_norm": 0.10156255215406418, + "learning_rate": 2.4113472169413177e-06, + "loss": 0.0031, + "step": 13660 + }, + { + "epoch": 9.113333333333333, + "grad_norm": 0.025103475898504257, + "learning_rate": 2.37577796110397e-06, + "loss": 0.003, + "step": 13670 + }, + { + "epoch": 9.12, + "grad_norm": 0.05108155682682991, + "learning_rate": 2.340466610352654e-06, + "loss": 0.0017, + "step": 13680 + }, + { + "epoch": 9.126666666666667, + "grad_norm": 0.039982885122299194, + "learning_rate": 2.305413355913116e-06, + "loss": 0.0011, + "step": 13690 + }, + { + "epoch": 9.133333333333333, + "grad_norm": 0.02896793745458126, + "learning_rate": 2.2706183876134045e-06, + "loss": 0.0022, + "step": 13700 + }, + { + "epoch": 9.133333333333333, + "eval_darija_finetune_val_loss": 1.6314254999160767, + "eval_darija_finetune_val_runtime": 265.4755, + "eval_darija_finetune_val_samples_per_second": 3.767, + "eval_darija_finetune_val_steps_per_second": 1.883, + "step": 13700 + }, + { + "epoch": 9.14, + "grad_norm": 0.019802812486886978, + "learning_rate": 2.2360818938828187e-06, + "loss": 0.0026, + "step": 13710 + }, + { + "epoch": 9.146666666666667, + "grad_norm": 0.041769228875637054, + "learning_rate": 2.201804061750917e-06, + "loss": 0.0026, + "step": 13720 + }, + { + "epoch": 9.153333333333332, + "grad_norm": 0.2832973301410675, + "learning_rate": 2.167785076846518e-06, + "loss": 0.0038, + "step": 13730 + }, + { + "epoch": 9.16, + "grad_norm": 0.12793438136577606, + "learning_rate": 2.134025123396638e-06, + "loss": 0.0034, + "step": 13740 + }, + { + "epoch": 9.166666666666666, + "grad_norm": 0.5265379548072815, + "learning_rate": 2.100524384225555e-06, + "loss": 0.0024, + "step": 13750 + }, + { + "epoch": 9.173333333333334, + "grad_norm": 0.034079696983098984, + "learning_rate": 2.0672830407537924e-06, + "loss": 0.0013, + "step": 13760 + }, + { + "epoch": 9.18, + "grad_norm": 0.1102578267455101, + "learning_rate": 2.0343012729971243e-06, + "loss": 0.0024, + "step": 13770 + }, + { + "epoch": 9.186666666666667, + "grad_norm": 0.07066575437784195, + "learning_rate": 2.0015792595656226e-06, + "loss": 0.001, + "step": 13780 + }, + { + "epoch": 9.193333333333333, + "grad_norm": 0.038139596581459045, + "learning_rate": 1.9691171776626884e-06, + "loss": 0.0029, + "step": 13790 + }, + { + "epoch": 9.2, + "grad_norm": 0.1217527687549591, + "learning_rate": 1.9369152030840556e-06, + "loss": 0.0054, + "step": 13800 + }, + { + "epoch": 9.2, + "eval_darija_finetune_val_loss": 1.650195837020874, + "eval_darija_finetune_val_runtime": 251.8453, + "eval_darija_finetune_val_samples_per_second": 3.971, + "eval_darija_finetune_val_steps_per_second": 1.985, + "step": 13800 + }, + { + "epoch": 9.206666666666667, + "grad_norm": 0.03730589151382446, + "learning_rate": 1.904973510216912e-06, + "loss": 0.0015, + "step": 13810 + }, + { + "epoch": 9.213333333333333, + "grad_norm": 0.034628432244062424, + "learning_rate": 1.8732922720388679e-06, + "loss": 0.0052, + "step": 13820 + }, + { + "epoch": 9.22, + "grad_norm": 0.06376727670431137, + "learning_rate": 1.841871660117095e-06, + "loss": 0.0027, + "step": 13830 + }, + { + "epoch": 9.226666666666667, + "grad_norm": 0.035195596516132355, + "learning_rate": 1.810711844607349e-06, + "loss": 0.0028, + "step": 13840 + }, + { + "epoch": 9.233333333333333, + "grad_norm": 0.13238826394081116, + "learning_rate": 1.7798129942530551e-06, + "loss": 0.0028, + "step": 13850 + }, + { + "epoch": 9.24, + "grad_norm": 0.0559844933450222, + "learning_rate": 1.7491752763844293e-06, + "loss": 0.0016, + "step": 13860 + }, + { + "epoch": 9.246666666666666, + "grad_norm": 0.030594397336244583, + "learning_rate": 1.7187988569175307e-06, + "loss": 0.0012, + "step": 13870 + }, + { + "epoch": 9.253333333333334, + "grad_norm": 0.7343409657478333, + "learning_rate": 1.6886839003533661e-06, + "loss": 0.0051, + "step": 13880 + }, + { + "epoch": 9.26, + "grad_norm": 0.07037964463233948, + "learning_rate": 1.6588305697770313e-06, + "loss": 0.002, + "step": 13890 + }, + { + "epoch": 9.266666666666667, + "grad_norm": 0.07239523530006409, + "learning_rate": 1.6292390268568104e-06, + "loss": 0.0033, + "step": 13900 + }, + { + "epoch": 9.266666666666667, + "eval_darija_finetune_val_loss": 1.654667854309082, + "eval_darija_finetune_val_runtime": 250.5658, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.995, + "step": 13900 + }, + { + "epoch": 9.273333333333333, + "grad_norm": 0.05702801048755646, + "learning_rate": 1.5999094318432661e-06, + "loss": 0.0018, + "step": 13910 + }, + { + "epoch": 9.28, + "grad_norm": 0.2486821562051773, + "learning_rate": 1.5708419435684462e-06, + "loss": 0.0034, + "step": 13920 + }, + { + "epoch": 9.286666666666667, + "grad_norm": 0.023390335962176323, + "learning_rate": 1.5420367194449448e-06, + "loss": 0.002, + "step": 13930 + }, + { + "epoch": 9.293333333333333, + "grad_norm": 0.19281518459320068, + "learning_rate": 1.5134939154651196e-06, + "loss": 0.0025, + "step": 13940 + }, + { + "epoch": 9.3, + "grad_norm": 0.05233129858970642, + "learning_rate": 1.4852136862001764e-06, + "loss": 0.0023, + "step": 13950 + }, + { + "epoch": 9.306666666666667, + "grad_norm": 0.06005314365029335, + "learning_rate": 1.4571961847993976e-06, + "loss": 0.0018, + "step": 13960 + }, + { + "epoch": 9.313333333333333, + "grad_norm": 0.04353105649352074, + "learning_rate": 1.4294415629892754e-06, + "loss": 0.0015, + "step": 13970 + }, + { + "epoch": 9.32, + "grad_norm": 0.10295519232749939, + "learning_rate": 1.4019499710726913e-06, + "loss": 0.0017, + "step": 13980 + }, + { + "epoch": 9.326666666666666, + "grad_norm": 0.07320210337638855, + "learning_rate": 1.374721557928116e-06, + "loss": 0.0021, + "step": 13990 + }, + { + "epoch": 9.333333333333334, + "grad_norm": 0.377230703830719, + "learning_rate": 1.3477564710088098e-06, + "loss": 0.004, + "step": 14000 + }, + { + "epoch": 9.333333333333334, + "eval_darija_finetune_val_loss": 1.6622756719589233, + "eval_darija_finetune_val_runtime": 250.5902, + "eval_darija_finetune_val_samples_per_second": 3.991, + "eval_darija_finetune_val_steps_per_second": 1.995, + "step": 14000 + }, + { + "epoch": 9.34, + "grad_norm": 0.07935582101345062, + "learning_rate": 1.3210548563419856e-06, + "loss": 0.0019, + "step": 14010 + }, + { + "epoch": 9.346666666666668, + "grad_norm": 0.02722185105085373, + "learning_rate": 1.2946168585280639e-06, + "loss": 0.0013, + "step": 14020 + }, + { + "epoch": 9.353333333333333, + "grad_norm": 0.04203237593173981, + "learning_rate": 1.268442620739868e-06, + "loss": 0.0021, + "step": 14030 + }, + { + "epoch": 9.36, + "grad_norm": 0.06985631585121155, + "learning_rate": 1.2425322847218368e-06, + "loss": 0.0014, + "step": 14040 + }, + { + "epoch": 9.366666666666667, + "grad_norm": 0.026989003643393517, + "learning_rate": 1.2168859907892904e-06, + "loss": 0.0034, + "step": 14050 + }, + { + "epoch": 9.373333333333333, + "grad_norm": 0.10821487009525299, + "learning_rate": 1.191503877827621e-06, + "loss": 0.0042, + "step": 14060 + }, + { + "epoch": 9.38, + "grad_norm": 0.029435032978653908, + "learning_rate": 1.166386083291604e-06, + "loss": 0.0044, + "step": 14070 + }, + { + "epoch": 9.386666666666667, + "grad_norm": 0.04199404641985893, + "learning_rate": 1.141532743204604e-06, + "loss": 0.0032, + "step": 14080 + }, + { + "epoch": 9.393333333333333, + "grad_norm": 0.27149853110313416, + "learning_rate": 1.1169439921578484e-06, + "loss": 0.0021, + "step": 14090 + }, + { + "epoch": 9.4, + "grad_norm": 0.04442417621612549, + "learning_rate": 1.0926199633097157e-06, + "loss": 0.002, + "step": 14100 + }, + { + "epoch": 9.4, + "eval_darija_finetune_val_loss": 1.6646496057510376, + "eval_darija_finetune_val_runtime": 255.7533, + "eval_darija_finetune_val_samples_per_second": 3.91, + "eval_darija_finetune_val_steps_per_second": 1.955, + "step": 14100 + }, + { + "epoch": 9.406666666666666, + "grad_norm": 0.06897199153900146, + "learning_rate": 1.0685607883850035e-06, + "loss": 0.0023, + "step": 14110 + }, + { + "epoch": 9.413333333333334, + "grad_norm": 0.03539164364337921, + "learning_rate": 1.044766597674196e-06, + "loss": 0.0033, + "step": 14120 + }, + { + "epoch": 9.42, + "grad_norm": 0.11743707209825516, + "learning_rate": 1.0212375200327973e-06, + "loss": 0.0019, + "step": 14130 + }, + { + "epoch": 9.426666666666666, + "grad_norm": 0.03879775479435921, + "learning_rate": 9.979736828806096e-07, + "loss": 0.001, + "step": 14140 + }, + { + "epoch": 9.433333333333334, + "grad_norm": 0.34983253479003906, + "learning_rate": 9.749752122010346e-07, + "loss": 0.0051, + "step": 14150 + }, + { + "epoch": 9.44, + "grad_norm": 0.12642650306224823, + "learning_rate": 9.522422325404235e-07, + "loss": 0.0015, + "step": 14160 + }, + { + "epoch": 9.446666666666667, + "grad_norm": 0.033092793077230453, + "learning_rate": 9.297748670073659e-07, + "loss": 0.001, + "step": 14170 + }, + { + "epoch": 9.453333333333333, + "grad_norm": 0.03557824715971947, + "learning_rate": 9.075732372720414e-07, + "loss": 0.0028, + "step": 14180 + }, + { + "epoch": 9.46, + "grad_norm": 0.028103673830628395, + "learning_rate": 8.856374635655695e-07, + "loss": 0.0026, + "step": 14190 + }, + { + "epoch": 9.466666666666667, + "grad_norm": 0.031043345108628273, + "learning_rate": 8.639676646793382e-07, + "loss": 0.0033, + "step": 14200 + }, + { + "epoch": 9.466666666666667, + "eval_darija_finetune_val_loss": 1.666609764099121, + "eval_darija_finetune_val_runtime": 255.5623, + "eval_darija_finetune_val_samples_per_second": 3.913, + "eval_darija_finetune_val_steps_per_second": 1.956, + "step": 14200 + }, + { + "epoch": 9.473333333333333, + "grad_norm": 0.09890888631343842, + "learning_rate": 8.425639579643762e-07, + "loss": 0.004, + "step": 14210 + }, + { + "epoch": 9.48, + "grad_norm": 0.22660115361213684, + "learning_rate": 8.214264593307098e-07, + "loss": 0.0034, + "step": 14220 + }, + { + "epoch": 9.486666666666666, + "grad_norm": 0.040176887065172195, + "learning_rate": 8.00555283246729e-07, + "loss": 0.0028, + "step": 14230 + }, + { + "epoch": 9.493333333333334, + "grad_norm": 0.022285951301455498, + "learning_rate": 7.799505427386e-07, + "loss": 0.0053, + "step": 14240 + }, + { + "epoch": 9.5, + "grad_norm": 0.042314715683460236, + "learning_rate": 7.596123493895991e-07, + "loss": 0.0016, + "step": 14250 + }, + { + "epoch": 9.506666666666666, + "grad_norm": 0.11391445249319077, + "learning_rate": 7.395408133395509e-07, + "loss": 0.0015, + "step": 14260 + }, + { + "epoch": 9.513333333333334, + "grad_norm": 0.1724116951227188, + "learning_rate": 7.197360432842359e-07, + "loss": 0.0017, + "step": 14270 + }, + { + "epoch": 9.52, + "grad_norm": 0.16999681293964386, + "learning_rate": 7.001981464747565e-07, + "loss": 0.0023, + "step": 14280 + }, + { + "epoch": 9.526666666666667, + "grad_norm": 0.10029477626085281, + "learning_rate": 6.809272287169988e-07, + "loss": 0.0023, + "step": 14290 + }, + { + "epoch": 9.533333333333333, + "grad_norm": 0.039643097668886185, + "learning_rate": 6.61923394371039e-07, + "loss": 0.0027, + "step": 14300 + }, + { + "epoch": 9.533333333333333, + "eval_darija_finetune_val_loss": 1.6690089702606201, + "eval_darija_finetune_val_runtime": 255.4769, + "eval_darija_finetune_val_samples_per_second": 3.914, + "eval_darija_finetune_val_steps_per_second": 1.957, + "step": 14300 + }, + { + "epoch": 9.54, + "grad_norm": 0.03370843455195427, + "learning_rate": 6.431867463506048e-07, + "loss": 0.0027, + "step": 14310 + }, + { + "epoch": 9.546666666666667, + "grad_norm": 0.34513676166534424, + "learning_rate": 6.247173861224753e-07, + "loss": 0.0058, + "step": 14320 + }, + { + "epoch": 9.553333333333333, + "grad_norm": 0.17203524708747864, + "learning_rate": 6.065154137059603e-07, + "loss": 0.0044, + "step": 14330 + }, + { + "epoch": 9.56, + "grad_norm": 0.03655833750963211, + "learning_rate": 5.885809276723608e-07, + "loss": 0.0036, + "step": 14340 + }, + { + "epoch": 9.566666666666666, + "grad_norm": 0.02188190259039402, + "learning_rate": 5.7091402514442e-07, + "loss": 0.0048, + "step": 14350 + }, + { + "epoch": 9.573333333333334, + "grad_norm": 0.12789933383464813, + "learning_rate": 5.535148017958014e-07, + "loss": 0.002, + "step": 14360 + }, + { + "epoch": 9.58, + "grad_norm": 0.020552916452288628, + "learning_rate": 5.363833518505834e-07, + "loss": 0.0011, + "step": 14370 + }, + { + "epoch": 9.586666666666666, + "grad_norm": 0.6408979892730713, + "learning_rate": 5.19519768082738e-07, + "loss": 0.0087, + "step": 14380 + }, + { + "epoch": 9.593333333333334, + "grad_norm": 0.0416598841547966, + "learning_rate": 5.029241418156138e-07, + "loss": 0.0013, + "step": 14390 + }, + { + "epoch": 9.6, + "grad_norm": 0.08508996665477753, + "learning_rate": 4.865965629214819e-07, + "loss": 0.0013, + "step": 14400 + }, + { + "epoch": 9.6, + "eval_darija_finetune_val_loss": 1.6721937656402588, + "eval_darija_finetune_val_runtime": 255.4787, + "eval_darija_finetune_val_samples_per_second": 3.914, + "eval_darija_finetune_val_steps_per_second": 1.957, + "step": 14400 + }, + { + "epoch": 9.606666666666667, + "grad_norm": 0.027304980903863907, + "learning_rate": 4.705371198210129e-07, + "loss": 0.0015, + "step": 14410 + }, + { + "epoch": 9.613333333333333, + "grad_norm": 0.5199796557426453, + "learning_rate": 4.547458994828002e-07, + "loss": 0.0046, + "step": 14420 + }, + { + "epoch": 9.62, + "grad_norm": 0.05668272078037262, + "learning_rate": 4.392229874229159e-07, + "loss": 0.0051, + "step": 14430 + }, + { + "epoch": 9.626666666666667, + "grad_norm": 0.09250006079673767, + "learning_rate": 4.239684677044165e-07, + "loss": 0.0038, + "step": 14440 + }, + { + "epoch": 9.633333333333333, + "grad_norm": 0.26337122917175293, + "learning_rate": 4.089824229369155e-07, + "loss": 0.0038, + "step": 14450 + }, + { + "epoch": 9.64, + "grad_norm": 0.036606959998607635, + "learning_rate": 3.9426493427611177e-07, + "loss": 0.003, + "step": 14460 + }, + { + "epoch": 9.646666666666667, + "grad_norm": 0.027376560494303703, + "learning_rate": 3.7981608142335643e-07, + "loss": 0.0027, + "step": 14470 + }, + { + "epoch": 9.653333333333332, + "grad_norm": 0.10615944862365723, + "learning_rate": 3.65635942625242e-07, + "loss": 0.0016, + "step": 14480 + }, + { + "epoch": 9.66, + "grad_norm": 0.15014106035232544, + "learning_rate": 3.517245946731529e-07, + "loss": 0.0019, + "step": 14490 + }, + { + "epoch": 9.666666666666666, + "grad_norm": 0.08429398387670517, + "learning_rate": 3.380821129028489e-07, + "loss": 0.0025, + "step": 14500 + }, + { + "epoch": 9.666666666666666, + "eval_darija_finetune_val_loss": 1.6728246212005615, + "eval_darija_finetune_val_runtime": 255.3964, + "eval_darija_finetune_val_samples_per_second": 3.915, + "eval_darija_finetune_val_steps_per_second": 1.958, + "step": 14500 + }, + { + "epoch": 9.673333333333334, + "grad_norm": 0.10686097294092178, + "learning_rate": 3.247085711940878e-07, + "loss": 0.0014, + "step": 14510 + }, + { + "epoch": 9.68, + "grad_norm": 0.3458156883716583, + "learning_rate": 3.1160404197018154e-07, + "loss": 0.0031, + "step": 14520 + }, + { + "epoch": 9.686666666666667, + "grad_norm": 0.053383663296699524, + "learning_rate": 2.987685961976461e-07, + "loss": 0.003, + "step": 14530 + }, + { + "epoch": 9.693333333333333, + "grad_norm": 0.06601729243993759, + "learning_rate": 2.8620230338578523e-07, + "loss": 0.0017, + "step": 14540 + }, + { + "epoch": 9.7, + "grad_norm": 0.0821034237742424, + "learning_rate": 2.7390523158633554e-07, + "loss": 0.0018, + "step": 14550 + }, + { + "epoch": 9.706666666666667, + "grad_norm": 0.03112124837934971, + "learning_rate": 2.6187744739308297e-07, + "loss": 0.0035, + "step": 14560 + }, + { + "epoch": 9.713333333333333, + "grad_norm": 0.1146470457315445, + "learning_rate": 2.5011901594150787e-07, + "loss": 0.0059, + "step": 14570 + }, + { + "epoch": 9.72, + "grad_norm": 0.03972403705120087, + "learning_rate": 2.386300009084408e-07, + "loss": 0.0024, + "step": 14580 + }, + { + "epoch": 9.726666666666667, + "grad_norm": 0.0728117823600769, + "learning_rate": 2.27410464511707e-07, + "loss": 0.0064, + "step": 14590 + }, + { + "epoch": 9.733333333333333, + "grad_norm": 0.1488317847251892, + "learning_rate": 2.1646046750978254e-07, + "loss": 0.0029, + "step": 14600 + }, + { + "epoch": 9.733333333333333, + "eval_darija_finetune_val_loss": 1.673312783241272, + "eval_darija_finetune_val_runtime": 255.3991, + "eval_darija_finetune_val_samples_per_second": 3.915, + "eval_darija_finetune_val_steps_per_second": 1.958, + "step": 14600 + }, + { + "epoch": 9.74, + "grad_norm": 0.025615466758608818, + "learning_rate": 2.057800692014833e-07, + "loss": 0.0037, + "step": 14610 + }, + { + "epoch": 9.746666666666666, + "grad_norm": 0.30165600776672363, + "learning_rate": 1.953693274256374e-07, + "loss": 0.0017, + "step": 14620 + }, + { + "epoch": 9.753333333333334, + "grad_norm": 0.2331075370311737, + "learning_rate": 1.8522829856076894e-07, + "loss": 0.0021, + "step": 14630 + }, + { + "epoch": 9.76, + "grad_norm": 0.030038727447390556, + "learning_rate": 1.753570375247815e-07, + "loss": 0.0018, + "step": 14640 + }, + { + "epoch": 9.766666666666667, + "grad_norm": 0.06875910609960556, + "learning_rate": 1.657555977746972e-07, + "loss": 0.0015, + "step": 14650 + }, + { + "epoch": 9.773333333333333, + "grad_norm": 0.04768647253513336, + "learning_rate": 1.5642403130632365e-07, + "loss": 0.0016, + "step": 14660 + }, + { + "epoch": 9.78, + "grad_norm": 0.04930035024881363, + "learning_rate": 1.4736238865398765e-07, + "loss": 0.0032, + "step": 14670 + }, + { + "epoch": 9.786666666666667, + "grad_norm": 0.08424542844295502, + "learning_rate": 1.3857071889029072e-07, + "loss": 0.0019, + "step": 14680 + }, + { + "epoch": 9.793333333333333, + "grad_norm": 0.028574960306286812, + "learning_rate": 1.3004906962578721e-07, + "loss": 0.0037, + "step": 14690 + }, + { + "epoch": 9.8, + "grad_norm": 0.21403536200523376, + "learning_rate": 1.2179748700879012e-07, + "loss": 0.0013, + "step": 14700 + }, + { + "epoch": 9.8, + "eval_darija_finetune_val_loss": 1.6734645366668701, + "eval_darija_finetune_val_runtime": 255.166, + "eval_darija_finetune_val_samples_per_second": 3.919, + "eval_darija_finetune_val_steps_per_second": 1.96, + "step": 14700 + }, + { + "epoch": 9.806666666666667, + "grad_norm": 0.19800934195518494, + "learning_rate": 1.1381601572505452e-07, + "loss": 0.002, + "step": 14710 + }, + { + "epoch": 9.813333333333333, + "grad_norm": 0.07532814145088196, + "learning_rate": 1.061046989976e-07, + "loss": 0.0016, + "step": 14720 + }, + { + "epoch": 9.82, + "grad_norm": 0.03803536668419838, + "learning_rate": 9.866357858642205e-08, + "loss": 0.0018, + "step": 14730 + }, + { + "epoch": 9.826666666666666, + "grad_norm": 0.02579469606280327, + "learning_rate": 9.14926947883088e-08, + "loss": 0.0018, + "step": 14740 + }, + { + "epoch": 9.833333333333334, + "grad_norm": 0.05008160322904587, + "learning_rate": 8.459208643659122e-08, + "loss": 0.0031, + "step": 14750 + }, + { + "epoch": 9.84, + "grad_norm": 0.030018998309969902, + "learning_rate": 7.796179090094891e-08, + "loss": 0.0037, + "step": 14760 + }, + { + "epoch": 9.846666666666668, + "grad_norm": 0.19618861377239227, + "learning_rate": 7.160184408721571e-08, + "loss": 0.0025, + "step": 14770 + }, + { + "epoch": 9.853333333333333, + "grad_norm": 0.34861278533935547, + "learning_rate": 6.551228043715219e-08, + "loss": 0.004, + "step": 14780 + }, + { + "epoch": 9.86, + "grad_norm": 0.04783879965543747, + "learning_rate": 5.969313292830125e-08, + "loss": 0.0026, + "step": 14790 + }, + { + "epoch": 9.866666666666667, + "grad_norm": 0.5102653503417969, + "learning_rate": 5.4144433073771707e-08, + "loss": 0.0026, + "step": 14800 + }, + { + "epoch": 9.866666666666667, + "eval_darija_finetune_val_loss": 1.673407793045044, + "eval_darija_finetune_val_runtime": 255.4391, + "eval_darija_finetune_val_samples_per_second": 3.915, + "eval_darija_finetune_val_steps_per_second": 1.957, + "step": 14800 + }, + { + "epoch": 9.873333333333333, + "grad_norm": 0.036181893199682236, + "learning_rate": 4.886621092211052e-08, + "loss": 0.0019, + "step": 14810 + }, + { + "epoch": 9.88, + "grad_norm": 0.06323245912790298, + "learning_rate": 4.385849505708084e-08, + "loss": 0.0022, + "step": 14820 + }, + { + "epoch": 9.886666666666667, + "grad_norm": 0.24941439926624298, + "learning_rate": 3.9121312597573125e-08, + "loss": 0.0028, + "step": 14830 + }, + { + "epoch": 9.893333333333333, + "grad_norm": 0.04239274561405182, + "learning_rate": 3.4654689197405335e-08, + "loss": 0.0017, + "step": 14840 + }, + { + "epoch": 9.9, + "grad_norm": 0.10489597171545029, + "learning_rate": 3.04586490452119e-08, + "loss": 0.0015, + "step": 14850 + }, + { + "epoch": 9.906666666666666, + "grad_norm": 0.026127703487873077, + "learning_rate": 2.6533214864310486e-08, + "loss": 0.0015, + "step": 14860 + }, + { + "epoch": 9.913333333333334, + "grad_norm": 0.054172832518815994, + "learning_rate": 2.2878407912563236e-08, + "loss": 0.0016, + "step": 14870 + }, + { + "epoch": 9.92, + "grad_norm": 0.04403897374868393, + "learning_rate": 1.949424798228239e-08, + "loss": 0.0027, + "step": 14880 + }, + { + "epoch": 9.926666666666666, + "grad_norm": 0.07947228848934174, + "learning_rate": 1.638075340010814e-08, + "loss": 0.0026, + "step": 14890 + }, + { + "epoch": 9.933333333333334, + "grad_norm": 0.14770367741584778, + "learning_rate": 1.3537941026914303e-08, + "loss": 0.0038, + "step": 14900 + }, + { + "epoch": 9.933333333333334, + "eval_darija_finetune_val_loss": 1.6740809679031372, + "eval_darija_finetune_val_runtime": 255.2455, + "eval_darija_finetune_val_samples_per_second": 3.918, + "eval_darija_finetune_val_steps_per_second": 1.959, + "step": 14900 + }, + { + "epoch": 9.94, + "grad_norm": 0.030284589156508446, + "learning_rate": 1.096582625772502e-08, + "loss": 0.0025, + "step": 14910 + }, + { + "epoch": 9.946666666666667, + "grad_norm": 0.04268106445670128, + "learning_rate": 8.664423021614853e-09, + "loss": 0.0019, + "step": 14920 + }, + { + "epoch": 9.953333333333333, + "grad_norm": 0.07388421893119812, + "learning_rate": 6.633743781642166e-09, + "loss": 0.0028, + "step": 14930 + }, + { + "epoch": 9.96, + "grad_norm": 0.09784652292728424, + "learning_rate": 4.873799534788059e-09, + "loss": 0.0027, + "step": 14940 + }, + { + "epoch": 9.966666666666667, + "grad_norm": 0.8997828364372253, + "learning_rate": 3.384599811889766e-09, + "loss": 0.0063, + "step": 14950 + }, + { + "epoch": 9.973333333333333, + "grad_norm": 0.031884029507637024, + "learning_rate": 2.1661526775795806e-09, + "loss": 0.0023, + "step": 14960 + }, + { + "epoch": 9.98, + "grad_norm": 0.045857325196266174, + "learning_rate": 1.2184647302626583e-09, + "loss": 0.0016, + "step": 14970 + }, + { + "epoch": 9.986666666666666, + "grad_norm": 0.06468190252780914, + "learning_rate": 5.415411020615047e-10, + "loss": 0.0026, + "step": 14980 + }, + { + "epoch": 9.993333333333334, + "grad_norm": 0.155287966132164, + "learning_rate": 1.3538545881042197e-10, + "loss": 0.0027, + "step": 14990 + }, + { + "epoch": 10.0, + "grad_norm": 0.04103178158402443, + "learning_rate": 0.0, + "loss": 0.0032, + "step": 15000 + }, + { + "epoch": 10.0, + "eval_darija_finetune_val_loss": 1.6740385293960571, + "eval_darija_finetune_val_runtime": 255.3613, + "eval_darija_finetune_val_samples_per_second": 3.916, + "eval_darija_finetune_val_steps_per_second": 1.958, + "step": 15000 + }, + { + "epoch": 10.0, + "step": 15000, + "total_flos": 2.3021942645089894e+17, + "train_loss": 0.0, + "train_runtime": 2.5784, + "train_samples_per_second": 46541.284, + "train_steps_per_second": 5817.66 + } + ], + "logging_steps": 10, + "max_steps": 15000, + "num_input_tokens_seen": 0, + "num_train_epochs": 10, + "save_steps": 1000, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 2.3021942645089894e+17, + "train_batch_size": 1, + "trial_name": null, + "trial_params": null +}