diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,11742 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 100,
+  "global_step": 15000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.006666666666666667,
+      "grad_norm": 9.268775939941406,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 3.0642,
+      "step": 10
+    },
+    {
+      "epoch": 0.013333333333333334,
+      "grad_norm": 9.500263214111328,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 2.8189,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 7.298404693603516,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 2.8796,
+      "step": 30
+    },
+    {
+      "epoch": 0.02666666666666667,
+      "grad_norm": 5.893432140350342,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 2.7828,
+      "step": 40
+    },
+    {
+      "epoch": 0.03333333333333333,
+      "grad_norm": 5.851838111877441,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 2.5255,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 4.55861759185791,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 2.5538,
+      "step": 60
+    },
+    {
+      "epoch": 0.04666666666666667,
+      "grad_norm": 6.272013187408447,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 2.5819,
+      "step": 70
+    },
+    {
+      "epoch": 0.05333333333333334,
+      "grad_norm": 6.030414581298828,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 2.4608,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 6.942994117736816,
+      "learning_rate": 6e-06,
+      "loss": 2.5688,
+      "step": 90
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 7.662395000457764,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 2.2455,
+      "step": 100
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "eval_darija_finetune_val_loss": 2.2932026386260986,
+      "eval_darija_finetune_val_runtime": 259.0701,
+      "eval_darija_finetune_val_samples_per_second": 3.86,
+      "eval_darija_finetune_val_steps_per_second": 1.93,
+      "step": 100
+    },
+    {
+      "epoch": 0.07333333333333333,
+      "grad_norm": 7.321921348571777,
+      "learning_rate": 7.333333333333334e-06,
+      "loss": 2.347,
+      "step": 110
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 8.149300575256348,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 2.221,
+      "step": 120
+    },
+    {
+      "epoch": 0.08666666666666667,
+      "grad_norm": 6.455135345458984,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 2.2408,
+      "step": 130
+    },
+    {
+      "epoch": 0.09333333333333334,
+      "grad_norm": 6.133583068847656,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 2.3875,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 8.713020324707031,
+      "learning_rate": 1e-05,
+      "loss": 2.2372,
+      "step": 150
+    },
+    {
+      "epoch": 0.10666666666666667,
+      "grad_norm": 7.3972978591918945,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 2.0616,
+      "step": 160
+    },
+    {
+      "epoch": 0.11333333333333333,
+      "grad_norm": 6.897719860076904,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 2.0148,
+      "step": 170
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 5.360996246337891,
+      "learning_rate": 1.2e-05,
+      "loss": 2.0855,
+      "step": 180
+    },
+    {
+      "epoch": 0.12666666666666668,
+      "grad_norm": 7.835807800292969,
+      "learning_rate": 1.2666666666666668e-05,
+      "loss": 2.117,
+      "step": 190
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 6.022270679473877,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 1.7996,
+      "step": 200
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "eval_darija_finetune_val_loss": 1.892167091369629,
+      "eval_darija_finetune_val_runtime": 259.1849,
+      "eval_darija_finetune_val_samples_per_second": 3.858,
+      "eval_darija_finetune_val_steps_per_second": 1.929,
+      "step": 200
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 8.653072357177734,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 2.0668,
+      "step": 210
+    },
+    {
+      "epoch": 0.14666666666666667,
+      "grad_norm": 7.903113842010498,
+      "learning_rate": 1.4666666666666668e-05,
+      "loss": 1.7255,
+      "step": 220
+    },
+    {
+      "epoch": 0.15333333333333332,
+      "grad_norm": 9.175501823425293,
+      "learning_rate": 1.5333333333333334e-05,
+      "loss": 1.7861,
+      "step": 230
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 7.112132549285889,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 1.8126,
+      "step": 240
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 6.008356094360352,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.8613,
+      "step": 250
+    },
+    {
+      "epoch": 0.17333333333333334,
+      "grad_norm": 7.87493896484375,
+      "learning_rate": 1.7333333333333336e-05,
+      "loss": 1.7834,
+      "step": 260
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 7.564673900604248,
+      "learning_rate": 1.8e-05,
+      "loss": 1.6655,
+      "step": 270
+    },
+    {
+      "epoch": 0.18666666666666668,
+      "grad_norm": 9.032303810119629,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 1.7847,
+      "step": 280
+    },
+    {
+      "epoch": 0.19333333333333333,
+      "grad_norm": 8.308818817138672,
+      "learning_rate": 1.9333333333333333e-05,
+      "loss": 1.7349,
+      "step": 290
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 11.66466999053955,
+      "learning_rate": 2e-05,
+      "loss": 1.7058,
+      "step": 300
+    },
+    {
+      "epoch": 0.2,
+      "eval_darija_finetune_val_loss": 1.6624267101287842,
+      "eval_darija_finetune_val_runtime": 259.2584,
+      "eval_darija_finetune_val_samples_per_second": 3.857,
+      "eval_darija_finetune_val_steps_per_second": 1.929,
+      "step": 300
+    },
+    {
+      "epoch": 0.20666666666666667,
+      "grad_norm": 8.424105644226074,
+      "learning_rate": 2.0666666666666666e-05,
+      "loss": 1.5579,
+      "step": 310
+    },
+    {
+      "epoch": 0.21333333333333335,
+      "grad_norm": 6.0295515060424805,
+      "learning_rate": 2.1333333333333335e-05,
+      "loss": 1.6849,
+      "step": 320
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 6.430535793304443,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 1.5016,
+      "step": 330
+    },
+    {
+      "epoch": 0.22666666666666666,
+      "grad_norm": 9.018087387084961,
+      "learning_rate": 2.2666666666666668e-05,
+      "loss": 1.5056,
+      "step": 340
+    },
+    {
+      "epoch": 0.23333333333333334,
+      "grad_norm": 13.63873291015625,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 1.6035,
+      "step": 350
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 8.072099685668945,
+      "learning_rate": 2.4e-05,
+      "loss": 1.6494,
+      "step": 360
+    },
+    {
+      "epoch": 0.24666666666666667,
+      "grad_norm": 8.600571632385254,
+      "learning_rate": 2.466666666666667e-05,
+      "loss": 1.6857,
+      "step": 370
+    },
+    {
+      "epoch": 0.25333333333333335,
+      "grad_norm": 8.418648719787598,
+      "learning_rate": 2.5333333333333337e-05,
+      "loss": 1.5152,
+      "step": 380
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 11.158117294311523,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 1.5183,
+      "step": 390
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 8.015896797180176,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 1.5053,
+      "step": 400
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "eval_darija_finetune_val_loss": 1.5115283727645874,
+      "eval_darija_finetune_val_runtime": 259.0571,
+      "eval_darija_finetune_val_samples_per_second": 3.86,
+      "eval_darija_finetune_val_steps_per_second": 1.93,
+      "step": 400
+    },
+    {
+      "epoch": 0.2733333333333333,
+      "grad_norm": 8.34165096282959,
+      "learning_rate": 2.733333333333333e-05,
+      "loss": 1.4349,
+      "step": 410
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 12.338715553283691,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 1.6289,
+      "step": 420
+    },
+    {
+      "epoch": 0.2866666666666667,
+      "grad_norm": 9.469289779663086,
+      "learning_rate": 2.8666666666666668e-05,
+      "loss": 1.4067,
+      "step": 430
+    },
+    {
+      "epoch": 0.29333333333333333,
+      "grad_norm": 9.264724731445312,
+      "learning_rate": 2.9333333333333336e-05,
+      "loss": 1.4077,
+      "step": 440
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 9.814329147338867,
+      "learning_rate": 3e-05,
+      "loss": 1.5959,
+      "step": 450
+    },
+    {
+      "epoch": 0.30666666666666664,
+      "grad_norm": 8.546180725097656,
+      "learning_rate": 3.066666666666667e-05,
+      "loss": 1.5676,
+      "step": 460
+    },
+    {
+      "epoch": 0.31333333333333335,
+      "grad_norm": 10.333645820617676,
+      "learning_rate": 3.1333333333333334e-05,
+      "loss": 1.5621,
+      "step": 470
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 7.376586437225342,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 1.531,
+      "step": 480
+    },
+    {
+      "epoch": 0.32666666666666666,
+      "grad_norm": 8.00594425201416,
+      "learning_rate": 3.266666666666667e-05,
+      "loss": 1.5122,
+      "step": 490
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 6.181279182434082,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.3669,
+      "step": 500
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "eval_darija_finetune_val_loss": 1.3909292221069336,
+      "eval_darija_finetune_val_runtime": 259.0513,
+      "eval_darija_finetune_val_samples_per_second": 3.86,
+      "eval_darija_finetune_val_steps_per_second": 1.93,
+      "step": 500
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 10.580244064331055,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 1.3636,
+      "step": 510
+    },
+    {
+      "epoch": 0.3466666666666667,
+      "grad_norm": 9.045496940612793,
+      "learning_rate": 3.466666666666667e-05,
+      "loss": 1.4212,
+      "step": 520
+    },
+    {
+      "epoch": 0.35333333333333333,
+      "grad_norm": 8.881861686706543,
+      "learning_rate": 3.5333333333333336e-05,
+      "loss": 1.3325,
+      "step": 530
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 9.595781326293945,
+      "learning_rate": 3.6e-05,
+      "loss": 1.4583,
+      "step": 540
+    },
+    {
+      "epoch": 0.36666666666666664,
+      "grad_norm": 11.518074989318848,
+      "learning_rate": 3.6666666666666666e-05,
+      "loss": 1.3749,
+      "step": 550
+    },
+    {
+      "epoch": 0.37333333333333335,
+      "grad_norm": 8.431135177612305,
+      "learning_rate": 3.733333333333334e-05,
+      "loss": 1.2727,
+      "step": 560
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 6.511448860168457,
+      "learning_rate": 3.8e-05,
+      "loss": 1.3439,
+      "step": 570
+    },
+    {
+      "epoch": 0.38666666666666666,
+      "grad_norm": 6.623229026794434,
+      "learning_rate": 3.866666666666667e-05,
+      "loss": 1.3507,
+      "step": 580
+    },
+    {
+      "epoch": 0.3933333333333333,
+      "grad_norm": 5.989928245544434,
+      "learning_rate": 3.933333333333333e-05,
+      "loss": 1.4002,
+      "step": 590
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 8.325176239013672,
+      "learning_rate": 4e-05,
+      "loss": 1.4921,
+      "step": 600
+    },
+    {
+      "epoch": 0.4,
+      "eval_darija_finetune_val_loss": 1.3430975675582886,
+      "eval_darija_finetune_val_runtime": 259.1413,
+      "eval_darija_finetune_val_samples_per_second": 3.859,
+      "eval_darija_finetune_val_steps_per_second": 1.929,
+      "step": 600
+    },
+    {
+      "epoch": 0.4066666666666667,
+      "grad_norm": 8.644186019897461,
+      "learning_rate": 4.066666666666667e-05,
+      "loss": 1.3166,
+      "step": 610
+    },
+    {
+      "epoch": 0.41333333333333333,
+      "grad_norm": 9.546547889709473,
+      "learning_rate": 4.133333333333333e-05,
+      "loss": 1.3947,
+      "step": 620
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 8.993462562561035,
+      "learning_rate": 4.2e-05,
+      "loss": 1.2798,
+      "step": 630
+    },
+    {
+      "epoch": 0.4266666666666667,
+      "grad_norm": 6.508462905883789,
+      "learning_rate": 4.266666666666667e-05,
+      "loss": 1.4571,
+      "step": 640
+    },
+    {
+      "epoch": 0.43333333333333335,
+      "grad_norm": 9.184686660766602,
+      "learning_rate": 4.3333333333333334e-05,
+      "loss": 1.289,
+      "step": 650
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 9.6285982131958,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 1.4032,
+      "step": 660
+    },
+    {
+      "epoch": 0.44666666666666666,
+      "grad_norm": 6.071969509124756,
+      "learning_rate": 4.466666666666667e-05,
+      "loss": 1.3622,
+      "step": 670
+    },
+    {
+      "epoch": 0.4533333333333333,
+      "grad_norm": 7.537683010101318,
+      "learning_rate": 4.5333333333333335e-05,
+      "loss": 1.2928,
+      "step": 680
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 8.44057559967041,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 1.3812,
+      "step": 690
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "grad_norm": 5.488239765167236,
+      "learning_rate": 4.666666666666667e-05,
+      "loss": 1.243,
+      "step": 700
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "eval_darija_finetune_val_loss": 1.2602548599243164,
+      "eval_darija_finetune_val_runtime": 258.9013,
+      "eval_darija_finetune_val_samples_per_second": 3.862,
+      "eval_darija_finetune_val_steps_per_second": 1.931,
+      "step": 700
+    },
+    {
+      "epoch": 0.47333333333333333,
+      "grad_norm": 5.492846488952637,
+      "learning_rate": 4.7333333333333336e-05,
+      "loss": 1.3066,
+      "step": 710
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 7.109413146972656,
+      "learning_rate": 4.8e-05,
+      "loss": 1.3606,
+      "step": 720
+    },
+    {
+      "epoch": 0.4866666666666667,
+      "grad_norm": 11.760592460632324,
+      "learning_rate": 4.866666666666667e-05,
+      "loss": 1.2446,
+      "step": 730
+    },
+    {
+      "epoch": 0.49333333333333335,
+      "grad_norm": 5.775155067443848,
+      "learning_rate": 4.933333333333334e-05,
+      "loss": 1.3106,
+      "step": 740
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 6.971907138824463,
+      "learning_rate": 5e-05,
+      "loss": 1.2405,
+      "step": 750
+    },
+    {
+      "epoch": 0.5066666666666667,
+      "grad_norm": 6.336028575897217,
+      "learning_rate": 5.0666666666666674e-05,
+      "loss": 1.1877,
+      "step": 760
+    },
+    {
+      "epoch": 0.5133333333333333,
+      "grad_norm": 6.26092004776001,
+      "learning_rate": 5.133333333333333e-05,
+      "loss": 1.3293,
+      "step": 770
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 8.0401611328125,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 1.2247,
+      "step": 780
+    },
+    {
+      "epoch": 0.5266666666666666,
+      "grad_norm": 5.937560558319092,
+      "learning_rate": 5.266666666666666e-05,
+      "loss": 1.2488,
+      "step": 790
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 8.2327880859375,
+      "learning_rate": 5.333333333333333e-05,
+      "loss": 1.2985,
+      "step": 800
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "eval_darija_finetune_val_loss": 1.2201435565948486,
+      "eval_darija_finetune_val_runtime": 258.95,
+      "eval_darija_finetune_val_samples_per_second": 3.862,
+      "eval_darija_finetune_val_steps_per_second": 1.931,
+      "step": 800
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 5.258373260498047,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 1.3941,
+      "step": 810
+    },
+    {
+      "epoch": 0.5466666666666666,
+      "grad_norm": 5.014212131500244,
+      "learning_rate": 5.466666666666666e-05,
+      "loss": 1.1966,
+      "step": 820
+    },
+    {
+      "epoch": 0.5533333333333333,
+      "grad_norm": 7.084598064422607,
+      "learning_rate": 5.5333333333333334e-05,
+      "loss": 1.2925,
+      "step": 830
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 6.852593898773193,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 1.2783,
+      "step": 840
+    },
+    {
+      "epoch": 0.5666666666666667,
+      "grad_norm": 9.167802810668945,
+      "learning_rate": 5.666666666666667e-05,
+      "loss": 1.3586,
+      "step": 850
+    },
+    {
+      "epoch": 0.5733333333333334,
+      "grad_norm": 6.771795272827148,
+      "learning_rate": 5.7333333333333336e-05,
+      "loss": 1.2028,
+      "step": 860
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 7.078638553619385,
+      "learning_rate": 5.8e-05,
+      "loss": 1.1496,
+      "step": 870
+    },
+    {
+      "epoch": 0.5866666666666667,
+      "grad_norm": 6.127044200897217,
+      "learning_rate": 5.866666666666667e-05,
+      "loss": 1.0983,
+      "step": 880
+    },
+    {
+      "epoch": 0.5933333333333334,
+      "grad_norm": 7.207043647766113,
+      "learning_rate": 5.9333333333333343e-05,
+      "loss": 1.339,
+      "step": 890
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 5.768194675445557,
+      "learning_rate": 6e-05,
+      "loss": 1.3276,
+      "step": 900
+    },
+    {
+      "epoch": 0.6,
+      "eval_darija_finetune_val_loss": 1.1807993650436401,
+      "eval_darija_finetune_val_runtime": 259.2335,
+      "eval_darija_finetune_val_samples_per_second": 3.858,
+      "eval_darija_finetune_val_steps_per_second": 1.929,
+      "step": 900
+    },
+    {
+      "epoch": 0.6066666666666667,
+      "grad_norm": 6.089323043823242,
+      "learning_rate": 6.066666666666667e-05,
+      "loss": 1.1471,
+      "step": 910
+    },
+    {
+      "epoch": 0.6133333333333333,
+      "grad_norm": 6.14169979095459,
+      "learning_rate": 6.133333333333334e-05,
+      "loss": 1.1858,
+      "step": 920
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 4.7474365234375,
+      "learning_rate": 6.2e-05,
+      "loss": 1.1622,
+      "step": 930
+    },
+    {
+      "epoch": 0.6266666666666667,
+      "grad_norm": 5.398898601531982,
+      "learning_rate": 6.266666666666667e-05,
+      "loss": 1.2663,
+      "step": 940
+    },
+    {
+      "epoch": 0.6333333333333333,
+      "grad_norm": 6.233011722564697,
+      "learning_rate": 6.333333333333333e-05,
+      "loss": 1.1063,
+      "step": 950
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 5.921813011169434,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 1.239,
+      "step": 960
+    },
+    {
+      "epoch": 0.6466666666666666,
+      "grad_norm": 5.844018459320068,
+      "learning_rate": 6.466666666666666e-05,
+      "loss": 1.3261,
+      "step": 970
+    },
+    {
+      "epoch": 0.6533333333333333,
+      "grad_norm": 6.646248817443848,
+      "learning_rate": 6.533333333333334e-05,
+      "loss": 1.1399,
+      "step": 980
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 10.390483856201172,
+      "learning_rate": 6.6e-05,
+      "loss": 1.2144,
+      "step": 990
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 6.77034330368042,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 1.1979,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "eval_darija_finetune_val_loss": 1.1465076208114624,
+      "eval_darija_finetune_val_runtime": 259.2431,
+      "eval_darija_finetune_val_samples_per_second": 3.857,
+      "eval_darija_finetune_val_steps_per_second": 1.929,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6733333333333333,
+      "grad_norm": 9.357962608337402,
+      "learning_rate": 6.733333333333333e-05,
+      "loss": 1.1164,
+      "step": 1010
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 5.477418899536133,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 1.2171,
+      "step": 1020
+    },
+    {
+      "epoch": 0.6866666666666666,
+      "grad_norm": 5.9419145584106445,
+      "learning_rate": 6.866666666666666e-05,
+      "loss": 1.3836,
+      "step": 1030
+    },
+    {
+      "epoch": 0.6933333333333334,
+      "grad_norm": 4.818275451660156,
+      "learning_rate": 6.933333333333334e-05,
+      "loss": 1.2752,
+      "step": 1040
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 5.310876369476318,
+      "learning_rate": 7e-05,
+      "loss": 1.1561,
+      "step": 1050
+    },
+    {
+      "epoch": 0.7066666666666667,
+      "grad_norm": 4.976885795593262,
+      "learning_rate": 7.066666666666667e-05,
+      "loss": 1.2373,
+      "step": 1060
+    },
+    {
+      "epoch": 0.7133333333333334,
+      "grad_norm": 5.473275661468506,
+      "learning_rate": 7.133333333333334e-05,
+      "loss": 1.2689,
+      "step": 1070
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 5.453042030334473,
+      "learning_rate": 7.2e-05,
+      "loss": 1.1333,
+      "step": 1080
+    },
+    {
+      "epoch": 0.7266666666666667,
+      "grad_norm": 6.581665992736816,
+      "learning_rate": 7.266666666666667e-05,
+      "loss": 1.1193,
+      "step": 1090
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "grad_norm": 8.589400291442871,
+      "learning_rate": 7.333333333333333e-05,
+      "loss": 1.1191,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "eval_darija_finetune_val_loss": 1.133346676826477,
+      "eval_darija_finetune_val_runtime": 259.2886,
+      "eval_darija_finetune_val_samples_per_second": 3.857,
+      "eval_darija_finetune_val_steps_per_second": 1.928,
+      "step": 1100
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 5.026098251342773,
+      "learning_rate": 7.4e-05,
+      "loss": 1.1768,
+      "step": 1110
+    },
+    {
+      "epoch": 0.7466666666666667,
+      "grad_norm": 6.828497409820557,
+      "learning_rate": 7.466666666666667e-05,
+      "loss": 1.0822,
+      "step": 1120
+    },
+    {
+      "epoch": 0.7533333333333333,
+      "grad_norm": 4.4176506996154785,
+      "learning_rate": 7.533333333333334e-05,
+      "loss": 1.2606,
+      "step": 1130
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 6.180331230163574,
+      "learning_rate": 7.6e-05,
+      "loss": 1.1316,
+      "step": 1140
+    },
+    {
+      "epoch": 0.7666666666666667,
+      "grad_norm": 6.467658519744873,
+      "learning_rate": 7.666666666666667e-05,
+      "loss": 1.2429,
+      "step": 1150
+    },
+    {
+      "epoch": 0.7733333333333333,
+      "grad_norm": 4.510275363922119,
+      "learning_rate": 7.733333333333333e-05,
+      "loss": 1.131,
+      "step": 1160
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 3.7357161045074463,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 1.1921,
+      "step": 1170
+    },
+    {
+      "epoch": 0.7866666666666666,
+      "grad_norm": 4.776608467102051,
+      "learning_rate": 7.866666666666666e-05,
+      "loss": 0.9582,
+      "step": 1180
+    },
+    {
+      "epoch": 0.7933333333333333,
+      "grad_norm": 6.209722518920898,
+      "learning_rate": 7.933333333333334e-05,
+      "loss": 1.1675,
+      "step": 1190
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 4.136676788330078,
+      "learning_rate": 8e-05,
+      "loss": 1.0882,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8,
+      "eval_darija_finetune_val_loss": 1.0954782962799072,
+      "eval_darija_finetune_val_runtime": 258.8885,
+      "eval_darija_finetune_val_samples_per_second": 3.863,
+      "eval_darija_finetune_val_steps_per_second": 1.931,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8066666666666666,
+      "grad_norm": 7.750375270843506,
+      "learning_rate": 8.066666666666667e-05,
+      "loss": 1.0362,
+      "step": 1210
+    },
+    {
+      "epoch": 0.8133333333333334,
+      "grad_norm": 5.690066337585449,
+      "learning_rate": 8.133333333333334e-05,
+      "loss": 1.2558,
+      "step": 1220
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 4.080161094665527,
+      "learning_rate": 8.2e-05,
+      "loss": 1.0269,
+      "step": 1230
+    },
+    {
+      "epoch": 0.8266666666666667,
+      "grad_norm": 5.080862045288086,
+      "learning_rate": 8.266666666666667e-05,
+      "loss": 1.0815,
+      "step": 1240
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 5.219364166259766,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 1.0271,
+      "step": 1250
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 5.2107110023498535,
+      "learning_rate": 8.4e-05,
+      "loss": 1.1255,
+      "step": 1260
+    },
+    {
+      "epoch": 0.8466666666666667,
+      "grad_norm": 4.656301975250244,
+      "learning_rate": 8.466666666666667e-05,
+      "loss": 1.1378,
+      "step": 1270
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "grad_norm": 3.8970980644226074,
+      "learning_rate": 8.533333333333334e-05,
+      "loss": 1.206,
+      "step": 1280
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 4.975044250488281,
+      "learning_rate": 8.6e-05,
+      "loss": 1.2404,
+      "step": 1290
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "grad_norm": 4.831158638000488,
+      "learning_rate": 8.666666666666667e-05,
+      "loss": 1.1304,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "eval_darija_finetune_val_loss": 1.0803910493850708,
+      "eval_darija_finetune_val_runtime": 259.5321,
+      "eval_darija_finetune_val_samples_per_second": 3.853,
+      "eval_darija_finetune_val_steps_per_second": 1.927,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8733333333333333,
+      "grad_norm": 3.836491823196411,
+      "learning_rate": 8.733333333333333e-05,
+      "loss": 1.0492,
+      "step": 1310
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 5.3841705322265625,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 1.1357,
+      "step": 1320
+    },
+    {
+      "epoch": 0.8866666666666667,
+      "grad_norm": 5.68634033203125,
+      "learning_rate": 8.866666666666668e-05,
+      "loss": 1.0632,
+      "step": 1330
+    },
+    {
+      "epoch": 0.8933333333333333,
+      "grad_norm": 5.754724502563477,
+      "learning_rate": 8.933333333333334e-05,
+      "loss": 1.065,
+      "step": 1340
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 4.7973480224609375,
+      "learning_rate": 9e-05,
+      "loss": 1.1566,
+      "step": 1350
+    },
+    {
+      "epoch": 0.9066666666666666,
+      "grad_norm": 4.224844455718994,
+      "learning_rate": 9.066666666666667e-05,
+      "loss": 1.0261,
+      "step": 1360
+    },
+    {
+      "epoch": 0.9133333333333333,
+      "grad_norm": 5.006961822509766,
+      "learning_rate": 9.133333333333334e-05,
+      "loss": 1.2965,
+      "step": 1370
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 4.8651123046875,
+      "learning_rate": 9.200000000000001e-05,
+      "loss": 0.9672,
+      "step": 1380
+    },
+    {
+      "epoch": 0.9266666666666666,
+      "grad_norm": 3.8528099060058594,
+      "learning_rate": 9.266666666666666e-05,
+      "loss": 1.0329,
+      "step": 1390
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 4.049446105957031,
+      "learning_rate": 9.333333333333334e-05,
+      "loss": 0.9623,
+      "step": 1400
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "eval_darija_finetune_val_loss": 1.0612068176269531,
+      "eval_darija_finetune_val_runtime": 259.0329,
+      "eval_darija_finetune_val_samples_per_second": 3.861,
+      "eval_darija_finetune_val_steps_per_second": 1.93,
+      "step": 1400
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 4.87253999710083,
+      "learning_rate": 9.4e-05,
+      "loss": 1.0968,
+      "step": 1410
+    },
+    {
+      "epoch": 0.9466666666666667,
+      "grad_norm": 3.6589772701263428,
+      "learning_rate": 9.466666666666667e-05,
+      "loss": 1.1834,
+      "step": 1420
+    },
+    {
+      "epoch": 0.9533333333333334,
+      "grad_norm": 4.781609535217285,
+      "learning_rate": 9.533333333333334e-05,
+      "loss": 1.064,
+      "step": 1430
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 5.624181747436523,
+      "learning_rate": 9.6e-05,
+      "loss": 1.0991,
+      "step": 1440
+    },
+    {
+      "epoch": 0.9666666666666667,
+      "grad_norm": 5.692139625549316,
+      "learning_rate": 9.666666666666667e-05,
+      "loss": 1.0376,
+      "step": 1450
+    },
+    {
+      "epoch": 0.9733333333333334,
+      "grad_norm": 4.0106048583984375,
+      "learning_rate": 9.733333333333335e-05,
+      "loss": 1.0384,
+      "step": 1460
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 3.4985623359680176,
+      "learning_rate": 9.8e-05,
+      "loss": 1.0802,
+      "step": 1470
+    },
+    {
+      "epoch": 0.9866666666666667,
+      "grad_norm": 4.427818775177002,
+      "learning_rate": 9.866666666666668e-05,
+      "loss": 0.9319,
+      "step": 1480
+    },
+    {
+      "epoch": 0.9933333333333333,
+      "grad_norm": 3.985886335372925,
+      "learning_rate": 9.933333333333334e-05,
+      "loss": 1.0911,
+      "step": 1490
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.8536887168884277,
+      "learning_rate": 0.0001,
+      "loss": 1.0366,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_darija_finetune_val_loss": 1.05183744430542,
+      "eval_darija_finetune_val_runtime": 258.8286,
+      "eval_darija_finetune_val_samples_per_second": 3.864,
+      "eval_darija_finetune_val_steps_per_second": 1.932,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0066666666666666,
+      "grad_norm": 3.327362060546875,
+      "learning_rate": 9.999986461454119e-05,
+      "loss": 0.8964,
+      "step": 1510
+    },
+    {
+      "epoch": 1.0133333333333334,
+      "grad_norm": 3.686005115509033,
+      "learning_rate": 9.999945845889795e-05,
+      "loss": 0.8965,
+      "step": 1520
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 3.866366386413574,
+      "learning_rate": 9.999878153526974e-05,
+      "loss": 0.9526,
+      "step": 1530
+    },
+    {
+      "epoch": 1.0266666666666666,
+      "grad_norm": 4.957576274871826,
+      "learning_rate": 9.999783384732242e-05,
+      "loss": 0.8125,
+      "step": 1540
+    },
+    {
+      "epoch": 1.0333333333333334,
+      "grad_norm": 3.748542070388794,
+      "learning_rate": 9.999661540018812e-05,
+      "loss": 1.0025,
+      "step": 1550
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 3.2935030460357666,
+      "learning_rate": 9.999512620046522e-05,
+      "loss": 0.8528,
+      "step": 1560
+    },
+    {
+      "epoch": 1.0466666666666666,
+      "grad_norm": 4.921374797821045,
+      "learning_rate": 9.999336625621836e-05,
+      "loss": 0.8971,
+      "step": 1570
+    },
+    {
+      "epoch": 1.0533333333333332,
+      "grad_norm": 2.8826279640197754,
+      "learning_rate": 9.99913355769784e-05,
+      "loss": 0.8185,
+      "step": 1580
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 4.904135704040527,
+      "learning_rate": 9.998903417374228e-05,
+      "loss": 0.9625,
+      "step": 1590
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 4.164255142211914,
+      "learning_rate": 9.998646205897309e-05,
+      "loss": 0.8787,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "eval_darija_finetune_val_loss": 1.0364619493484497,
+      "eval_darija_finetune_val_runtime": 259.0043,
+      "eval_darija_finetune_val_samples_per_second": 3.861,
+      "eval_darija_finetune_val_steps_per_second": 1.93,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0733333333333333,
+      "grad_norm": 2.7881083488464355,
+      "learning_rate": 9.998361924659989e-05,
+      "loss": 0.8395,
+      "step": 1610
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 4.431478977203369,
+      "learning_rate": 9.998050575201771e-05,
+      "loss": 0.8508,
+      "step": 1620
+    },
+    {
+      "epoch": 1.0866666666666667,
+      "grad_norm": 4.286707401275635,
+      "learning_rate": 9.997712159208744e-05,
+      "loss": 0.9273,
+      "step": 1630
+    },
+    {
+      "epoch": 1.0933333333333333,
+      "grad_norm": 5.6943840980529785,
+      "learning_rate": 9.997346678513569e-05,
+      "loss": 0.9695,
+      "step": 1640
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 3.4620420932769775,
+      "learning_rate": 9.99695413509548e-05,
+      "loss": 0.9449,
+      "step": 1650
+    },
+    {
+      "epoch": 1.1066666666666667,
+      "grad_norm": 3.823575019836426,
+      "learning_rate": 9.99653453108026e-05,
+      "loss": 0.8977,
+      "step": 1660
+    },
+    {
+      "epoch": 1.1133333333333333,
+      "grad_norm": 4.5904340744018555,
+      "learning_rate": 9.996087868740243e-05,
+      "loss": 0.8862,
+      "step": 1670
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 6.0423970222473145,
+      "learning_rate": 9.995614150494293e-05,
+      "loss": 0.9044,
+      "step": 1680
+    },
+    {
+      "epoch": 1.1266666666666667,
+      "grad_norm": 3.3115224838256836,
+      "learning_rate": 9.99511337890779e-05,
+      "loss": 0.8611,
+      "step": 1690
+    },
+    {
+      "epoch": 1.1333333333333333,
+      "grad_norm": 3.935145854949951,
+      "learning_rate": 9.994585556692624e-05,
+      "loss": 0.9772,
+      "step": 1700
+    },
+    {
+      "epoch": 1.1333333333333333,
+      "eval_darija_finetune_val_loss": 1.0233445167541504,
+      "eval_darija_finetune_val_runtime": 259.1265,
+      "eval_darija_finetune_val_samples_per_second": 3.859,
+      "eval_darija_finetune_val_steps_per_second": 1.93,
+      "step": 1700
+    },
+    {
+      "epoch": 1.1400000000000001,
+      "grad_norm": 3.3334031105041504,
+      "learning_rate": 9.99403068670717e-05,
+      "loss": 0.935,
+      "step": 1710
+    },
+    {
+      "epoch": 1.1466666666666667,
+      "grad_norm": 4.460405349731445,
+      "learning_rate": 9.993448771956285e-05,
+      "loss": 0.8667,
+      "step": 1720
+    },
+    {
+      "epoch": 1.1533333333333333,
+      "grad_norm": 6.378842830657959,
+      "learning_rate": 9.992839815591279e-05,
+      "loss": 0.8861,
+      "step": 1730
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 3.207803964614868,
+      "learning_rate": 9.992203820909906e-05,
+      "loss": 0.9196,
+      "step": 1740
+    },
+    {
+      "epoch": 1.1666666666666667,
+      "grad_norm": 4.251574516296387,
+      "learning_rate": 9.991540791356342e-05,
+      "loss": 0.8097,
+      "step": 1750
+    },
+    {
+      "epoch": 1.1733333333333333,
+      "grad_norm": 3.199049711227417,
+      "learning_rate": 9.99085073052117e-05,
+      "loss": 0.9023,
+      "step": 1760
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 3.3237078189849854,
+      "learning_rate": 9.990133642141359e-05,
+      "loss": 0.8672,
+      "step": 1770
+    },
+    {
+      "epoch": 1.1866666666666668,
+      "grad_norm": 3.5124893188476562,
+      "learning_rate": 9.98938953010024e-05,
+      "loss": 0.9629,
+      "step": 1780
+    },
+    {
+      "epoch": 1.1933333333333334,
+      "grad_norm": 3.1842286586761475,
+      "learning_rate": 9.988618398427494e-05,
+      "loss": 0.9146,
+      "step": 1790
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 3.5502548217773438,
+      "learning_rate": 9.987820251299122e-05,
+      "loss": 0.9352,
+      "step": 1800
+    },
+    {
+      "epoch": 1.2,
+      "eval_darija_finetune_val_loss": 0.9981254935264587,
+      "eval_darija_finetune_val_runtime": 258.7949,
+      "eval_darija_finetune_val_samples_per_second": 3.864,
+      "eval_darija_finetune_val_steps_per_second": 1.932,
+      "step": 1800
+    },
+    {
+      "epoch": 1.2066666666666666,
+      "grad_norm": 3.950125217437744,
+      "learning_rate": 9.986995093037421e-05,
+      "loss": 0.8471,
+      "step": 1810
+    },
+    {
+      "epoch": 1.2133333333333334,
+      "grad_norm": 3.5318825244903564,
+      "learning_rate": 9.986142928110972e-05,
+      "loss": 0.9174,
+      "step": 1820
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 3.1006879806518555,
+      "learning_rate": 9.985263761134602e-05,
+      "loss": 0.805,
+      "step": 1830
+    },
+    {
+      "epoch": 1.2266666666666666,
+      "grad_norm": 3.6878063678741455,
+      "learning_rate": 9.984357596869369e-05,
+      "loss": 0.8373,
+      "step": 1840
+    },
+    {
+      "epoch": 1.2333333333333334,
+      "grad_norm": 3.5402398109436035,
+      "learning_rate": 9.983424440222531e-05,
+      "loss": 0.8438,
+      "step": 1850
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 3.293128728866577,
+      "learning_rate": 9.982464296247522e-05,
+      "loss": 1.0276,
+      "step": 1860
+    },
+    {
+      "epoch": 1.2466666666666666,
+      "grad_norm": 3.384575128555298,
+      "learning_rate": 9.981477170143924e-05,
+      "loss": 0.7586,
+      "step": 1870
+    },
+    {
+      "epoch": 1.2533333333333334,
+      "grad_norm": 2.7154510021209717,
+      "learning_rate": 9.980463067257437e-05,
+      "loss": 0.8045,
+      "step": 1880
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 2.7543041706085205,
+      "learning_rate": 9.979421993079852e-05,
+      "loss": 0.8943,
+      "step": 1890
+    },
+    {
+      "epoch": 1.2666666666666666,
+      "grad_norm": 3.615957260131836,
+      "learning_rate": 9.978353953249022e-05,
+      "loss": 0.9449,
+      "step": 1900
+    },
+    {
+      "epoch": 1.2666666666666666,
+      "eval_darija_finetune_val_loss": 0.9809772968292236,
+      "eval_darija_finetune_val_runtime": 258.9949,
+      "eval_darija_finetune_val_samples_per_second": 3.861,
+      "eval_darija_finetune_val_steps_per_second": 1.931,
+      "step": 1900
+    },
+    {
+      "epoch": 1.2733333333333334,
+      "grad_norm": 4.428312301635742,
+      "learning_rate": 9.97725895354883e-05,
+      "loss": 0.8312,
+      "step": 1910
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 2.737647533416748,
+      "learning_rate": 9.976136999909156e-05,
+      "loss": 0.8882,
+      "step": 1920
+    },
+    {
+      "epoch": 1.2866666666666666,
+      "grad_norm": 4.788559913635254,
+      "learning_rate": 9.97498809840585e-05,
+      "loss": 0.8784,
+      "step": 1930
+    },
+    {
+      "epoch": 1.2933333333333334,
+      "grad_norm": 3.592212677001953,
+      "learning_rate": 9.973812255260692e-05,
+      "loss": 1.0357,
+      "step": 1940
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 2.963557243347168,
+      "learning_rate": 9.972609476841367e-05,
+      "loss": 0.9247,
+      "step": 1950
+    },
+    {
+      "epoch": 1.3066666666666666,
+      "grad_norm": 3.2090208530426025,
+      "learning_rate": 9.971379769661422e-05,
+      "loss": 0.7941,
+      "step": 1960
+    },
+    {
+      "epoch": 1.3133333333333335,
+      "grad_norm": 3.1923487186431885,
+      "learning_rate": 9.970123140380237e-05,
+      "loss": 0.9573,
+      "step": 1970
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 2.6261425018310547,
+      "learning_rate": 9.968839595802982e-05,
+      "loss": 0.8315,
+      "step": 1980
+    },
+    {
+      "epoch": 1.3266666666666667,
+      "grad_norm": 2.566281795501709,
+      "learning_rate": 9.967529142880592e-05,
+      "loss": 0.827,
+      "step": 1990
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 2.810993194580078,
+      "learning_rate": 9.966191788709716e-05,
+      "loss": 0.8148,
+      "step": 2000
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "eval_darija_finetune_val_loss": 0.9717869758605957,
+      "eval_darija_finetune_val_runtime": 259.1578,
+      "eval_darija_finetune_val_samples_per_second": 3.859,
+      "eval_darija_finetune_val_steps_per_second": 1.929,
+      "step": 2000
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 2.7384212017059326,
+      "learning_rate": 9.964827540532685e-05,
+      "loss": 0.7923,
+      "step": 2010
+    },
+    {
+      "epoch": 1.3466666666666667,
+      "grad_norm": 3.941181182861328,
+      "learning_rate": 9.963436405737476e-05,
+      "loss": 0.7904,
+      "step": 2020
+    },
+    {
+      "epoch": 1.3533333333333333,
+      "grad_norm": 2.8124356269836426,
+      "learning_rate": 9.962018391857664e-05,
+      "loss": 0.8274,
+      "step": 2030
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 4.009180545806885,
+      "learning_rate": 9.96057350657239e-05,
+      "loss": 0.9386,
+      "step": 2040
+    },
+    {
+      "epoch": 1.3666666666666667,
+      "grad_norm": 2.7180652618408203,
+      "learning_rate": 9.959101757706308e-05,
+      "loss": 0.8913,
+      "step": 2050
+    },
+    {
+      "epoch": 1.3733333333333333,
+      "grad_norm": 2.7752609252929688,
+      "learning_rate": 9.957603153229558e-05,
+      "loss": 0.8082,
+      "step": 2060
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 4.5498528480529785,
+      "learning_rate": 9.956077701257709e-05,
+      "loss": 0.7213,
+      "step": 2070
+    },
+    {
+      "epoch": 1.3866666666666667,
+      "grad_norm": 2.907214641571045,
+      "learning_rate": 9.954525410051721e-05,
+      "loss": 0.9101,
+      "step": 2080
+    },
+    {
+      "epoch": 1.3933333333333333,
+      "grad_norm": 3.367126941680908,
+      "learning_rate": 9.952946288017899e-05,
+      "loss": 0.8171,
+      "step": 2090
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 3.0436556339263916,
+      "learning_rate": 9.951340343707852e-05,
+      "loss": 0.8153,
+      "step": 2100
+    },
+    {
+      "epoch": 1.4,
+      "eval_darija_finetune_val_loss": 0.960893988609314,
+      "eval_darija_finetune_val_runtime": 259.0224,
+      "eval_darija_finetune_val_samples_per_second": 3.861,
+      "eval_darija_finetune_val_steps_per_second": 1.93,
+      "step": 2100
+    },
+    {
+      "epoch": 1.4066666666666667,
+      "grad_norm": 2.9489970207214355,
+      "learning_rate": 9.94970758581844e-05,
+      "loss": 0.7715,
+      "step": 2110
+    },
+    {
+      "epoch": 1.4133333333333333,
+      "grad_norm": 2.5550808906555176,
+      "learning_rate": 9.948048023191728e-05,
+      "loss": 0.8775,
+      "step": 2120
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 3.4954917430877686,
+      "learning_rate": 9.946361664814943e-05,
+      "loss": 0.8539,
+      "step": 2130
+    },
+    {
+      "epoch": 1.4266666666666667,
+      "grad_norm": 4.503929138183594,
+      "learning_rate": 9.944648519820422e-05,
+      "loss": 0.8709,
+      "step": 2140
+    },
+    {
+      "epoch": 1.4333333333333333,
+      "grad_norm": 4.3710479736328125,
+      "learning_rate": 9.942908597485558e-05,
+      "loss": 0.8765,
+      "step": 2150
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 3.5678603649139404,
+      "learning_rate": 9.941141907232765e-05,
+      "loss": 0.8702,
+      "step": 2160
+    },
+    {
+      "epoch": 1.4466666666666668,
+      "grad_norm": 3.2361159324645996,
+      "learning_rate": 9.939348458629405e-05,
+      "loss": 0.8741,
+      "step": 2170
+    },
+    {
+      "epoch": 1.4533333333333334,
+      "grad_norm": 3.4972195625305176,
+      "learning_rate": 9.937528261387753e-05,
+      "loss": 0.8929,
+      "step": 2180
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 2.8612303733825684,
+      "learning_rate": 9.93568132536494e-05,
+      "loss": 0.8716,
+      "step": 2190
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "grad_norm": 3.2444815635681152,
+      "learning_rate": 9.933807660562898e-05,
+      "loss": 0.6803,
+      "step": 2200
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "eval_darija_finetune_val_loss": 0.9617334008216858,
+      "eval_darija_finetune_val_runtime": 259.1221,
+      "eval_darija_finetune_val_samples_per_second": 3.859,
+      "eval_darija_finetune_val_steps_per_second": 1.93,
+      "step": 2200
+    },
+    {
+      "epoch": 1.4733333333333334,
+      "grad_norm": 3.6423659324645996,
+      "learning_rate": 9.931907277128301e-05,
+      "loss": 0.7591,
+      "step": 2210
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 3.4169416427612305,
+      "learning_rate": 9.929980185352526e-05,
+      "loss": 0.8121,
+      "step": 2220
+    },
+    {
+      "epoch": 1.4866666666666668,
+      "grad_norm": 2.2793283462524414,
+      "learning_rate": 9.928026395671576e-05,
+      "loss": 0.7752,
+      "step": 2230
+    },
+    {
+      "epoch": 1.4933333333333334,
+      "grad_norm": 3.516124963760376,
+      "learning_rate": 9.926045918666045e-05,
+      "loss": 0.8669,
+      "step": 2240
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 3.3869433403015137,
+      "learning_rate": 9.924038765061042e-05,
+      "loss": 0.908,
+      "step": 2250
+    },
+    {
+      "epoch": 1.5066666666666668,
+      "grad_norm": 3.552075147628784,
+      "learning_rate": 9.92200494572614e-05,
+      "loss": 0.842,
+      "step": 2260
+    },
+    {
+      "epoch": 1.5133333333333332,
+      "grad_norm": 3.3384084701538086,
+      "learning_rate": 9.919944471675327e-05,
+      "loss": 0.7877,
+      "step": 2270
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 3.442007303237915,
+      "learning_rate": 9.917857354066931e-05,
+      "loss": 0.7911,
+      "step": 2280
+    },
+    {
+      "epoch": 1.5266666666666666,
+      "grad_norm": 3.3709042072296143,
+      "learning_rate": 9.915743604203564e-05,
+      "loss": 0.8157,
+      "step": 2290
+    },
+    {
+      "epoch": 1.5333333333333332,
+      "grad_norm": 3.0790200233459473,
+      "learning_rate": 9.913603233532067e-05,
+      "loss": 0.9279,
+      "step": 2300
+    },
+    {
+      "epoch": 1.5333333333333332,
+      "eval_darija_finetune_val_loss": 0.9303565621376038,
+      "eval_darija_finetune_val_runtime": 259.2687,
+      "eval_darija_finetune_val_samples_per_second": 3.857,
+      "eval_darija_finetune_val_steps_per_second": 1.929,
+      "step": 2300
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 2.64736008644104,
+      "learning_rate": 9.911436253643445e-05,
+      "loss": 0.8655,
+      "step": 2310
+    },
+    {
+      "epoch": 1.5466666666666666,
+      "grad_norm": 2.6643307209014893,
+      "learning_rate": 9.909242676272796e-05,
+      "loss": 0.9828,
+      "step": 2320
+    },
+    {
+      "epoch": 1.5533333333333332,
+      "grad_norm": 2.7409019470214844,
+      "learning_rate": 9.907022513299265e-05,
+      "loss": 0.8038,
+      "step": 2330
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 2.5893805027008057,
+      "learning_rate": 9.904775776745958e-05,
+      "loss": 0.802,
+      "step": 2340
+    },
+    {
+      "epoch": 1.5666666666666667,
+      "grad_norm": 4.016374588012695,
+      "learning_rate": 9.902502478779896e-05,
+      "loss": 0.762,
+      "step": 2350
+    },
+    {
+      "epoch": 1.5733333333333333,
+      "grad_norm": 3.1738717555999756,
+      "learning_rate": 9.90020263171194e-05,
+      "loss": 0.8591,
+      "step": 2360
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 3.1321322917938232,
+      "learning_rate": 9.89787624799672e-05,
+      "loss": 0.905,
+      "step": 2370
+    },
+    {
+      "epoch": 1.5866666666666667,
+      "grad_norm": 3.0032734870910645,
+      "learning_rate": 9.89552334023258e-05,
+      "loss": 0.8551,
+      "step": 2380
+    },
+    {
+      "epoch": 1.5933333333333333,
+      "grad_norm": 3.1861000061035156,
+      "learning_rate": 9.893143921161501e-05,
+      "loss": 0.8005,
+      "step": 2390
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 4.1898298263549805,
+      "learning_rate": 9.890738003669029e-05,
+      "loss": 0.7665,
+      "step": 2400
+    },
+    {
+      "epoch": 1.6,
+      "eval_darija_finetune_val_loss": 0.9258391857147217,
+      "eval_darija_finetune_val_runtime": 259.3121,
+      "eval_darija_finetune_val_samples_per_second": 3.856,
+      "eval_darija_finetune_val_steps_per_second": 1.928,
+      "step": 2400
+    },
+    {
+      "epoch": 1.6066666666666667,
+      "grad_norm": 4.970395565032959,
+      "learning_rate": 9.888305600784216e-05,
+      "loss": 0.8582,
+      "step": 2410
+    },
+    {
+      "epoch": 1.6133333333333333,
+      "grad_norm": 2.877307415008545,
+      "learning_rate": 9.88584672567954e-05,
+      "loss": 0.6879,
+      "step": 2420
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 3.475067138671875,
+      "learning_rate": 9.88336139167084e-05,
+      "loss": 0.8817,
+      "step": 2430
+    },
+    {
+      "epoch": 1.6266666666666667,
+      "grad_norm": 3.0083086490631104,
+      "learning_rate": 9.880849612217238e-05,
+      "loss": 0.8289,
+      "step": 2440
+    },
+    {
+      "epoch": 1.6333333333333333,
+      "grad_norm": 3.1783089637756348,
+      "learning_rate": 9.878311400921072e-05,
+      "loss": 0.7242,
+      "step": 2450
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 3.38813853263855,
+      "learning_rate": 9.875746771527816e-05,
+      "loss": 0.8258,
+      "step": 2460
+    },
+    {
+      "epoch": 1.6466666666666665,
+      "grad_norm": 2.982194423675537,
+      "learning_rate": 9.873155737926014e-05,
+      "loss": 0.8143,
+      "step": 2470
+    },
+    {
+      "epoch": 1.6533333333333333,
+      "grad_norm": 3.2365424633026123,
+      "learning_rate": 9.870538314147193e-05,
+      "loss": 0.8852,
+      "step": 2480
+    },
+    {
+      "epoch": 1.6600000000000001,
+      "grad_norm": 3.057668447494507,
+      "learning_rate": 9.867894514365802e-05,
+      "loss": 0.861,
+      "step": 2490
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 3.9007954597473145,
+      "learning_rate": 9.865224352899119e-05,
+      "loss": 0.7791,
+      "step": 2500
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "eval_darija_finetune_val_loss": 0.9088011384010315,
+      "eval_darija_finetune_val_runtime": 258.9658,
+      "eval_darija_finetune_val_samples_per_second": 3.862,
+      "eval_darija_finetune_val_steps_per_second": 1.931,
+      "step": 2500
+    },
+    {
+      "epoch": 1.6733333333333333,
+      "grad_norm": 4.700470924377441,
+      "learning_rate": 9.862527844207189e-05,
+      "loss": 0.7518,
+      "step": 2510
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 3.265174627304077,
+      "learning_rate": 9.859805002892732e-05,
+      "loss": 0.8362,
+      "step": 2520
+    },
+    {
+      "epoch": 1.6866666666666665,
+      "grad_norm": 3.8933801651000977,
+      "learning_rate": 9.857055843701073e-05,
+      "loss": 0.8017,
+      "step": 2530
+    },
+    {
+      "epoch": 1.6933333333333334,
+      "grad_norm": 3.0484282970428467,
+      "learning_rate": 9.85428038152006e-05,
+      "loss": 0.8274,
+      "step": 2540
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 3.7863783836364746,
+      "learning_rate": 9.851478631379982e-05,
+      "loss": 0.8106,
+      "step": 2550
+    },
+    {
+      "epoch": 1.7066666666666666,
+      "grad_norm": 3.20194935798645,
+      "learning_rate": 9.84865060845349e-05,
+      "loss": 0.8743,
+      "step": 2560
+    },
+    {
+      "epoch": 1.7133333333333334,
+      "grad_norm": 2.3237102031707764,
+      "learning_rate": 9.845796328055505e-05,
+      "loss": 0.8526,
+      "step": 2570
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 3.3712496757507324,
+      "learning_rate": 9.842915805643155e-05,
+      "loss": 0.8445,
+      "step": 2580
+    },
+    {
+      "epoch": 1.7266666666666666,
+      "grad_norm": 3.5435147285461426,
+      "learning_rate": 9.840009056815673e-05,
+      "loss": 0.7833,
+      "step": 2590
+    },
+    {
+      "epoch": 1.7333333333333334,
+      "grad_norm": 2.165213108062744,
+      "learning_rate": 9.837076097314319e-05,
+      "loss": 0.8185,
+      "step": 2600
+    },
+    {
+      "epoch": 1.7333333333333334,
+      "eval_darija_finetune_val_loss": 0.9130555391311646,
+      "eval_darija_finetune_val_runtime": 259.2206,
+      "eval_darija_finetune_val_samples_per_second": 3.858,
+      "eval_darija_finetune_val_steps_per_second": 1.929,
+      "step": 2600
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 4.111995220184326,
+      "learning_rate": 9.834116943022298e-05,
+      "loss": 0.7513,
+      "step": 2610
+    },
+    {
+      "epoch": 1.7466666666666666,
+      "grad_norm": 3.4534389972686768,
+      "learning_rate": 9.831131609964665e-05,
+      "loss": 0.7641,
+      "step": 2620
+    },
+    {
+      "epoch": 1.7533333333333334,
+      "grad_norm": 3.720684051513672,
+      "learning_rate": 9.828120114308249e-05,
+      "loss": 0.7523,
+      "step": 2630
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 3.11759877204895,
+      "learning_rate": 9.825082472361557e-05,
+      "loss": 0.8522,
+      "step": 2640
+    },
+    {
+      "epoch": 1.7666666666666666,
+      "grad_norm": 3.5697948932647705,
+      "learning_rate": 9.822018700574695e-05,
+      "loss": 0.8416,
+      "step": 2650
+    },
+    {
+      "epoch": 1.7733333333333334,
+      "grad_norm": 3.2978744506835938,
+      "learning_rate": 9.818928815539266e-05,
+      "loss": 0.7737,
+      "step": 2660
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 2.9185791015625,
+      "learning_rate": 9.815812833988291e-05,
+      "loss": 0.7921,
+      "step": 2670
+    },
+    {
+      "epoch": 1.7866666666666666,
+      "grad_norm": 2.754081964492798,
+      "learning_rate": 9.812670772796113e-05,
+      "loss": 0.8106,
+      "step": 2680
+    },
+    {
+      "epoch": 1.7933333333333334,
+      "grad_norm": 3.0147602558135986,
+      "learning_rate": 9.80950264897831e-05,
+      "loss": 0.6842,
+      "step": 2690
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 3.6710753440856934,
+      "learning_rate": 9.806308479691595e-05,
+      "loss": 0.9451,
+      "step": 2700
+    },
+    {
+      "epoch": 1.8,
+      "eval_darija_finetune_val_loss": 0.897102952003479,
+      "eval_darija_finetune_val_runtime": 258.7621,
+      "eval_darija_finetune_val_samples_per_second": 3.865,
+      "eval_darija_finetune_val_steps_per_second": 1.932,
+      "step": 2700
+    },
+    {
+      "epoch": 1.8066666666666666,
+      "grad_norm": 3.5396676063537598,
+      "learning_rate": 9.803088282233732e-05,
+      "loss": 0.8039,
+      "step": 2710
+    },
+    {
+      "epoch": 1.8133333333333335,
+      "grad_norm": 2.907780647277832,
+      "learning_rate": 9.799842074043439e-05,
+      "loss": 0.7939,
+      "step": 2720
+    },
+    {
+      "epoch": 1.8199999999999998,
+      "grad_norm": 2.928069591522217,
+      "learning_rate": 9.796569872700288e-05,
+      "loss": 0.8399,
+      "step": 2730
+    },
+    {
+      "epoch": 1.8266666666666667,
+      "grad_norm": 2.8561289310455322,
+      "learning_rate": 9.793271695924621e-05,
+      "loss": 0.7776,
+      "step": 2740
+    },
+    {
+      "epoch": 1.8333333333333335,
+      "grad_norm": 3.380655527114868,
+      "learning_rate": 9.789947561577445e-05,
+      "loss": 0.7011,
+      "step": 2750
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 3.6421566009521484,
+      "learning_rate": 9.786597487660337e-05,
+      "loss": 0.7719,
+      "step": 2760
+    },
+    {
+      "epoch": 1.8466666666666667,
+      "grad_norm": 4.199822425842285,
+      "learning_rate": 9.783221492315349e-05,
+      "loss": 0.8528,
+      "step": 2770
+    },
+    {
+      "epoch": 1.8533333333333335,
+      "grad_norm": 3.8535680770874023,
+      "learning_rate": 9.779819593824908e-05,
+      "loss": 0.8523,
+      "step": 2780
+    },
+    {
+      "epoch": 1.8599999999999999,
+      "grad_norm": 2.4134390354156494,
+      "learning_rate": 9.776391810611718e-05,
+      "loss": 0.759,
+      "step": 2790
+    },
+    {
+      "epoch": 1.8666666666666667,
+      "grad_norm": 3.8791043758392334,
+      "learning_rate": 9.77293816123866e-05,
+      "loss": 0.8792,
+      "step": 2800
+    },
+    {
+      "epoch": 1.8666666666666667,
+      "eval_darija_finetune_val_loss": 0.8713967204093933,
+      "eval_darija_finetune_val_runtime": 259.0133,
+      "eval_darija_finetune_val_samples_per_second": 3.861,
+      "eval_darija_finetune_val_steps_per_second": 1.93,
+      "step": 2800
+    },
+    {
+      "epoch": 1.8733333333333333,
+      "grad_norm": 3.181145668029785,
+      "learning_rate": 9.769458664408688e-05,
+      "loss": 0.8269,
+      "step": 2810
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 2.218883752822876,
+      "learning_rate": 9.765953338964735e-05,
+      "loss": 0.7744,
+      "step": 2820
+    },
+    {
+      "epoch": 1.8866666666666667,
+      "grad_norm": 2.839035987854004,
+      "learning_rate": 9.762422203889604e-05,
+      "loss": 0.8303,
+      "step": 2830
+    },
+    {
+      "epoch": 1.8933333333333333,
+      "grad_norm": 3.600214958190918,
+      "learning_rate": 9.758865278305869e-05,
+      "loss": 0.7508,
+      "step": 2840
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 3.6240673065185547,
+      "learning_rate": 9.755282581475769e-05,
+      "loss": 0.8494,
+      "step": 2850
+    },
+    {
+      "epoch": 1.9066666666666667,
+      "grad_norm": 2.885326862335205,
+      "learning_rate": 9.751674132801107e-05,
+      "loss": 0.7427,
+      "step": 2860
+    },
+    {
+      "epoch": 1.9133333333333333,
+      "grad_norm": 4.163845062255859,
+      "learning_rate": 9.74803995182314e-05,
+      "loss": 0.8282,
+      "step": 2870
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 5.7469635009765625,
+      "learning_rate": 9.744380058222483e-05,
+      "loss": 0.9194,
+      "step": 2880
+    },
+    {
+      "epoch": 1.9266666666666667,
+      "grad_norm": 3.1125876903533936,
+      "learning_rate": 9.740694471818988e-05,
+      "loss": 0.7829,
+      "step": 2890
+    },
+    {
+      "epoch": 1.9333333333333333,
+      "grad_norm": 4.915224552154541,
+      "learning_rate": 9.736983212571646e-05,
+      "loss": 0.7434,
+      "step": 2900
+    },
+    {
+      "epoch": 1.9333333333333333,
+      "eval_darija_finetune_val_loss": 0.8751777410507202,
+      "eval_darija_finetune_val_runtime": 258.6409,
+      "eval_darija_finetune_val_samples_per_second": 3.866,
+      "eval_darija_finetune_val_steps_per_second": 1.933,
+      "step": 2900
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 2.8097968101501465,
+      "learning_rate": 9.733246300578483e-05,
+      "loss": 0.879,
+      "step": 2910
+    },
+    {
+      "epoch": 1.9466666666666668,
+      "grad_norm": 3.9113807678222656,
+      "learning_rate": 9.729483756076435e-05,
+      "loss": 0.797,
+      "step": 2920
+    },
+    {
+      "epoch": 1.9533333333333334,
+      "grad_norm": 3.2525947093963623,
+      "learning_rate": 9.725695599441258e-05,
+      "loss": 0.7819,
+      "step": 2930
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 1.8628346920013428,
+      "learning_rate": 9.721881851187406e-05,
+      "loss": 0.8352,
+      "step": 2940
+    },
+    {
+      "epoch": 1.9666666666666668,
+      "grad_norm": 3.213836669921875,
+      "learning_rate": 9.718042531967918e-05,
+      "loss": 0.7687,
+      "step": 2950
+    },
+    {
+      "epoch": 1.9733333333333334,
+      "grad_norm": 4.873043537139893,
+      "learning_rate": 9.714177662574316e-05,
+      "loss": 0.8942,
+      "step": 2960
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 2.820124626159668,
+      "learning_rate": 9.710287263936484e-05,
+      "loss": 0.7091,
+      "step": 2970
+    },
+    {
+      "epoch": 1.9866666666666668,
+      "grad_norm": 4.061056137084961,
+      "learning_rate": 9.706371357122559e-05,
+      "loss": 0.7501,
+      "step": 2980
+    },
+    {
+      "epoch": 1.9933333333333332,
+      "grad_norm": 3.3817555904388428,
+      "learning_rate": 9.702429963338813e-05,
+      "loss": 0.8478,
+      "step": 2990
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.533857822418213,
+      "learning_rate": 9.698463103929542e-05,
+      "loss": 0.858,
+      "step": 3000
+    },
+    {
+      "epoch": 2.0,
+      "eval_darija_finetune_val_loss": 0.8658854961395264,
+      "eval_darija_finetune_val_runtime": 258.7364,
+      "eval_darija_finetune_val_samples_per_second": 3.865,
+      "eval_darija_finetune_val_steps_per_second": 1.932,
+      "step": 3000
+    },
+    {
+      "epoch": 2.006666666666667,
+      "grad_norm": 3.462456464767456,
+      "learning_rate": 9.694470800376952e-05,
+      "loss": 0.4433,
+      "step": 3010
+    },
+    {
+      "epoch": 2.013333333333333,
+      "grad_norm": 2.477503776550293,
+      "learning_rate": 9.690453074301035e-05,
+      "loss": 0.4594,
+      "step": 3020
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 2.2593841552734375,
+      "learning_rate": 9.686409947459458e-05,
+      "loss": 0.4173,
+      "step": 3030
+    },
+    {
+      "epoch": 2.026666666666667,
+      "grad_norm": 3.446082830429077,
+      "learning_rate": 9.682341441747446e-05,
+      "loss": 0.4026,
+      "step": 3040
+    },
+    {
+      "epoch": 2.033333333333333,
+      "grad_norm": 2.698472738265991,
+      "learning_rate": 9.678247579197657e-05,
+      "loss": 0.413,
+      "step": 3050
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 4.878231048583984,
+      "learning_rate": 9.674128381980072e-05,
+      "loss": 0.4848,
+      "step": 3060
+    },
+    {
+      "epoch": 2.046666666666667,
+      "grad_norm": 3.500419855117798,
+      "learning_rate": 9.669983872401867e-05,
+      "loss": 0.4403,
+      "step": 3070
+    },
+    {
+      "epoch": 2.0533333333333332,
+      "grad_norm": 3.9468274116516113,
+      "learning_rate": 9.665814072907293e-05,
+      "loss": 0.4356,
+      "step": 3080
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 3.612614631652832,
+      "learning_rate": 9.661619006077561e-05,
+      "loss": 0.4541,
+      "step": 3090
+    },
+    {
+      "epoch": 2.066666666666667,
+      "grad_norm": 2.7881417274475098,
+      "learning_rate": 9.657398694630712e-05,
+      "loss": 0.436,
+      "step": 3100
+    },
+    {
+      "epoch": 2.066666666666667,
+      "eval_darija_finetune_val_loss": 0.9355879426002502,
+      "eval_darija_finetune_val_runtime": 258.7381,
+      "eval_darija_finetune_val_samples_per_second": 3.865,
+      "eval_darija_finetune_val_steps_per_second": 1.932,
+      "step": 3100
+    },
+    {
+      "epoch": 2.0733333333333333,
+      "grad_norm": 2.5073893070220947,
+      "learning_rate": 9.653153161421497e-05,
+      "loss": 0.4025,
+      "step": 3110
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 2.9307687282562256,
+      "learning_rate": 9.648882429441257e-05,
+      "loss": 0.4659,
+      "step": 3120
+    },
+    {
+      "epoch": 2.086666666666667,
+      "grad_norm": 3.455474376678467,
+      "learning_rate": 9.644586521817791e-05,
+      "loss": 0.3019,
+      "step": 3130
+    },
+    {
+      "epoch": 2.0933333333333333,
+      "grad_norm": 4.271946907043457,
+      "learning_rate": 9.640265461815234e-05,
+      "loss": 0.5062,
+      "step": 3140
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 3.2588741779327393,
+      "learning_rate": 9.635919272833938e-05,
+      "loss": 0.4803,
+      "step": 3150
+    },
+    {
+      "epoch": 2.1066666666666665,
+      "grad_norm": 2.1197714805603027,
+      "learning_rate": 9.63154797841033e-05,
+      "loss": 0.4529,
+      "step": 3160
+    },
+    {
+      "epoch": 2.1133333333333333,
+      "grad_norm": 4.36895751953125,
+      "learning_rate": 9.6271516022168e-05,
+      "loss": 0.4684,
+      "step": 3170
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 3.7385189533233643,
+      "learning_rate": 9.622730168061567e-05,
+      "loss": 0.4205,
+      "step": 3180
+    },
+    {
+      "epoch": 2.1266666666666665,
+      "grad_norm": 2.6625452041625977,
+      "learning_rate": 9.618283699888541e-05,
+      "loss": 0.5048,
+      "step": 3190
+    },
+    {
+      "epoch": 2.1333333333333333,
+      "grad_norm": 2.3059322834014893,
+      "learning_rate": 9.613812221777212e-05,
+      "loss": 0.5194,
+      "step": 3200
+    },
+    {
+      "epoch": 2.1333333333333333,
+      "eval_darija_finetune_val_loss": 0.900266170501709,
+      "eval_darija_finetune_val_runtime": 259.0092,
+      "eval_darija_finetune_val_samples_per_second": 3.861,
+      "eval_darija_finetune_val_steps_per_second": 1.93,
+      "step": 3200
+    },
+    {
+      "epoch": 2.14,
+      "grad_norm": 2.7250349521636963,
+      "learning_rate": 9.609315757942503e-05,
+      "loss": 0.4902,
+      "step": 3210
+    },
+    {
+      "epoch": 2.1466666666666665,
+      "grad_norm": 3.2016725540161133,
+      "learning_rate": 9.604794332734646e-05,
+      "loss": 0.5208,
+      "step": 3220
+    },
+    {
+      "epoch": 2.1533333333333333,
+      "grad_norm": 3.055562734603882,
+      "learning_rate": 9.600247970639053e-05,
+      "loss": 0.4815,
+      "step": 3230
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 3.2699763774871826,
+      "learning_rate": 9.595676696276172e-05,
+      "loss": 0.515,
+      "step": 3240
+    },
+    {
+      "epoch": 2.1666666666666665,
+      "grad_norm": 3.208446502685547,
+      "learning_rate": 9.591080534401371e-05,
+      "loss": 0.4092,
+      "step": 3250
+    },
+    {
+      "epoch": 2.1733333333333333,
+      "grad_norm": 3.395871877670288,
+      "learning_rate": 9.586459509904786e-05,
+      "loss": 0.447,
+      "step": 3260
+    },
+    {
+      "epoch": 2.18,
+      "grad_norm": 3.570553779602051,
+      "learning_rate": 9.581813647811198e-05,
+      "loss": 0.4679,
+      "step": 3270
+    },
+    {
+      "epoch": 2.1866666666666665,
+      "grad_norm": 2.619385242462158,
+      "learning_rate": 9.577142973279896e-05,
+      "loss": 0.4268,
+      "step": 3280
+    },
+    {
+      "epoch": 2.1933333333333334,
+      "grad_norm": 3.3416481018066406,
+      "learning_rate": 9.572447511604535e-05,
+      "loss": 0.4988,
+      "step": 3290
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 2.2750625610351562,
+      "learning_rate": 9.567727288213005e-05,
+      "loss": 0.5014,
+      "step": 3300
+    },
+    {
+      "epoch": 2.2,
+      "eval_darija_finetune_val_loss": 0.9333375692367554,
+      "eval_darija_finetune_val_runtime": 258.7121,
+      "eval_darija_finetune_val_samples_per_second": 3.865,
+      "eval_darija_finetune_val_steps_per_second": 1.933,
+      "step": 3300
+    },
+    {
+      "epoch": 2.2066666666666666,
+      "grad_norm": 2.3995261192321777,
+      "learning_rate": 9.562982328667289e-05,
+      "loss": 0.4786,
+      "step": 3310
+    },
+    {
+      "epoch": 2.2133333333333334,
+      "grad_norm": 3.333108901977539,
+      "learning_rate": 9.55821265866333e-05,
+      "loss": 0.4589,
+      "step": 3320
+    },
+    {
+      "epoch": 2.22,
+      "grad_norm": 3.0467498302459717,
+      "learning_rate": 9.553418304030886e-05,
+      "loss": 0.4994,
+      "step": 3330
+    },
+    {
+      "epoch": 2.2266666666666666,
+      "grad_norm": 2.771735191345215,
+      "learning_rate": 9.548599290733392e-05,
+      "loss": 0.4635,
+      "step": 3340
+    },
+    {
+      "epoch": 2.2333333333333334,
+      "grad_norm": 3.1078433990478516,
+      "learning_rate": 9.543755644867822e-05,
+      "loss": 0.4345,
+      "step": 3350
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 2.6101598739624023,
+      "learning_rate": 9.538887392664544e-05,
+      "loss": 0.5221,
+      "step": 3360
+    },
+    {
+      "epoch": 2.2466666666666666,
+      "grad_norm": 3.371260404586792,
+      "learning_rate": 9.53399456048718e-05,
+      "loss": 0.473,
+      "step": 3370
+    },
+    {
+      "epoch": 2.2533333333333334,
+      "grad_norm": 2.5337367057800293,
+      "learning_rate": 9.529077174832466e-05,
+      "loss": 0.4837,
+      "step": 3380
+    },
+    {
+      "epoch": 2.26,
+      "grad_norm": 2.1054067611694336,
+      "learning_rate": 9.524135262330098e-05,
+      "loss": 0.4989,
+      "step": 3390
+    },
+    {
+      "epoch": 2.2666666666666666,
+      "grad_norm": 2.5737295150756836,
+      "learning_rate": 9.519168849742604e-05,
+      "loss": 0.4135,
+      "step": 3400
+    },
+    {
+      "epoch": 2.2666666666666666,
+      "eval_darija_finetune_val_loss": 0.9492976069450378,
+      "eval_darija_finetune_val_runtime": 259.2238,
+      "eval_darija_finetune_val_samples_per_second": 3.858,
+      "eval_darija_finetune_val_steps_per_second": 1.929,
+      "step": 3400
+    },
+    {
+      "epoch": 2.2733333333333334,
+      "grad_norm": 3.2887966632843018,
+      "learning_rate": 9.514177963965182e-05,
+      "loss": 0.4409,
+      "step": 3410
+    },
+    {
+      "epoch": 2.2800000000000002,
+      "grad_norm": 2.431375503540039,
+      "learning_rate": 9.50916263202557e-05,
+      "loss": 0.4754,
+      "step": 3420
+    },
+    {
+      "epoch": 2.2866666666666666,
+      "grad_norm": 3.692216157913208,
+      "learning_rate": 9.504122881083886e-05,
+      "loss": 0.4233,
+      "step": 3430
+    },
+    {
+      "epoch": 2.2933333333333334,
+      "grad_norm": 2.728694438934326,
+      "learning_rate": 9.499058738432492e-05,
+      "loss": 0.4592,
+      "step": 3440
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 2.8839800357818604,
+      "learning_rate": 9.493970231495835e-05,
+      "loss": 0.4929,
+      "step": 3450
+    },
+    {
+      "epoch": 2.3066666666666666,
+      "grad_norm": 2.2823827266693115,
+      "learning_rate": 9.488857387830314e-05,
+      "loss": 0.4603,
+      "step": 3460
+    },
+    {
+      "epoch": 2.3133333333333335,
+      "grad_norm": 3.233095407485962,
+      "learning_rate": 9.483720235124114e-05,
+      "loss": 0.4985,
+      "step": 3470
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 3.0135116577148438,
+      "learning_rate": 9.478558801197065e-05,
+      "loss": 0.4744,
+      "step": 3480
+    },
+    {
+      "epoch": 2.3266666666666667,
+      "grad_norm": 3.681504487991333,
+      "learning_rate": 9.473373114000492e-05,
+      "loss": 0.4741,
+      "step": 3490
+    },
+    {
+      "epoch": 2.3333333333333335,
+      "grad_norm": 4.907854080200195,
+      "learning_rate": 9.468163201617062e-05,
+      "loss": 0.5545,
+      "step": 3500
+    },
+    {
+      "epoch": 2.3333333333333335,
+      "eval_darija_finetune_val_loss": 0.9177870750427246,
+      "eval_darija_finetune_val_runtime": 258.8756,
+      "eval_darija_finetune_val_samples_per_second": 3.863,
+      "eval_darija_finetune_val_steps_per_second": 1.931,
+      "step": 3500
+    },
+    {
+      "epoch": 2.34,
+      "grad_norm": 2.6049962043762207,
+      "learning_rate": 9.462929092260628e-05,
+      "loss": 0.512,
+      "step": 3510
+    },
+    {
+      "epoch": 2.3466666666666667,
+      "grad_norm": 2.6209774017333984,
+      "learning_rate": 9.457670814276083e-05,
+      "loss": 0.4718,
+      "step": 3520
+    },
+    {
+      "epoch": 2.3533333333333335,
+      "grad_norm": 2.216315746307373,
+      "learning_rate": 9.452388396139202e-05,
+      "loss": 0.5062,
+      "step": 3530
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 3.2410600185394287,
+      "learning_rate": 9.447081866456489e-05,
+      "loss": 0.4155,
+      "step": 3540
+    },
+    {
+      "epoch": 2.3666666666666667,
+      "grad_norm": 3.463554620742798,
+      "learning_rate": 9.441751253965021e-05,
+      "loss": 0.5516,
+      "step": 3550
+    },
+    {
+      "epoch": 2.3733333333333335,
+      "grad_norm": 4.310747146606445,
+      "learning_rate": 9.436396587532296e-05,
+      "loss": 0.4774,
+      "step": 3560
+    },
+    {
+      "epoch": 2.38,
+      "grad_norm": 2.7729079723358154,
+      "learning_rate": 9.431017896156074e-05,
+      "loss": 0.4601,
+      "step": 3570
+    },
+    {
+      "epoch": 2.3866666666666667,
+      "grad_norm": 2.728466749191284,
+      "learning_rate": 9.425615208964216e-05,
+      "loss": 0.5205,
+      "step": 3580
+    },
+    {
+      "epoch": 2.3933333333333335,
+      "grad_norm": 3.1162445545196533,
+      "learning_rate": 9.420188555214537e-05,
+      "loss": 0.4549,
+      "step": 3590
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 2.819366455078125,
+      "learning_rate": 9.414737964294636e-05,
+      "loss": 0.4813,
+      "step": 3600
+    },
+    {
+      "epoch": 2.4,
+      "eval_darija_finetune_val_loss": 0.91963130235672,
+      "eval_darija_finetune_val_runtime": 259.6933,
+      "eval_darija_finetune_val_samples_per_second": 3.851,
+      "eval_darija_finetune_val_steps_per_second": 1.925,
+      "step": 3600
+    },
+    {
+      "epoch": 2.4066666666666667,
+      "grad_norm": 2.8475654125213623,
+      "learning_rate": 9.40926346572174e-05,
+      "loss": 0.4844,
+      "step": 3610
+    },
+    {
+      "epoch": 2.413333333333333,
+      "grad_norm": 2.59702205657959,
+      "learning_rate": 9.403765089142554e-05,
+      "loss": 0.4221,
+      "step": 3620
+    },
+    {
+      "epoch": 2.42,
+      "grad_norm": 4.916239261627197,
+      "learning_rate": 9.398242864333083e-05,
+      "loss": 0.4051,
+      "step": 3630
+    },
+    {
+      "epoch": 2.4266666666666667,
+      "grad_norm": 2.544158458709717,
+      "learning_rate": 9.392696821198488e-05,
+      "loss": 0.4434,
+      "step": 3640
+    },
+    {
+      "epoch": 2.4333333333333336,
+      "grad_norm": 2.3633363246917725,
+      "learning_rate": 9.38712698977291e-05,
+      "loss": 0.4728,
+      "step": 3650
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 3.70890474319458,
+      "learning_rate": 9.381533400219318e-05,
+      "loss": 0.4827,
+      "step": 3660
+    },
+    {
+      "epoch": 2.4466666666666668,
+      "grad_norm": 3.5090901851654053,
+      "learning_rate": 9.37591608282934e-05,
+      "loss": 0.4524,
+      "step": 3670
+    },
+    {
+      "epoch": 2.453333333333333,
+      "grad_norm": 2.0714354515075684,
+      "learning_rate": 9.370275068023098e-05,
+      "loss": 0.4424,
+      "step": 3680
+    },
+    {
+      "epoch": 2.46,
+      "grad_norm": 2.4309346675872803,
+      "learning_rate": 9.364610386349049e-05,
+      "loss": 0.4447,
+      "step": 3690
+    },
+    {
+      "epoch": 2.466666666666667,
+      "grad_norm": 2.9133565425872803,
+      "learning_rate": 9.358922068483812e-05,
+      "loss": 0.5139,
+      "step": 3700
+    },
+    {
+      "epoch": 2.466666666666667,
+      "eval_darija_finetune_val_loss": 0.9047917723655701,
+      "eval_darija_finetune_val_runtime": 259.3129,
+      "eval_darija_finetune_val_samples_per_second": 3.856,
+      "eval_darija_finetune_val_steps_per_second": 1.928,
+      "step": 3700
+    },
+    {
+      "epoch": 2.473333333333333,
+      "grad_norm": 3.6195969581604004,
+      "learning_rate": 9.35321014523201e-05,
+      "loss": 0.4064,
+      "step": 3710
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 2.217879295349121,
+      "learning_rate": 9.347474647526095e-05,
+      "loss": 0.4448,
+      "step": 3720
+    },
+    {
+      "epoch": 2.486666666666667,
+      "grad_norm": 2.8738131523132324,
+      "learning_rate": 9.341715606426189e-05,
+      "loss": 0.5126,
+      "step": 3730
+    },
+    {
+      "epoch": 2.493333333333333,
+      "grad_norm": 3.0710952281951904,
+      "learning_rate": 9.335933053119906e-05,
+      "loss": 0.4086,
+      "step": 3740
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 6.325509548187256,
+      "learning_rate": 9.330127018922194e-05,
+      "loss": 0.4113,
+      "step": 3750
+    },
+    {
+      "epoch": 2.506666666666667,
+      "grad_norm": 2.797027349472046,
+      "learning_rate": 9.324297535275155e-05,
+      "loss": 0.5194,
+      "step": 3760
+    },
+    {
+      "epoch": 2.513333333333333,
+      "grad_norm": 2.059788942337036,
+      "learning_rate": 9.318444633747883e-05,
+      "loss": 0.4295,
+      "step": 3770
+    },
+    {
+      "epoch": 2.52,
+      "grad_norm": 2.2633543014526367,
+      "learning_rate": 9.312568346036288e-05,
+      "loss": 0.4642,
+      "step": 3780
+    },
+    {
+      "epoch": 2.5266666666666664,
+      "grad_norm": 4.4395575523376465,
+      "learning_rate": 9.306668703962927e-05,
+      "loss": 0.4765,
+      "step": 3790
+    },
+    {
+      "epoch": 2.533333333333333,
+      "grad_norm": 2.4455292224884033,
+      "learning_rate": 9.300745739476829e-05,
+      "loss": 0.5334,
+      "step": 3800
+    },
+    {
+      "epoch": 2.533333333333333,
+      "eval_darija_finetune_val_loss": 0.905290424823761,
+      "eval_darija_finetune_val_runtime": 259.5605,
+      "eval_darija_finetune_val_samples_per_second": 3.853,
+      "eval_darija_finetune_val_steps_per_second": 1.926,
+      "step": 3800
+    },
+    {
+      "epoch": 2.54,
+      "grad_norm": 3.7455124855041504,
+      "learning_rate": 9.294799484653323e-05,
+      "loss": 0.5974,
+      "step": 3810
+    },
+    {
+      "epoch": 2.546666666666667,
+      "grad_norm": 3.3515355587005615,
+      "learning_rate": 9.288829971693868e-05,
+      "loss": 0.5438,
+      "step": 3820
+    },
+    {
+      "epoch": 2.5533333333333332,
+      "grad_norm": 3.5098655223846436,
+      "learning_rate": 9.282837232925876e-05,
+      "loss": 0.4833,
+      "step": 3830
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 2.3161559104919434,
+      "learning_rate": 9.276821300802534e-05,
+      "loss": 0.4868,
+      "step": 3840
+    },
+    {
+      "epoch": 2.5666666666666664,
+      "grad_norm": 2.91372013092041,
+      "learning_rate": 9.270782207902629e-05,
+      "loss": 0.505,
+      "step": 3850
+    },
+    {
+      "epoch": 2.5733333333333333,
+      "grad_norm": 2.8373541831970215,
+      "learning_rate": 9.264719986930376e-05,
+      "loss": 0.4685,
+      "step": 3860
+    },
+    {
+      "epoch": 2.58,
+      "grad_norm": 2.676431655883789,
+      "learning_rate": 9.258634670715238e-05,
+      "loss": 0.4442,
+      "step": 3870
+    },
+    {
+      "epoch": 2.586666666666667,
+      "grad_norm": 3.6998441219329834,
+      "learning_rate": 9.25252629221175e-05,
+      "loss": 0.4605,
+      "step": 3880
+    },
+    {
+      "epoch": 2.5933333333333333,
+      "grad_norm": 1.7402496337890625,
+      "learning_rate": 9.246394884499334e-05,
+      "loss": 0.4471,
+      "step": 3890
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 3.7280309200286865,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.5033,
+      "step": 3900
+    },
+    {
+      "epoch": 2.6,
+      "eval_darija_finetune_val_loss": 0.9073901772499084,
+      "eval_darija_finetune_val_runtime": 259.5347,
+      "eval_darija_finetune_val_samples_per_second": 3.853,
+      "eval_darija_finetune_val_steps_per_second": 1.927,
+      "step": 3900
+    },
+    {
+      "epoch": 2.6066666666666665,
+      "grad_norm": 3.1785483360290527,
+      "learning_rate": 9.234063114388809e-05,
+      "loss": 0.446,
+      "step": 3910
+    },
+    {
+      "epoch": 2.6133333333333333,
+      "grad_norm": 2.9536683559417725,
+      "learning_rate": 9.227862818772393e-05,
+      "loss": 0.4933,
+      "step": 3920
+    },
+    {
+      "epoch": 2.62,
+      "grad_norm": 3.449967861175537,
+      "learning_rate": 9.221639627510076e-05,
+      "loss": 0.4192,
+      "step": 3930
+    },
+    {
+      "epoch": 2.626666666666667,
+      "grad_norm": 4.238481521606445,
+      "learning_rate": 9.215393574303043e-05,
+      "loss": 0.3819,
+      "step": 3940
+    },
+    {
+      "epoch": 2.6333333333333333,
+      "grad_norm": 2.9021008014678955,
+      "learning_rate": 9.209124692976287e-05,
+      "loss": 0.4703,
+      "step": 3950
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 3.3554530143737793,
+      "learning_rate": 9.202833017478422e-05,
+      "loss": 0.4855,
+      "step": 3960
+    },
+    {
+      "epoch": 2.6466666666666665,
+      "grad_norm": 3.0041258335113525,
+      "learning_rate": 9.196518581881501e-05,
+      "loss": 0.3899,
+      "step": 3970
+    },
+    {
+      "epoch": 2.6533333333333333,
+      "grad_norm": 2.397251844406128,
+      "learning_rate": 9.190181420380836e-05,
+      "loss": 0.543,
+      "step": 3980
+    },
+    {
+      "epoch": 2.66,
+      "grad_norm": 2.5618643760681152,
+      "learning_rate": 9.183821567294809e-05,
+      "loss": 0.4851,
+      "step": 3990
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 2.831705331802368,
+      "learning_rate": 9.177439057064683e-05,
+      "loss": 0.4919,
+      "step": 4000
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "eval_darija_finetune_val_loss": 0.89859938621521,
+      "eval_darija_finetune_val_runtime": 259.657,
+      "eval_darija_finetune_val_samples_per_second": 3.851,
+      "eval_darija_finetune_val_steps_per_second": 1.926,
+      "step": 4000
+    },
+    {
+      "epoch": 2.6733333333333333,
+      "grad_norm": 2.256920576095581,
+      "learning_rate": 9.171033924254421e-05,
+      "loss": 0.5251,
+      "step": 4010
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 2.483616828918457,
+      "learning_rate": 9.164606203550497e-05,
+      "loss": 0.5081,
+      "step": 4020
+    },
+    {
+      "epoch": 2.6866666666666665,
+      "grad_norm": 2.360711097717285,
+      "learning_rate": 9.158155929761709e-05,
+      "loss": 0.4864,
+      "step": 4030
+    },
+    {
+      "epoch": 2.6933333333333334,
+      "grad_norm": 4.500398635864258,
+      "learning_rate": 9.151683137818988e-05,
+      "loss": 0.4859,
+      "step": 4040
+    },
+    {
+      "epoch": 2.7,
+      "grad_norm": 2.828977346420288,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.4988,
+      "step": 4050
+    },
+    {
+      "epoch": 2.7066666666666666,
+      "grad_norm": 2.995166540145874,
+      "learning_rate": 9.138670139805003e-05,
+      "loss": 0.4224,
+      "step": 4060
+    },
+    {
+      "epoch": 2.7133333333333334,
+      "grad_norm": 2.7564573287963867,
+      "learning_rate": 9.132130004204568e-05,
+      "loss": 0.4975,
+      "step": 4070
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "grad_norm": 2.320847511291504,
+      "learning_rate": 9.125567491391476e-05,
+      "loss": 0.4726,
+      "step": 4080
+    },
+    {
+      "epoch": 2.7266666666666666,
+      "grad_norm": 3.20310640335083,
+      "learning_rate": 9.118982636904476e-05,
+      "loss": 0.5424,
+      "step": 4090
+    },
+    {
+      "epoch": 2.7333333333333334,
+      "grad_norm": 2.4192585945129395,
+      "learning_rate": 9.112375476403312e-05,
+      "loss": 0.3785,
+      "step": 4100
+    },
+    {
+      "epoch": 2.7333333333333334,
+      "eval_darija_finetune_val_loss": 0.8971062898635864,
+      "eval_darija_finetune_val_runtime": 251.3505,
+      "eval_darija_finetune_val_samples_per_second": 3.979,
+      "eval_darija_finetune_val_steps_per_second": 1.989,
+      "step": 4100
+    },
+    {
+      "epoch": 2.74,
+      "grad_norm": 3.080637216567993,
+      "learning_rate": 9.105746045668521e-05,
+      "loss": 0.4513,
+      "step": 4110
+    },
+    {
+      "epoch": 2.7466666666666666,
+      "grad_norm": 3.1852269172668457,
+      "learning_rate": 9.099094380601244e-05,
+      "loss": 0.4594,
+      "step": 4120
+    },
+    {
+      "epoch": 2.7533333333333334,
+      "grad_norm": 4.018466472625732,
+      "learning_rate": 9.09242051722303e-05,
+      "loss": 0.4815,
+      "step": 4130
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 2.8463821411132812,
+      "learning_rate": 9.085724491675642e-05,
+      "loss": 0.4365,
+      "step": 4140
+    },
+    {
+      "epoch": 2.7666666666666666,
+      "grad_norm": 2.3291406631469727,
+      "learning_rate": 9.079006340220862e-05,
+      "loss": 0.6037,
+      "step": 4150
+    },
+    {
+      "epoch": 2.7733333333333334,
+      "grad_norm": 2.934995174407959,
+      "learning_rate": 9.072266099240285e-05,
+      "loss": 0.4599,
+      "step": 4160
+    },
+    {
+      "epoch": 2.7800000000000002,
+      "grad_norm": 2.6450164318084717,
+      "learning_rate": 9.065503805235138e-05,
+      "loss": 0.4258,
+      "step": 4170
+    },
+    {
+      "epoch": 2.7866666666666666,
+      "grad_norm": 2.965301036834717,
+      "learning_rate": 9.058719494826075e-05,
+      "loss": 0.5256,
+      "step": 4180
+    },
+    {
+      "epoch": 2.7933333333333334,
+      "grad_norm": 3.525001287460327,
+      "learning_rate": 9.051913204752972e-05,
+      "loss": 0.4829,
+      "step": 4190
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 2.098442316055298,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.444,
+      "step": 4200
+    },
+    {
+      "epoch": 2.8,
+      "eval_darija_finetune_val_loss": 0.887423574924469,
+      "eval_darija_finetune_val_runtime": 250.9563,
+      "eval_darija_finetune_val_samples_per_second": 3.985,
+      "eval_darija_finetune_val_steps_per_second": 1.992,
+      "step": 4200
+    },
+    {
+      "epoch": 2.8066666666666666,
+      "grad_norm": 3.247077703475952,
+      "learning_rate": 9.03823483316911e-05,
+      "loss": 0.5507,
+      "step": 4210
+    },
+    {
+      "epoch": 2.8133333333333335,
+      "grad_norm": 4.736733436584473,
+      "learning_rate": 9.031362825732457e-05,
+      "loss": 0.5055,
+      "step": 4220
+    },
+    {
+      "epoch": 2.82,
+      "grad_norm": 2.4618537425994873,
+      "learning_rate": 9.02446898677957e-05,
+      "loss": 0.5268,
+      "step": 4230
+    },
+    {
+      "epoch": 2.8266666666666667,
+      "grad_norm": 3.827387571334839,
+      "learning_rate": 9.017553353643477e-05,
+      "loss": 0.4801,
+      "step": 4240
+    },
+    {
+      "epoch": 2.8333333333333335,
+      "grad_norm": 2.41296648979187,
+      "learning_rate": 9.01061596377522e-05,
+      "loss": 0.4713,
+      "step": 4250
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 2.5777714252471924,
+      "learning_rate": 9.003656854743667e-05,
+      "loss": 0.4031,
+      "step": 4260
+    },
+    {
+      "epoch": 2.8466666666666667,
+      "grad_norm": 4.091146945953369,
+      "learning_rate": 8.996676064235308e-05,
+      "loss": 0.4721,
+      "step": 4270
+    },
+    {
+      "epoch": 2.8533333333333335,
+      "grad_norm": 3.001485586166382,
+      "learning_rate": 8.989673630054043e-05,
+      "loss": 0.4534,
+      "step": 4280
+    },
+    {
+      "epoch": 2.86,
+      "grad_norm": 2.824066638946533,
+      "learning_rate": 8.982649590120982e-05,
+      "loss": 0.509,
+      "step": 4290
+    },
+    {
+      "epoch": 2.8666666666666667,
+      "grad_norm": 2.778568983078003,
+      "learning_rate": 8.97560398247424e-05,
+      "loss": 0.4981,
+      "step": 4300
+    },
+    {
+      "epoch": 2.8666666666666667,
+      "eval_darija_finetune_val_loss": 0.8759488463401794,
+      "eval_darija_finetune_val_runtime": 251.4316,
+      "eval_darija_finetune_val_samples_per_second": 3.977,
+      "eval_darija_finetune_val_steps_per_second": 1.989,
+      "step": 4300
+    },
+    {
+      "epoch": 2.873333333333333,
+      "grad_norm": 2.995847463607788,
+      "learning_rate": 8.968536845268728e-05,
+      "loss": 0.5226,
+      "step": 4310
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 2.981295347213745,
+      "learning_rate": 8.961448216775954e-05,
+      "loss": 0.5132,
+      "step": 4320
+    },
+    {
+      "epoch": 2.8866666666666667,
+      "grad_norm": 3.0876119136810303,
+      "learning_rate": 8.954338135383804e-05,
+      "loss": 0.499,
+      "step": 4330
+    },
+    {
+      "epoch": 2.8933333333333335,
+      "grad_norm": 2.1924006938934326,
+      "learning_rate": 8.947206639596346e-05,
+      "loss": 0.4384,
+      "step": 4340
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 2.539808750152588,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.5027,
+      "step": 4350
+    },
+    {
+      "epoch": 2.9066666666666667,
+      "grad_norm": 3.5509376525878906,
+      "learning_rate": 8.932879559431391e-05,
+      "loss": 0.5328,
+      "step": 4360
+    },
+    {
+      "epoch": 2.913333333333333,
+      "grad_norm": 2.5831844806671143,
+      "learning_rate": 8.925684052641027e-05,
+      "loss": 0.4974,
+      "step": 4370
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 5.035901069641113,
+      "learning_rate": 8.9184672866292e-05,
+      "loss": 0.4574,
+      "step": 4380
+    },
+    {
+      "epoch": 2.9266666666666667,
+      "grad_norm": 2.053206443786621,
+      "learning_rate": 8.911229300477715e-05,
+      "loss": 0.4519,
+      "step": 4390
+    },
+    {
+      "epoch": 2.9333333333333336,
+      "grad_norm": 3.245105504989624,
+      "learning_rate": 8.903970133383297e-05,
+      "loss": 0.4781,
+      "step": 4400
+    },
+    {
+      "epoch": 2.9333333333333336,
+      "eval_darija_finetune_val_loss": 0.8895308971405029,
+      "eval_darija_finetune_val_runtime": 251.4279,
+      "eval_darija_finetune_val_samples_per_second": 3.977,
+      "eval_darija_finetune_val_steps_per_second": 1.989,
+      "step": 4400
+    },
+    {
+      "epoch": 2.94,
+      "grad_norm": 2.6374382972717285,
+      "learning_rate": 8.896689824657372e-05,
+      "loss": 0.487,
+      "step": 4410
+    },
+    {
+      "epoch": 2.9466666666666668,
+      "grad_norm": 1.806517243385315,
+      "learning_rate": 8.889388413725857e-05,
+      "loss": 0.4264,
+      "step": 4420
+    },
+    {
+      "epoch": 2.953333333333333,
+      "grad_norm": 3.0584867000579834,
+      "learning_rate": 8.882065940128945e-05,
+      "loss": 0.4153,
+      "step": 4430
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 3.021517753601074,
+      "learning_rate": 8.874722443520899e-05,
+      "loss": 0.4164,
+      "step": 4440
+    },
+    {
+      "epoch": 2.966666666666667,
+      "grad_norm": 3.099745035171509,
+      "learning_rate": 8.86735796366982e-05,
+      "loss": 0.4933,
+      "step": 4450
+    },
+    {
+      "epoch": 2.9733333333333336,
+      "grad_norm": 3.2537477016448975,
+      "learning_rate": 8.859972540457451e-05,
+      "loss": 0.4904,
+      "step": 4460
+    },
+    {
+      "epoch": 2.98,
+      "grad_norm": 2.7414116859436035,
+      "learning_rate": 8.852566213878947e-05,
+      "loss": 0.4874,
+      "step": 4470
+    },
+    {
+      "epoch": 2.986666666666667,
+      "grad_norm": 3.194587230682373,
+      "learning_rate": 8.845139024042664e-05,
+      "loss": 0.3631,
+      "step": 4480
+    },
+    {
+      "epoch": 2.993333333333333,
+      "grad_norm": 4.515594482421875,
+      "learning_rate": 8.837691011169945e-05,
+      "loss": 0.4648,
+      "step": 4490
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 4.6998395919799805,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.4993,
+      "step": 4500
+    },
+    {
+      "epoch": 3.0,
+      "eval_darija_finetune_val_loss": 0.8925855159759521,
+      "eval_darija_finetune_val_runtime": 251.3709,
+      "eval_darija_finetune_val_samples_per_second": 3.978,
+      "eval_darija_finetune_val_steps_per_second": 1.989,
+      "step": 4500
+    },
+    {
+      "epoch": 3.006666666666667,
+      "grad_norm": 1.823826789855957,
+      "learning_rate": 8.822732677764159e-05,
+      "loss": 0.2106,
+      "step": 4510
+    },
+    {
+      "epoch": 3.013333333333333,
+      "grad_norm": 2.4042251110076904,
+      "learning_rate": 8.815222438236725e-05,
+      "loss": 0.244,
+      "step": 4520
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 2.4971282482147217,
+      "learning_rate": 8.807691537683685e-05,
+      "loss": 0.2415,
+      "step": 4530
+    },
+    {
+      "epoch": 3.026666666666667,
+      "grad_norm": 3.0913209915161133,
+      "learning_rate": 8.800140016888009e-05,
+      "loss": 0.2253,
+      "step": 4540
+    },
+    {
+      "epoch": 3.033333333333333,
+      "grad_norm": 2.229099988937378,
+      "learning_rate": 8.792567916744346e-05,
+      "loss": 0.1907,
+      "step": 4550
+    },
+    {
+      "epoch": 3.04,
+      "grad_norm": 1.9151448011398315,
+      "learning_rate": 8.784975278258783e-05,
+      "loss": 0.2329,
+      "step": 4560
+    },
+    {
+      "epoch": 3.046666666666667,
+      "grad_norm": 2.3971974849700928,
+      "learning_rate": 8.777362142548635e-05,
+      "loss": 0.221,
+      "step": 4570
+    },
+    {
+      "epoch": 3.0533333333333332,
+      "grad_norm": 3.471412420272827,
+      "learning_rate": 8.769728550842217e-05,
+      "loss": 0.2122,
+      "step": 4580
+    },
+    {
+      "epoch": 3.06,
+      "grad_norm": 3.316473960876465,
+      "learning_rate": 8.762074544478623e-05,
+      "loss": 0.204,
+      "step": 4590
+    },
+    {
+      "epoch": 3.066666666666667,
+      "grad_norm": 1.8444600105285645,
+      "learning_rate": 8.754400164907497e-05,
+      "loss": 0.2312,
+      "step": 4600
+    },
+    {
+      "epoch": 3.066666666666667,
+      "eval_darija_finetune_val_loss": 1.007398009300232,
+      "eval_darija_finetune_val_runtime": 251.2815,
+      "eval_darija_finetune_val_samples_per_second": 3.98,
+      "eval_darija_finetune_val_steps_per_second": 1.99,
+      "step": 4600
+    },
+    {
+      "epoch": 3.0733333333333333,
+      "grad_norm": 2.501553773880005,
+      "learning_rate": 8.746705453688814e-05,
+      "loss": 0.2262,
+      "step": 4610
+    },
+    {
+      "epoch": 3.08,
+      "grad_norm": 3.3800642490386963,
+      "learning_rate": 8.73899045249266e-05,
+      "loss": 0.2068,
+      "step": 4620
+    },
+    {
+      "epoch": 3.086666666666667,
+      "grad_norm": 2.3769423961639404,
+      "learning_rate": 8.73125520309899e-05,
+      "loss": 0.2222,
+      "step": 4630
+    },
+    {
+      "epoch": 3.0933333333333333,
+      "grad_norm": 1.821824312210083,
+      "learning_rate": 8.723499747397414e-05,
+      "loss": 0.1762,
+      "step": 4640
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 2.5198006629943848,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.2157,
+      "step": 4650
+    },
+    {
+      "epoch": 3.1066666666666665,
+      "grad_norm": 2.1359009742736816,
+      "learning_rate": 8.707928385175899e-05,
+      "loss": 0.1837,
+      "step": 4660
+    },
+    {
+      "epoch": 3.1133333333333333,
+      "grad_norm": 1.916326880455017,
+      "learning_rate": 8.700112562981398e-05,
+      "loss": 0.2074,
+      "step": 4670
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 2.310263156890869,
+      "learning_rate": 8.692276703129421e-05,
+      "loss": 0.2496,
+      "step": 4680
+    },
+    {
+      "epoch": 3.1266666666666665,
+      "grad_norm": 1.868833303451538,
+      "learning_rate": 8.68442084805442e-05,
+      "loss": 0.1913,
+      "step": 4690
+    },
+    {
+      "epoch": 3.1333333333333333,
+      "grad_norm": 1.8050462007522583,
+      "learning_rate": 8.676545040299145e-05,
+      "loss": 0.2279,
+      "step": 4700
+    },
+    {
+      "epoch": 3.1333333333333333,
+      "eval_darija_finetune_val_loss": 1.0413212776184082,
+      "eval_darija_finetune_val_runtime": 251.187,
+      "eval_darija_finetune_val_samples_per_second": 3.981,
+      "eval_darija_finetune_val_steps_per_second": 1.991,
+      "step": 4700
+    },
+    {
+      "epoch": 3.14,
+      "grad_norm": 2.6362838745117188,
+      "learning_rate": 8.668649322514382e-05,
+      "loss": 0.2357,
+      "step": 4710
+    },
+    {
+      "epoch": 3.1466666666666665,
+      "grad_norm": 2.305816173553467,
+      "learning_rate": 8.660733737458752e-05,
+      "loss": 0.2524,
+      "step": 4720
+    },
+    {
+      "epoch": 3.1533333333333333,
+      "grad_norm": 2.29388165473938,
+      "learning_rate": 8.652798327998457e-05,
+      "loss": 0.2316,
+      "step": 4730
+    },
+    {
+      "epoch": 3.16,
+      "grad_norm": 1.877356767654419,
+      "learning_rate": 8.644843137107059e-05,
+      "loss": 0.2406,
+      "step": 4740
+    },
+    {
+      "epoch": 3.1666666666666665,
+      "grad_norm": 1.6484549045562744,
+      "learning_rate": 8.636868207865244e-05,
+      "loss": 0.2022,
+      "step": 4750
+    },
+    {
+      "epoch": 3.1733333333333333,
+      "grad_norm": 3.2983007431030273,
+      "learning_rate": 8.628873583460593e-05,
+      "loss": 0.2028,
+      "step": 4760
+    },
+    {
+      "epoch": 3.18,
+      "grad_norm": 3.223153591156006,
+      "learning_rate": 8.620859307187339e-05,
+      "loss": 0.1929,
+      "step": 4770
+    },
+    {
+      "epoch": 3.1866666666666665,
+      "grad_norm": 4.037556171417236,
+      "learning_rate": 8.61282542244614e-05,
+      "loss": 0.2524,
+      "step": 4780
+    },
+    {
+      "epoch": 3.1933333333333334,
+      "grad_norm": 1.7328327894210815,
+      "learning_rate": 8.604771972743848e-05,
+      "loss": 0.173,
+      "step": 4790
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 3.0235466957092285,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.1816,
+      "step": 4800
+    },
+    {
+      "epoch": 3.2,
+      "eval_darija_finetune_val_loss": 1.0150939226150513,
+      "eval_darija_finetune_val_runtime": 251.3841,
+      "eval_darija_finetune_val_samples_per_second": 3.978,
+      "eval_darija_finetune_val_steps_per_second": 1.989,
+      "step": 4800
+    },
+    {
+      "epoch": 3.2066666666666666,
+      "grad_norm": 2.2320821285247803,
+      "learning_rate": 8.588606553012883e-05,
+      "loss": 0.2359,
+      "step": 4810
+    },
+    {
+      "epoch": 3.2133333333333334,
+      "grad_norm": 2.2894415855407715,
+      "learning_rate": 8.580494670526725e-05,
+      "loss": 0.2274,
+      "step": 4820
+    },
+    {
+      "epoch": 3.22,
+      "grad_norm": 2.2599453926086426,
+      "learning_rate": 8.572363398164017e-05,
+      "loss": 0.2698,
+      "step": 4830
+    },
+    {
+      "epoch": 3.2266666666666666,
+      "grad_norm": 2.3848133087158203,
+      "learning_rate": 8.564212779959002e-05,
+      "loss": 0.265,
+      "step": 4840
+    },
+    {
+      "epoch": 3.2333333333333334,
+      "grad_norm": 1.965518593788147,
+      "learning_rate": 8.556042860050687e-05,
+      "loss": 0.23,
+      "step": 4850
+    },
+    {
+      "epoch": 3.24,
+      "grad_norm": 2.819265127182007,
+      "learning_rate": 8.547853682682604e-05,
+      "loss": 0.245,
+      "step": 4860
+    },
+    {
+      "epoch": 3.2466666666666666,
+      "grad_norm": 2.2343597412109375,
+      "learning_rate": 8.539645292202579e-05,
+      "loss": 0.2554,
+      "step": 4870
+    },
+    {
+      "epoch": 3.2533333333333334,
+      "grad_norm": 3.8273537158966064,
+      "learning_rate": 8.531417733062477e-05,
+      "loss": 0.2546,
+      "step": 4880
+    },
+    {
+      "epoch": 3.26,
+      "grad_norm": 2.7234230041503906,
+      "learning_rate": 8.523171049817974e-05,
+      "loss": 0.2207,
+      "step": 4890
+    },
+    {
+      "epoch": 3.2666666666666666,
+      "grad_norm": 2.224846839904785,
+      "learning_rate": 8.51490528712831e-05,
+      "loss": 0.2564,
+      "step": 4900
+    },
+    {
+      "epoch": 3.2666666666666666,
+      "eval_darija_finetune_val_loss": 1.0404167175292969,
+      "eval_darija_finetune_val_runtime": 251.1021,
+      "eval_darija_finetune_val_samples_per_second": 3.982,
+      "eval_darija_finetune_val_steps_per_second": 1.991,
+      "step": 4900
+    },
+    {
+      "epoch": 3.2733333333333334,
+      "grad_norm": 3.1341285705566406,
+      "learning_rate": 8.506620489756045e-05,
+      "loss": 0.249,
+      "step": 4910
+    },
+    {
+      "epoch": 3.2800000000000002,
+      "grad_norm": 1.9943166971206665,
+      "learning_rate": 8.498316702566828e-05,
+      "loss": 0.219,
+      "step": 4920
+    },
+    {
+      "epoch": 3.2866666666666666,
+      "grad_norm": 2.4646964073181152,
+      "learning_rate": 8.489993970529137e-05,
+      "loss": 0.1874,
+      "step": 4930
+    },
+    {
+      "epoch": 3.2933333333333334,
+      "grad_norm": 2.276768207550049,
+      "learning_rate": 8.481652338714048e-05,
+      "loss": 0.1987,
+      "step": 4940
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 2.0752384662628174,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.2453,
+      "step": 4950
+    },
+    {
+      "epoch": 3.3066666666666666,
+      "grad_norm": 2.5768744945526123,
+      "learning_rate": 8.464912556547486e-05,
+      "loss": 0.2268,
+      "step": 4960
+    },
+    {
+      "epoch": 3.3133333333333335,
+      "grad_norm": 2.315326690673828,
+      "learning_rate": 8.456514496848939e-05,
+      "loss": 0.2723,
+      "step": 4970
+    },
+    {
+      "epoch": 3.32,
+      "grad_norm": 2.7668704986572266,
+      "learning_rate": 8.44809771867835e-05,
+      "loss": 0.2232,
+      "step": 4980
+    },
+    {
+      "epoch": 3.3266666666666667,
+      "grad_norm": 2.1656723022460938,
+      "learning_rate": 8.439662267616093e-05,
+      "loss": 0.2425,
+      "step": 4990
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 1.4497921466827393,
+      "learning_rate": 8.43120818934367e-05,
+      "loss": 0.2126,
+      "step": 5000
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "eval_darija_finetune_val_loss": 1.0469905138015747,
+      "eval_darija_finetune_val_runtime": 251.0783,
+      "eval_darija_finetune_val_samples_per_second": 3.983,
+      "eval_darija_finetune_val_steps_per_second": 1.991,
+      "step": 5000
+    },
+    {
+      "epoch": 3.34,
+      "grad_norm": 1.7154805660247803,
+      "learning_rate": 8.422735529643444e-05,
+      "loss": 0.2186,
+      "step": 5010
+    },
+    {
+      "epoch": 3.3466666666666667,
+      "grad_norm": 3.647848606109619,
+      "learning_rate": 8.414244334398417e-05,
+      "loss": 0.2334,
+      "step": 5020
+    },
+    {
+      "epoch": 3.3533333333333335,
+      "grad_norm": 3.1218526363372803,
+      "learning_rate": 8.405734649591963e-05,
+      "loss": 0.2486,
+      "step": 5030
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 2.9084227085113525,
+      "learning_rate": 8.397206521307584e-05,
+      "loss": 0.2628,
+      "step": 5040
+    },
+    {
+      "epoch": 3.3666666666666667,
+      "grad_norm": 3.001922369003296,
+      "learning_rate": 8.388659995728663e-05,
+      "loss": 0.2532,
+      "step": 5050
+    },
+    {
+      "epoch": 3.3733333333333335,
+      "grad_norm": 2.368091344833374,
+      "learning_rate": 8.380095119138209e-05,
+      "loss": 0.2115,
+      "step": 5060
+    },
+    {
+      "epoch": 3.38,
+      "grad_norm": 5.028636932373047,
+      "learning_rate": 8.371511937918616e-05,
+      "loss": 0.2112,
+      "step": 5070
+    },
+    {
+      "epoch": 3.3866666666666667,
+      "grad_norm": 3.2939071655273438,
+      "learning_rate": 8.362910498551401e-05,
+      "loss": 0.235,
+      "step": 5080
+    },
+    {
+      "epoch": 3.3933333333333335,
+      "grad_norm": 2.3428657054901123,
+      "learning_rate": 8.354290847616954e-05,
+      "loss": 0.245,
+      "step": 5090
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 2.3399736881256104,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.2237,
+      "step": 5100
+    },
+    {
+      "epoch": 3.4,
+      "eval_darija_finetune_val_loss": 1.0369892120361328,
+      "eval_darija_finetune_val_runtime": 251.5024,
+      "eval_darija_finetune_val_samples_per_second": 3.976,
+      "eval_darija_finetune_val_steps_per_second": 1.988,
+      "step": 5100
+    },
+    {
+      "epoch": 3.4066666666666667,
+      "grad_norm": 2.359717845916748,
+      "learning_rate": 8.336997097860799e-05,
+      "loss": 0.2634,
+      "step": 5110
+    },
+    {
+      "epoch": 3.413333333333333,
+      "grad_norm": 2.942824602127075,
+      "learning_rate": 8.328323092691985e-05,
+      "loss": 0.2756,
+      "step": 5120
+    },
+    {
+      "epoch": 3.42,
+      "grad_norm": 2.4180054664611816,
+      "learning_rate": 8.319631063261209e-05,
+      "loss": 0.229,
+      "step": 5130
+    },
+    {
+      "epoch": 3.4266666666666667,
+      "grad_norm": 2.408891201019287,
+      "learning_rate": 8.310921056639451e-05,
+      "loss": 0.2407,
+      "step": 5140
+    },
+    {
+      "epoch": 3.4333333333333336,
+      "grad_norm": 2.9477765560150146,
+      "learning_rate": 8.302193119995039e-05,
+      "loss": 0.2109,
+      "step": 5150
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 3.364929676055908,
+      "learning_rate": 8.293447300593402e-05,
+      "loss": 0.3058,
+      "step": 5160
+    },
+    {
+      "epoch": 3.4466666666666668,
+      "grad_norm": 2.6221022605895996,
+      "learning_rate": 8.284683645796813e-05,
+      "loss": 0.2055,
+      "step": 5170
+    },
+    {
+      "epoch": 3.453333333333333,
+      "grad_norm": 3.367511510848999,
+      "learning_rate": 8.275902203064125e-05,
+      "loss": 0.2211,
+      "step": 5180
+    },
+    {
+      "epoch": 3.46,
+      "grad_norm": 2.6877329349517822,
+      "learning_rate": 8.267103019950529e-05,
+      "loss": 0.2194,
+      "step": 5190
+    },
+    {
+      "epoch": 3.466666666666667,
+      "grad_norm": 3.1895358562469482,
+      "learning_rate": 8.258286144107276e-05,
+      "loss": 0.2027,
+      "step": 5200
+    },
+    {
+      "epoch": 3.466666666666667,
+      "eval_darija_finetune_val_loss": 1.0741537809371948,
+      "eval_darija_finetune_val_runtime": 251.3038,
+      "eval_darija_finetune_val_samples_per_second": 3.979,
+      "eval_darija_finetune_val_steps_per_second": 1.99,
+      "step": 5200
+    },
+    {
+      "epoch": 3.473333333333333,
+      "grad_norm": 4.237334728240967,
+      "learning_rate": 8.249451623281443e-05,
+      "loss": 0.2229,
+      "step": 5210
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 2.828191041946411,
+      "learning_rate": 8.240599505315655e-05,
+      "loss": 0.2753,
+      "step": 5220
+    },
+    {
+      "epoch": 3.486666666666667,
+      "grad_norm": 2.673659324645996,
+      "learning_rate": 8.231729838147833e-05,
+      "loss": 0.2145,
+      "step": 5230
+    },
+    {
+      "epoch": 3.493333333333333,
+      "grad_norm": 2.8129754066467285,
+      "learning_rate": 8.222842669810935e-05,
+      "loss": 0.2259,
+      "step": 5240
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 2.43515682220459,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.2007,
+      "step": 5250
+    },
+    {
+      "epoch": 3.506666666666667,
+      "grad_norm": 2.3466885089874268,
+      "learning_rate": 8.205016022235368e-05,
+      "loss": 0.2385,
+      "step": 5260
+    },
+    {
+      "epoch": 3.513333333333333,
+      "grad_norm": 2.269193410873413,
+      "learning_rate": 8.196076639535452e-05,
+      "loss": 0.2161,
+      "step": 5270
+    },
+    {
+      "epoch": 3.52,
+      "grad_norm": 3.5568225383758545,
+      "learning_rate": 8.18711994874345e-05,
+      "loss": 0.2808,
+      "step": 5280
+    },
+    {
+      "epoch": 3.5266666666666664,
+      "grad_norm": 2.0893423557281494,
+      "learning_rate": 8.178145998363584e-05,
+      "loss": 0.2379,
+      "step": 5290
+    },
+    {
+      "epoch": 3.533333333333333,
+      "grad_norm": 1.8583208322525024,
+      "learning_rate": 8.169154836993551e-05,
+      "loss": 0.2238,
+      "step": 5300
+    },
+    {
+      "epoch": 3.533333333333333,
+      "eval_darija_finetune_val_loss": 1.0195205211639404,
+      "eval_darija_finetune_val_runtime": 251.1216,
+      "eval_darija_finetune_val_samples_per_second": 3.982,
+      "eval_darija_finetune_val_steps_per_second": 1.991,
+      "step": 5300
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 2.975292682647705,
+      "learning_rate": 8.160146513324254e-05,
+      "loss": 0.2178,
+      "step": 5310
+    },
+    {
+      "epoch": 3.546666666666667,
+      "grad_norm": 2.822932243347168,
+      "learning_rate": 8.151121076139534e-05,
+      "loss": 0.2056,
+      "step": 5320
+    },
+    {
+      "epoch": 3.5533333333333332,
+      "grad_norm": 2.1111984252929688,
+      "learning_rate": 8.142078574315907e-05,
+      "loss": 0.2385,
+      "step": 5330
+    },
+    {
+      "epoch": 3.56,
+      "grad_norm": 1.798490047454834,
+      "learning_rate": 8.133019056822304e-05,
+      "loss": 0.2064,
+      "step": 5340
+    },
+    {
+      "epoch": 3.5666666666666664,
+      "grad_norm": 1.7281253337860107,
+      "learning_rate": 8.1239425727198e-05,
+      "loss": 0.236,
+      "step": 5350
+    },
+    {
+      "epoch": 3.5733333333333333,
+      "grad_norm": 2.7913970947265625,
+      "learning_rate": 8.114849171161361e-05,
+      "loss": 0.2536,
+      "step": 5360
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 2.904644012451172,
+      "learning_rate": 8.105738901391552e-05,
+      "loss": 0.2749,
+      "step": 5370
+    },
+    {
+      "epoch": 3.586666666666667,
+      "grad_norm": 2.63820219039917,
+      "learning_rate": 8.096611812746301e-05,
+      "loss": 0.2378,
+      "step": 5380
+    },
+    {
+      "epoch": 3.5933333333333333,
+      "grad_norm": 2.440889358520508,
+      "learning_rate": 8.087467954652608e-05,
+      "loss": 0.2355,
+      "step": 5390
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 2.161442279815674,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.2298,
+      "step": 5400
+    },
+    {
+      "epoch": 3.6,
+      "eval_darija_finetune_val_loss": 1.025424599647522,
+      "eval_darija_finetune_val_runtime": 251.2511,
+      "eval_darija_finetune_val_samples_per_second": 3.98,
+      "eval_darija_finetune_val_steps_per_second": 1.99,
+      "step": 5400
+    },
+    {
+      "epoch": 3.6066666666666665,
+      "grad_norm": 2.747871160507202,
+      "learning_rate": 8.069130128281714e-05,
+      "loss": 0.2526,
+      "step": 5410
+    },
+    {
+      "epoch": 3.6133333333333333,
+      "grad_norm": 2.4200148582458496,
+      "learning_rate": 8.059936259311514e-05,
+      "loss": 0.2293,
+      "step": 5420
+    },
+    {
+      "epoch": 3.62,
+      "grad_norm": 1.8841699361801147,
+      "learning_rate": 8.05072581950634e-05,
+      "loss": 0.2234,
+      "step": 5430
+    },
+    {
+      "epoch": 3.626666666666667,
+      "grad_norm": 2.579508066177368,
+      "learning_rate": 8.041498858744572e-05,
+      "loss": 0.279,
+      "step": 5440
+    },
+    {
+      "epoch": 3.6333333333333333,
+      "grad_norm": 2.3305304050445557,
+      "learning_rate": 8.032255426994069e-05,
+      "loss": 0.2353,
+      "step": 5450
+    },
+    {
+      "epoch": 3.64,
+      "grad_norm": 2.868994951248169,
+      "learning_rate": 8.022995574311876e-05,
+      "loss": 0.2226,
+      "step": 5460
+    },
+    {
+      "epoch": 3.6466666666666665,
+      "grad_norm": 2.3868560791015625,
+      "learning_rate": 8.01371935084397e-05,
+      "loss": 0.249,
+      "step": 5470
+    },
+    {
+      "epoch": 3.6533333333333333,
+      "grad_norm": 2.943885326385498,
+      "learning_rate": 8.004426806824984e-05,
+      "loss": 0.3229,
+      "step": 5480
+    },
+    {
+      "epoch": 3.66,
+      "grad_norm": 2.316537857055664,
+      "learning_rate": 7.99511799257793e-05,
+      "loss": 0.2828,
+      "step": 5490
+    },
+    {
+      "epoch": 3.6666666666666665,
+      "grad_norm": 2.02138090133667,
+      "learning_rate": 7.985792958513931e-05,
+      "loss": 0.1803,
+      "step": 5500
+    },
+    {
+      "epoch": 3.6666666666666665,
+      "eval_darija_finetune_val_loss": 1.008547306060791,
+      "eval_darija_finetune_val_runtime": 251.3185,
+      "eval_darija_finetune_val_samples_per_second": 3.979,
+      "eval_darija_finetune_val_steps_per_second": 1.99,
+      "step": 5500
+    },
+    {
+      "epoch": 3.6733333333333333,
+      "grad_norm": 3.3682403564453125,
+      "learning_rate": 7.976451755131949e-05,
+      "loss": 0.2675,
+      "step": 5510
+    },
+    {
+      "epoch": 3.68,
+      "grad_norm": 3.031627893447876,
+      "learning_rate": 7.967094433018508e-05,
+      "loss": 0.2144,
+      "step": 5520
+    },
+    {
+      "epoch": 3.6866666666666665,
+      "grad_norm": 3.2531402111053467,
+      "learning_rate": 7.95772104284742e-05,
+      "loss": 0.3021,
+      "step": 5530
+    },
+    {
+      "epoch": 3.6933333333333334,
+      "grad_norm": 4.269306182861328,
+      "learning_rate": 7.948331635379517e-05,
+      "loss": 0.2816,
+      "step": 5540
+    },
+    {
+      "epoch": 3.7,
+      "grad_norm": 2.0204973220825195,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.2168,
+      "step": 5550
+    },
+    {
+      "epoch": 3.7066666666666666,
+      "grad_norm": 1.8356093168258667,
+      "learning_rate": 7.929504972030003e-05,
+      "loss": 0.2017,
+      "step": 5560
+    },
+    {
+      "epoch": 3.7133333333333334,
+      "grad_norm": 3.627718210220337,
+      "learning_rate": 7.920067818102653e-05,
+      "loss": 0.2425,
+      "step": 5570
+    },
+    {
+      "epoch": 3.7199999999999998,
+      "grad_norm": 3.0302562713623047,
+      "learning_rate": 7.910614850786448e-05,
+      "loss": 0.2156,
+      "step": 5580
+    },
+    {
+      "epoch": 3.7266666666666666,
+      "grad_norm": 2.1058509349823,
+      "learning_rate": 7.901146121273164e-05,
+      "loss": 0.2735,
+      "step": 5590
+    },
+    {
+      "epoch": 3.7333333333333334,
+      "grad_norm": 2.344343423843384,
+      "learning_rate": 7.891661680839932e-05,
+      "loss": 0.2651,
+      "step": 5600
+    },
+    {
+      "epoch": 3.7333333333333334,
+      "eval_darija_finetune_val_loss": 1.0205721855163574,
+      "eval_darija_finetune_val_runtime": 251.4868,
+      "eval_darija_finetune_val_samples_per_second": 3.976,
+      "eval_darija_finetune_val_steps_per_second": 1.988,
+      "step": 5600
+    },
+    {
+      "epoch": 3.74,
+      "grad_norm": 2.012836456298828,
+      "learning_rate": 7.882161580848967e-05,
+      "loss": 0.2743,
+      "step": 5610
+    },
+    {
+      "epoch": 3.7466666666666666,
+      "grad_norm": 3.078923225402832,
+      "learning_rate": 7.872645872747281e-05,
+      "loss": 0.2281,
+      "step": 5620
+    },
+    {
+      "epoch": 3.7533333333333334,
+      "grad_norm": 1.9616963863372803,
+      "learning_rate": 7.863114608066418e-05,
+      "loss": 0.2404,
+      "step": 5630
+    },
+    {
+      "epoch": 3.76,
+      "grad_norm": 5.728672027587891,
+      "learning_rate": 7.85356783842216e-05,
+      "loss": 0.2758,
+      "step": 5640
+    },
+    {
+      "epoch": 3.7666666666666666,
+      "grad_norm": 2.951751470565796,
+      "learning_rate": 7.844005615514259e-05,
+      "loss": 0.2537,
+      "step": 5650
+    },
+    {
+      "epoch": 3.7733333333333334,
+      "grad_norm": 2.2014782428741455,
+      "learning_rate": 7.834427991126155e-05,
+      "loss": 0.1909,
+      "step": 5660
+    },
+    {
+      "epoch": 3.7800000000000002,
+      "grad_norm": 2.443965435028076,
+      "learning_rate": 7.82483501712469e-05,
+      "loss": 0.2366,
+      "step": 5670
+    },
+    {
+      "epoch": 3.7866666666666666,
+      "grad_norm": 2.583838701248169,
+      "learning_rate": 7.815226745459831e-05,
+      "loss": 0.2177,
+      "step": 5680
+    },
+    {
+      "epoch": 3.7933333333333334,
+      "grad_norm": 2.9162487983703613,
+      "learning_rate": 7.805603228164388e-05,
+      "loss": 0.2534,
+      "step": 5690
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 2.1015121936798096,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.2859,
+      "step": 5700
+    },
+    {
+      "epoch": 3.8,
+      "eval_darija_finetune_val_loss": 1.0077942609786987,
+      "eval_darija_finetune_val_runtime": 251.2826,
+      "eval_darija_finetune_val_samples_per_second": 3.98,
+      "eval_darija_finetune_val_steps_per_second": 1.99,
+      "step": 5700
+    },
+    {
+      "epoch": 3.8066666666666666,
+      "grad_norm": 2.98486590385437,
+      "learning_rate": 7.786310665225522e-05,
+      "loss": 0.1902,
+      "step": 5710
+    },
+    {
+      "epoch": 3.8133333333333335,
+      "grad_norm": 2.402819871902466,
+      "learning_rate": 7.776641724059396e-05,
+      "loss": 0.2081,
+      "step": 5720
+    },
+    {
+      "epoch": 3.82,
+      "grad_norm": 2.5473134517669678,
+      "learning_rate": 7.766957746216721e-05,
+      "loss": 0.2439,
+      "step": 5730
+    },
+    {
+      "epoch": 3.8266666666666667,
+      "grad_norm": 2.5024635791778564,
+      "learning_rate": 7.757258784140287e-05,
+      "loss": 0.2468,
+      "step": 5740
+    },
+    {
+      "epoch": 3.8333333333333335,
+      "grad_norm": 2.2013115882873535,
+      "learning_rate": 7.74754489035403e-05,
+      "loss": 0.2502,
+      "step": 5750
+    },
+    {
+      "epoch": 3.84,
+      "grad_norm": 3.7163047790527344,
+      "learning_rate": 7.737816117462752e-05,
+      "loss": 0.2532,
+      "step": 5760
+    },
+    {
+      "epoch": 3.8466666666666667,
+      "grad_norm": 2.2949864864349365,
+      "learning_rate": 7.728072518151825e-05,
+      "loss": 0.2143,
+      "step": 5770
+    },
+    {
+      "epoch": 3.8533333333333335,
+      "grad_norm": 4.1935272216796875,
+      "learning_rate": 7.718314145186916e-05,
+      "loss": 0.2839,
+      "step": 5780
+    },
+    {
+      "epoch": 3.86,
+      "grad_norm": 2.3369812965393066,
+      "learning_rate": 7.7085410514137e-05,
+      "loss": 0.2315,
+      "step": 5790
+    },
+    {
+      "epoch": 3.8666666666666667,
+      "grad_norm": 2.7561328411102295,
+      "learning_rate": 7.698753289757565e-05,
+      "loss": 0.2568,
+      "step": 5800
+    },
+    {
+      "epoch": 3.8666666666666667,
+      "eval_darija_finetune_val_loss": 1.0073825120925903,
+      "eval_darija_finetune_val_runtime": 251.447,
+      "eval_darija_finetune_val_samples_per_second": 3.977,
+      "eval_darija_finetune_val_steps_per_second": 1.988,
+      "step": 5800
+    },
+    {
+      "epoch": 3.873333333333333,
+      "grad_norm": 2.505526065826416,
+      "learning_rate": 7.688950913223336e-05,
+      "loss": 0.2665,
+      "step": 5810
+    },
+    {
+      "epoch": 3.88,
+      "grad_norm": 2.3254647254943848,
+      "learning_rate": 7.679133974894983e-05,
+      "loss": 0.2051,
+      "step": 5820
+    },
+    {
+      "epoch": 3.8866666666666667,
+      "grad_norm": 2.684469223022461,
+      "learning_rate": 7.669302527935335e-05,
+      "loss": 0.2399,
+      "step": 5830
+    },
+    {
+      "epoch": 3.8933333333333335,
+      "grad_norm": 2.4674019813537598,
+      "learning_rate": 7.65945662558579e-05,
+      "loss": 0.2513,
+      "step": 5840
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 2.324890375137329,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.2578,
+      "step": 5850
+    },
+    {
+      "epoch": 3.9066666666666667,
+      "grad_norm": 1.9754526615142822,
+      "learning_rate": 7.639721668073718e-05,
+      "loss": 0.2418,
+      "step": 5860
+    },
+    {
+      "epoch": 3.913333333333333,
+      "grad_norm": 2.599031448364258,
+      "learning_rate": 7.629832719784245e-05,
+      "loss": 0.2188,
+      "step": 5870
+    },
+    {
+      "epoch": 3.92,
+      "grad_norm": 1.9351656436920166,
+      "learning_rate": 7.619929529850397e-05,
+      "loss": 0.2012,
+      "step": 5880
+    },
+    {
+      "epoch": 3.9266666666666667,
+      "grad_norm": 2.376443386077881,
+      "learning_rate": 7.61001215190209e-05,
+      "loss": 0.2701,
+      "step": 5890
+    },
+    {
+      "epoch": 3.9333333333333336,
+      "grad_norm": 2.8685805797576904,
+      "learning_rate": 7.600080639646077e-05,
+      "loss": 0.2386,
+      "step": 5900
+    },
+    {
+      "epoch": 3.9333333333333336,
+      "eval_darija_finetune_val_loss": 1.0074583292007446,
+      "eval_darija_finetune_val_runtime": 251.0219,
+      "eval_darija_finetune_val_samples_per_second": 3.984,
+      "eval_darija_finetune_val_steps_per_second": 1.992,
+      "step": 5900
+    },
+    {
+      "epoch": 3.94,
+      "grad_norm": 3.851602792739868,
+      "learning_rate": 7.590135046865651e-05,
+      "loss": 0.2471,
+      "step": 5910
+    },
+    {
+      "epoch": 3.9466666666666668,
+      "grad_norm": 2.2755990028381348,
+      "learning_rate": 7.580175427420358e-05,
+      "loss": 0.2603,
+      "step": 5920
+    },
+    {
+      "epoch": 3.953333333333333,
+      "grad_norm": 7.685105323791504,
+      "learning_rate": 7.570201835245703e-05,
+      "loss": 0.2691,
+      "step": 5930
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 2.0916025638580322,
+      "learning_rate": 7.560214324352858e-05,
+      "loss": 0.2136,
+      "step": 5940
+    },
+    {
+      "epoch": 3.966666666666667,
+      "grad_norm": 4.028635025024414,
+      "learning_rate": 7.550212948828377e-05,
+      "loss": 0.2113,
+      "step": 5950
+    },
+    {
+      "epoch": 3.9733333333333336,
+      "grad_norm": 3.4427528381347656,
+      "learning_rate": 7.54019776283389e-05,
+      "loss": 0.2727,
+      "step": 5960
+    },
+    {
+      "epoch": 3.98,
+      "grad_norm": 2.966076135635376,
+      "learning_rate": 7.530168820605818e-05,
+      "loss": 0.2541,
+      "step": 5970
+    },
+    {
+      "epoch": 3.986666666666667,
+      "grad_norm": 3.3527421951293945,
+      "learning_rate": 7.520126176455083e-05,
+      "loss": 0.2316,
+      "step": 5980
+    },
+    {
+      "epoch": 3.993333333333333,
+      "grad_norm": 2.543290853500366,
+      "learning_rate": 7.510069884766802e-05,
+      "loss": 0.2634,
+      "step": 5990
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 2.858429431915283,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.2452,
+      "step": 6000
+    },
+    {
+      "epoch": 4.0,
+      "eval_darija_finetune_val_loss": 0.991529643535614,
+      "eval_darija_finetune_val_runtime": 251.3832,
+      "eval_darija_finetune_val_samples_per_second": 3.978,
+      "eval_darija_finetune_val_steps_per_second": 1.989,
+      "step": 6000
+    },
+    {
+      "epoch": 4.006666666666667,
+      "grad_norm": 1.7823318243026733,
+      "learning_rate": 7.489916576687319e-05,
+      "loss": 0.0924,
+      "step": 6010
+    },
+    {
+      "epoch": 4.013333333333334,
+      "grad_norm": 2.36570143699646,
+      "learning_rate": 7.479819669434711e-05,
+      "loss": 0.1274,
+      "step": 6020
+    },
+    {
+      "epoch": 4.02,
+      "grad_norm": 1.4261804819107056,
+      "learning_rate": 7.469709332921155e-05,
+      "loss": 0.124,
+      "step": 6030
+    },
+    {
+      "epoch": 4.026666666666666,
+      "grad_norm": 2.184540271759033,
+      "learning_rate": 7.459585621898353e-05,
+      "loss": 0.1111,
+      "step": 6040
+    },
+    {
+      "epoch": 4.033333333333333,
+      "grad_norm": 1.5436240434646606,
+      "learning_rate": 7.449448591190435e-05,
+      "loss": 0.0952,
+      "step": 6050
+    },
+    {
+      "epoch": 4.04,
+      "grad_norm": 0.9817466735839844,
+      "learning_rate": 7.439298295693665e-05,
+      "loss": 0.1044,
+      "step": 6060
+    },
+    {
+      "epoch": 4.046666666666667,
+      "grad_norm": 2.263059616088867,
+      "learning_rate": 7.429134790376135e-05,
+      "loss": 0.1049,
+      "step": 6070
+    },
+    {
+      "epoch": 4.053333333333334,
+      "grad_norm": 3.8617911338806152,
+      "learning_rate": 7.418958130277483e-05,
+      "loss": 0.0984,
+      "step": 6080
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 3.456857204437256,
+      "learning_rate": 7.408768370508576e-05,
+      "loss": 0.1276,
+      "step": 6090
+    },
+    {
+      "epoch": 4.066666666666666,
+      "grad_norm": 2.9018609523773193,
+      "learning_rate": 7.398565566251232e-05,
+      "loss": 0.1283,
+      "step": 6100
+    },
+    {
+      "epoch": 4.066666666666666,
+      "eval_darija_finetune_val_loss": 1.1392104625701904,
+      "eval_darija_finetune_val_runtime": 251.2402,
+      "eval_darija_finetune_val_samples_per_second": 3.98,
+      "eval_darija_finetune_val_steps_per_second": 1.99,
+      "step": 6100
+    },
+    {
+      "epoch": 4.073333333333333,
+      "grad_norm": 1.631217122077942,
+      "learning_rate": 7.3883497727579e-05,
+      "loss": 0.1551,
+      "step": 6110
+    },
+    {
+      "epoch": 4.08,
+      "grad_norm": 1.9083203077316284,
+      "learning_rate": 7.378121045351378e-05,
+      "loss": 0.1399,
+      "step": 6120
+    },
+    {
+      "epoch": 4.086666666666667,
+      "grad_norm": 1.6848344802856445,
+      "learning_rate": 7.3678794394245e-05,
+      "loss": 0.1124,
+      "step": 6130
+    },
+    {
+      "epoch": 4.093333333333334,
+      "grad_norm": 2.780228614807129,
+      "learning_rate": 7.357625010439852e-05,
+      "loss": 0.1194,
+      "step": 6140
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 1.741235613822937,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.1049,
+      "step": 6150
+    },
+    {
+      "epoch": 4.1066666666666665,
+      "grad_norm": 2.2520713806152344,
+      "learning_rate": 7.337077905494471e-05,
+      "loss": 0.1109,
+      "step": 6160
+    },
+    {
+      "epoch": 4.113333333333333,
+      "grad_norm": 1.5675185918807983,
+      "learning_rate": 7.326785340804908e-05,
+      "loss": 0.116,
+      "step": 6170
+    },
+    {
+      "epoch": 4.12,
+      "grad_norm": 2.0669965744018555,
+      "learning_rate": 7.316480175599309e-05,
+      "loss": 0.1191,
+      "step": 6180
+    },
+    {
+      "epoch": 4.126666666666667,
+      "grad_norm": 2.8209307193756104,
+      "learning_rate": 7.306162465684454e-05,
+      "loss": 0.1184,
+      "step": 6190
+    },
+    {
+      "epoch": 4.133333333333334,
+      "grad_norm": 2.190453052520752,
+      "learning_rate": 7.295832266935059e-05,
+      "loss": 0.1144,
+      "step": 6200
+    },
+    {
+      "epoch": 4.133333333333334,
+      "eval_darija_finetune_val_loss": 1.1063228845596313,
+      "eval_darija_finetune_val_runtime": 251.5357,
+      "eval_darija_finetune_val_samples_per_second": 3.976,
+      "eval_darija_finetune_val_steps_per_second": 1.988,
+      "step": 6200
+    },
+    {
+      "epoch": 4.14,
+      "grad_norm": 1.9842904806137085,
+      "learning_rate": 7.285489635293472e-05,
+      "loss": 0.0819,
+      "step": 6210
+    },
+    {
+      "epoch": 4.1466666666666665,
+      "grad_norm": 0.9656934142112732,
+      "learning_rate": 7.275134626769369e-05,
+      "loss": 0.1147,
+      "step": 6220
+    },
+    {
+      "epoch": 4.153333333333333,
+      "grad_norm": 3.5494492053985596,
+      "learning_rate": 7.264767297439454e-05,
+      "loss": 0.1037,
+      "step": 6230
+    },
+    {
+      "epoch": 4.16,
+      "grad_norm": 3.0361685752868652,
+      "learning_rate": 7.254387703447154e-05,
+      "loss": 0.1446,
+      "step": 6240
+    },
+    {
+      "epoch": 4.166666666666667,
+      "grad_norm": 0.9815531969070435,
+      "learning_rate": 7.243995901002312e-05,
+      "loss": 0.1033,
+      "step": 6250
+    },
+    {
+      "epoch": 4.173333333333334,
+      "grad_norm": 1.4423681497573853,
+      "learning_rate": 7.233591946380885e-05,
+      "loss": 0.1152,
+      "step": 6260
+    },
+    {
+      "epoch": 4.18,
+      "grad_norm": 1.7994564771652222,
+      "learning_rate": 7.223175895924638e-05,
+      "loss": 0.1168,
+      "step": 6270
+    },
+    {
+      "epoch": 4.1866666666666665,
+      "grad_norm": 4.3155107498168945,
+      "learning_rate": 7.212747806040845e-05,
+      "loss": 0.1425,
+      "step": 6280
+    },
+    {
+      "epoch": 4.193333333333333,
+      "grad_norm": 1.702054738998413,
+      "learning_rate": 7.202307733201975e-05,
+      "loss": 0.0918,
+      "step": 6290
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 1.3968626260757446,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.1101,
+      "step": 6300
+    },
+    {
+      "epoch": 4.2,
+      "eval_darija_finetune_val_loss": 1.1337895393371582,
+      "eval_darija_finetune_val_runtime": 251.5264,
+      "eval_darija_finetune_val_samples_per_second": 3.976,
+      "eval_darija_finetune_val_steps_per_second": 1.988,
+      "step": 6300
+    },
+    {
+      "epoch": 4.206666666666667,
+      "grad_norm": 2.5605881214141846,
+      "learning_rate": 7.181391864873034e-05,
+      "loss": 0.1587,
+      "step": 6310
+    },
+    {
+      "epoch": 4.213333333333333,
+      "grad_norm": 2.3713390827178955,
+      "learning_rate": 7.170916182651141e-05,
+      "loss": 0.1118,
+      "step": 6320
+    },
+    {
+      "epoch": 4.22,
+      "grad_norm": 1.4577856063842773,
+      "learning_rate": 7.160428744009912e-05,
+      "loss": 0.091,
+      "step": 6330
+    },
+    {
+      "epoch": 4.226666666666667,
+      "grad_norm": 2.9399588108062744,
+      "learning_rate": 7.149929605743214e-05,
+      "loss": 0.1118,
+      "step": 6340
+    },
+    {
+      "epoch": 4.233333333333333,
+      "grad_norm": 2.117471933364868,
+      "learning_rate": 7.139418824708272e-05,
+      "loss": 0.1471,
+      "step": 6350
+    },
+    {
+      "epoch": 4.24,
+      "grad_norm": 1.355743408203125,
+      "learning_rate": 7.128896457825364e-05,
+      "loss": 0.112,
+      "step": 6360
+    },
+    {
+      "epoch": 4.246666666666667,
+      "grad_norm": 3.3612260818481445,
+      "learning_rate": 7.118362562077507e-05,
+      "loss": 0.1086,
+      "step": 6370
+    },
+    {
+      "epoch": 4.253333333333333,
+      "grad_norm": 1.7723010778427124,
+      "learning_rate": 7.107817194510156e-05,
+      "loss": 0.1241,
+      "step": 6380
+    },
+    {
+      "epoch": 4.26,
+      "grad_norm": 1.2121965885162354,
+      "learning_rate": 7.097260412230886e-05,
+      "loss": 0.1104,
+      "step": 6390
+    },
+    {
+      "epoch": 4.266666666666667,
+      "grad_norm": 2.359118938446045,
+      "learning_rate": 7.08669227240909e-05,
+      "loss": 0.1181,
+      "step": 6400
+    },
+    {
+      "epoch": 4.266666666666667,
+      "eval_darija_finetune_val_loss": 1.1338962316513062,
+      "eval_darija_finetune_val_runtime": 250.7166,
+      "eval_darija_finetune_val_samples_per_second": 3.989,
+      "eval_darija_finetune_val_steps_per_second": 1.994,
+      "step": 6400
+    },
+    {
+      "epoch": 4.273333333333333,
+      "grad_norm": 2.4427218437194824,
+      "learning_rate": 7.076112832275666e-05,
+      "loss": 0.114,
+      "step": 6410
+    },
+    {
+      "epoch": 4.28,
+      "grad_norm": 2.8912808895111084,
+      "learning_rate": 7.06552214912271e-05,
+      "loss": 0.1286,
+      "step": 6420
+    },
+    {
+      "epoch": 4.286666666666667,
+      "grad_norm": 1.7848323583602905,
+      "learning_rate": 7.054920280303198e-05,
+      "loss": 0.1212,
+      "step": 6430
+    },
+    {
+      "epoch": 4.293333333333333,
+      "grad_norm": 1.7807093858718872,
+      "learning_rate": 7.04430728323069e-05,
+      "loss": 0.1232,
+      "step": 6440
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 2.2855074405670166,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.1299,
+      "step": 6450
+    },
+    {
+      "epoch": 4.306666666666667,
+      "grad_norm": 4.981772422790527,
+      "learning_rate": 7.023048134281906e-05,
+      "loss": 0.1037,
+      "step": 6460
+    },
+    {
+      "epoch": 4.3133333333333335,
+      "grad_norm": 3.561656951904297,
+      "learning_rate": 7.012402097532816e-05,
+      "loss": 0.1021,
+      "step": 6470
+    },
+    {
+      "epoch": 4.32,
+      "grad_norm": 2.332230806350708,
+      "learning_rate": 7.001745162784477e-05,
+      "loss": 0.1057,
+      "step": 6480
+    },
+    {
+      "epoch": 4.326666666666666,
+      "grad_norm": 2.583981990814209,
+      "learning_rate": 6.991077387748644e-05,
+      "loss": 0.1213,
+      "step": 6490
+    },
+    {
+      "epoch": 4.333333333333333,
+      "grad_norm": 2.34023380279541,
+      "learning_rate": 6.980398830195785e-05,
+      "loss": 0.159,
+      "step": 6500
+    },
+    {
+      "epoch": 4.333333333333333,
+      "eval_darija_finetune_val_loss": 1.1607309579849243,
+      "eval_darija_finetune_val_runtime": 251.0775,
+      "eval_darija_finetune_val_samples_per_second": 3.983,
+      "eval_darija_finetune_val_steps_per_second": 1.991,
+      "step": 6500
+    },
+    {
+      "epoch": 4.34,
+      "grad_norm": 4.256485462188721,
+      "learning_rate": 6.969709547954756e-05,
+      "loss": 0.1146,
+      "step": 6510
+    },
+    {
+      "epoch": 4.346666666666667,
+      "grad_norm": 1.3155460357666016,
+      "learning_rate": 6.959009598912492e-05,
+      "loss": 0.1133,
+      "step": 6520
+    },
+    {
+      "epoch": 4.3533333333333335,
+      "grad_norm": 2.4420251846313477,
+      "learning_rate": 6.948299041013696e-05,
+      "loss": 0.1131,
+      "step": 6530
+    },
+    {
+      "epoch": 4.36,
+      "grad_norm": 1.7522600889205933,
+      "learning_rate": 6.937577932260515e-05,
+      "loss": 0.1148,
+      "step": 6540
+    },
+    {
+      "epoch": 4.366666666666666,
+      "grad_norm": 1.9587124586105347,
+      "learning_rate": 6.926846330712242e-05,
+      "loss": 0.1078,
+      "step": 6550
+    },
+    {
+      "epoch": 4.373333333333333,
+      "grad_norm": 2.6009035110473633,
+      "learning_rate": 6.916104294484988e-05,
+      "loss": 0.1234,
+      "step": 6560
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 2.749417304992676,
+      "learning_rate": 6.905351881751372e-05,
+      "loss": 0.1084,
+      "step": 6570
+    },
+    {
+      "epoch": 4.386666666666667,
+      "grad_norm": 2.5170063972473145,
+      "learning_rate": 6.894589150740207e-05,
+      "loss": 0.1134,
+      "step": 6580
+    },
+    {
+      "epoch": 4.3933333333333335,
+      "grad_norm": 0.7062837481498718,
+      "learning_rate": 6.883816159736186e-05,
+      "loss": 0.1158,
+      "step": 6590
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 2.230564594268799,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.1744,
+      "step": 6600
+    },
+    {
+      "epoch": 4.4,
+      "eval_darija_finetune_val_loss": 1.1640223264694214,
+      "eval_darija_finetune_val_runtime": 250.6628,
+      "eval_darija_finetune_val_samples_per_second": 3.989,
+      "eval_darija_finetune_val_steps_per_second": 1.995,
+      "step": 6600
+    },
+    {
+      "epoch": 4.406666666666666,
+      "grad_norm": 2.5334784984588623,
+      "learning_rate": 6.862239631165832e-05,
+      "loss": 0.1336,
+      "step": 6610
+    },
+    {
+      "epoch": 4.413333333333333,
+      "grad_norm": 5.693446159362793,
+      "learning_rate": 6.851436210445427e-05,
+      "loss": 0.1513,
+      "step": 6620
+    },
+    {
+      "epoch": 4.42,
+      "grad_norm": 1.204634666442871,
+      "learning_rate": 6.840622763423391e-05,
+      "loss": 0.1046,
+      "step": 6630
+    },
+    {
+      "epoch": 4.426666666666667,
+      "grad_norm": 2.1321589946746826,
+      "learning_rate": 6.82979934865906e-05,
+      "loss": 0.0969,
+      "step": 6640
+    },
+    {
+      "epoch": 4.433333333333334,
+      "grad_norm": 2.5171074867248535,
+      "learning_rate": 6.818966024765758e-05,
+      "loss": 0.1099,
+      "step": 6650
+    },
+    {
+      "epoch": 4.44,
+      "grad_norm": 1.5263279676437378,
+      "learning_rate": 6.808122850410461e-05,
+      "loss": 0.1207,
+      "step": 6660
+    },
+    {
+      "epoch": 4.446666666666666,
+      "grad_norm": 2.026616096496582,
+      "learning_rate": 6.797269884313499e-05,
+      "loss": 0.1226,
+      "step": 6670
+    },
+    {
+      "epoch": 4.453333333333333,
+      "grad_norm": 2.2255218029022217,
+      "learning_rate": 6.78640718524822e-05,
+      "loss": 0.1271,
+      "step": 6680
+    },
+    {
+      "epoch": 4.46,
+      "grad_norm": 1.994191288948059,
+      "learning_rate": 6.775534812040685e-05,
+      "loss": 0.1432,
+      "step": 6690
+    },
+    {
+      "epoch": 4.466666666666667,
+      "grad_norm": 1.748871088027954,
+      "learning_rate": 6.764652823569344e-05,
+      "loss": 0.1352,
+      "step": 6700
+    },
+    {
+      "epoch": 4.466666666666667,
+      "eval_darija_finetune_val_loss": 1.131036639213562,
+      "eval_darija_finetune_val_runtime": 250.7291,
+      "eval_darija_finetune_val_samples_per_second": 3.988,
+      "eval_darija_finetune_val_steps_per_second": 1.994,
+      "step": 6700
+    },
+    {
+      "epoch": 4.473333333333334,
+      "grad_norm": 1.844069004058838,
+      "learning_rate": 6.753761278764719e-05,
+      "loss": 0.1111,
+      "step": 6710
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 1.6589782238006592,
+      "learning_rate": 6.742860236609077e-05,
+      "loss": 0.1263,
+      "step": 6720
+    },
+    {
+      "epoch": 4.486666666666666,
+      "grad_norm": 1.656043529510498,
+      "learning_rate": 6.731949756136125e-05,
+      "loss": 0.0967,
+      "step": 6730
+    },
+    {
+      "epoch": 4.493333333333333,
+      "grad_norm": 2.5150537490844727,
+      "learning_rate": 6.721029896430678e-05,
+      "loss": 0.133,
+      "step": 6740
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 0.9953697323799133,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.105,
+      "step": 6750
+    },
+    {
+      "epoch": 4.506666666666667,
+      "grad_norm": 1.0099587440490723,
+      "learning_rate": 6.699162275915208e-05,
+      "loss": 0.1353,
+      "step": 6760
+    },
+    {
+      "epoch": 4.513333333333334,
+      "grad_norm": 1.0515936613082886,
+      "learning_rate": 6.688214633527495e-05,
+      "loss": 0.1362,
+      "step": 6770
+    },
+    {
+      "epoch": 4.52,
+      "grad_norm": 1.194707989692688,
+      "learning_rate": 6.677257848751277e-05,
+      "loss": 0.1059,
+      "step": 6780
+    },
+    {
+      "epoch": 4.526666666666666,
+      "grad_norm": 3.6087021827697754,
+      "learning_rate": 6.666291980922121e-05,
+      "loss": 0.1297,
+      "step": 6790
+    },
+    {
+      "epoch": 4.533333333333333,
+      "grad_norm": 1.7717890739440918,
+      "learning_rate": 6.65531708942479e-05,
+      "loss": 0.1213,
+      "step": 6800
+    },
+    {
+      "epoch": 4.533333333333333,
+      "eval_darija_finetune_val_loss": 1.149727702140808,
+      "eval_darija_finetune_val_runtime": 250.4475,
+      "eval_darija_finetune_val_samples_per_second": 3.993,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 6800
+    },
+    {
+      "epoch": 4.54,
+      "grad_norm": 1.3409775495529175,
+      "learning_rate": 6.644333233692916e-05,
+      "loss": 0.1002,
+      "step": 6810
+    },
+    {
+      "epoch": 4.546666666666667,
+      "grad_norm": 2.2486448287963867,
+      "learning_rate": 6.633340473208673e-05,
+      "loss": 0.1141,
+      "step": 6820
+    },
+    {
+      "epoch": 4.553333333333334,
+      "grad_norm": 2.8300209045410156,
+      "learning_rate": 6.622338867502452e-05,
+      "loss": 0.1318,
+      "step": 6830
+    },
+    {
+      "epoch": 4.5600000000000005,
+      "grad_norm": 1.8849334716796875,
+      "learning_rate": 6.611328476152557e-05,
+      "loss": 0.1222,
+      "step": 6840
+    },
+    {
+      "epoch": 4.566666666666666,
+      "grad_norm": 1.4102360010147095,
+      "learning_rate": 6.600309358784857e-05,
+      "loss": 0.117,
+      "step": 6850
+    },
+    {
+      "epoch": 4.573333333333333,
+      "grad_norm": 4.0373101234436035,
+      "learning_rate": 6.58928157507249e-05,
+      "loss": 0.1519,
+      "step": 6860
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 2.19834566116333,
+      "learning_rate": 6.578245184735513e-05,
+      "loss": 0.1406,
+      "step": 6870
+    },
+    {
+      "epoch": 4.586666666666667,
+      "grad_norm": 1.9497387409210205,
+      "learning_rate": 6.567200247540598e-05,
+      "loss": 0.1023,
+      "step": 6880
+    },
+    {
+      "epoch": 4.593333333333334,
+      "grad_norm": 1.6798151731491089,
+      "learning_rate": 6.5561468233007e-05,
+      "loss": 0.1274,
+      "step": 6890
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 1.5722401142120361,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.1312,
+      "step": 6900
+    },
+    {
+      "epoch": 4.6,
+      "eval_darija_finetune_val_loss": 1.1598743200302124,
+      "eval_darija_finetune_val_runtime": 250.9767,
+      "eval_darija_finetune_val_samples_per_second": 3.984,
+      "eval_darija_finetune_val_steps_per_second": 1.992,
+      "step": 6900
+    },
+    {
+      "epoch": 4.6066666666666665,
+      "grad_norm": 3.296430826187134,
+      "learning_rate": 6.534014753167262e-05,
+      "loss": 0.1347,
+      "step": 6910
+    },
+    {
+      "epoch": 4.613333333333333,
+      "grad_norm": 3.979606866836548,
+      "learning_rate": 6.52293622712814e-05,
+      "loss": 0.1317,
+      "step": 6920
+    },
+    {
+      "epoch": 4.62,
+      "grad_norm": 2.885796308517456,
+      "learning_rate": 6.511849453752223e-05,
+      "loss": 0.1394,
+      "step": 6930
+    },
+    {
+      "epoch": 4.626666666666667,
+      "grad_norm": 1.8883413076400757,
+      "learning_rate": 6.50075449307903e-05,
+      "loss": 0.1027,
+      "step": 6940
+    },
+    {
+      "epoch": 4.633333333333333,
+      "grad_norm": 1.542133092880249,
+      "learning_rate": 6.48965140519241e-05,
+      "loss": 0.1241,
+      "step": 6950
+    },
+    {
+      "epoch": 4.64,
+      "grad_norm": 1.0382766723632812,
+      "learning_rate": 6.478540250220234e-05,
+      "loss": 0.1321,
+      "step": 6960
+    },
+    {
+      "epoch": 4.6466666666666665,
+      "grad_norm": 1.6641182899475098,
+      "learning_rate": 6.467421088334052e-05,
+      "loss": 0.1274,
+      "step": 6970
+    },
+    {
+      "epoch": 4.653333333333333,
+      "grad_norm": 1.650255799293518,
+      "learning_rate": 6.456293979748778e-05,
+      "loss": 0.1086,
+      "step": 6980
+    },
+    {
+      "epoch": 4.66,
+      "grad_norm": 3.1123459339141846,
+      "learning_rate": 6.445158984722358e-05,
+      "loss": 0.1006,
+      "step": 6990
+    },
+    {
+      "epoch": 4.666666666666667,
+      "grad_norm": 2.706857919692993,
+      "learning_rate": 6.434016163555452e-05,
+      "loss": 0.1134,
+      "step": 7000
+    },
+    {
+      "epoch": 4.666666666666667,
+      "eval_darija_finetune_val_loss": 1.1582876443862915,
+      "eval_darija_finetune_val_runtime": 250.7529,
+      "eval_darija_finetune_val_samples_per_second": 3.988,
+      "eval_darija_finetune_val_steps_per_second": 1.994,
+      "step": 7000
+    },
+    {
+      "epoch": 4.673333333333334,
+      "grad_norm": 1.6895631551742554,
+      "learning_rate": 6.422865576591096e-05,
+      "loss": 0.0996,
+      "step": 7010
+    },
+    {
+      "epoch": 4.68,
+      "grad_norm": 1.6471974849700928,
+      "learning_rate": 6.411707284214384e-05,
+      "loss": 0.1202,
+      "step": 7020
+    },
+    {
+      "epoch": 4.6866666666666665,
+      "grad_norm": 2.9169414043426514,
+      "learning_rate": 6.400541346852136e-05,
+      "loss": 0.1536,
+      "step": 7030
+    },
+    {
+      "epoch": 4.693333333333333,
+      "grad_norm": 2.272585868835449,
+      "learning_rate": 6.389367824972574e-05,
+      "loss": 0.1105,
+      "step": 7040
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 2.646923303604126,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.1466,
+      "step": 7050
+    },
+    {
+      "epoch": 4.706666666666667,
+      "grad_norm": 1.3121691942214966,
+      "learning_rate": 6.366998269739441e-05,
+      "loss": 0.1286,
+      "step": 7060
+    },
+    {
+      "epoch": 4.713333333333333,
+      "grad_norm": 3.063016891479492,
+      "learning_rate": 6.35580235752637e-05,
+      "loss": 0.1326,
+      "step": 7070
+    },
+    {
+      "epoch": 4.72,
+      "grad_norm": 2.264636754989624,
+      "learning_rate": 6.344599103076329e-05,
+      "loss": 0.1004,
+      "step": 7080
+    },
+    {
+      "epoch": 4.726666666666667,
+      "grad_norm": 2.810906171798706,
+      "learning_rate": 6.333388567059628e-05,
+      "loss": 0.149,
+      "step": 7090
+    },
+    {
+      "epoch": 4.733333333333333,
+      "grad_norm": 1.6284946203231812,
+      "learning_rate": 6.322170810186012e-05,
+      "loss": 0.1182,
+      "step": 7100
+    },
+    {
+      "epoch": 4.733333333333333,
+      "eval_darija_finetune_val_loss": 1.1296817064285278,
+      "eval_darija_finetune_val_runtime": 251.1445,
+      "eval_darija_finetune_val_samples_per_second": 3.982,
+      "eval_darija_finetune_val_steps_per_second": 1.991,
+      "step": 7100
+    },
+    {
+      "epoch": 4.74,
+      "grad_norm": 2.5914769172668457,
+      "learning_rate": 6.310945893204324e-05,
+      "loss": 0.1382,
+      "step": 7110
+    },
+    {
+      "epoch": 4.746666666666667,
+      "grad_norm": 2.053025960922241,
+      "learning_rate": 6.299713876902187e-05,
+      "loss": 0.1103,
+      "step": 7120
+    },
+    {
+      "epoch": 4.753333333333333,
+      "grad_norm": 3.0918776988983154,
+      "learning_rate": 6.28847482210567e-05,
+      "loss": 0.1127,
+      "step": 7130
+    },
+    {
+      "epoch": 4.76,
+      "grad_norm": 3.1514220237731934,
+      "learning_rate": 6.277228789678953e-05,
+      "loss": 0.1379,
+      "step": 7140
+    },
+    {
+      "epoch": 4.766666666666667,
+      "grad_norm": 1.768611192703247,
+      "learning_rate": 6.26597584052401e-05,
+      "loss": 0.1153,
+      "step": 7150
+    },
+    {
+      "epoch": 4.773333333333333,
+      "grad_norm": 1.8044191598892212,
+      "learning_rate": 6.254716035580263e-05,
+      "loss": 0.119,
+      "step": 7160
+    },
+    {
+      "epoch": 4.78,
+      "grad_norm": 1.5287675857543945,
+      "learning_rate": 6.243449435824276e-05,
+      "loss": 0.0896,
+      "step": 7170
+    },
+    {
+      "epoch": 4.786666666666667,
+      "grad_norm": 2.2437193393707275,
+      "learning_rate": 6.23217610226939e-05,
+      "loss": 0.122,
+      "step": 7180
+    },
+    {
+      "epoch": 4.793333333333333,
+      "grad_norm": 3.784885883331299,
+      "learning_rate": 6.220896095965427e-05,
+      "loss": 0.1413,
+      "step": 7190
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 2.44252610206604,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.12,
+      "step": 7200
+    },
+    {
+      "epoch": 4.8,
+      "eval_darija_finetune_val_loss": 1.1357548236846924,
+      "eval_darija_finetune_val_runtime": 251.12,
+      "eval_darija_finetune_val_samples_per_second": 3.982,
+      "eval_darija_finetune_val_steps_per_second": 1.991,
+      "step": 7200
+    },
+    {
+      "epoch": 4.806666666666667,
+      "grad_norm": 1.4872726202011108,
+      "learning_rate": 6.198316309489885e-05,
+      "loss": 0.1422,
+      "step": 7210
+    },
+    {
+      "epoch": 4.8133333333333335,
+      "grad_norm": 2.061249017715454,
+      "learning_rate": 6.187016651597298e-05,
+      "loss": 0.1111,
+      "step": 7220
+    },
+    {
+      "epoch": 4.82,
+      "grad_norm": 2.2852370738983154,
+      "learning_rate": 6.17571056551295e-05,
+      "loss": 0.1229,
+      "step": 7230
+    },
+    {
+      "epoch": 4.826666666666666,
+      "grad_norm": 2.49603271484375,
+      "learning_rate": 6.164398112464029e-05,
+      "loss": 0.1061,
+      "step": 7240
+    },
+    {
+      "epoch": 4.833333333333333,
+      "grad_norm": 2.6090288162231445,
+      "learning_rate": 6.153079353712201e-05,
+      "loss": 0.1363,
+      "step": 7250
+    },
+    {
+      "epoch": 4.84,
+      "grad_norm": 2.1548407077789307,
+      "learning_rate": 6.141754350553279e-05,
+      "loss": 0.103,
+      "step": 7260
+    },
+    {
+      "epoch": 4.846666666666667,
+      "grad_norm": 2.032132863998413,
+      "learning_rate": 6.130423164316893e-05,
+      "loss": 0.1141,
+      "step": 7270
+    },
+    {
+      "epoch": 4.8533333333333335,
+      "grad_norm": 2.2787234783172607,
+      "learning_rate": 6.119085856366157e-05,
+      "loss": 0.1181,
+      "step": 7280
+    },
+    {
+      "epoch": 4.86,
+      "grad_norm": 2.259946346282959,
+      "learning_rate": 6.107742488097338e-05,
+      "loss": 0.1036,
+      "step": 7290
+    },
+    {
+      "epoch": 4.866666666666667,
+      "grad_norm": 1.1073516607284546,
+      "learning_rate": 6.096393120939516e-05,
+      "loss": 0.1125,
+      "step": 7300
+    },
+    {
+      "epoch": 4.866666666666667,
+      "eval_darija_finetune_val_loss": 1.1512614488601685,
+      "eval_darija_finetune_val_runtime": 250.9704,
+      "eval_darija_finetune_val_samples_per_second": 3.985,
+      "eval_darija_finetune_val_steps_per_second": 1.992,
+      "step": 7300
+    },
+    {
+      "epoch": 4.873333333333333,
+      "grad_norm": 2.818178415298462,
+      "learning_rate": 6.0850378163542685e-05,
+      "loss": 0.1025,
+      "step": 7310
+    },
+    {
+      "epoch": 4.88,
+      "grad_norm": 1.3745754957199097,
+      "learning_rate": 6.073676635835317e-05,
+      "loss": 0.1405,
+      "step": 7320
+    },
+    {
+      "epoch": 4.886666666666667,
+      "grad_norm": 1.1218392848968506,
+      "learning_rate": 6.062309640908206e-05,
+      "loss": 0.1349,
+      "step": 7330
+    },
+    {
+      "epoch": 4.8933333333333335,
+      "grad_norm": 1.891350269317627,
+      "learning_rate": 6.05093689312997e-05,
+      "loss": 0.1527,
+      "step": 7340
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 2.118053436279297,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.1138,
+      "step": 7350
+    },
+    {
+      "epoch": 4.906666666666666,
+      "grad_norm": 3.6721489429473877,
+      "learning_rate": 6.0281743854036934e-05,
+      "loss": 0.1456,
+      "step": 7360
+    },
+    {
+      "epoch": 4.913333333333333,
+      "grad_norm": 2.1043777465820312,
+      "learning_rate": 6.0167847487241526e-05,
+      "loss": 0.132,
+      "step": 7370
+    },
+    {
+      "epoch": 4.92,
+      "grad_norm": 3.062847137451172,
+      "learning_rate": 6.005389605729824e-05,
+      "loss": 0.1388,
+      "step": 7380
+    },
+    {
+      "epoch": 4.926666666666667,
+      "grad_norm": 2.496518611907959,
+      "learning_rate": 5.993989018130173e-05,
+      "loss": 0.1069,
+      "step": 7390
+    },
+    {
+      "epoch": 4.933333333333334,
+      "grad_norm": 1.0401902198791504,
+      "learning_rate": 5.982583047664151e-05,
+      "loss": 0.1058,
+      "step": 7400
+    },
+    {
+      "epoch": 4.933333333333334,
+      "eval_darija_finetune_val_loss": 1.13973069190979,
+      "eval_darija_finetune_val_runtime": 251.0228,
+      "eval_darija_finetune_val_samples_per_second": 3.984,
+      "eval_darija_finetune_val_steps_per_second": 1.992,
+      "step": 7400
+    },
+    {
+      "epoch": 4.9399999999999995,
+      "grad_norm": 2.9795641899108887,
+      "learning_rate": 5.97117175609986e-05,
+      "loss": 0.1352,
+      "step": 7410
+    },
+    {
+      "epoch": 4.946666666666666,
+      "grad_norm": 1.8589378595352173,
+      "learning_rate": 5.959755205234217e-05,
+      "loss": 0.1037,
+      "step": 7420
+    },
+    {
+      "epoch": 4.953333333333333,
+      "grad_norm": 4.485324859619141,
+      "learning_rate": 5.948333456892624e-05,
+      "loss": 0.1381,
+      "step": 7430
+    },
+    {
+      "epoch": 4.96,
+      "grad_norm": 4.885230541229248,
+      "learning_rate": 5.9369065729286245e-05,
+      "loss": 0.0892,
+      "step": 7440
+    },
+    {
+      "epoch": 4.966666666666667,
+      "grad_norm": 1.403702735900879,
+      "learning_rate": 5.925474615223573e-05,
+      "loss": 0.1021,
+      "step": 7450
+    },
+    {
+      "epoch": 4.973333333333334,
+      "grad_norm": 2.48933482170105,
+      "learning_rate": 5.914037645686308e-05,
+      "loss": 0.1352,
+      "step": 7460
+    },
+    {
+      "epoch": 4.98,
+      "grad_norm": 3.1890311241149902,
+      "learning_rate": 5.902595726252801e-05,
+      "loss": 0.1472,
+      "step": 7470
+    },
+    {
+      "epoch": 4.986666666666666,
+      "grad_norm": 1.6501593589782715,
+      "learning_rate": 5.891148918885834e-05,
+      "loss": 0.1349,
+      "step": 7480
+    },
+    {
+      "epoch": 4.993333333333333,
+      "grad_norm": 2.1183598041534424,
+      "learning_rate": 5.879697285574655e-05,
+      "loss": 0.1231,
+      "step": 7490
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.1824440956115723,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.1132,
+      "step": 7500
+    },
+    {
+      "epoch": 5.0,
+      "eval_darija_finetune_val_loss": 1.1795510053634644,
+      "eval_darija_finetune_val_runtime": 250.9684,
+      "eval_darija_finetune_val_samples_per_second": 3.985,
+      "eval_darija_finetune_val_steps_per_second": 1.992,
+      "step": 7500
+    },
+    {
+      "epoch": 5.006666666666667,
+      "grad_norm": 2.23877215385437,
+      "learning_rate": 5.85677978920701e-05,
+      "loss": 0.0618,
+      "step": 7510
+    },
+    {
+      "epoch": 5.013333333333334,
+      "grad_norm": 2.471526622772217,
+      "learning_rate": 5.84531405025837e-05,
+      "loss": 0.0584,
+      "step": 7520
+    },
+    {
+      "epoch": 5.02,
+      "grad_norm": 2.3049094676971436,
+      "learning_rate": 5.833843733580512e-05,
+      "loss": 0.0594,
+      "step": 7530
+    },
+    {
+      "epoch": 5.026666666666666,
+      "grad_norm": 2.900526523590088,
+      "learning_rate": 5.822368901289994e-05,
+      "loss": 0.0647,
+      "step": 7540
+    },
+    {
+      "epoch": 5.033333333333333,
+      "grad_norm": 1.1554726362228394,
+      "learning_rate": 5.810889615527838e-05,
+      "loss": 0.06,
+      "step": 7550
+    },
+    {
+      "epoch": 5.04,
+      "grad_norm": 2.980794668197632,
+      "learning_rate": 5.799405938459175e-05,
+      "loss": 0.0709,
+      "step": 7560
+    },
+    {
+      "epoch": 5.046666666666667,
+      "grad_norm": 1.1436100006103516,
+      "learning_rate": 5.787917932272922e-05,
+      "loss": 0.0507,
+      "step": 7570
+    },
+    {
+      "epoch": 5.053333333333334,
+      "grad_norm": 2.328636407852173,
+      "learning_rate": 5.776425659181438e-05,
+      "loss": 0.0558,
+      "step": 7580
+    },
+    {
+      "epoch": 5.06,
+      "grad_norm": 1.6394574642181396,
+      "learning_rate": 5.764929181420191e-05,
+      "loss": 0.0721,
+      "step": 7590
+    },
+    {
+      "epoch": 5.066666666666666,
+      "grad_norm": 1.8003982305526733,
+      "learning_rate": 5.753428561247416e-05,
+      "loss": 0.0584,
+      "step": 7600
+    },
+    {
+      "epoch": 5.066666666666666,
+      "eval_darija_finetune_val_loss": 1.2997612953186035,
+      "eval_darija_finetune_val_runtime": 251.4359,
+      "eval_darija_finetune_val_samples_per_second": 3.977,
+      "eval_darija_finetune_val_steps_per_second": 1.989,
+      "step": 7600
+    },
+    {
+      "epoch": 5.073333333333333,
+      "grad_norm": 2.29107666015625,
+      "learning_rate": 5.741923860943783e-05,
+      "loss": 0.0577,
+      "step": 7610
+    },
+    {
+      "epoch": 5.08,
+      "grad_norm": 1.6476086378097534,
+      "learning_rate": 5.730415142812059e-05,
+      "loss": 0.0526,
+      "step": 7620
+    },
+    {
+      "epoch": 5.086666666666667,
+      "grad_norm": 1.0528260469436646,
+      "learning_rate": 5.7189024691767644e-05,
+      "loss": 0.0598,
+      "step": 7630
+    },
+    {
+      "epoch": 5.093333333333334,
+      "grad_norm": 0.8882933855056763,
+      "learning_rate": 5.707385902383845e-05,
+      "loss": 0.0733,
+      "step": 7640
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 2.0562684535980225,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.0718,
+      "step": 7650
+    },
+    {
+      "epoch": 5.1066666666666665,
+      "grad_norm": 2.260718584060669,
+      "learning_rate": 5.684341338813985e-05,
+      "loss": 0.0493,
+      "step": 7660
+    },
+    {
+      "epoch": 5.113333333333333,
+      "grad_norm": 2.2664506435394287,
+      "learning_rate": 5.672813466832998e-05,
+      "loss": 0.0531,
+      "step": 7670
+    },
+    {
+      "epoch": 5.12,
+      "grad_norm": 1.9369488954544067,
+      "learning_rate": 5.661281951285613e-05,
+      "loss": 0.0622,
+      "step": 7680
+    },
+    {
+      "epoch": 5.126666666666667,
+      "grad_norm": 2.823375701904297,
+      "learning_rate": 5.649746854619814e-05,
+      "loss": 0.0776,
+      "step": 7690
+    },
+    {
+      "epoch": 5.133333333333334,
+      "grad_norm": 2.585181713104248,
+      "learning_rate": 5.6382082393029746e-05,
+      "loss": 0.0646,
+      "step": 7700
+    },
+    {
+      "epoch": 5.133333333333334,
+      "eval_darija_finetune_val_loss": 1.2274469137191772,
+      "eval_darija_finetune_val_runtime": 251.1932,
+      "eval_darija_finetune_val_samples_per_second": 3.981,
+      "eval_darija_finetune_val_steps_per_second": 1.99,
+      "step": 7700
+    },
+    {
+      "epoch": 5.14,
+      "grad_norm": 3.1397130489349365,
+      "learning_rate": 5.6266661678215216e-05,
+      "loss": 0.0739,
+      "step": 7710
+    },
+    {
+      "epoch": 5.1466666666666665,
+      "grad_norm": 1.5548475980758667,
+      "learning_rate": 5.615120702680604e-05,
+      "loss": 0.0634,
+      "step": 7720
+    },
+    {
+      "epoch": 5.153333333333333,
+      "grad_norm": 1.8686720132827759,
+      "learning_rate": 5.603571906403744e-05,
+      "loss": 0.0753,
+      "step": 7730
+    },
+    {
+      "epoch": 5.16,
+      "grad_norm": 1.7115989923477173,
+      "learning_rate": 5.5920198415325064e-05,
+      "loss": 0.0616,
+      "step": 7740
+    },
+    {
+      "epoch": 5.166666666666667,
+      "grad_norm": 2.0831711292266846,
+      "learning_rate": 5.5804645706261514e-05,
+      "loss": 0.0585,
+      "step": 7750
+    },
+    {
+      "epoch": 5.173333333333334,
+      "grad_norm": 2.360543727874756,
+      "learning_rate": 5.568906156261309e-05,
+      "loss": 0.0673,
+      "step": 7760
+    },
+    {
+      "epoch": 5.18,
+      "grad_norm": 1.7016955614089966,
+      "learning_rate": 5.557344661031627e-05,
+      "loss": 0.0549,
+      "step": 7770
+    },
+    {
+      "epoch": 5.1866666666666665,
+      "grad_norm": 2.0327515602111816,
+      "learning_rate": 5.54578014754744e-05,
+      "loss": 0.0532,
+      "step": 7780
+    },
+    {
+      "epoch": 5.193333333333333,
+      "grad_norm": 1.35123872756958,
+      "learning_rate": 5.534212678435426e-05,
+      "loss": 0.0642,
+      "step": 7790
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 2.388533115386963,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.0618,
+      "step": 7800
+    },
+    {
+      "epoch": 5.2,
+      "eval_darija_finetune_val_loss": 1.2665941715240479,
+      "eval_darija_finetune_val_runtime": 251.0834,
+      "eval_darija_finetune_val_samples_per_second": 3.983,
+      "eval_darija_finetune_val_steps_per_second": 1.991,
+      "step": 7800
+    },
+    {
+      "epoch": 5.206666666666667,
+      "grad_norm": 1.145627498626709,
+      "learning_rate": 5.511069123914319e-05,
+      "loss": 0.0685,
+      "step": 7810
+    },
+    {
+      "epoch": 5.213333333333333,
+      "grad_norm": 1.7416365146636963,
+      "learning_rate": 5.499493163837257e-05,
+      "loss": 0.0637,
+      "step": 7820
+    },
+    {
+      "epoch": 5.22,
+      "grad_norm": 4.63102912902832,
+      "learning_rate": 5.487914498795747e-05,
+      "loss": 0.0646,
+      "step": 7830
+    },
+    {
+      "epoch": 5.226666666666667,
+      "grad_norm": 3.3398470878601074,
+      "learning_rate": 5.4763331914931084e-05,
+      "loss": 0.059,
+      "step": 7840
+    },
+    {
+      "epoch": 5.233333333333333,
+      "grad_norm": 1.0949503183364868,
+      "learning_rate": 5.464749304646962e-05,
+      "loss": 0.081,
+      "step": 7850
+    },
+    {
+      "epoch": 5.24,
+      "grad_norm": 0.8816141486167908,
+      "learning_rate": 5.453162900988902e-05,
+      "loss": 0.0688,
+      "step": 7860
+    },
+    {
+      "epoch": 5.246666666666667,
+      "grad_norm": 0.8794529438018799,
+      "learning_rate": 5.44157404326415e-05,
+      "loss": 0.046,
+      "step": 7870
+    },
+    {
+      "epoch": 5.253333333333333,
+      "grad_norm": 1.4905996322631836,
+      "learning_rate": 5.4299827942312206e-05,
+      "loss": 0.0699,
+      "step": 7880
+    },
+    {
+      "epoch": 5.26,
+      "grad_norm": 2.6474852561950684,
+      "learning_rate": 5.418389216661579e-05,
+      "loss": 0.052,
+      "step": 7890
+    },
+    {
+      "epoch": 5.266666666666667,
+      "grad_norm": 2.9993815422058105,
+      "learning_rate": 5.4067933733392915e-05,
+      "loss": 0.0647,
+      "step": 7900
+    },
+    {
+      "epoch": 5.266666666666667,
+      "eval_darija_finetune_val_loss": 1.2712538242340088,
+      "eval_darija_finetune_val_runtime": 250.7455,
+      "eval_darija_finetune_val_samples_per_second": 3.988,
+      "eval_darija_finetune_val_steps_per_second": 1.994,
+      "step": 7900
+    },
+    {
+      "epoch": 5.273333333333333,
+      "grad_norm": 1.6823506355285645,
+      "learning_rate": 5.395195327060707e-05,
+      "loss": 0.0654,
+      "step": 7910
+    },
+    {
+      "epoch": 5.28,
+      "grad_norm": 1.9661020040512085,
+      "learning_rate": 5.383595140634093e-05,
+      "loss": 0.084,
+      "step": 7920
+    },
+    {
+      "epoch": 5.286666666666667,
+      "grad_norm": 2.0941078662872314,
+      "learning_rate": 5.371992876879318e-05,
+      "loss": 0.0689,
+      "step": 7930
+    },
+    {
+      "epoch": 5.293333333333333,
+      "grad_norm": 1.579991340637207,
+      "learning_rate": 5.360388598627487e-05,
+      "loss": 0.0509,
+      "step": 7940
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 1.7776626348495483,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.0732,
+      "step": 7950
+    },
+    {
+      "epoch": 5.306666666666667,
+      "grad_norm": 3.191277027130127,
+      "learning_rate": 5.337174250011327e-05,
+      "loss": 0.0635,
+      "step": 7960
+    },
+    {
+      "epoch": 5.3133333333333335,
+      "grad_norm": 2.231858253479004,
+      "learning_rate": 5.325564305362404e-05,
+      "loss": 0.0427,
+      "step": 7970
+    },
+    {
+      "epoch": 5.32,
+      "grad_norm": 0.9214258790016174,
+      "learning_rate": 5.313952597646568e-05,
+      "loss": 0.0463,
+      "step": 7980
+    },
+    {
+      "epoch": 5.326666666666666,
+      "grad_norm": 1.6483027935028076,
+      "learning_rate": 5.3023391897460715e-05,
+      "loss": 0.0498,
+      "step": 7990
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 0.9848579168319702,
+      "learning_rate": 5.290724144552379e-05,
+      "loss": 0.0812,
+      "step": 8000
+    },
+    {
+      "epoch": 5.333333333333333,
+      "eval_darija_finetune_val_loss": 1.2937934398651123,
+      "eval_darija_finetune_val_runtime": 251.5433,
+      "eval_darija_finetune_val_samples_per_second": 3.975,
+      "eval_darija_finetune_val_steps_per_second": 1.988,
+      "step": 8000
+    },
+    {
+      "epoch": 5.34,
+      "grad_norm": 2.540947675704956,
+      "learning_rate": 5.279107524965819e-05,
+      "loss": 0.0516,
+      "step": 8010
+    },
+    {
+      "epoch": 5.346666666666667,
+      "grad_norm": 2.9750566482543945,
+      "learning_rate": 5.267489393895246e-05,
+      "loss": 0.0645,
+      "step": 8020
+    },
+    {
+      "epoch": 5.3533333333333335,
+      "grad_norm": 2.303624391555786,
+      "learning_rate": 5.2558698142577014e-05,
+      "loss": 0.0693,
+      "step": 8030
+    },
+    {
+      "epoch": 5.36,
+      "grad_norm": 1.1007741689682007,
+      "learning_rate": 5.244248848978067e-05,
+      "loss": 0.0462,
+      "step": 8040
+    },
+    {
+      "epoch": 5.366666666666666,
+      "grad_norm": 1.939629316329956,
+      "learning_rate": 5.232626560988735e-05,
+      "loss": 0.0723,
+      "step": 8050
+    },
+    {
+      "epoch": 5.373333333333333,
+      "grad_norm": 1.4235588312149048,
+      "learning_rate": 5.221003013229253e-05,
+      "loss": 0.0586,
+      "step": 8060
+    },
+    {
+      "epoch": 5.38,
+      "grad_norm": 1.4025421142578125,
+      "learning_rate": 5.209378268645998e-05,
+      "loss": 0.0658,
+      "step": 8070
+    },
+    {
+      "epoch": 5.386666666666667,
+      "grad_norm": 1.3068290948867798,
+      "learning_rate": 5.197752390191827e-05,
+      "loss": 0.0729,
+      "step": 8080
+    },
+    {
+      "epoch": 5.3933333333333335,
+      "grad_norm": 2.137641429901123,
+      "learning_rate": 5.1861254408257296e-05,
+      "loss": 0.0727,
+      "step": 8090
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 2.777925491333008,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.062,
+      "step": 8100
+    },
+    {
+      "epoch": 5.4,
+      "eval_darija_finetune_val_loss": 1.2237080335617065,
+      "eval_darija_finetune_val_runtime": 251.1275,
+      "eval_darija_finetune_val_samples_per_second": 3.982,
+      "eval_darija_finetune_val_steps_per_second": 1.991,
+      "step": 8100
+    },
+    {
+      "epoch": 5.406666666666666,
+      "grad_norm": 1.6651339530944824,
+      "learning_rate": 5.162868581222406e-05,
+      "loss": 0.0918,
+      "step": 8110
+    },
+    {
+      "epoch": 5.413333333333333,
+      "grad_norm": 1.7358318567276,
+      "learning_rate": 5.151238796930804e-05,
+      "loss": 0.0605,
+      "step": 8120
+    },
+    {
+      "epoch": 5.42,
+      "grad_norm": 1.2620487213134766,
+      "learning_rate": 5.139608193617845e-05,
+      "loss": 0.0586,
+      "step": 8130
+    },
+    {
+      "epoch": 5.426666666666667,
+      "grad_norm": 1.2466048002243042,
+      "learning_rate": 5.127976834268111e-05,
+      "loss": 0.0653,
+      "step": 8140
+    },
+    {
+      "epoch": 5.433333333333334,
+      "grad_norm": 1.4595955610275269,
+      "learning_rate": 5.116344781870281e-05,
+      "loss": 0.0589,
+      "step": 8150
+    },
+    {
+      "epoch": 5.44,
+      "grad_norm": 0.7730015516281128,
+      "learning_rate": 5.104712099416785e-05,
+      "loss": 0.0458,
+      "step": 8160
+    },
+    {
+      "epoch": 5.446666666666666,
+      "grad_norm": 1.3240584135055542,
+      "learning_rate": 5.093078849903464e-05,
+      "loss": 0.0742,
+      "step": 8170
+    },
+    {
+      "epoch": 5.453333333333333,
+      "grad_norm": 1.1920605897903442,
+      "learning_rate": 5.0814450963292295e-05,
+      "loss": 0.0677,
+      "step": 8180
+    },
+    {
+      "epoch": 5.46,
+      "grad_norm": 0.8866370320320129,
+      "learning_rate": 5.0698109016957274e-05,
+      "loss": 0.0483,
+      "step": 8190
+    },
+    {
+      "epoch": 5.466666666666667,
+      "grad_norm": 0.9725927710533142,
+      "learning_rate": 5.0581763290069865e-05,
+      "loss": 0.0644,
+      "step": 8200
+    },
+    {
+      "epoch": 5.466666666666667,
+      "eval_darija_finetune_val_loss": 1.2755696773529053,
+      "eval_darija_finetune_val_runtime": 251.3179,
+      "eval_darija_finetune_val_samples_per_second": 3.979,
+      "eval_darija_finetune_val_steps_per_second": 1.99,
+      "step": 8200
+    },
+    {
+      "epoch": 5.473333333333334,
+      "grad_norm": 1.6509956121444702,
+      "learning_rate": 5.046541441269085e-05,
+      "loss": 0.0547,
+      "step": 8210
+    },
+    {
+      "epoch": 5.48,
+      "grad_norm": 1.4547119140625,
+      "learning_rate": 5.034906301489808e-05,
+      "loss": 0.0609,
+      "step": 8220
+    },
+    {
+      "epoch": 5.486666666666666,
+      "grad_norm": 2.4744632244110107,
+      "learning_rate": 5.023270972678307e-05,
+      "loss": 0.0901,
+      "step": 8230
+    },
+    {
+      "epoch": 5.493333333333333,
+      "grad_norm": 1.1388969421386719,
+      "learning_rate": 5.0116355178447525e-05,
+      "loss": 0.0698,
+      "step": 8240
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 1.6075586080551147,
+      "learning_rate": 5e-05,
+      "loss": 0.0663,
+      "step": 8250
+    },
+    {
+      "epoch": 5.506666666666667,
+      "grad_norm": 2.4390969276428223,
+      "learning_rate": 4.9883644821552494e-05,
+      "loss": 0.0934,
+      "step": 8260
+    },
+    {
+      "epoch": 5.513333333333334,
+      "grad_norm": 2.0987679958343506,
+      "learning_rate": 4.976729027321694e-05,
+      "loss": 0.0701,
+      "step": 8270
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 2.0108115673065186,
+      "learning_rate": 4.965093698510193e-05,
+      "loss": 0.062,
+      "step": 8280
+    },
+    {
+      "epoch": 5.526666666666666,
+      "grad_norm": 1.7241452932357788,
+      "learning_rate": 4.953458558730917e-05,
+      "loss": 0.0682,
+      "step": 8290
+    },
+    {
+      "epoch": 5.533333333333333,
+      "grad_norm": 1.5872305631637573,
+      "learning_rate": 4.941823670993016e-05,
+      "loss": 0.0868,
+      "step": 8300
+    },
+    {
+      "epoch": 5.533333333333333,
+      "eval_darija_finetune_val_loss": 1.228666067123413,
+      "eval_darija_finetune_val_runtime": 251.4894,
+      "eval_darija_finetune_val_samples_per_second": 3.976,
+      "eval_darija_finetune_val_steps_per_second": 1.988,
+      "step": 8300
+    },
+    {
+      "epoch": 5.54,
+      "grad_norm": 0.7067036032676697,
+      "learning_rate": 4.9301890983042744e-05,
+      "loss": 0.0585,
+      "step": 8310
+    },
+    {
+      "epoch": 5.546666666666667,
+      "grad_norm": 1.8270646333694458,
+      "learning_rate": 4.918554903670771e-05,
+      "loss": 0.0674,
+      "step": 8320
+    },
+    {
+      "epoch": 5.553333333333334,
+      "grad_norm": 1.6985547542572021,
+      "learning_rate": 4.9069211500965376e-05,
+      "loss": 0.0775,
+      "step": 8330
+    },
+    {
+      "epoch": 5.5600000000000005,
+      "grad_norm": 2.5389156341552734,
+      "learning_rate": 4.895287900583216e-05,
+      "loss": 0.061,
+      "step": 8340
+    },
+    {
+      "epoch": 5.566666666666666,
+      "grad_norm": 1.8453867435455322,
+      "learning_rate": 4.883655218129719e-05,
+      "loss": 0.0692,
+      "step": 8350
+    },
+    {
+      "epoch": 5.573333333333333,
+      "grad_norm": 2.115257740020752,
+      "learning_rate": 4.87202316573189e-05,
+      "loss": 0.0739,
+      "step": 8360
+    },
+    {
+      "epoch": 5.58,
+      "grad_norm": 1.3817392587661743,
+      "learning_rate": 4.860391806382157e-05,
+      "loss": 0.0515,
+      "step": 8370
+    },
+    {
+      "epoch": 5.586666666666667,
+      "grad_norm": 2.1890881061553955,
+      "learning_rate": 4.848761203069197e-05,
+      "loss": 0.0489,
+      "step": 8380
+    },
+    {
+      "epoch": 5.593333333333334,
+      "grad_norm": 2.6112964153289795,
+      "learning_rate": 4.837131418777595e-05,
+      "loss": 0.0797,
+      "step": 8390
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 1.2393476963043213,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.0656,
+      "step": 8400
+    },
+    {
+      "epoch": 5.6,
+      "eval_darija_finetune_val_loss": 1.22938871383667,
+      "eval_darija_finetune_val_runtime": 251.4539,
+      "eval_darija_finetune_val_samples_per_second": 3.977,
+      "eval_darija_finetune_val_steps_per_second": 1.988,
+      "step": 8400
+    },
+    {
+      "epoch": 5.6066666666666665,
+      "grad_norm": 1.1704304218292236,
+      "learning_rate": 4.813874559174271e-05,
+      "loss": 0.0595,
+      "step": 8410
+    },
+    {
+      "epoch": 5.613333333333333,
+      "grad_norm": 1.3565338850021362,
+      "learning_rate": 4.802247609808175e-05,
+      "loss": 0.0548,
+      "step": 8420
+    },
+    {
+      "epoch": 5.62,
+      "grad_norm": 1.1226392984390259,
+      "learning_rate": 4.790621731354003e-05,
+      "loss": 0.0583,
+      "step": 8430
+    },
+    {
+      "epoch": 5.626666666666667,
+      "grad_norm": 1.534467339515686,
+      "learning_rate": 4.7789969867707466e-05,
+      "loss": 0.0675,
+      "step": 8440
+    },
+    {
+      "epoch": 5.633333333333333,
+      "grad_norm": 1.2419626712799072,
+      "learning_rate": 4.767373439011267e-05,
+      "loss": 0.0514,
+      "step": 8450
+    },
+    {
+      "epoch": 5.64,
+      "grad_norm": 2.0198440551757812,
+      "learning_rate": 4.755751151021934e-05,
+      "loss": 0.069,
+      "step": 8460
+    },
+    {
+      "epoch": 5.6466666666666665,
+      "grad_norm": 1.6115813255310059,
+      "learning_rate": 4.744130185742302e-05,
+      "loss": 0.0642,
+      "step": 8470
+    },
+    {
+      "epoch": 5.653333333333333,
+      "grad_norm": 1.2796847820281982,
+      "learning_rate": 4.732510606104754e-05,
+      "loss": 0.0658,
+      "step": 8480
+    },
+    {
+      "epoch": 5.66,
+      "grad_norm": 2.426217794418335,
+      "learning_rate": 4.720892475034181e-05,
+      "loss": 0.0754,
+      "step": 8490
+    },
+    {
+      "epoch": 5.666666666666667,
+      "grad_norm": 1.07455575466156,
+      "learning_rate": 4.709275855447621e-05,
+      "loss": 0.0781,
+      "step": 8500
+    },
+    {
+      "epoch": 5.666666666666667,
+      "eval_darija_finetune_val_loss": 1.2232787609100342,
+      "eval_darija_finetune_val_runtime": 251.3714,
+      "eval_darija_finetune_val_samples_per_second": 3.978,
+      "eval_darija_finetune_val_steps_per_second": 1.989,
+      "step": 8500
+    },
+    {
+      "epoch": 5.673333333333334,
+      "grad_norm": 1.71642005443573,
+      "learning_rate": 4.697660810253928e-05,
+      "loss": 0.0894,
+      "step": 8510
+    },
+    {
+      "epoch": 5.68,
+      "grad_norm": 1.4257092475891113,
+      "learning_rate": 4.6860474023534335e-05,
+      "loss": 0.0633,
+      "step": 8520
+    },
+    {
+      "epoch": 5.6866666666666665,
+      "grad_norm": 0.8825823664665222,
+      "learning_rate": 4.674435694637597e-05,
+      "loss": 0.0608,
+      "step": 8530
+    },
+    {
+      "epoch": 5.693333333333333,
+      "grad_norm": 2.008882761001587,
+      "learning_rate": 4.662825749988675e-05,
+      "loss": 0.0802,
+      "step": 8540
+    },
+    {
+      "epoch": 5.7,
+      "grad_norm": 1.6433957815170288,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.0696,
+      "step": 8550
+    },
+    {
+      "epoch": 5.706666666666667,
+      "grad_norm": 2.9183971881866455,
+      "learning_rate": 4.639611401372513e-05,
+      "loss": 0.0879,
+      "step": 8560
+    },
+    {
+      "epoch": 5.713333333333333,
+      "grad_norm": 1.7496119737625122,
+      "learning_rate": 4.628007123120684e-05,
+      "loss": 0.057,
+      "step": 8570
+    },
+    {
+      "epoch": 5.72,
+      "grad_norm": 1.247615933418274,
+      "learning_rate": 4.616404859365907e-05,
+      "loss": 0.0681,
+      "step": 8580
+    },
+    {
+      "epoch": 5.726666666666667,
+      "grad_norm": 0.47007256746292114,
+      "learning_rate": 4.604804672939295e-05,
+      "loss": 0.0501,
+      "step": 8590
+    },
+    {
+      "epoch": 5.733333333333333,
+      "grad_norm": 1.553373098373413,
+      "learning_rate": 4.593206626660709e-05,
+      "loss": 0.0614,
+      "step": 8600
+    },
+    {
+      "epoch": 5.733333333333333,
+      "eval_darija_finetune_val_loss": 1.2798725366592407,
+      "eval_darija_finetune_val_runtime": 250.8376,
+      "eval_darija_finetune_val_samples_per_second": 3.987,
+      "eval_darija_finetune_val_steps_per_second": 1.993,
+      "step": 8600
+    },
+    {
+      "epoch": 5.74,
+      "grad_norm": 0.9789950251579285,
+      "learning_rate": 4.5816107833384234e-05,
+      "loss": 0.0552,
+      "step": 8610
+    },
+    {
+      "epoch": 5.746666666666667,
+      "grad_norm": 2.616753101348877,
+      "learning_rate": 4.570017205768779e-05,
+      "loss": 0.045,
+      "step": 8620
+    },
+    {
+      "epoch": 5.753333333333333,
+      "grad_norm": 0.9554610848426819,
+      "learning_rate": 4.558425956735851e-05,
+      "loss": 0.0509,
+      "step": 8630
+    },
+    {
+      "epoch": 5.76,
+      "grad_norm": 2.8962302207946777,
+      "learning_rate": 4.5468370990111006e-05,
+      "loss": 0.0772,
+      "step": 8640
+    },
+    {
+      "epoch": 5.766666666666667,
+      "grad_norm": 0.7186405658721924,
+      "learning_rate": 4.535250695353039e-05,
+      "loss": 0.0664,
+      "step": 8650
+    },
+    {
+      "epoch": 5.773333333333333,
+      "grad_norm": 2.5407843589782715,
+      "learning_rate": 4.523666808506893e-05,
+      "loss": 0.0553,
+      "step": 8660
+    },
+    {
+      "epoch": 5.78,
+      "grad_norm": 2.115316152572632,
+      "learning_rate": 4.512085501204253e-05,
+      "loss": 0.0622,
+      "step": 8670
+    },
+    {
+      "epoch": 5.786666666666667,
+      "grad_norm": 1.2670726776123047,
+      "learning_rate": 4.5005068361627455e-05,
+      "loss": 0.0637,
+      "step": 8680
+    },
+    {
+      "epoch": 5.793333333333333,
+      "grad_norm": 1.6296573877334595,
+      "learning_rate": 4.4889308760856824e-05,
+      "loss": 0.0632,
+      "step": 8690
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 1.1136101484298706,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.1017,
+      "step": 8700
+    },
+    {
+      "epoch": 5.8,
+      "eval_darija_finetune_val_loss": 1.2554179430007935,
+      "eval_darija_finetune_val_runtime": 251.3787,
+      "eval_darija_finetune_val_samples_per_second": 3.978,
+      "eval_darija_finetune_val_steps_per_second": 1.989,
+      "step": 8700
+    },
+    {
+      "epoch": 5.806666666666667,
+      "grad_norm": 0.9940670132637024,
+      "learning_rate": 4.465787321564576e-05,
+      "loss": 0.0481,
+      "step": 8710
+    },
+    {
+      "epoch": 5.8133333333333335,
+      "grad_norm": 1.0235865116119385,
+      "learning_rate": 4.4542198524525596e-05,
+      "loss": 0.0709,
+      "step": 8720
+    },
+    {
+      "epoch": 5.82,
+      "grad_norm": 1.0836740732192993,
+      "learning_rate": 4.442655338968373e-05,
+      "loss": 0.0681,
+      "step": 8730
+    },
+    {
+      "epoch": 5.826666666666666,
+      "grad_norm": 2.385263204574585,
+      "learning_rate": 4.431093843738692e-05,
+      "loss": 0.0647,
+      "step": 8740
+    },
+    {
+      "epoch": 5.833333333333333,
+      "grad_norm": 4.232539653778076,
+      "learning_rate": 4.4195354293738484e-05,
+      "loss": 0.0582,
+      "step": 8750
+    },
+    {
+      "epoch": 5.84,
+      "grad_norm": 2.0027859210968018,
+      "learning_rate": 4.407980158467495e-05,
+      "loss": 0.0592,
+      "step": 8760
+    },
+    {
+      "epoch": 5.846666666666667,
+      "grad_norm": 2.5481772422790527,
+      "learning_rate": 4.396428093596258e-05,
+      "loss": 0.0769,
+      "step": 8770
+    },
+    {
+      "epoch": 5.8533333333333335,
+      "grad_norm": 2.9110665321350098,
+      "learning_rate": 4.384879297319398e-05,
+      "loss": 0.0681,
+      "step": 8780
+    },
+    {
+      "epoch": 5.86,
+      "grad_norm": 1.3947993516921997,
+      "learning_rate": 4.373333832178478e-05,
+      "loss": 0.0708,
+      "step": 8790
+    },
+    {
+      "epoch": 5.866666666666667,
+      "grad_norm": 1.3824599981307983,
+      "learning_rate": 4.361791760697027e-05,
+      "loss": 0.0563,
+      "step": 8800
+    },
+    {
+      "epoch": 5.866666666666667,
+      "eval_darija_finetune_val_loss": 1.2596887350082397,
+      "eval_darija_finetune_val_runtime": 251.8189,
+      "eval_darija_finetune_val_samples_per_second": 3.971,
+      "eval_darija_finetune_val_steps_per_second": 1.986,
+      "step": 8800
+    },
+    {
+      "epoch": 5.873333333333333,
+      "grad_norm": 2.5603954792022705,
+      "learning_rate": 4.350253145380189e-05,
+      "loss": 0.0518,
+      "step": 8810
+    },
+    {
+      "epoch": 5.88,
+      "grad_norm": 2.0834574699401855,
+      "learning_rate": 4.3387180487143876e-05,
+      "loss": 0.068,
+      "step": 8820
+    },
+    {
+      "epoch": 5.886666666666667,
+      "grad_norm": 2.329651117324829,
+      "learning_rate": 4.3271865331670034e-05,
+      "loss": 0.0538,
+      "step": 8830
+    },
+    {
+      "epoch": 5.8933333333333335,
+      "grad_norm": 1.0373562574386597,
+      "learning_rate": 4.315658661186016e-05,
+      "loss": 0.0555,
+      "step": 8840
+    },
+    {
+      "epoch": 5.9,
+      "grad_norm": 2.1047096252441406,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.0814,
+      "step": 8850
+    },
+    {
+      "epoch": 5.906666666666666,
+      "grad_norm": 1.5799607038497925,
+      "learning_rate": 4.292614097616155e-05,
+      "loss": 0.0661,
+      "step": 8860
+    },
+    {
+      "epoch": 5.913333333333333,
+      "grad_norm": 1.2504569292068481,
+      "learning_rate": 4.281097530823237e-05,
+      "loss": 0.0676,
+      "step": 8870
+    },
+    {
+      "epoch": 5.92,
+      "grad_norm": 2.4727377891540527,
+      "learning_rate": 4.269584857187943e-05,
+      "loss": 0.0955,
+      "step": 8880
+    },
+    {
+      "epoch": 5.926666666666667,
+      "grad_norm": 1.5501047372817993,
+      "learning_rate": 4.2580761390562166e-05,
+      "loss": 0.0507,
+      "step": 8890
+    },
+    {
+      "epoch": 5.933333333333334,
+      "grad_norm": 1.0148085355758667,
+      "learning_rate": 4.246571438752585e-05,
+      "loss": 0.0805,
+      "step": 8900
+    },
+    {
+      "epoch": 5.933333333333334,
+      "eval_darija_finetune_val_loss": 1.2342748641967773,
+      "eval_darija_finetune_val_runtime": 251.4197,
+      "eval_darija_finetune_val_samples_per_second": 3.977,
+      "eval_darija_finetune_val_steps_per_second": 1.989,
+      "step": 8900
+    },
+    {
+      "epoch": 5.9399999999999995,
+      "grad_norm": 2.1895272731781006,
+      "learning_rate": 4.23507081857981e-05,
+      "loss": 0.0798,
+      "step": 8910
+    },
+    {
+      "epoch": 5.946666666666666,
+      "grad_norm": 1.3004837036132812,
+      "learning_rate": 4.223574340818563e-05,
+      "loss": 0.062,
+      "step": 8920
+    },
+    {
+      "epoch": 5.953333333333333,
+      "grad_norm": 2.082949161529541,
+      "learning_rate": 4.2120820677270787e-05,
+      "loss": 0.052,
+      "step": 8930
+    },
+    {
+      "epoch": 5.96,
+      "grad_norm": 1.6618324518203735,
+      "learning_rate": 4.2005940615408264e-05,
+      "loss": 0.066,
+      "step": 8940
+    },
+    {
+      "epoch": 5.966666666666667,
+      "grad_norm": 2.7575180530548096,
+      "learning_rate": 4.1891103844721636e-05,
+      "loss": 0.0651,
+      "step": 8950
+    },
+    {
+      "epoch": 5.973333333333334,
+      "grad_norm": 1.7879823446273804,
+      "learning_rate": 4.177631098710005e-05,
+      "loss": 0.0828,
+      "step": 8960
+    },
+    {
+      "epoch": 5.98,
+      "grad_norm": 2.325397491455078,
+      "learning_rate": 4.166156266419489e-05,
+      "loss": 0.0717,
+      "step": 8970
+    },
+    {
+      "epoch": 5.986666666666666,
+      "grad_norm": 3.2670581340789795,
+      "learning_rate": 4.1546859497416305e-05,
+      "loss": 0.0616,
+      "step": 8980
+    },
+    {
+      "epoch": 5.993333333333333,
+      "grad_norm": 1.1830976009368896,
+      "learning_rate": 4.143220210792993e-05,
+      "loss": 0.0615,
+      "step": 8990
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 2.1980292797088623,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.0722,
+      "step": 9000
+    },
+    {
+      "epoch": 6.0,
+      "eval_darija_finetune_val_loss": 1.2291557788848877,
+      "eval_darija_finetune_val_runtime": 251.6333,
+      "eval_darija_finetune_val_samples_per_second": 3.974,
+      "eval_darija_finetune_val_steps_per_second": 1.987,
+      "step": 9000
+    },
+    {
+      "epoch": 6.006666666666667,
+      "grad_norm": 0.5339612364768982,
+      "learning_rate": 4.1203027144253464e-05,
+      "loss": 0.0244,
+      "step": 9010
+    },
+    {
+      "epoch": 6.013333333333334,
+      "grad_norm": 1.0790480375289917,
+      "learning_rate": 4.108851081114169e-05,
+      "loss": 0.0416,
+      "step": 9020
+    },
+    {
+      "epoch": 6.02,
+      "grad_norm": 5.62170934677124,
+      "learning_rate": 4.0974042737472006e-05,
+      "loss": 0.0432,
+      "step": 9030
+    },
+    {
+      "epoch": 6.026666666666666,
+      "grad_norm": 1.2824726104736328,
+      "learning_rate": 4.085962354313694e-05,
+      "loss": 0.0299,
+      "step": 9040
+    },
+    {
+      "epoch": 6.033333333333333,
+      "grad_norm": 1.6971455812454224,
+      "learning_rate": 4.074525384776428e-05,
+      "loss": 0.0339,
+      "step": 9050
+    },
+    {
+      "epoch": 6.04,
+      "grad_norm": 0.6380660533905029,
+      "learning_rate": 4.063093427071376e-05,
+      "loss": 0.0277,
+      "step": 9060
+    },
+    {
+      "epoch": 6.046666666666667,
+      "grad_norm": 0.9631791710853577,
+      "learning_rate": 4.051666543107377e-05,
+      "loss": 0.027,
+      "step": 9070
+    },
+    {
+      "epoch": 6.053333333333334,
+      "grad_norm": 1.714126706123352,
+      "learning_rate": 4.040244794765783e-05,
+      "loss": 0.0342,
+      "step": 9080
+    },
+    {
+      "epoch": 6.06,
+      "grad_norm": 0.9239168763160706,
+      "learning_rate": 4.028828243900141e-05,
+      "loss": 0.0402,
+      "step": 9090
+    },
+    {
+      "epoch": 6.066666666666666,
+      "grad_norm": 1.5617748498916626,
+      "learning_rate": 4.017416952335849e-05,
+      "loss": 0.045,
+      "step": 9100
+    },
+    {
+      "epoch": 6.066666666666666,
+      "eval_darija_finetune_val_loss": 1.2899894714355469,
+      "eval_darija_finetune_val_runtime": 254.5797,
+      "eval_darija_finetune_val_samples_per_second": 3.928,
+      "eval_darija_finetune_val_steps_per_second": 1.964,
+      "step": 9100
+    },
+    {
+      "epoch": 6.073333333333333,
+      "grad_norm": 0.9952075481414795,
+      "learning_rate": 4.006010981869829e-05,
+      "loss": 0.0219,
+      "step": 9110
+    },
+    {
+      "epoch": 6.08,
+      "grad_norm": 0.7669902443885803,
+      "learning_rate": 3.9946103942701777e-05,
+      "loss": 0.0209,
+      "step": 9120
+    },
+    {
+      "epoch": 6.086666666666667,
+      "grad_norm": 2.5425870418548584,
+      "learning_rate": 3.983215251275847e-05,
+      "loss": 0.0297,
+      "step": 9130
+    },
+    {
+      "epoch": 6.093333333333334,
+      "grad_norm": 1.0282870531082153,
+      "learning_rate": 3.971825614596307e-05,
+      "loss": 0.0436,
+      "step": 9140
+    },
+    {
+      "epoch": 6.1,
+      "grad_norm": 0.9991323947906494,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.0222,
+      "step": 9150
+    },
+    {
+      "epoch": 6.1066666666666665,
+      "grad_norm": 0.8793168663978577,
+      "learning_rate": 3.949063106870031e-05,
+      "loss": 0.0401,
+      "step": 9160
+    },
+    {
+      "epoch": 6.113333333333333,
+      "grad_norm": 0.16705554723739624,
+      "learning_rate": 3.937690359091794e-05,
+      "loss": 0.031,
+      "step": 9170
+    },
+    {
+      "epoch": 6.12,
+      "grad_norm": 0.47579896450042725,
+      "learning_rate": 3.926323364164684e-05,
+      "loss": 0.0226,
+      "step": 9180
+    },
+    {
+      "epoch": 6.126666666666667,
+      "grad_norm": 2.142932653427124,
+      "learning_rate": 3.9149621836457334e-05,
+      "loss": 0.022,
+      "step": 9190
+    },
+    {
+      "epoch": 6.133333333333334,
+      "grad_norm": 0.7722986936569214,
+      "learning_rate": 3.903606879060483e-05,
+      "loss": 0.0311,
+      "step": 9200
+    },
+    {
+      "epoch": 6.133333333333334,
+      "eval_darija_finetune_val_loss": 1.384487271308899,
+      "eval_darija_finetune_val_runtime": 250.5632,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 9200
+    },
+    {
+      "epoch": 6.14,
+      "grad_norm": 1.6268746852874756,
+      "learning_rate": 3.892257511902664e-05,
+      "loss": 0.0427,
+      "step": 9210
+    },
+    {
+      "epoch": 6.1466666666666665,
+      "grad_norm": 1.5878088474273682,
+      "learning_rate": 3.880914143633844e-05,
+      "loss": 0.0303,
+      "step": 9220
+    },
+    {
+      "epoch": 6.153333333333333,
+      "grad_norm": 0.5893556475639343,
+      "learning_rate": 3.869576835683109e-05,
+      "loss": 0.0304,
+      "step": 9230
+    },
+    {
+      "epoch": 6.16,
+      "grad_norm": 1.4732837677001953,
+      "learning_rate": 3.858245649446721e-05,
+      "loss": 0.0314,
+      "step": 9240
+    },
+    {
+      "epoch": 6.166666666666667,
+      "grad_norm": 1.3739421367645264,
+      "learning_rate": 3.846920646287799e-05,
+      "loss": 0.0286,
+      "step": 9250
+    },
+    {
+      "epoch": 6.173333333333334,
+      "grad_norm": 0.3482811152935028,
+      "learning_rate": 3.8356018875359714e-05,
+      "loss": 0.0204,
+      "step": 9260
+    },
+    {
+      "epoch": 6.18,
+      "grad_norm": 1.0704655647277832,
+      "learning_rate": 3.82428943448705e-05,
+      "loss": 0.0373,
+      "step": 9270
+    },
+    {
+      "epoch": 6.1866666666666665,
+      "grad_norm": 0.785554826259613,
+      "learning_rate": 3.812983348402703e-05,
+      "loss": 0.0276,
+      "step": 9280
+    },
+    {
+      "epoch": 6.193333333333333,
+      "grad_norm": 0.5813551545143127,
+      "learning_rate": 3.801683690510115e-05,
+      "loss": 0.0252,
+      "step": 9290
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 1.0862988233566284,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.0296,
+      "step": 9300
+    },
+    {
+      "epoch": 6.2,
+      "eval_darija_finetune_val_loss": 1.3559480905532837,
+      "eval_darija_finetune_val_runtime": 250.5502,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 9300
+    },
+    {
+      "epoch": 6.206666666666667,
+      "grad_norm": 2.426614999771118,
+      "learning_rate": 3.779103904034574e-05,
+      "loss": 0.0395,
+      "step": 9310
+    },
+    {
+      "epoch": 6.213333333333333,
+      "grad_norm": 1.4268959760665894,
+      "learning_rate": 3.767823897730612e-05,
+      "loss": 0.0351,
+      "step": 9320
+    },
+    {
+      "epoch": 6.22,
+      "grad_norm": 0.8054866194725037,
+      "learning_rate": 3.756550564175727e-05,
+      "loss": 0.0245,
+      "step": 9330
+    },
+    {
+      "epoch": 6.226666666666667,
+      "grad_norm": 1.0174524784088135,
+      "learning_rate": 3.745283964419736e-05,
+      "loss": 0.0345,
+      "step": 9340
+    },
+    {
+      "epoch": 6.233333333333333,
+      "grad_norm": 0.632827639579773,
+      "learning_rate": 3.7340241594759916e-05,
+      "loss": 0.0378,
+      "step": 9350
+    },
+    {
+      "epoch": 6.24,
+      "grad_norm": 1.2559140920639038,
+      "learning_rate": 3.7227712103210486e-05,
+      "loss": 0.0248,
+      "step": 9360
+    },
+    {
+      "epoch": 6.246666666666667,
+      "grad_norm": 4.587792873382568,
+      "learning_rate": 3.711525177894331e-05,
+      "loss": 0.0396,
+      "step": 9370
+    },
+    {
+      "epoch": 6.253333333333333,
+      "grad_norm": 1.2746589183807373,
+      "learning_rate": 3.700286123097814e-05,
+      "loss": 0.0277,
+      "step": 9380
+    },
+    {
+      "epoch": 6.26,
+      "grad_norm": 0.4739038050174713,
+      "learning_rate": 3.6890541067956776e-05,
+      "loss": 0.028,
+      "step": 9390
+    },
+    {
+      "epoch": 6.266666666666667,
+      "grad_norm": 2.830815076828003,
+      "learning_rate": 3.67782918981399e-05,
+      "loss": 0.0338,
+      "step": 9400
+    },
+    {
+      "epoch": 6.266666666666667,
+      "eval_darija_finetune_val_loss": 1.356597661972046,
+      "eval_darija_finetune_val_runtime": 256.2738,
+      "eval_darija_finetune_val_samples_per_second": 3.902,
+      "eval_darija_finetune_val_steps_per_second": 1.951,
+      "step": 9400
+    },
+    {
+      "epoch": 6.273333333333333,
+      "grad_norm": 0.2607637941837311,
+      "learning_rate": 3.666611432940372e-05,
+      "loss": 0.0325,
+      "step": 9410
+    },
+    {
+      "epoch": 6.28,
+      "grad_norm": 0.4107038080692291,
+      "learning_rate": 3.655400896923672e-05,
+      "loss": 0.0364,
+      "step": 9420
+    },
+    {
+      "epoch": 6.286666666666667,
+      "grad_norm": 2.3216798305511475,
+      "learning_rate": 3.644197642473631e-05,
+      "loss": 0.0302,
+      "step": 9430
+    },
+    {
+      "epoch": 6.293333333333333,
+      "grad_norm": 1.3894157409667969,
+      "learning_rate": 3.6330017302605576e-05,
+      "loss": 0.0411,
+      "step": 9440
+    },
+    {
+      "epoch": 6.3,
+      "grad_norm": 1.3153550624847412,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.0272,
+      "step": 9450
+    },
+    {
+      "epoch": 6.306666666666667,
+      "grad_norm": 1.2552138566970825,
+      "learning_rate": 3.6106321750274274e-05,
+      "loss": 0.0287,
+      "step": 9460
+    },
+    {
+      "epoch": 6.3133333333333335,
+      "grad_norm": 1.1113656759262085,
+      "learning_rate": 3.599458653147867e-05,
+      "loss": 0.0306,
+      "step": 9470
+    },
+    {
+      "epoch": 6.32,
+      "grad_norm": 1.3658963441848755,
+      "learning_rate": 3.588292715785617e-05,
+      "loss": 0.0312,
+      "step": 9480
+    },
+    {
+      "epoch": 6.326666666666666,
+      "grad_norm": 1.3768936395645142,
+      "learning_rate": 3.577134423408906e-05,
+      "loss": 0.0389,
+      "step": 9490
+    },
+    {
+      "epoch": 6.333333333333333,
+      "grad_norm": 0.7220675349235535,
+      "learning_rate": 3.5659838364445505e-05,
+      "loss": 0.0179,
+      "step": 9500
+    },
+    {
+      "epoch": 6.333333333333333,
+      "eval_darija_finetune_val_loss": 1.3408358097076416,
+      "eval_darija_finetune_val_runtime": 265.1071,
+      "eval_darija_finetune_val_samples_per_second": 3.772,
+      "eval_darija_finetune_val_steps_per_second": 1.886,
+      "step": 9500
+    },
+    {
+      "epoch": 6.34,
+      "grad_norm": 2.875005006790161,
+      "learning_rate": 3.554841015277641e-05,
+      "loss": 0.0415,
+      "step": 9510
+    },
+    {
+      "epoch": 6.346666666666667,
+      "grad_norm": 0.7959535717964172,
+      "learning_rate": 3.5437060202512226e-05,
+      "loss": 0.0212,
+      "step": 9520
+    },
+    {
+      "epoch": 6.3533333333333335,
+      "grad_norm": 1.9800838232040405,
+      "learning_rate": 3.532578911665949e-05,
+      "loss": 0.0284,
+      "step": 9530
+    },
+    {
+      "epoch": 6.36,
+      "grad_norm": 1.3791842460632324,
+      "learning_rate": 3.5214597497797684e-05,
+      "loss": 0.0357,
+      "step": 9540
+    },
+    {
+      "epoch": 6.366666666666666,
+      "grad_norm": 0.7212793827056885,
+      "learning_rate": 3.51034859480759e-05,
+      "loss": 0.0368,
+      "step": 9550
+    },
+    {
+      "epoch": 6.373333333333333,
+      "grad_norm": 1.3476487398147583,
+      "learning_rate": 3.499245506920972e-05,
+      "loss": 0.028,
+      "step": 9560
+    },
+    {
+      "epoch": 6.38,
+      "grad_norm": 0.8300289511680603,
+      "learning_rate": 3.488150546247778e-05,
+      "loss": 0.0374,
+      "step": 9570
+    },
+    {
+      "epoch": 6.386666666666667,
+      "grad_norm": 1.7510759830474854,
+      "learning_rate": 3.477063772871861e-05,
+      "loss": 0.0328,
+      "step": 9580
+    },
+    {
+      "epoch": 6.3933333333333335,
+      "grad_norm": 2.751322031021118,
+      "learning_rate": 3.465985246832739e-05,
+      "loss": 0.036,
+      "step": 9590
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 1.3000589609146118,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0212,
+      "step": 9600
+    },
+    {
+      "epoch": 6.4,
+      "eval_darija_finetune_val_loss": 1.3742585182189941,
+      "eval_darija_finetune_val_runtime": 250.467,
+      "eval_darija_finetune_val_samples_per_second": 3.993,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 9600
+    },
+    {
+      "epoch": 6.406666666666666,
+      "grad_norm": 0.6995733380317688,
+      "learning_rate": 3.4438531766993006e-05,
+      "loss": 0.0252,
+      "step": 9610
+    },
+    {
+      "epoch": 6.413333333333333,
+      "grad_norm": 0.9628202319145203,
+      "learning_rate": 3.4327997524594026e-05,
+      "loss": 0.0351,
+      "step": 9620
+    },
+    {
+      "epoch": 6.42,
+      "grad_norm": 1.4695868492126465,
+      "learning_rate": 3.4217548152644885e-05,
+      "loss": 0.0373,
+      "step": 9630
+    },
+    {
+      "epoch": 6.426666666666667,
+      "grad_norm": 0.431176096200943,
+      "learning_rate": 3.4107184249275116e-05,
+      "loss": 0.0284,
+      "step": 9640
+    },
+    {
+      "epoch": 6.433333333333334,
+      "grad_norm": 1.0080585479736328,
+      "learning_rate": 3.399690641215142e-05,
+      "loss": 0.0332,
+      "step": 9650
+    },
+    {
+      "epoch": 6.44,
+      "grad_norm": 0.4913191795349121,
+      "learning_rate": 3.388671523847445e-05,
+      "loss": 0.0316,
+      "step": 9660
+    },
+    {
+      "epoch": 6.446666666666666,
+      "grad_norm": 1.5698894262313843,
+      "learning_rate": 3.3776611324975494e-05,
+      "loss": 0.0344,
+      "step": 9670
+    },
+    {
+      "epoch": 6.453333333333333,
+      "grad_norm": 1.3251452445983887,
+      "learning_rate": 3.366659526791329e-05,
+      "loss": 0.034,
+      "step": 9680
+    },
+    {
+      "epoch": 6.46,
+      "grad_norm": 1.4884124994277954,
+      "learning_rate": 3.355666766307084e-05,
+      "loss": 0.0238,
+      "step": 9690
+    },
+    {
+      "epoch": 6.466666666666667,
+      "grad_norm": 0.6539409756660461,
+      "learning_rate": 3.34468291057521e-05,
+      "loss": 0.0344,
+      "step": 9700
+    },
+    {
+      "epoch": 6.466666666666667,
+      "eval_darija_finetune_val_loss": 1.3934155702590942,
+      "eval_darija_finetune_val_runtime": 250.4773,
+      "eval_darija_finetune_val_samples_per_second": 3.992,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 9700
+    },
+    {
+      "epoch": 6.473333333333334,
+      "grad_norm": 1.292454481124878,
+      "learning_rate": 3.333708019077881e-05,
+      "loss": 0.0334,
+      "step": 9710
+    },
+    {
+      "epoch": 6.48,
+      "grad_norm": 0.33494049310684204,
+      "learning_rate": 3.322742151248725e-05,
+      "loss": 0.0344,
+      "step": 9720
+    },
+    {
+      "epoch": 6.486666666666666,
+      "grad_norm": 2.2404277324676514,
+      "learning_rate": 3.3117853664725065e-05,
+      "loss": 0.0351,
+      "step": 9730
+    },
+    {
+      "epoch": 6.493333333333333,
+      "grad_norm": 0.8290155529975891,
+      "learning_rate": 3.3008377240847955e-05,
+      "loss": 0.0312,
+      "step": 9740
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 2.7143092155456543,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.0348,
+      "step": 9750
+    },
+    {
+      "epoch": 6.506666666666667,
+      "grad_norm": 0.8929982781410217,
+      "learning_rate": 3.278970103569324e-05,
+      "loss": 0.0281,
+      "step": 9760
+    },
+    {
+      "epoch": 6.513333333333334,
+      "grad_norm": 0.7086141705513,
+      "learning_rate": 3.268050243863877e-05,
+      "loss": 0.0261,
+      "step": 9770
+    },
+    {
+      "epoch": 6.52,
+      "grad_norm": 1.1378717422485352,
+      "learning_rate": 3.257139763390925e-05,
+      "loss": 0.0307,
+      "step": 9780
+    },
+    {
+      "epoch": 6.526666666666666,
+      "grad_norm": 0.6620413661003113,
+      "learning_rate": 3.246238721235283e-05,
+      "loss": 0.0203,
+      "step": 9790
+    },
+    {
+      "epoch": 6.533333333333333,
+      "grad_norm": 0.5613699555397034,
+      "learning_rate": 3.235347176430656e-05,
+      "loss": 0.0248,
+      "step": 9800
+    },
+    {
+      "epoch": 6.533333333333333,
+      "eval_darija_finetune_val_loss": 1.3571847677230835,
+      "eval_darija_finetune_val_runtime": 250.5301,
+      "eval_darija_finetune_val_samples_per_second": 3.992,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 9800
+    },
+    {
+      "epoch": 6.54,
+      "grad_norm": 1.7108628749847412,
+      "learning_rate": 3.224465187959316e-05,
+      "loss": 0.032,
+      "step": 9810
+    },
+    {
+      "epoch": 6.546666666666667,
+      "grad_norm": 0.728110671043396,
+      "learning_rate": 3.21359281475178e-05,
+      "loss": 0.0381,
+      "step": 9820
+    },
+    {
+      "epoch": 6.553333333333334,
+      "grad_norm": 0.8126703500747681,
+      "learning_rate": 3.202730115686501e-05,
+      "loss": 0.0332,
+      "step": 9830
+    },
+    {
+      "epoch": 6.5600000000000005,
+      "grad_norm": 1.4342361688613892,
+      "learning_rate": 3.1918771495895396e-05,
+      "loss": 0.0246,
+      "step": 9840
+    },
+    {
+      "epoch": 6.566666666666666,
+      "grad_norm": 3.83314847946167,
+      "learning_rate": 3.1810339752342446e-05,
+      "loss": 0.0312,
+      "step": 9850
+    },
+    {
+      "epoch": 6.573333333333333,
+      "grad_norm": 2.3666865825653076,
+      "learning_rate": 3.1702006513409396e-05,
+      "loss": 0.0313,
+      "step": 9860
+    },
+    {
+      "epoch": 6.58,
+      "grad_norm": 2.030949831008911,
+      "learning_rate": 3.1593772365766105e-05,
+      "loss": 0.033,
+      "step": 9870
+    },
+    {
+      "epoch": 6.586666666666667,
+      "grad_norm": 1.4678274393081665,
+      "learning_rate": 3.148563789554575e-05,
+      "loss": 0.0339,
+      "step": 9880
+    },
+    {
+      "epoch": 6.593333333333334,
+      "grad_norm": 2.77532696723938,
+      "learning_rate": 3.137760368834169e-05,
+      "loss": 0.0336,
+      "step": 9890
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 0.7674930095672607,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.0384,
+      "step": 9900
+    },
+    {
+      "epoch": 6.6,
+      "eval_darija_finetune_val_loss": 1.3854442834854126,
+      "eval_darija_finetune_val_runtime": 265.4556,
+      "eval_darija_finetune_val_samples_per_second": 3.767,
+      "eval_darija_finetune_val_steps_per_second": 1.884,
+      "step": 9900
+    },
+    {
+      "epoch": 6.6066666666666665,
+      "grad_norm": 1.8699959516525269,
+      "learning_rate": 3.1161838402638156e-05,
+      "loss": 0.0586,
+      "step": 9910
+    },
+    {
+      "epoch": 6.613333333333333,
+      "grad_norm": 1.7532342672348022,
+      "learning_rate": 3.105410849259795e-05,
+      "loss": 0.037,
+      "step": 9920
+    },
+    {
+      "epoch": 6.62,
+      "grad_norm": 0.8087218999862671,
+      "learning_rate": 3.09464811824863e-05,
+      "loss": 0.0322,
+      "step": 9930
+    },
+    {
+      "epoch": 6.626666666666667,
+      "grad_norm": 0.5620930194854736,
+      "learning_rate": 3.0838957055150135e-05,
+      "loss": 0.0214,
+      "step": 9940
+    },
+    {
+      "epoch": 6.633333333333333,
+      "grad_norm": 1.3528122901916504,
+      "learning_rate": 3.073153669287759e-05,
+      "loss": 0.0293,
+      "step": 9950
+    },
+    {
+      "epoch": 6.64,
+      "grad_norm": 0.7834060192108154,
+      "learning_rate": 3.062422067739485e-05,
+      "loss": 0.0341,
+      "step": 9960
+    },
+    {
+      "epoch": 6.6466666666666665,
+      "grad_norm": 1.2553811073303223,
+      "learning_rate": 3.0517009589863056e-05,
+      "loss": 0.0396,
+      "step": 9970
+    },
+    {
+      "epoch": 6.653333333333333,
+      "grad_norm": 0.43643563985824585,
+      "learning_rate": 3.040990401087508e-05,
+      "loss": 0.0242,
+      "step": 9980
+    },
+    {
+      "epoch": 6.66,
+      "grad_norm": 0.6430667042732239,
+      "learning_rate": 3.0302904520452447e-05,
+      "loss": 0.031,
+      "step": 9990
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 1.19424307346344,
+      "learning_rate": 3.019601169804216e-05,
+      "loss": 0.0268,
+      "step": 10000
+    },
+    {
+      "epoch": 6.666666666666667,
+      "eval_darija_finetune_val_loss": 1.3425136804580688,
+      "eval_darija_finetune_val_runtime": 250.5674,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.995,
+      "step": 10000
+    },
+    {
+      "epoch": 6.673333333333334,
+      "grad_norm": 0.6129315495491028,
+      "learning_rate": 3.008922612251358e-05,
+      "loss": 0.0228,
+      "step": 10010
+    },
+    {
+      "epoch": 6.68,
+      "grad_norm": 0.9501780271530151,
+      "learning_rate": 2.9982548372155263e-05,
+      "loss": 0.0363,
+      "step": 10020
+    },
+    {
+      "epoch": 6.6866666666666665,
+      "grad_norm": 2.135282278060913,
+      "learning_rate": 2.9875979024671846e-05,
+      "loss": 0.0415,
+      "step": 10030
+    },
+    {
+      "epoch": 6.693333333333333,
+      "grad_norm": 1.958332896232605,
+      "learning_rate": 2.976951865718095e-05,
+      "loss": 0.0332,
+      "step": 10040
+    },
+    {
+      "epoch": 6.7,
+      "grad_norm": 0.44372403621673584,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.0233,
+      "step": 10050
+    },
+    {
+      "epoch": 6.706666666666667,
+      "grad_norm": 0.4999712109565735,
+      "learning_rate": 2.9556927167693105e-05,
+      "loss": 0.0258,
+      "step": 10060
+    },
+    {
+      "epoch": 6.713333333333333,
+      "grad_norm": 0.8392794728279114,
+      "learning_rate": 2.9450797196968023e-05,
+      "loss": 0.0255,
+      "step": 10070
+    },
+    {
+      "epoch": 6.72,
+      "grad_norm": 0.36225426197052,
+      "learning_rate": 2.934477850877292e-05,
+      "loss": 0.0307,
+      "step": 10080
+    },
+    {
+      "epoch": 6.726666666666667,
+      "grad_norm": 1.2110157012939453,
+      "learning_rate": 2.9238871677243353e-05,
+      "loss": 0.0426,
+      "step": 10090
+    },
+    {
+      "epoch": 6.733333333333333,
+      "grad_norm": 0.46212244033813477,
+      "learning_rate": 2.9133077275909108e-05,
+      "loss": 0.0379,
+      "step": 10100
+    },
+    {
+      "epoch": 6.733333333333333,
+      "eval_darija_finetune_val_loss": 1.343625783920288,
+      "eval_darija_finetune_val_runtime": 250.5415,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 10100
+    },
+    {
+      "epoch": 6.74,
+      "grad_norm": 0.7049572467803955,
+      "learning_rate": 2.9027395877691144e-05,
+      "loss": 0.0212,
+      "step": 10110
+    },
+    {
+      "epoch": 6.746666666666667,
+      "grad_norm": 3.3003151416778564,
+      "learning_rate": 2.892182805489846e-05,
+      "loss": 0.0412,
+      "step": 10120
+    },
+    {
+      "epoch": 6.753333333333333,
+      "grad_norm": 0.5393081307411194,
+      "learning_rate": 2.881637437922493e-05,
+      "loss": 0.0265,
+      "step": 10130
+    },
+    {
+      "epoch": 6.76,
+      "grad_norm": 0.5625379085540771,
+      "learning_rate": 2.8711035421746367e-05,
+      "loss": 0.0322,
+      "step": 10140
+    },
+    {
+      "epoch": 6.766666666666667,
+      "grad_norm": 3.5489444732666016,
+      "learning_rate": 2.86058117529173e-05,
+      "loss": 0.0312,
+      "step": 10150
+    },
+    {
+      "epoch": 6.773333333333333,
+      "grad_norm": 0.8058772683143616,
+      "learning_rate": 2.8500703942567874e-05,
+      "loss": 0.0232,
+      "step": 10160
+    },
+    {
+      "epoch": 6.78,
+      "grad_norm": 1.059539556503296,
+      "learning_rate": 2.8395712559900877e-05,
+      "loss": 0.032,
+      "step": 10170
+    },
+    {
+      "epoch": 6.786666666666667,
+      "grad_norm": 0.7896603941917419,
+      "learning_rate": 2.8290838173488598e-05,
+      "loss": 0.041,
+      "step": 10180
+    },
+    {
+      "epoch": 6.793333333333333,
+      "grad_norm": 0.32140910625457764,
+      "learning_rate": 2.8186081351269665e-05,
+      "loss": 0.0327,
+      "step": 10190
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 1.5110868215560913,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.0287,
+      "step": 10200
+    },
+    {
+      "epoch": 6.8,
+      "eval_darija_finetune_val_loss": 1.3467305898666382,
+      "eval_darija_finetune_val_runtime": 250.5578,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 10200
+    },
+    {
+      "epoch": 6.806666666666667,
+      "grad_norm": 0.5423595309257507,
+      "learning_rate": 2.7976922667980272e-05,
+      "loss": 0.0317,
+      "step": 10210
+    },
+    {
+      "epoch": 6.8133333333333335,
+      "grad_norm": 1.381052017211914,
+      "learning_rate": 2.7872521939591556e-05,
+      "loss": 0.0436,
+      "step": 10220
+    },
+    {
+      "epoch": 6.82,
+      "grad_norm": 0.564425528049469,
+      "learning_rate": 2.776824104075364e-05,
+      "loss": 0.0287,
+      "step": 10230
+    },
+    {
+      "epoch": 6.826666666666666,
+      "grad_norm": 0.9667544960975647,
+      "learning_rate": 2.766408053619118e-05,
+      "loss": 0.0293,
+      "step": 10240
+    },
+    {
+      "epoch": 6.833333333333333,
+      "grad_norm": 1.0691485404968262,
+      "learning_rate": 2.7560040989976892e-05,
+      "loss": 0.0309,
+      "step": 10250
+    },
+    {
+      "epoch": 6.84,
+      "grad_norm": 2.081775188446045,
+      "learning_rate": 2.7456122965528475e-05,
+      "loss": 0.0317,
+      "step": 10260
+    },
+    {
+      "epoch": 6.846666666666667,
+      "grad_norm": 2.2379462718963623,
+      "learning_rate": 2.7352327025605463e-05,
+      "loss": 0.031,
+      "step": 10270
+    },
+    {
+      "epoch": 6.8533333333333335,
+      "grad_norm": 0.6882135272026062,
+      "learning_rate": 2.7248653732306316e-05,
+      "loss": 0.0317,
+      "step": 10280
+    },
+    {
+      "epoch": 6.86,
+      "grad_norm": 0.8074826598167419,
+      "learning_rate": 2.7145103647065308e-05,
+      "loss": 0.0236,
+      "step": 10290
+    },
+    {
+      "epoch": 6.866666666666667,
+      "grad_norm": 0.6985708475112915,
+      "learning_rate": 2.7041677330649407e-05,
+      "loss": 0.0233,
+      "step": 10300
+    },
+    {
+      "epoch": 6.866666666666667,
+      "eval_darija_finetune_val_loss": 1.3581726551055908,
+      "eval_darija_finetune_val_runtime": 265.5978,
+      "eval_darija_finetune_val_samples_per_second": 3.765,
+      "eval_darija_finetune_val_steps_per_second": 1.883,
+      "step": 10300
+    },
+    {
+      "epoch": 6.873333333333333,
+      "grad_norm": 1.006028413772583,
+      "learning_rate": 2.6938375343155464e-05,
+      "loss": 0.0305,
+      "step": 10310
+    },
+    {
+      "epoch": 6.88,
+      "grad_norm": 2.202904224395752,
+      "learning_rate": 2.6835198244006927e-05,
+      "loss": 0.0345,
+      "step": 10320
+    },
+    {
+      "epoch": 6.886666666666667,
+      "grad_norm": 0.66089928150177,
+      "learning_rate": 2.6732146591950924e-05,
+      "loss": 0.0322,
+      "step": 10330
+    },
+    {
+      "epoch": 6.8933333333333335,
+      "grad_norm": 1.3550727367401123,
+      "learning_rate": 2.662922094505529e-05,
+      "loss": 0.0432,
+      "step": 10340
+    },
+    {
+      "epoch": 6.9,
+      "grad_norm": 2.0010318756103516,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.0266,
+      "step": 10350
+    },
+    {
+      "epoch": 6.906666666666666,
+      "grad_norm": 0.8032817244529724,
+      "learning_rate": 2.642374989560149e-05,
+      "loss": 0.0286,
+      "step": 10360
+    },
+    {
+      "epoch": 6.913333333333333,
+      "grad_norm": 3.5804355144500732,
+      "learning_rate": 2.6321205605755e-05,
+      "loss": 0.0271,
+      "step": 10370
+    },
+    {
+      "epoch": 6.92,
+      "grad_norm": 0.8018805980682373,
+      "learning_rate": 2.6218789546486234e-05,
+      "loss": 0.0248,
+      "step": 10380
+    },
+    {
+      "epoch": 6.926666666666667,
+      "grad_norm": 1.4587112665176392,
+      "learning_rate": 2.6116502272421017e-05,
+      "loss": 0.0387,
+      "step": 10390
+    },
+    {
+      "epoch": 6.933333333333334,
+      "grad_norm": 0.9303746819496155,
+      "learning_rate": 2.6014344337487707e-05,
+      "loss": 0.0407,
+      "step": 10400
+    },
+    {
+      "epoch": 6.933333333333334,
+      "eval_darija_finetune_val_loss": 1.383918285369873,
+      "eval_darija_finetune_val_runtime": 250.7908,
+      "eval_darija_finetune_val_samples_per_second": 3.987,
+      "eval_darija_finetune_val_steps_per_second": 1.994,
+      "step": 10400
+    },
+    {
+      "epoch": 6.9399999999999995,
+      "grad_norm": 1.1113524436950684,
+      "learning_rate": 2.591231629491423e-05,
+      "loss": 0.0307,
+      "step": 10410
+    },
+    {
+      "epoch": 6.946666666666666,
+      "grad_norm": 0.490433007478714,
+      "learning_rate": 2.581041869722519e-05,
+      "loss": 0.0295,
+      "step": 10420
+    },
+    {
+      "epoch": 6.953333333333333,
+      "grad_norm": 1.4901899099349976,
+      "learning_rate": 2.5708652096238673e-05,
+      "loss": 0.0316,
+      "step": 10430
+    },
+    {
+      "epoch": 6.96,
+      "grad_norm": 0.9278210997581482,
+      "learning_rate": 2.560701704306336e-05,
+      "loss": 0.0219,
+      "step": 10440
+    },
+    {
+      "epoch": 6.966666666666667,
+      "grad_norm": 0.726537823677063,
+      "learning_rate": 2.5505514088095655e-05,
+      "loss": 0.0292,
+      "step": 10450
+    },
+    {
+      "epoch": 6.973333333333334,
+      "grad_norm": 1.572264552116394,
+      "learning_rate": 2.540414378101647e-05,
+      "loss": 0.053,
+      "step": 10460
+    },
+    {
+      "epoch": 6.98,
+      "grad_norm": 2.733429431915283,
+      "learning_rate": 2.5302906670788462e-05,
+      "loss": 0.0358,
+      "step": 10470
+    },
+    {
+      "epoch": 6.986666666666666,
+      "grad_norm": 1.2057594060897827,
+      "learning_rate": 2.5201803305652898e-05,
+      "loss": 0.029,
+      "step": 10480
+    },
+    {
+      "epoch": 6.993333333333333,
+      "grad_norm": 0.4498349130153656,
+      "learning_rate": 2.5100834233126823e-05,
+      "loss": 0.0221,
+      "step": 10490
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.9137202501296997,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0399,
+      "step": 10500
+    },
+    {
+      "epoch": 7.0,
+      "eval_darija_finetune_val_loss": 1.3511145114898682,
+      "eval_darija_finetune_val_runtime": 250.5732,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.995,
+      "step": 10500
+    },
+    {
+      "epoch": 7.006666666666667,
+      "grad_norm": 0.4869658350944519,
+      "learning_rate": 2.4899301152331988e-05,
+      "loss": 0.0131,
+      "step": 10510
+    },
+    {
+      "epoch": 7.013333333333334,
+      "grad_norm": 0.28732672333717346,
+      "learning_rate": 2.4798738235449166e-05,
+      "loss": 0.0132,
+      "step": 10520
+    },
+    {
+      "epoch": 7.02,
+      "grad_norm": 1.8180230855941772,
+      "learning_rate": 2.469831179394182e-05,
+      "loss": 0.0366,
+      "step": 10530
+    },
+    {
+      "epoch": 7.026666666666666,
+      "grad_norm": 0.8313825130462646,
+      "learning_rate": 2.459802237166111e-05,
+      "loss": 0.0187,
+      "step": 10540
+    },
+    {
+      "epoch": 7.033333333333333,
+      "grad_norm": 0.4890539348125458,
+      "learning_rate": 2.4497870511716235e-05,
+      "loss": 0.0109,
+      "step": 10550
+    },
+    {
+      "epoch": 7.04,
+      "grad_norm": 1.007691502571106,
+      "learning_rate": 2.4397856756471432e-05,
+      "loss": 0.0132,
+      "step": 10560
+    },
+    {
+      "epoch": 7.046666666666667,
+      "grad_norm": 0.4944383502006531,
+      "learning_rate": 2.4297981647542988e-05,
+      "loss": 0.0085,
+      "step": 10570
+    },
+    {
+      "epoch": 7.053333333333334,
+      "grad_norm": 0.25455233454704285,
+      "learning_rate": 2.4198245725796425e-05,
+      "loss": 0.0102,
+      "step": 10580
+    },
+    {
+      "epoch": 7.06,
+      "grad_norm": 1.9974218606948853,
+      "learning_rate": 2.4098649531343497e-05,
+      "loss": 0.0239,
+      "step": 10590
+    },
+    {
+      "epoch": 7.066666666666666,
+      "grad_norm": 0.6611557602882385,
+      "learning_rate": 2.399919360353923e-05,
+      "loss": 0.0135,
+      "step": 10600
+    },
+    {
+      "epoch": 7.066666666666666,
+      "eval_darija_finetune_val_loss": 1.4292609691619873,
+      "eval_darija_finetune_val_runtime": 250.1301,
+      "eval_darija_finetune_val_samples_per_second": 3.998,
+      "eval_darija_finetune_val_steps_per_second": 1.999,
+      "step": 10600
+    },
+    {
+      "epoch": 7.073333333333333,
+      "grad_norm": 0.7832401990890503,
+      "learning_rate": 2.38998784809791e-05,
+      "loss": 0.0136,
+      "step": 10610
+    },
+    {
+      "epoch": 7.08,
+      "grad_norm": 1.087872862815857,
+      "learning_rate": 2.3800704701496053e-05,
+      "loss": 0.0111,
+      "step": 10620
+    },
+    {
+      "epoch": 7.086666666666667,
+      "grad_norm": 0.42933040857315063,
+      "learning_rate": 2.3701672802157566e-05,
+      "loss": 0.017,
+      "step": 10630
+    },
+    {
+      "epoch": 7.093333333333334,
+      "grad_norm": 0.24502092599868774,
+      "learning_rate": 2.3602783319262846e-05,
+      "loss": 0.0105,
+      "step": 10640
+    },
+    {
+      "epoch": 7.1,
+      "grad_norm": 0.2132781594991684,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.0121,
+      "step": 10650
+    },
+    {
+      "epoch": 7.1066666666666665,
+      "grad_norm": 0.563618540763855,
+      "learning_rate": 2.340543374414212e-05,
+      "loss": 0.0261,
+      "step": 10660
+    },
+    {
+      "epoch": 7.113333333333333,
+      "grad_norm": 0.12659993767738342,
+      "learning_rate": 2.3306974720646668e-05,
+      "loss": 0.0114,
+      "step": 10670
+    },
+    {
+      "epoch": 7.12,
+      "grad_norm": 0.4564799964427948,
+      "learning_rate": 2.3208660251050158e-05,
+      "loss": 0.0073,
+      "step": 10680
+    },
+    {
+      "epoch": 7.126666666666667,
+      "grad_norm": 0.7747268080711365,
+      "learning_rate": 2.3110490867766645e-05,
+      "loss": 0.0207,
+      "step": 10690
+    },
+    {
+      "epoch": 7.133333333333334,
+      "grad_norm": 0.8675358891487122,
+      "learning_rate": 2.3012467102424373e-05,
+      "loss": 0.017,
+      "step": 10700
+    },
+    {
+      "epoch": 7.133333333333334,
+      "eval_darija_finetune_val_loss": 1.474469780921936,
+      "eval_darija_finetune_val_runtime": 265.4592,
+      "eval_darija_finetune_val_samples_per_second": 3.767,
+      "eval_darija_finetune_val_steps_per_second": 1.884,
+      "step": 10700
+    },
+    {
+      "epoch": 7.14,
+      "grad_norm": 0.35858863592147827,
+      "learning_rate": 2.2914589485863014e-05,
+      "loss": 0.0091,
+      "step": 10710
+    },
+    {
+      "epoch": 7.1466666666666665,
+      "grad_norm": 0.06106061488389969,
+      "learning_rate": 2.2816858548130836e-05,
+      "loss": 0.0088,
+      "step": 10720
+    },
+    {
+      "epoch": 7.153333333333333,
+      "grad_norm": 3.338531017303467,
+      "learning_rate": 2.2719274818481767e-05,
+      "loss": 0.0165,
+      "step": 10730
+    },
+    {
+      "epoch": 7.16,
+      "grad_norm": 0.0803118348121643,
+      "learning_rate": 2.2621838825372493e-05,
+      "loss": 0.0099,
+      "step": 10740
+    },
+    {
+      "epoch": 7.166666666666667,
+      "grad_norm": 0.5640498399734497,
+      "learning_rate": 2.25245510964597e-05,
+      "loss": 0.008,
+      "step": 10750
+    },
+    {
+      "epoch": 7.173333333333334,
+      "grad_norm": 0.35814613103866577,
+      "learning_rate": 2.2427412158597132e-05,
+      "loss": 0.0224,
+      "step": 10760
+    },
+    {
+      "epoch": 7.18,
+      "grad_norm": 0.7000964879989624,
+      "learning_rate": 2.23304225378328e-05,
+      "loss": 0.0097,
+      "step": 10770
+    },
+    {
+      "epoch": 7.1866666666666665,
+      "grad_norm": 0.5090903639793396,
+      "learning_rate": 2.223358275940606e-05,
+      "loss": 0.0138,
+      "step": 10780
+    },
+    {
+      "epoch": 7.193333333333333,
+      "grad_norm": 0.5432352423667908,
+      "learning_rate": 2.2136893347744785e-05,
+      "loss": 0.0109,
+      "step": 10790
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 2.413524866104126,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.0198,
+      "step": 10800
+    },
+    {
+      "epoch": 7.2,
+      "eval_darija_finetune_val_loss": 1.4919685125350952,
+      "eval_darija_finetune_val_runtime": 257.168,
+      "eval_darija_finetune_val_samples_per_second": 3.889,
+      "eval_darija_finetune_val_steps_per_second": 1.944,
+      "step": 10800
+    },
+    {
+      "epoch": 7.206666666666667,
+      "grad_norm": 1.0743085145950317,
+      "learning_rate": 2.1943967718356122e-05,
+      "loss": 0.0107,
+      "step": 10810
+    },
+    {
+      "epoch": 7.213333333333333,
+      "grad_norm": 1.5545814037322998,
+      "learning_rate": 2.1847732545401687e-05,
+      "loss": 0.0171,
+      "step": 10820
+    },
+    {
+      "epoch": 7.22,
+      "grad_norm": 0.8275210857391357,
+      "learning_rate": 2.1751649828753106e-05,
+      "loss": 0.0117,
+      "step": 10830
+    },
+    {
+      "epoch": 7.226666666666667,
+      "grad_norm": 0.0738702192902565,
+      "learning_rate": 2.1655720088738453e-05,
+      "loss": 0.0213,
+      "step": 10840
+    },
+    {
+      "epoch": 7.233333333333333,
+      "grad_norm": 0.134023055434227,
+      "learning_rate": 2.1559943844857422e-05,
+      "loss": 0.0112,
+      "step": 10850
+    },
+    {
+      "epoch": 7.24,
+      "grad_norm": 0.48925071954727173,
+      "learning_rate": 2.1464321615778422e-05,
+      "loss": 0.0185,
+      "step": 10860
+    },
+    {
+      "epoch": 7.246666666666667,
+      "grad_norm": 0.8943356871604919,
+      "learning_rate": 2.1368853919335835e-05,
+      "loss": 0.0162,
+      "step": 10870
+    },
+    {
+      "epoch": 7.253333333333333,
+      "grad_norm": 0.0831894725561142,
+      "learning_rate": 2.1273541272527204e-05,
+      "loss": 0.0147,
+      "step": 10880
+    },
+    {
+      "epoch": 7.26,
+      "grad_norm": 0.1651422083377838,
+      "learning_rate": 2.117838419151034e-05,
+      "loss": 0.0122,
+      "step": 10890
+    },
+    {
+      "epoch": 7.266666666666667,
+      "grad_norm": 0.20411431789398193,
+      "learning_rate": 2.1083383191600674e-05,
+      "loss": 0.0159,
+      "step": 10900
+    },
+    {
+      "epoch": 7.266666666666667,
+      "eval_darija_finetune_val_loss": 1.4519089460372925,
+      "eval_darija_finetune_val_runtime": 250.5949,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.995,
+      "step": 10900
+    },
+    {
+      "epoch": 7.273333333333333,
+      "grad_norm": 0.7387892007827759,
+      "learning_rate": 2.0988538787268374e-05,
+      "loss": 0.0112,
+      "step": 10910
+    },
+    {
+      "epoch": 7.28,
+      "grad_norm": 0.1590908020734787,
+      "learning_rate": 2.0893851492135537e-05,
+      "loss": 0.0137,
+      "step": 10920
+    },
+    {
+      "epoch": 7.286666666666667,
+      "grad_norm": 0.5782284140586853,
+      "learning_rate": 2.079932181897349e-05,
+      "loss": 0.0202,
+      "step": 10930
+    },
+    {
+      "epoch": 7.293333333333333,
+      "grad_norm": 1.294769048690796,
+      "learning_rate": 2.0704950279699985e-05,
+      "loss": 0.0114,
+      "step": 10940
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 0.2845187187194824,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.0236,
+      "step": 10950
+    },
+    {
+      "epoch": 7.306666666666667,
+      "grad_norm": 0.20199687778949738,
+      "learning_rate": 2.0516683646204837e-05,
+      "loss": 0.0112,
+      "step": 10960
+    },
+    {
+      "epoch": 7.3133333333333335,
+      "grad_norm": 0.5802366733551025,
+      "learning_rate": 2.0422789571525812e-05,
+      "loss": 0.0169,
+      "step": 10970
+    },
+    {
+      "epoch": 7.32,
+      "grad_norm": 0.3581444323062897,
+      "learning_rate": 2.0329055669814934e-05,
+      "loss": 0.0083,
+      "step": 10980
+    },
+    {
+      "epoch": 7.326666666666666,
+      "grad_norm": 0.4833220839500427,
+      "learning_rate": 2.0235482448680508e-05,
+      "loss": 0.0192,
+      "step": 10990
+    },
+    {
+      "epoch": 7.333333333333333,
+      "grad_norm": 1.8665688037872314,
+      "learning_rate": 2.0142070414860704e-05,
+      "loss": 0.0108,
+      "step": 11000
+    },
+    {
+      "epoch": 7.333333333333333,
+      "eval_darija_finetune_val_loss": 1.4639713764190674,
+      "eval_darija_finetune_val_runtime": 250.2383,
+      "eval_darija_finetune_val_samples_per_second": 3.996,
+      "eval_darija_finetune_val_steps_per_second": 1.998,
+      "step": 11000
+    },
+    {
+      "epoch": 7.34,
+      "grad_norm": 0.6149994134902954,
+      "learning_rate": 2.0048820074220715e-05,
+      "loss": 0.0153,
+      "step": 11010
+    },
+    {
+      "epoch": 7.346666666666667,
+      "grad_norm": 0.17923642694950104,
+      "learning_rate": 1.995573193175018e-05,
+      "loss": 0.0117,
+      "step": 11020
+    },
+    {
+      "epoch": 7.3533333333333335,
+      "grad_norm": 1.4560751914978027,
+      "learning_rate": 1.9862806491560316e-05,
+      "loss": 0.0154,
+      "step": 11030
+    },
+    {
+      "epoch": 7.36,
+      "grad_norm": 0.9625307321548462,
+      "learning_rate": 1.977004425688126e-05,
+      "loss": 0.0125,
+      "step": 11040
+    },
+    {
+      "epoch": 7.366666666666666,
+      "grad_norm": 0.9499362707138062,
+      "learning_rate": 1.9677445730059346e-05,
+      "loss": 0.0069,
+      "step": 11050
+    },
+    {
+      "epoch": 7.373333333333333,
+      "grad_norm": 0.4464150667190552,
+      "learning_rate": 1.958501141255427e-05,
+      "loss": 0.0149,
+      "step": 11060
+    },
+    {
+      "epoch": 7.38,
+      "grad_norm": 0.742856502532959,
+      "learning_rate": 1.9492741804936622e-05,
+      "loss": 0.0214,
+      "step": 11070
+    },
+    {
+      "epoch": 7.386666666666667,
+      "grad_norm": 1.2604210376739502,
+      "learning_rate": 1.9400637406884876e-05,
+      "loss": 0.0085,
+      "step": 11080
+    },
+    {
+      "epoch": 7.3933333333333335,
+      "grad_norm": 0.2106940597295761,
+      "learning_rate": 1.9308698717182873e-05,
+      "loss": 0.0202,
+      "step": 11090
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 0.34856340289115906,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.0168,
+      "step": 11100
+    },
+    {
+      "epoch": 7.4,
+      "eval_darija_finetune_val_loss": 1.4535713195800781,
+      "eval_darija_finetune_val_runtime": 250.6135,
+      "eval_darija_finetune_val_samples_per_second": 3.99,
+      "eval_darija_finetune_val_steps_per_second": 1.995,
+      "step": 11100
+    },
+    {
+      "epoch": 7.406666666666666,
+      "grad_norm": 1.3091719150543213,
+      "learning_rate": 1.912532045347392e-05,
+      "loss": 0.0106,
+      "step": 11110
+    },
+    {
+      "epoch": 7.413333333333333,
+      "grad_norm": 0.11175484955310822,
+      "learning_rate": 1.9033881872537006e-05,
+      "loss": 0.0094,
+      "step": 11120
+    },
+    {
+      "epoch": 7.42,
+      "grad_norm": 0.22422368824481964,
+      "learning_rate": 1.8942610986084486e-05,
+      "loss": 0.0106,
+      "step": 11130
+    },
+    {
+      "epoch": 7.426666666666667,
+      "grad_norm": 1.4672881364822388,
+      "learning_rate": 1.88515082883864e-05,
+      "loss": 0.0176,
+      "step": 11140
+    },
+    {
+      "epoch": 7.433333333333334,
+      "grad_norm": 0.8831882476806641,
+      "learning_rate": 1.8760574272802e-05,
+      "loss": 0.0148,
+      "step": 11150
+    },
+    {
+      "epoch": 7.44,
+      "grad_norm": 0.6916608214378357,
+      "learning_rate": 1.866980943177699e-05,
+      "loss": 0.0096,
+      "step": 11160
+    },
+    {
+      "epoch": 7.446666666666666,
+      "grad_norm": 0.1393132507801056,
+      "learning_rate": 1.8579214256840937e-05,
+      "loss": 0.0192,
+      "step": 11170
+    },
+    {
+      "epoch": 7.453333333333333,
+      "grad_norm": 0.37859782576560974,
+      "learning_rate": 1.8488789238604677e-05,
+      "loss": 0.0091,
+      "step": 11180
+    },
+    {
+      "epoch": 7.46,
+      "grad_norm": 0.7181972861289978,
+      "learning_rate": 1.8398534866757454e-05,
+      "loss": 0.0172,
+      "step": 11190
+    },
+    {
+      "epoch": 7.466666666666667,
+      "grad_norm": 0.41773903369903564,
+      "learning_rate": 1.8308451630064484e-05,
+      "loss": 0.0148,
+      "step": 11200
+    },
+    {
+      "epoch": 7.466666666666667,
+      "eval_darija_finetune_val_loss": 1.4723854064941406,
+      "eval_darija_finetune_val_runtime": 265.447,
+      "eval_darija_finetune_val_samples_per_second": 3.767,
+      "eval_darija_finetune_val_steps_per_second": 1.884,
+      "step": 11200
+    },
+    {
+      "epoch": 7.473333333333334,
+      "grad_norm": 0.9690839648246765,
+      "learning_rate": 1.8218540016364176e-05,
+      "loss": 0.0117,
+      "step": 11210
+    },
+    {
+      "epoch": 7.48,
+      "grad_norm": 0.2838076949119568,
+      "learning_rate": 1.8128800512565513e-05,
+      "loss": 0.007,
+      "step": 11220
+    },
+    {
+      "epoch": 7.486666666666666,
+      "grad_norm": 0.280867338180542,
+      "learning_rate": 1.8039233604645466e-05,
+      "loss": 0.0102,
+      "step": 11230
+    },
+    {
+      "epoch": 7.493333333333333,
+      "grad_norm": 0.3091605305671692,
+      "learning_rate": 1.7949839777646328e-05,
+      "loss": 0.0106,
+      "step": 11240
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 0.2149946391582489,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.0104,
+      "step": 11250
+    },
+    {
+      "epoch": 7.506666666666667,
+      "grad_norm": 0.1450308859348297,
+      "learning_rate": 1.7771573301890664e-05,
+      "loss": 0.0136,
+      "step": 11260
+    },
+    {
+      "epoch": 7.513333333333334,
+      "grad_norm": 0.5702688097953796,
+      "learning_rate": 1.7682701618521685e-05,
+      "loss": 0.0094,
+      "step": 11270
+    },
+    {
+      "epoch": 7.52,
+      "grad_norm": 0.4627874791622162,
+      "learning_rate": 1.7594004946843456e-05,
+      "loss": 0.0146,
+      "step": 11280
+    },
+    {
+      "epoch": 7.526666666666666,
+      "grad_norm": 0.49083375930786133,
+      "learning_rate": 1.750548376718558e-05,
+      "loss": 0.0276,
+      "step": 11290
+    },
+    {
+      "epoch": 7.533333333333333,
+      "grad_norm": 0.3530993163585663,
+      "learning_rate": 1.7417138558927244e-05,
+      "loss": 0.0173,
+      "step": 11300
+    },
+    {
+      "epoch": 7.533333333333333,
+      "eval_darija_finetune_val_loss": 1.4827287197113037,
+      "eval_darija_finetune_val_runtime": 250.5472,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 11300
+    },
+    {
+      "epoch": 7.54,
+      "grad_norm": 0.7300192713737488,
+      "learning_rate": 1.7328969800494726e-05,
+      "loss": 0.0114,
+      "step": 11310
+    },
+    {
+      "epoch": 7.546666666666667,
+      "grad_norm": 0.5650764107704163,
+      "learning_rate": 1.7240977969358756e-05,
+      "loss": 0.0109,
+      "step": 11320
+    },
+    {
+      "epoch": 7.553333333333334,
+      "grad_norm": 0.7303014397621155,
+      "learning_rate": 1.715316354203188e-05,
+      "loss": 0.0128,
+      "step": 11330
+    },
+    {
+      "epoch": 7.5600000000000005,
+      "grad_norm": 1.3529999256134033,
+      "learning_rate": 1.7065526994065973e-05,
+      "loss": 0.0119,
+      "step": 11340
+    },
+    {
+      "epoch": 7.566666666666666,
+      "grad_norm": 0.5838479399681091,
+      "learning_rate": 1.6978068800049624e-05,
+      "loss": 0.0123,
+      "step": 11350
+    },
+    {
+      "epoch": 7.573333333333333,
+      "grad_norm": 0.41113483905792236,
+      "learning_rate": 1.6890789433605508e-05,
+      "loss": 0.0095,
+      "step": 11360
+    },
+    {
+      "epoch": 7.58,
+      "grad_norm": 0.3789176940917969,
+      "learning_rate": 1.680368936738792e-05,
+      "loss": 0.0123,
+      "step": 11370
+    },
+    {
+      "epoch": 7.586666666666667,
+      "grad_norm": 0.16640841960906982,
+      "learning_rate": 1.671676907308018e-05,
+      "loss": 0.0147,
+      "step": 11380
+    },
+    {
+      "epoch": 7.593333333333334,
+      "grad_norm": 0.3992992043495178,
+      "learning_rate": 1.6630029021392008e-05,
+      "loss": 0.0131,
+      "step": 11390
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 0.22906959056854248,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 0.0113,
+      "step": 11400
+    },
+    {
+      "epoch": 7.6,
+      "eval_darija_finetune_val_loss": 1.4704524278640747,
+      "eval_darija_finetune_val_runtime": 250.4598,
+      "eval_darija_finetune_val_samples_per_second": 3.993,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 11400
+    },
+    {
+      "epoch": 7.6066666666666665,
+      "grad_norm": 0.9592879414558411,
+      "learning_rate": 1.6457091523830458e-05,
+      "loss": 0.0101,
+      "step": 11410
+    },
+    {
+      "epoch": 7.613333333333333,
+      "grad_norm": 0.16911837458610535,
+      "learning_rate": 1.6370895014485997e-05,
+      "loss": 0.0111,
+      "step": 11420
+    },
+    {
+      "epoch": 7.62,
+      "grad_norm": 1.1758335828781128,
+      "learning_rate": 1.6284880620813848e-05,
+      "loss": 0.0286,
+      "step": 11430
+    },
+    {
+      "epoch": 7.626666666666667,
+      "grad_norm": 1.1936180591583252,
+      "learning_rate": 1.6199048808617896e-05,
+      "loss": 0.0191,
+      "step": 11440
+    },
+    {
+      "epoch": 7.633333333333333,
+      "grad_norm": 0.5314960479736328,
+      "learning_rate": 1.611340004271339e-05,
+      "loss": 0.0119,
+      "step": 11450
+    },
+    {
+      "epoch": 7.64,
+      "grad_norm": 1.3258557319641113,
+      "learning_rate": 1.602793478692419e-05,
+      "loss": 0.0087,
+      "step": 11460
+    },
+    {
+      "epoch": 7.6466666666666665,
+      "grad_norm": 0.5103572010993958,
+      "learning_rate": 1.594265350408039e-05,
+      "loss": 0.0123,
+      "step": 11470
+    },
+    {
+      "epoch": 7.653333333333333,
+      "grad_norm": 0.4195655286312103,
+      "learning_rate": 1.585755665601584e-05,
+      "loss": 0.0106,
+      "step": 11480
+    },
+    {
+      "epoch": 7.66,
+      "grad_norm": 0.40997862815856934,
+      "learning_rate": 1.5772644703565565e-05,
+      "loss": 0.0153,
+      "step": 11490
+    },
+    {
+      "epoch": 7.666666666666667,
+      "grad_norm": 0.27691975235939026,
+      "learning_rate": 1.5687918106563326e-05,
+      "loss": 0.0105,
+      "step": 11500
+    },
+    {
+      "epoch": 7.666666666666667,
+      "eval_darija_finetune_val_loss": 1.4966390132904053,
+      "eval_darija_finetune_val_runtime": 250.3342,
+      "eval_darija_finetune_val_samples_per_second": 3.995,
+      "eval_darija_finetune_val_steps_per_second": 1.997,
+      "step": 11500
+    },
+    {
+      "epoch": 7.673333333333334,
+      "grad_norm": 0.6267826557159424,
+      "learning_rate": 1.560337732383907e-05,
+      "loss": 0.014,
+      "step": 11510
+    },
+    {
+      "epoch": 7.68,
+      "grad_norm": 0.6017012000083923,
+      "learning_rate": 1.551902281321651e-05,
+      "loss": 0.0104,
+      "step": 11520
+    },
+    {
+      "epoch": 7.6866666666666665,
+      "grad_norm": 0.043926652520895004,
+      "learning_rate": 1.5434855031510626e-05,
+      "loss": 0.0087,
+      "step": 11530
+    },
+    {
+      "epoch": 7.693333333333333,
+      "grad_norm": 2.0500335693359375,
+      "learning_rate": 1.5350874434525142e-05,
+      "loss": 0.0079,
+      "step": 11540
+    },
+    {
+      "epoch": 7.7,
+      "grad_norm": 1.1792404651641846,
+      "learning_rate": 1.526708147705013e-05,
+      "loss": 0.0137,
+      "step": 11550
+    },
+    {
+      "epoch": 7.706666666666667,
+      "grad_norm": 0.627058744430542,
+      "learning_rate": 1.5183476612859538e-05,
+      "loss": 0.0095,
+      "step": 11560
+    },
+    {
+      "epoch": 7.713333333333333,
+      "grad_norm": 1.0945696830749512,
+      "learning_rate": 1.5100060294708646e-05,
+      "loss": 0.0174,
+      "step": 11570
+    },
+    {
+      "epoch": 7.72,
+      "grad_norm": 0.16005145013332367,
+      "learning_rate": 1.5016832974331724e-05,
+      "loss": 0.0162,
+      "step": 11580
+    },
+    {
+      "epoch": 7.726666666666667,
+      "grad_norm": 1.351417899131775,
+      "learning_rate": 1.4933795102439557e-05,
+      "loss": 0.0116,
+      "step": 11590
+    },
+    {
+      "epoch": 7.733333333333333,
+      "grad_norm": 3.7795872688293457,
+      "learning_rate": 1.4850947128716913e-05,
+      "loss": 0.019,
+      "step": 11600
+    },
+    {
+      "epoch": 7.733333333333333,
+      "eval_darija_finetune_val_loss": 1.4956837892532349,
+      "eval_darija_finetune_val_runtime": 265.2786,
+      "eval_darija_finetune_val_samples_per_second": 3.77,
+      "eval_darija_finetune_val_steps_per_second": 1.885,
+      "step": 11600
+    },
+    {
+      "epoch": 7.74,
+      "grad_norm": 0.523195743560791,
+      "learning_rate": 1.4768289501820265e-05,
+      "loss": 0.0167,
+      "step": 11610
+    },
+    {
+      "epoch": 7.746666666666667,
+      "grad_norm": 0.13515359163284302,
+      "learning_rate": 1.4685822669375238e-05,
+      "loss": 0.0156,
+      "step": 11620
+    },
+    {
+      "epoch": 7.753333333333333,
+      "grad_norm": 0.2541927695274353,
+      "learning_rate": 1.4603547077974216e-05,
+      "loss": 0.0042,
+      "step": 11630
+    },
+    {
+      "epoch": 7.76,
+      "grad_norm": 0.8858708143234253,
+      "learning_rate": 1.4521463173173965e-05,
+      "loss": 0.0136,
+      "step": 11640
+    },
+    {
+      "epoch": 7.766666666666667,
+      "grad_norm": 0.6197282075881958,
+      "learning_rate": 1.4439571399493146e-05,
+      "loss": 0.0117,
+      "step": 11650
+    },
+    {
+      "epoch": 7.773333333333333,
+      "grad_norm": 0.4577317535877228,
+      "learning_rate": 1.4357872200409988e-05,
+      "loss": 0.0114,
+      "step": 11660
+    },
+    {
+      "epoch": 7.78,
+      "grad_norm": 0.6005869507789612,
+      "learning_rate": 1.4276366018359844e-05,
+      "loss": 0.0174,
+      "step": 11670
+    },
+    {
+      "epoch": 7.786666666666667,
+      "grad_norm": 0.8898574113845825,
+      "learning_rate": 1.4195053294732758e-05,
+      "loss": 0.0114,
+      "step": 11680
+    },
+    {
+      "epoch": 7.793333333333333,
+      "grad_norm": 0.09638239443302155,
+      "learning_rate": 1.4113934469871165e-05,
+      "loss": 0.0229,
+      "step": 11690
+    },
+    {
+      "epoch": 7.8,
+      "grad_norm": 0.20493578910827637,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 0.0106,
+      "step": 11700
+    },
+    {
+      "epoch": 7.8,
+      "eval_darija_finetune_val_loss": 1.4410459995269775,
+      "eval_darija_finetune_val_runtime": 250.9783,
+      "eval_darija_finetune_val_samples_per_second": 3.984,
+      "eval_darija_finetune_val_steps_per_second": 1.992,
+      "step": 11700
+    },
+    {
+      "epoch": 7.806666666666667,
+      "grad_norm": 0.2332812249660492,
+      "learning_rate": 1.395228027256154e-05,
+      "loss": 0.0081,
+      "step": 11710
+    },
+    {
+      "epoch": 7.8133333333333335,
+      "grad_norm": 0.31493258476257324,
+      "learning_rate": 1.3871745775538597e-05,
+      "loss": 0.0102,
+      "step": 11720
+    },
+    {
+      "epoch": 7.82,
+      "grad_norm": 0.13378724455833435,
+      "learning_rate": 1.3791406928126638e-05,
+      "loss": 0.0128,
+      "step": 11730
+    },
+    {
+      "epoch": 7.826666666666666,
+      "grad_norm": 0.0796724408864975,
+      "learning_rate": 1.371126416539409e-05,
+      "loss": 0.0106,
+      "step": 11740
+    },
+    {
+      "epoch": 7.833333333333333,
+      "grad_norm": 0.1401483565568924,
+      "learning_rate": 1.3631317921347563e-05,
+      "loss": 0.02,
+      "step": 11750
+    },
+    {
+      "epoch": 7.84,
+      "grad_norm": 1.003839373588562,
+      "learning_rate": 1.3551568628929434e-05,
+      "loss": 0.0157,
+      "step": 11760
+    },
+    {
+      "epoch": 7.846666666666667,
+      "grad_norm": 0.7491680979728699,
+      "learning_rate": 1.3472016720015445e-05,
+      "loss": 0.0277,
+      "step": 11770
+    },
+    {
+      "epoch": 7.8533333333333335,
+      "grad_norm": 0.18377631902694702,
+      "learning_rate": 1.3392662625412488e-05,
+      "loss": 0.0113,
+      "step": 11780
+    },
+    {
+      "epoch": 7.86,
+      "grad_norm": 0.5623847246170044,
+      "learning_rate": 1.3313506774856177e-05,
+      "loss": 0.0093,
+      "step": 11790
+    },
+    {
+      "epoch": 7.866666666666667,
+      "grad_norm": 0.22527731955051422,
+      "learning_rate": 1.3234549597008571e-05,
+      "loss": 0.0133,
+      "step": 11800
+    },
+    {
+      "epoch": 7.866666666666667,
+      "eval_darija_finetune_val_loss": 1.4556713104248047,
+      "eval_darija_finetune_val_runtime": 250.5414,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 11800
+    },
+    {
+      "epoch": 7.873333333333333,
+      "grad_norm": 3.9331328868865967,
+      "learning_rate": 1.3155791519455812e-05,
+      "loss": 0.0137,
+      "step": 11810
+    },
+    {
+      "epoch": 7.88,
+      "grad_norm": 0.8482990264892578,
+      "learning_rate": 1.3077232968705805e-05,
+      "loss": 0.008,
+      "step": 11820
+    },
+    {
+      "epoch": 7.886666666666667,
+      "grad_norm": 0.1828973889350891,
+      "learning_rate": 1.2998874370186026e-05,
+      "loss": 0.0193,
+      "step": 11830
+    },
+    {
+      "epoch": 7.8933333333333335,
+      "grad_norm": 0.5119267106056213,
+      "learning_rate": 1.2920716148241035e-05,
+      "loss": 0.0216,
+      "step": 11840
+    },
+    {
+      "epoch": 7.9,
+      "grad_norm": 0.7971997261047363,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 0.0145,
+      "step": 11850
+    },
+    {
+      "epoch": 7.906666666666666,
+      "grad_norm": 0.6649556159973145,
+      "learning_rate": 1.276500252602587e-05,
+      "loss": 0.007,
+      "step": 11860
+    },
+    {
+      "epoch": 7.913333333333333,
+      "grad_norm": 0.7500569224357605,
+      "learning_rate": 1.2687447969010113e-05,
+      "loss": 0.008,
+      "step": 11870
+    },
+    {
+      "epoch": 7.92,
+      "grad_norm": 0.4853861629962921,
+      "learning_rate": 1.2610095475073414e-05,
+      "loss": 0.0125,
+      "step": 11880
+    },
+    {
+      "epoch": 7.926666666666667,
+      "grad_norm": 0.07684378325939178,
+      "learning_rate": 1.2532945463111855e-05,
+      "loss": 0.0064,
+      "step": 11890
+    },
+    {
+      "epoch": 7.933333333333334,
+      "grad_norm": 0.400642991065979,
+      "learning_rate": 1.245599835092504e-05,
+      "loss": 0.0123,
+      "step": 11900
+    },
+    {
+      "epoch": 7.933333333333334,
+      "eval_darija_finetune_val_loss": 1.4704902172088623,
+      "eval_darija_finetune_val_runtime": 250.4039,
+      "eval_darija_finetune_val_samples_per_second": 3.994,
+      "eval_darija_finetune_val_steps_per_second": 1.997,
+      "step": 11900
+    },
+    {
+      "epoch": 7.9399999999999995,
+      "grad_norm": 1.0983566045761108,
+      "learning_rate": 1.2379254555213788e-05,
+      "loss": 0.0173,
+      "step": 11910
+    },
+    {
+      "epoch": 7.946666666666666,
+      "grad_norm": 1.0410782098770142,
+      "learning_rate": 1.2302714491577832e-05,
+      "loss": 0.0088,
+      "step": 11920
+    },
+    {
+      "epoch": 7.953333333333333,
+      "grad_norm": 1.0373562574386597,
+      "learning_rate": 1.2226378574513653e-05,
+      "loss": 0.0176,
+      "step": 11930
+    },
+    {
+      "epoch": 7.96,
+      "grad_norm": 0.38929957151412964,
+      "learning_rate": 1.2150247217412186e-05,
+      "loss": 0.0091,
+      "step": 11940
+    },
+    {
+      "epoch": 7.966666666666667,
+      "grad_norm": 0.13650855422019958,
+      "learning_rate": 1.2074320832556556e-05,
+      "loss": 0.0135,
+      "step": 11950
+    },
+    {
+      "epoch": 7.973333333333334,
+      "grad_norm": 0.12430144846439362,
+      "learning_rate": 1.1998599831119912e-05,
+      "loss": 0.0249,
+      "step": 11960
+    },
+    {
+      "epoch": 7.98,
+      "grad_norm": 2.9459192752838135,
+      "learning_rate": 1.1923084623163172e-05,
+      "loss": 0.0217,
+      "step": 11970
+    },
+    {
+      "epoch": 7.986666666666666,
+      "grad_norm": 0.2195548564195633,
+      "learning_rate": 1.1847775617632744e-05,
+      "loss": 0.0082,
+      "step": 11980
+    },
+    {
+      "epoch": 7.993333333333333,
+      "grad_norm": 0.18355263769626617,
+      "learning_rate": 1.1772673222358422e-05,
+      "loss": 0.0322,
+      "step": 11990
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.2263121604919434,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 0.0161,
+      "step": 12000
+    },
+    {
+      "epoch": 8.0,
+      "eval_darija_finetune_val_loss": 1.4245766401290894,
+      "eval_darija_finetune_val_runtime": 265.9131,
+      "eval_darija_finetune_val_samples_per_second": 3.761,
+      "eval_darija_finetune_val_steps_per_second": 1.88,
+      "step": 12000
+    },
+    {
+      "epoch": 8.006666666666666,
+      "grad_norm": 0.08609981834888458,
+      "learning_rate": 1.162308988830057e-05,
+      "loss": 0.0085,
+      "step": 12010
+    },
+    {
+      "epoch": 8.013333333333334,
+      "grad_norm": 0.17070208489894867,
+      "learning_rate": 1.1548609759573376e-05,
+      "loss": 0.0049,
+      "step": 12020
+    },
+    {
+      "epoch": 8.02,
+      "grad_norm": 0.07406102120876312,
+      "learning_rate": 1.1474337861210543e-05,
+      "loss": 0.0084,
+      "step": 12030
+    },
+    {
+      "epoch": 8.026666666666667,
+      "grad_norm": 0.33377769589424133,
+      "learning_rate": 1.1400274595425497e-05,
+      "loss": 0.0122,
+      "step": 12040
+    },
+    {
+      "epoch": 8.033333333333333,
+      "grad_norm": 0.09024637937545776,
+      "learning_rate": 1.132642036330181e-05,
+      "loss": 0.0043,
+      "step": 12050
+    },
+    {
+      "epoch": 8.04,
+      "grad_norm": 0.07344413548707962,
+      "learning_rate": 1.1252775564791024e-05,
+      "loss": 0.0038,
+      "step": 12060
+    },
+    {
+      "epoch": 8.046666666666667,
+      "grad_norm": 0.05278643220663071,
+      "learning_rate": 1.1179340598710547e-05,
+      "loss": 0.0038,
+      "step": 12070
+    },
+    {
+      "epoch": 8.053333333333333,
+      "grad_norm": 0.057049963623285294,
+      "learning_rate": 1.1106115862741456e-05,
+      "loss": 0.0022,
+      "step": 12080
+    },
+    {
+      "epoch": 8.06,
+      "grad_norm": 0.3770892024040222,
+      "learning_rate": 1.1033101753426283e-05,
+      "loss": 0.0076,
+      "step": 12090
+    },
+    {
+      "epoch": 8.066666666666666,
+      "grad_norm": 0.07745039463043213,
+      "learning_rate": 1.096029866616704e-05,
+      "loss": 0.0058,
+      "step": 12100
+    },
+    {
+      "epoch": 8.066666666666666,
+      "eval_darija_finetune_val_loss": 1.4896591901779175,
+      "eval_darija_finetune_val_runtime": 251.731,
+      "eval_darija_finetune_val_samples_per_second": 3.972,
+      "eval_darija_finetune_val_steps_per_second": 1.986,
+      "step": 12100
+    },
+    {
+      "epoch": 8.073333333333334,
+      "grad_norm": 0.05681150034070015,
+      "learning_rate": 1.0887706995222863e-05,
+      "loss": 0.0121,
+      "step": 12110
+    },
+    {
+      "epoch": 8.08,
+      "grad_norm": 0.2378658503293991,
+      "learning_rate": 1.0815327133708015e-05,
+      "loss": 0.0079,
+      "step": 12120
+    },
+    {
+      "epoch": 8.086666666666666,
+      "grad_norm": 0.39461803436279297,
+      "learning_rate": 1.0743159473589736e-05,
+      "loss": 0.0029,
+      "step": 12130
+    },
+    {
+      "epoch": 8.093333333333334,
+      "grad_norm": 0.05840815603733063,
+      "learning_rate": 1.0671204405686108e-05,
+      "loss": 0.0029,
+      "step": 12140
+    },
+    {
+      "epoch": 8.1,
+      "grad_norm": 0.4522372782230377,
+      "learning_rate": 1.0599462319663905e-05,
+      "loss": 0.0041,
+      "step": 12150
+    },
+    {
+      "epoch": 8.106666666666667,
+      "grad_norm": 0.15236909687519073,
+      "learning_rate": 1.052793360403655e-05,
+      "loss": 0.0022,
+      "step": 12160
+    },
+    {
+      "epoch": 8.113333333333333,
+      "grad_norm": 0.7041260600090027,
+      "learning_rate": 1.0456618646161954e-05,
+      "loss": 0.0072,
+      "step": 12170
+    },
+    {
+      "epoch": 8.12,
+      "grad_norm": 0.1901869773864746,
+      "learning_rate": 1.0385517832240471e-05,
+      "loss": 0.0059,
+      "step": 12180
+    },
+    {
+      "epoch": 8.126666666666667,
+      "grad_norm": 0.18194204568862915,
+      "learning_rate": 1.0314631547312737e-05,
+      "loss": 0.0037,
+      "step": 12190
+    },
+    {
+      "epoch": 8.133333333333333,
+      "grad_norm": 0.0764666423201561,
+      "learning_rate": 1.0243960175257606e-05,
+      "loss": 0.0032,
+      "step": 12200
+    },
+    {
+      "epoch": 8.133333333333333,
+      "eval_darija_finetune_val_loss": 1.561044454574585,
+      "eval_darija_finetune_val_runtime": 250.6353,
+      "eval_darija_finetune_val_samples_per_second": 3.99,
+      "eval_darija_finetune_val_steps_per_second": 1.995,
+      "step": 12200
+    },
+    {
+      "epoch": 8.14,
+      "grad_norm": 0.21180236339569092,
+      "learning_rate": 1.0173504098790187e-05,
+      "loss": 0.0047,
+      "step": 12210
+    },
+    {
+      "epoch": 8.146666666666667,
+      "grad_norm": 0.10165326297283173,
+      "learning_rate": 1.010326369945957e-05,
+      "loss": 0.0074,
+      "step": 12220
+    },
+    {
+      "epoch": 8.153333333333332,
+      "grad_norm": 0.3362244665622711,
+      "learning_rate": 1.0033239357646912e-05,
+      "loss": 0.0059,
+      "step": 12230
+    },
+    {
+      "epoch": 8.16,
+      "grad_norm": 0.06367061287164688,
+      "learning_rate": 9.963431452563332e-06,
+      "loss": 0.0103,
+      "step": 12240
+    },
+    {
+      "epoch": 8.166666666666666,
+      "grad_norm": 0.3550460934638977,
+      "learning_rate": 9.893840362247809e-06,
+      "loss": 0.005,
+      "step": 12250
+    },
+    {
+      "epoch": 8.173333333333334,
+      "grad_norm": 0.18271596729755402,
+      "learning_rate": 9.824466463565246e-06,
+      "loss": 0.0029,
+      "step": 12260
+    },
+    {
+      "epoch": 8.18,
+      "grad_norm": 0.04875782132148743,
+      "learning_rate": 9.755310132204298e-06,
+      "loss": 0.0027,
+      "step": 12270
+    },
+    {
+      "epoch": 8.186666666666667,
+      "grad_norm": 0.4754827916622162,
+      "learning_rate": 9.686371742675442e-06,
+      "loss": 0.0048,
+      "step": 12280
+    },
+    {
+      "epoch": 8.193333333333333,
+      "grad_norm": 0.04321402683854103,
+      "learning_rate": 9.617651668308913e-06,
+      "loss": 0.0019,
+      "step": 12290
+    },
+    {
+      "epoch": 8.2,
+      "grad_norm": 0.06353393942117691,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.0076,
+      "step": 12300
+    },
+    {
+      "epoch": 8.2,
+      "eval_darija_finetune_val_loss": 1.5893007516860962,
+      "eval_darija_finetune_val_runtime": 250.6104,
+      "eval_darija_finetune_val_samples_per_second": 3.99,
+      "eval_darija_finetune_val_steps_per_second": 1.995,
+      "step": 12300
+    },
+    {
+      "epoch": 8.206666666666667,
+      "grad_norm": 0.2754848003387451,
+      "learning_rate": 9.480867952470284e-06,
+      "loss": 0.0042,
+      "step": 12310
+    },
+    {
+      "epoch": 8.213333333333333,
+      "grad_norm": 0.4728236794471741,
+      "learning_rate": 9.412805051739265e-06,
+      "loss": 0.0055,
+      "step": 12320
+    },
+    {
+      "epoch": 8.22,
+      "grad_norm": 0.8028184771537781,
+      "learning_rate": 9.344961947648623e-06,
+      "loss": 0.0061,
+      "step": 12330
+    },
+    {
+      "epoch": 8.226666666666667,
+      "grad_norm": 0.17571142315864563,
+      "learning_rate": 9.277339007597157e-06,
+      "loss": 0.0089,
+      "step": 12340
+    },
+    {
+      "epoch": 8.233333333333333,
+      "grad_norm": 0.05168858915567398,
+      "learning_rate": 9.209936597791407e-06,
+      "loss": 0.0033,
+      "step": 12350
+    },
+    {
+      "epoch": 8.24,
+      "grad_norm": 0.1291073113679886,
+      "learning_rate": 9.142755083243576e-06,
+      "loss": 0.0053,
+      "step": 12360
+    },
+    {
+      "epoch": 8.246666666666666,
+      "grad_norm": 0.37406083941459656,
+      "learning_rate": 9.075794827769696e-06,
+      "loss": 0.0054,
+      "step": 12370
+    },
+    {
+      "epoch": 8.253333333333334,
+      "grad_norm": 0.31437385082244873,
+      "learning_rate": 9.00905619398757e-06,
+      "loss": 0.0041,
+      "step": 12380
+    },
+    {
+      "epoch": 8.26,
+      "grad_norm": 0.4166501462459564,
+      "learning_rate": 8.9425395433148e-06,
+      "loss": 0.0039,
+      "step": 12390
+    },
+    {
+      "epoch": 8.266666666666667,
+      "grad_norm": 0.07990922778844833,
+      "learning_rate": 8.876245235966885e-06,
+      "loss": 0.0035,
+      "step": 12400
+    },
+    {
+      "epoch": 8.266666666666667,
+      "eval_darija_finetune_val_loss": 1.6011133193969727,
+      "eval_darija_finetune_val_runtime": 264.9364,
+      "eval_darija_finetune_val_samples_per_second": 3.774,
+      "eval_darija_finetune_val_steps_per_second": 1.887,
+      "step": 12400
+    },
+    {
+      "epoch": 8.273333333333333,
+      "grad_norm": 0.09283588826656342,
+      "learning_rate": 8.81017363095525e-06,
+      "loss": 0.0063,
+      "step": 12410
+    },
+    {
+      "epoch": 8.28,
+      "grad_norm": 0.20738175511360168,
+      "learning_rate": 8.744325086085248e-06,
+      "loss": 0.0088,
+      "step": 12420
+    },
+    {
+      "epoch": 8.286666666666667,
+      "grad_norm": 0.4497198164463043,
+      "learning_rate": 8.678699957954323e-06,
+      "loss": 0.0044,
+      "step": 12430
+    },
+    {
+      "epoch": 8.293333333333333,
+      "grad_norm": 1.2163628339767456,
+      "learning_rate": 8.61329860194997e-06,
+      "loss": 0.0049,
+      "step": 12440
+    },
+    {
+      "epoch": 8.3,
+      "grad_norm": 0.05014641582965851,
+      "learning_rate": 8.548121372247918e-06,
+      "loss": 0.0085,
+      "step": 12450
+    },
+    {
+      "epoch": 8.306666666666667,
+      "grad_norm": 0.11638117581605911,
+      "learning_rate": 8.483168621810134e-06,
+      "loss": 0.0037,
+      "step": 12460
+    },
+    {
+      "epoch": 8.313333333333333,
+      "grad_norm": 0.06613584607839584,
+      "learning_rate": 8.418440702382896e-06,
+      "loss": 0.0043,
+      "step": 12470
+    },
+    {
+      "epoch": 8.32,
+      "grad_norm": 0.09914179146289825,
+      "learning_rate": 8.353937964495029e-06,
+      "loss": 0.0033,
+      "step": 12480
+    },
+    {
+      "epoch": 8.326666666666666,
+      "grad_norm": 0.27168866991996765,
+      "learning_rate": 8.289660757455803e-06,
+      "loss": 0.0022,
+      "step": 12490
+    },
+    {
+      "epoch": 8.333333333333334,
+      "grad_norm": 1.2782204151153564,
+      "learning_rate": 8.225609429353187e-06,
+      "loss": 0.0074,
+      "step": 12500
+    },
+    {
+      "epoch": 8.333333333333334,
+      "eval_darija_finetune_val_loss": 1.6022087335586548,
+      "eval_darija_finetune_val_runtime": 258.2443,
+      "eval_darija_finetune_val_samples_per_second": 3.872,
+      "eval_darija_finetune_val_steps_per_second": 1.936,
+      "step": 12500
+    },
+    {
+      "epoch": 8.34,
+      "grad_norm": 0.47283756732940674,
+      "learning_rate": 8.16178432705192e-06,
+      "loss": 0.0036,
+      "step": 12510
+    },
+    {
+      "epoch": 8.346666666666668,
+      "grad_norm": 0.04406055435538292,
+      "learning_rate": 8.098185796191631e-06,
+      "loss": 0.0038,
+      "step": 12520
+    },
+    {
+      "epoch": 8.353333333333333,
+      "grad_norm": 0.3461424708366394,
+      "learning_rate": 8.034814181184996e-06,
+      "loss": 0.004,
+      "step": 12530
+    },
+    {
+      "epoch": 8.36,
+      "grad_norm": 0.6620818376541138,
+      "learning_rate": 7.971669825215788e-06,
+      "loss": 0.0068,
+      "step": 12540
+    },
+    {
+      "epoch": 8.366666666666667,
+      "grad_norm": 0.050441596657037735,
+      "learning_rate": 7.908753070237123e-06,
+      "loss": 0.0105,
+      "step": 12550
+    },
+    {
+      "epoch": 8.373333333333333,
+      "grad_norm": 1.0241178274154663,
+      "learning_rate": 7.846064256969572e-06,
+      "loss": 0.0088,
+      "step": 12560
+    },
+    {
+      "epoch": 8.38,
+      "grad_norm": 0.16556735336780548,
+      "learning_rate": 7.783603724899257e-06,
+      "loss": 0.0038,
+      "step": 12570
+    },
+    {
+      "epoch": 8.386666666666667,
+      "grad_norm": 0.05714572221040726,
+      "learning_rate": 7.72137181227608e-06,
+      "loss": 0.0058,
+      "step": 12580
+    },
+    {
+      "epoch": 8.393333333333333,
+      "grad_norm": 0.05167282000184059,
+      "learning_rate": 7.659368856111926e-06,
+      "loss": 0.0086,
+      "step": 12590
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 0.09242786467075348,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 0.0115,
+      "step": 12600
+    },
+    {
+      "epoch": 8.4,
+      "eval_darija_finetune_val_loss": 1.576709508895874,
+      "eval_darija_finetune_val_runtime": 250.1748,
+      "eval_darija_finetune_val_samples_per_second": 3.997,
+      "eval_darija_finetune_val_steps_per_second": 1.999,
+      "step": 12600
+    },
+    {
+      "epoch": 8.406666666666666,
+      "grad_norm": 1.4508870840072632,
+      "learning_rate": 7.536051155006657e-06,
+      "loss": 0.0071,
+      "step": 12610
+    },
+    {
+      "epoch": 8.413333333333334,
+      "grad_norm": 0.3281956911087036,
+      "learning_rate": 7.4747370778825096e-06,
+      "loss": 0.0065,
+      "step": 12620
+    },
+    {
+      "epoch": 8.42,
+      "grad_norm": 0.06436146795749664,
+      "learning_rate": 7.413653292847617e-06,
+      "loss": 0.0027,
+      "step": 12630
+    },
+    {
+      "epoch": 8.426666666666666,
+      "grad_norm": 0.059195585548877716,
+      "learning_rate": 7.352800130696252e-06,
+      "loss": 0.0042,
+      "step": 12640
+    },
+    {
+      "epoch": 8.433333333333334,
+      "grad_norm": 0.16553771495819092,
+      "learning_rate": 7.292177920973725e-06,
+      "loss": 0.0068,
+      "step": 12650
+    },
+    {
+      "epoch": 8.44,
+      "grad_norm": 0.06275280565023422,
+      "learning_rate": 7.2317869919746705e-06,
+      "loss": 0.0034,
+      "step": 12660
+    },
+    {
+      "epoch": 8.446666666666667,
+      "grad_norm": 0.15334519743919373,
+      "learning_rate": 7.1716276707412435e-06,
+      "loss": 0.0017,
+      "step": 12670
+    },
+    {
+      "epoch": 8.453333333333333,
+      "grad_norm": 0.6445468664169312,
+      "learning_rate": 7.111700283061318e-06,
+      "loss": 0.0077,
+      "step": 12680
+    },
+    {
+      "epoch": 8.46,
+      "grad_norm": 0.06432273983955383,
+      "learning_rate": 7.052005153466779e-06,
+      "loss": 0.0054,
+      "step": 12690
+    },
+    {
+      "epoch": 8.466666666666667,
+      "grad_norm": 0.13467851281166077,
+      "learning_rate": 6.992542605231739e-06,
+      "loss": 0.0038,
+      "step": 12700
+    },
+    {
+      "epoch": 8.466666666666667,
+      "eval_darija_finetune_val_loss": 1.594235897064209,
+      "eval_darija_finetune_val_runtime": 250.5565,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 12700
+    },
+    {
+      "epoch": 8.473333333333333,
+      "grad_norm": 0.03832093998789787,
+      "learning_rate": 6.933312960370747e-06,
+      "loss": 0.0027,
+      "step": 12710
+    },
+    {
+      "epoch": 8.48,
+      "grad_norm": 0.5227253437042236,
+      "learning_rate": 6.874316539637127e-06,
+      "loss": 0.0118,
+      "step": 12720
+    },
+    {
+      "epoch": 8.486666666666666,
+      "grad_norm": 0.04040858894586563,
+      "learning_rate": 6.815553662521185e-06,
+      "loss": 0.004,
+      "step": 12730
+    },
+    {
+      "epoch": 8.493333333333334,
+      "grad_norm": 0.21073365211486816,
+      "learning_rate": 6.757024647248456e-06,
+      "loss": 0.0057,
+      "step": 12740
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 0.9592951536178589,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.008,
+      "step": 12750
+    },
+    {
+      "epoch": 8.506666666666666,
+      "grad_norm": 0.23504698276519775,
+      "learning_rate": 6.640669468800947e-06,
+      "loss": 0.005,
+      "step": 12760
+    },
+    {
+      "epoch": 8.513333333333334,
+      "grad_norm": 0.4424934983253479,
+      "learning_rate": 6.58284393573812e-06,
+      "loss": 0.0042,
+      "step": 12770
+    },
+    {
+      "epoch": 8.52,
+      "grad_norm": 0.04243454709649086,
+      "learning_rate": 6.52525352473905e-06,
+      "loss": 0.0056,
+      "step": 12780
+    },
+    {
+      "epoch": 8.526666666666667,
+      "grad_norm": 0.11924248188734055,
+      "learning_rate": 6.467898547679913e-06,
+      "loss": 0.0083,
+      "step": 12790
+    },
+    {
+      "epoch": 8.533333333333333,
+      "grad_norm": 0.46693548560142517,
+      "learning_rate": 6.410779315161886e-06,
+      "loss": 0.0049,
+      "step": 12800
+    },
+    {
+      "epoch": 8.533333333333333,
+      "eval_darija_finetune_val_loss": 1.592907190322876,
+      "eval_darija_finetune_val_runtime": 254.3065,
+      "eval_darija_finetune_val_samples_per_second": 3.932,
+      "eval_darija_finetune_val_steps_per_second": 1.966,
+      "step": 12800
+    },
+    {
+      "epoch": 8.54,
+      "grad_norm": 0.11220778524875641,
+      "learning_rate": 6.353896136509524e-06,
+      "loss": 0.0086,
+      "step": 12810
+    },
+    {
+      "epoch": 8.546666666666667,
+      "grad_norm": 0.7819949388504028,
+      "learning_rate": 6.2972493197690165e-06,
+      "loss": 0.0033,
+      "step": 12820
+    },
+    {
+      "epoch": 8.553333333333333,
+      "grad_norm": 0.5099851489067078,
+      "learning_rate": 6.240839171706609e-06,
+      "loss": 0.0025,
+      "step": 12830
+    },
+    {
+      "epoch": 8.56,
+      "grad_norm": 0.09966694563627243,
+      "learning_rate": 6.184665997806832e-06,
+      "loss": 0.0028,
+      "step": 12840
+    },
+    {
+      "epoch": 8.566666666666666,
+      "grad_norm": 0.2144446074962616,
+      "learning_rate": 6.128730102270897e-06,
+      "loss": 0.0101,
+      "step": 12850
+    },
+    {
+      "epoch": 8.573333333333334,
+      "grad_norm": 0.28710564970970154,
+      "learning_rate": 6.073031788015132e-06,
+      "loss": 0.0065,
+      "step": 12860
+    },
+    {
+      "epoch": 8.58,
+      "grad_norm": 0.2297709584236145,
+      "learning_rate": 6.017571356669183e-06,
+      "loss": 0.0052,
+      "step": 12870
+    },
+    {
+      "epoch": 8.586666666666666,
+      "grad_norm": 0.20941366255283356,
+      "learning_rate": 5.9623491085744776e-06,
+      "loss": 0.0079,
+      "step": 12880
+    },
+    {
+      "epoch": 8.593333333333334,
+      "grad_norm": 0.2541310489177704,
+      "learning_rate": 5.9073653427826e-06,
+      "loss": 0.0083,
+      "step": 12890
+    },
+    {
+      "epoch": 8.6,
+      "grad_norm": 0.09419357776641846,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 0.0069,
+      "step": 12900
+    },
+    {
+      "epoch": 8.6,
+      "eval_darija_finetune_val_loss": 1.5749590396881104,
+      "eval_darija_finetune_val_runtime": 265.6318,
+      "eval_darija_finetune_val_samples_per_second": 3.765,
+      "eval_darija_finetune_val_steps_per_second": 1.882,
+      "step": 12900
+    },
+    {
+      "epoch": 8.606666666666667,
+      "grad_norm": 0.03804778307676315,
+      "learning_rate": 5.798114447854636e-06,
+      "loss": 0.0047,
+      "step": 12910
+    },
+    {
+      "epoch": 8.613333333333333,
+      "grad_norm": 0.0280041191726923,
+      "learning_rate": 5.743847910357836e-06,
+      "loss": 0.012,
+      "step": 12920
+    },
+    {
+      "epoch": 8.62,
+      "grad_norm": 0.029186446219682693,
+      "learning_rate": 5.689821038439263e-06,
+      "loss": 0.0034,
+      "step": 12930
+    },
+    {
+      "epoch": 8.626666666666667,
+      "grad_norm": 0.5319533944129944,
+      "learning_rate": 5.636034124677042e-06,
+      "loss": 0.0074,
+      "step": 12940
+    },
+    {
+      "epoch": 8.633333333333333,
+      "grad_norm": 0.04417566955089569,
+      "learning_rate": 5.582487460349805e-06,
+      "loss": 0.0069,
+      "step": 12950
+    },
+    {
+      "epoch": 8.64,
+      "grad_norm": 0.045511480420827866,
+      "learning_rate": 5.529181335435124e-06,
+      "loss": 0.0115,
+      "step": 12960
+    },
+    {
+      "epoch": 8.646666666666667,
+      "grad_norm": 0.05741780251264572,
+      "learning_rate": 5.4761160386079925e-06,
+      "loss": 0.0046,
+      "step": 12970
+    },
+    {
+      "epoch": 8.653333333333332,
+      "grad_norm": 0.07989388704299927,
+      "learning_rate": 5.4232918572391765e-06,
+      "loss": 0.0119,
+      "step": 12980
+    },
+    {
+      "epoch": 8.66,
+      "grad_norm": 0.12608270347118378,
+      "learning_rate": 5.370709077393721e-06,
+      "loss": 0.0112,
+      "step": 12990
+    },
+    {
+      "epoch": 8.666666666666666,
+      "grad_norm": 0.06874611228704453,
+      "learning_rate": 5.318367983829392e-06,
+      "loss": 0.0028,
+      "step": 13000
+    },
+    {
+      "epoch": 8.666666666666666,
+      "eval_darija_finetune_val_loss": 1.5754203796386719,
+      "eval_darija_finetune_val_runtime": 250.7402,
+      "eval_darija_finetune_val_samples_per_second": 3.988,
+      "eval_darija_finetune_val_steps_per_second": 1.994,
+      "step": 13000
+    },
+    {
+      "epoch": 8.673333333333334,
+      "grad_norm": 0.47966885566711426,
+      "learning_rate": 5.266268859995083e-06,
+      "loss": 0.0067,
+      "step": 13010
+    },
+    {
+      "epoch": 8.68,
+      "grad_norm": 0.05521605908870697,
+      "learning_rate": 5.214411988029355e-06,
+      "loss": 0.007,
+      "step": 13020
+    },
+    {
+      "epoch": 8.686666666666667,
+      "grad_norm": 0.04805421084165573,
+      "learning_rate": 5.162797648758877e-06,
+      "loss": 0.0039,
+      "step": 13030
+    },
+    {
+      "epoch": 8.693333333333333,
+      "grad_norm": 0.2605985701084137,
+      "learning_rate": 5.111426121696866e-06,
+      "loss": 0.006,
+      "step": 13040
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.22338831424713135,
+      "learning_rate": 5.060297685041659e-06,
+      "loss": 0.0045,
+      "step": 13050
+    },
+    {
+      "epoch": 8.706666666666667,
+      "grad_norm": 0.029982976615428925,
+      "learning_rate": 5.009412615675102e-06,
+      "loss": 0.0026,
+      "step": 13060
+    },
+    {
+      "epoch": 8.713333333333333,
+      "grad_norm": 0.36318710446357727,
+      "learning_rate": 4.958771189161149e-06,
+      "loss": 0.0039,
+      "step": 13070
+    },
+    {
+      "epoch": 8.72,
+      "grad_norm": 0.06858726590871811,
+      "learning_rate": 4.908373679744316e-06,
+      "loss": 0.0079,
+      "step": 13080
+    },
+    {
+      "epoch": 8.726666666666667,
+      "grad_norm": 0.33520272374153137,
+      "learning_rate": 4.858220360348187e-06,
+      "loss": 0.0023,
+      "step": 13090
+    },
+    {
+      "epoch": 8.733333333333333,
+      "grad_norm": 0.0328017883002758,
+      "learning_rate": 4.8083115025739756e-06,
+      "loss": 0.0083,
+      "step": 13100
+    },
+    {
+      "epoch": 8.733333333333333,
+      "eval_darija_finetune_val_loss": 1.594786286354065,
+      "eval_darija_finetune_val_runtime": 250.6094,
+      "eval_darija_finetune_val_samples_per_second": 3.99,
+      "eval_darija_finetune_val_steps_per_second": 1.995,
+      "step": 13100
+    },
+    {
+      "epoch": 8.74,
+      "grad_norm": 0.13382871448993683,
+      "learning_rate": 4.758647376699032e-06,
+      "loss": 0.0043,
+      "step": 13110
+    },
+    {
+      "epoch": 8.746666666666666,
+      "grad_norm": 2.2931134700775146,
+      "learning_rate": 4.709228251675357e-06,
+      "loss": 0.0095,
+      "step": 13120
+    },
+    {
+      "epoch": 8.753333333333334,
+      "grad_norm": 0.19221606850624084,
+      "learning_rate": 4.6600543951282e-06,
+      "loss": 0.0106,
+      "step": 13130
+    },
+    {
+      "epoch": 8.76,
+      "grad_norm": 0.06268720328807831,
+      "learning_rate": 4.611126073354571e-06,
+      "loss": 0.0046,
+      "step": 13140
+    },
+    {
+      "epoch": 8.766666666666667,
+      "grad_norm": 0.14558126032352448,
+      "learning_rate": 4.562443551321788e-06,
+      "loss": 0.0061,
+      "step": 13150
+    },
+    {
+      "epoch": 8.773333333333333,
+      "grad_norm": 0.0859072282910347,
+      "learning_rate": 4.514007092666084e-06,
+      "loss": 0.0036,
+      "step": 13160
+    },
+    {
+      "epoch": 8.78,
+      "grad_norm": 0.1994837075471878,
+      "learning_rate": 4.465816959691149e-06,
+      "loss": 0.0046,
+      "step": 13170
+    },
+    {
+      "epoch": 8.786666666666667,
+      "grad_norm": 0.5880971550941467,
+      "learning_rate": 4.417873413366702e-06,
+      "loss": 0.0053,
+      "step": 13180
+    },
+    {
+      "epoch": 8.793333333333333,
+      "grad_norm": 0.057995326817035675,
+      "learning_rate": 4.370176713327118e-06,
+      "loss": 0.004,
+      "step": 13190
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 0.8214117288589478,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 0.0093,
+      "step": 13200
+    },
+    {
+      "epoch": 8.8,
+      "eval_darija_finetune_val_loss": 1.5887227058410645,
+      "eval_darija_finetune_val_runtime": 250.4523,
+      "eval_darija_finetune_val_samples_per_second": 3.993,
+      "eval_darija_finetune_val_steps_per_second": 1.996,
+      "step": 13200
+    },
+    {
+      "epoch": 8.806666666666667,
+      "grad_norm": 0.15790344774723053,
+      "learning_rate": 4.275524883954657e-06,
+      "loss": 0.0063,
+      "step": 13210
+    },
+    {
+      "epoch": 8.813333333333333,
+      "grad_norm": 3.205167293548584,
+      "learning_rate": 4.228570267201049e-06,
+      "loss": 0.0187,
+      "step": 13220
+    },
+    {
+      "epoch": 8.82,
+      "grad_norm": 0.259084016084671,
+      "learning_rate": 4.181863521888019e-06,
+      "loss": 0.0074,
+      "step": 13230
+    },
+    {
+      "epoch": 8.826666666666666,
+      "grad_norm": 0.03491247072815895,
+      "learning_rate": 4.13540490095215e-06,
+      "loss": 0.0065,
+      "step": 13240
+    },
+    {
+      "epoch": 8.833333333333334,
+      "grad_norm": 0.03994598612189293,
+      "learning_rate": 4.089194655986306e-06,
+      "loss": 0.0042,
+      "step": 13250
+    },
+    {
+      "epoch": 8.84,
+      "grad_norm": 0.053238485008478165,
+      "learning_rate": 4.043233037238281e-06,
+      "loss": 0.0033,
+      "step": 13260
+    },
+    {
+      "epoch": 8.846666666666668,
+      "grad_norm": 0.04695656895637512,
+      "learning_rate": 3.99752029360948e-06,
+      "loss": 0.0014,
+      "step": 13270
+    },
+    {
+      "epoch": 8.853333333333333,
+      "grad_norm": 0.06474554538726807,
+      "learning_rate": 3.952056672653537e-06,
+      "loss": 0.0043,
+      "step": 13280
+    },
+    {
+      "epoch": 8.86,
+      "grad_norm": 0.26049867272377014,
+      "learning_rate": 3.90684242057498e-06,
+      "loss": 0.0025,
+      "step": 13290
+    },
+    {
+      "epoch": 8.866666666666667,
+      "grad_norm": 0.08340281248092651,
+      "learning_rate": 3.861877782227885e-06,
+      "loss": 0.0034,
+      "step": 13300
+    },
+    {
+      "epoch": 8.866666666666667,
+      "eval_darija_finetune_val_loss": 1.5937612056732178,
+      "eval_darija_finetune_val_runtime": 265.2177,
+      "eval_darija_finetune_val_samples_per_second": 3.77,
+      "eval_darija_finetune_val_steps_per_second": 1.885,
+      "step": 13300
+    },
+    {
+      "epoch": 8.873333333333333,
+      "grad_norm": 0.49471744894981384,
+      "learning_rate": 3.817163001114588e-06,
+      "loss": 0.0032,
+      "step": 13310
+    },
+    {
+      "epoch": 8.88,
+      "grad_norm": 0.08420747518539429,
+      "learning_rate": 3.772698319384349e-06,
+      "loss": 0.0078,
+      "step": 13320
+    },
+    {
+      "epoch": 8.886666666666667,
+      "grad_norm": 0.03979449346661568,
+      "learning_rate": 3.728483977831998e-06,
+      "loss": 0.0028,
+      "step": 13330
+    },
+    {
+      "epoch": 8.893333333333333,
+      "grad_norm": 0.41675490140914917,
+      "learning_rate": 3.6845202158967027e-06,
+      "loss": 0.0046,
+      "step": 13340
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 0.17865143716335297,
+      "learning_rate": 3.6408072716606346e-06,
+      "loss": 0.0043,
+      "step": 13350
+    },
+    {
+      "epoch": 8.906666666666666,
+      "grad_norm": 0.04296640306711197,
+      "learning_rate": 3.5973453818476556e-06,
+      "loss": 0.0038,
+      "step": 13360
+    },
+    {
+      "epoch": 8.913333333333334,
+      "grad_norm": 0.3471742868423462,
+      "learning_rate": 3.5541347818220936e-06,
+      "loss": 0.0035,
+      "step": 13370
+    },
+    {
+      "epoch": 8.92,
+      "grad_norm": 0.5155211687088013,
+      "learning_rate": 3.511175705587433e-06,
+      "loss": 0.0055,
+      "step": 13380
+    },
+    {
+      "epoch": 8.926666666666666,
+      "grad_norm": 0.05027766898274422,
+      "learning_rate": 3.4684683857850233e-06,
+      "loss": 0.0027,
+      "step": 13390
+    },
+    {
+      "epoch": 8.933333333333334,
+      "grad_norm": 0.11581618338823318,
+      "learning_rate": 3.426013053692878e-06,
+      "loss": 0.0026,
+      "step": 13400
+    },
+    {
+      "epoch": 8.933333333333334,
+      "eval_darija_finetune_val_loss": 1.6068100929260254,
+      "eval_darija_finetune_val_runtime": 250.6055,
+      "eval_darija_finetune_val_samples_per_second": 3.99,
+      "eval_darija_finetune_val_steps_per_second": 1.995,
+      "step": 13400
+    },
+    {
+      "epoch": 8.94,
+      "grad_norm": 0.4353666305541992,
+      "learning_rate": 3.3838099392243916e-06,
+      "loss": 0.0046,
+      "step": 13410
+    },
+    {
+      "epoch": 8.946666666666667,
+      "grad_norm": 0.36944469809532166,
+      "learning_rate": 3.341859270927067e-06,
+      "loss": 0.0029,
+      "step": 13420
+    },
+    {
+      "epoch": 8.953333333333333,
+      "grad_norm": 0.043054450303316116,
+      "learning_rate": 3.3001612759813393e-06,
+      "loss": 0.0106,
+      "step": 13430
+    },
+    {
+      "epoch": 8.96,
+      "grad_norm": 0.033374808728694916,
+      "learning_rate": 3.258716180199278e-06,
+      "loss": 0.0041,
+      "step": 13440
+    },
+    {
+      "epoch": 8.966666666666667,
+      "grad_norm": 0.34446877241134644,
+      "learning_rate": 3.2175242080234313e-06,
+      "loss": 0.0028,
+      "step": 13450
+    },
+    {
+      "epoch": 8.973333333333333,
+      "grad_norm": 0.08432984352111816,
+      "learning_rate": 3.176585582525554e-06,
+      "loss": 0.0059,
+      "step": 13460
+    },
+    {
+      "epoch": 8.98,
+      "grad_norm": 1.2169749736785889,
+      "learning_rate": 3.1359005254054273e-06,
+      "loss": 0.006,
+      "step": 13470
+    },
+    {
+      "epoch": 8.986666666666666,
+      "grad_norm": 0.16553735733032227,
+      "learning_rate": 3.095469256989658e-06,
+      "loss": 0.011,
+      "step": 13480
+    },
+    {
+      "epoch": 8.993333333333334,
+      "grad_norm": 0.49264994263648987,
+      "learning_rate": 3.0552919962304916e-06,
+      "loss": 0.0035,
+      "step": 13490
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.6509057879447937,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.0138,
+      "step": 13500
+    },
+    {
+      "epoch": 9.0,
+      "eval_darija_finetune_val_loss": 1.6042463779449463,
+      "eval_darija_finetune_val_runtime": 250.3963,
+      "eval_darija_finetune_val_samples_per_second": 3.994,
+      "eval_darija_finetune_val_steps_per_second": 1.997,
+      "step": 13500
+    },
+    {
+      "epoch": 9.006666666666666,
+      "grad_norm": 0.12561754882335663,
+      "learning_rate": 2.975700366611883e-06,
+      "loss": 0.002,
+      "step": 13510
+    },
+    {
+      "epoch": 9.013333333333334,
+      "grad_norm": 0.021809114143252373,
+      "learning_rate": 2.936286428774426e-06,
+      "loss": 0.0025,
+      "step": 13520
+    },
+    {
+      "epoch": 9.02,
+      "grad_norm": 0.3599202036857605,
+      "learning_rate": 2.8971273606351658e-06,
+      "loss": 0.002,
+      "step": 13530
+    },
+    {
+      "epoch": 9.026666666666667,
+      "grad_norm": 0.049321990460157394,
+      "learning_rate": 2.858223374256841e-06,
+      "loss": 0.0014,
+      "step": 13540
+    },
+    {
+      "epoch": 9.033333333333333,
+      "grad_norm": 0.04616083204746246,
+      "learning_rate": 2.8195746803208244e-06,
+      "loss": 0.0024,
+      "step": 13550
+    },
+    {
+      "epoch": 9.04,
+      "grad_norm": 0.08672983199357986,
+      "learning_rate": 2.7811814881259503e-06,
+      "loss": 0.0021,
+      "step": 13560
+    },
+    {
+      "epoch": 9.046666666666667,
+      "grad_norm": 0.03193218633532524,
+      "learning_rate": 2.743044005587425e-06,
+      "loss": 0.0014,
+      "step": 13570
+    },
+    {
+      "epoch": 9.053333333333333,
+      "grad_norm": 0.1774233728647232,
+      "learning_rate": 2.7051624392356477e-06,
+      "loss": 0.0029,
+      "step": 13580
+    },
+    {
+      "epoch": 9.06,
+      "grad_norm": 0.23276670277118683,
+      "learning_rate": 2.667536994215186e-06,
+      "loss": 0.0052,
+      "step": 13590
+    },
+    {
+      "epoch": 9.066666666666666,
+      "grad_norm": 0.02511504665017128,
+      "learning_rate": 2.63016787428354e-06,
+      "loss": 0.0018,
+      "step": 13600
+    },
+    {
+      "epoch": 9.066666666666666,
+      "eval_darija_finetune_val_loss": 1.6198582649230957,
+      "eval_darija_finetune_val_runtime": 250.3537,
+      "eval_darija_finetune_val_samples_per_second": 3.994,
+      "eval_darija_finetune_val_steps_per_second": 1.997,
+      "step": 13600
+    },
+    {
+      "epoch": 9.073333333333334,
+      "grad_norm": 0.16608285903930664,
+      "learning_rate": 2.593055281810125e-06,
+      "loss": 0.0073,
+      "step": 13610
+    },
+    {
+      "epoch": 9.08,
+      "grad_norm": 0.07170232385396957,
+      "learning_rate": 2.5561994177751737e-06,
+      "loss": 0.0033,
+      "step": 13620
+    },
+    {
+      "epoch": 9.086666666666666,
+      "grad_norm": 0.10964661836624146,
+      "learning_rate": 2.5196004817685968e-06,
+      "loss": 0.0031,
+      "step": 13630
+    },
+    {
+      "epoch": 9.093333333333334,
+      "grad_norm": 0.09167282283306122,
+      "learning_rate": 2.4832586719889416e-06,
+      "loss": 0.0016,
+      "step": 13640
+    },
+    {
+      "epoch": 9.1,
+      "grad_norm": 0.05601055920124054,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.0046,
+      "step": 13650
+    },
+    {
+      "epoch": 9.106666666666667,
+      "grad_norm": 0.10156255215406418,
+      "learning_rate": 2.4113472169413177e-06,
+      "loss": 0.0031,
+      "step": 13660
+    },
+    {
+      "epoch": 9.113333333333333,
+      "grad_norm": 0.025103475898504257,
+      "learning_rate": 2.37577796110397e-06,
+      "loss": 0.003,
+      "step": 13670
+    },
+    {
+      "epoch": 9.12,
+      "grad_norm": 0.05108155682682991,
+      "learning_rate": 2.340466610352654e-06,
+      "loss": 0.0017,
+      "step": 13680
+    },
+    {
+      "epoch": 9.126666666666667,
+      "grad_norm": 0.039982885122299194,
+      "learning_rate": 2.305413355913116e-06,
+      "loss": 0.0011,
+      "step": 13690
+    },
+    {
+      "epoch": 9.133333333333333,
+      "grad_norm": 0.02896793745458126,
+      "learning_rate": 2.2706183876134045e-06,
+      "loss": 0.0022,
+      "step": 13700
+    },
+    {
+      "epoch": 9.133333333333333,
+      "eval_darija_finetune_val_loss": 1.6314254999160767,
+      "eval_darija_finetune_val_runtime": 265.4755,
+      "eval_darija_finetune_val_samples_per_second": 3.767,
+      "eval_darija_finetune_val_steps_per_second": 1.883,
+      "step": 13700
+    },
+    {
+      "epoch": 9.14,
+      "grad_norm": 0.019802812486886978,
+      "learning_rate": 2.2360818938828187e-06,
+      "loss": 0.0026,
+      "step": 13710
+    },
+    {
+      "epoch": 9.146666666666667,
+      "grad_norm": 0.041769228875637054,
+      "learning_rate": 2.201804061750917e-06,
+      "loss": 0.0026,
+      "step": 13720
+    },
+    {
+      "epoch": 9.153333333333332,
+      "grad_norm": 0.2832973301410675,
+      "learning_rate": 2.167785076846518e-06,
+      "loss": 0.0038,
+      "step": 13730
+    },
+    {
+      "epoch": 9.16,
+      "grad_norm": 0.12793438136577606,
+      "learning_rate": 2.134025123396638e-06,
+      "loss": 0.0034,
+      "step": 13740
+    },
+    {
+      "epoch": 9.166666666666666,
+      "grad_norm": 0.5265379548072815,
+      "learning_rate": 2.100524384225555e-06,
+      "loss": 0.0024,
+      "step": 13750
+    },
+    {
+      "epoch": 9.173333333333334,
+      "grad_norm": 0.034079696983098984,
+      "learning_rate": 2.0672830407537924e-06,
+      "loss": 0.0013,
+      "step": 13760
+    },
+    {
+      "epoch": 9.18,
+      "grad_norm": 0.1102578267455101,
+      "learning_rate": 2.0343012729971243e-06,
+      "loss": 0.0024,
+      "step": 13770
+    },
+    {
+      "epoch": 9.186666666666667,
+      "grad_norm": 0.07066575437784195,
+      "learning_rate": 2.0015792595656226e-06,
+      "loss": 0.001,
+      "step": 13780
+    },
+    {
+      "epoch": 9.193333333333333,
+      "grad_norm": 0.038139596581459045,
+      "learning_rate": 1.9691171776626884e-06,
+      "loss": 0.0029,
+      "step": 13790
+    },
+    {
+      "epoch": 9.2,
+      "grad_norm": 0.1217527687549591,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 0.0054,
+      "step": 13800
+    },
+    {
+      "epoch": 9.2,
+      "eval_darija_finetune_val_loss": 1.650195837020874,
+      "eval_darija_finetune_val_runtime": 251.8453,
+      "eval_darija_finetune_val_samples_per_second": 3.971,
+      "eval_darija_finetune_val_steps_per_second": 1.985,
+      "step": 13800
+    },
+    {
+      "epoch": 9.206666666666667,
+      "grad_norm": 0.03730589151382446,
+      "learning_rate": 1.904973510216912e-06,
+      "loss": 0.0015,
+      "step": 13810
+    },
+    {
+      "epoch": 9.213333333333333,
+      "grad_norm": 0.034628432244062424,
+      "learning_rate": 1.8732922720388679e-06,
+      "loss": 0.0052,
+      "step": 13820
+    },
+    {
+      "epoch": 9.22,
+      "grad_norm": 0.06376727670431137,
+      "learning_rate": 1.841871660117095e-06,
+      "loss": 0.0027,
+      "step": 13830
+    },
+    {
+      "epoch": 9.226666666666667,
+      "grad_norm": 0.035195596516132355,
+      "learning_rate": 1.810711844607349e-06,
+      "loss": 0.0028,
+      "step": 13840
+    },
+    {
+      "epoch": 9.233333333333333,
+      "grad_norm": 0.13238826394081116,
+      "learning_rate": 1.7798129942530551e-06,
+      "loss": 0.0028,
+      "step": 13850
+    },
+    {
+      "epoch": 9.24,
+      "grad_norm": 0.0559844933450222,
+      "learning_rate": 1.7491752763844293e-06,
+      "loss": 0.0016,
+      "step": 13860
+    },
+    {
+      "epoch": 9.246666666666666,
+      "grad_norm": 0.030594397336244583,
+      "learning_rate": 1.7187988569175307e-06,
+      "loss": 0.0012,
+      "step": 13870
+    },
+    {
+      "epoch": 9.253333333333334,
+      "grad_norm": 0.7343409657478333,
+      "learning_rate": 1.6886839003533661e-06,
+      "loss": 0.0051,
+      "step": 13880
+    },
+    {
+      "epoch": 9.26,
+      "grad_norm": 0.07037964463233948,
+      "learning_rate": 1.6588305697770313e-06,
+      "loss": 0.002,
+      "step": 13890
+    },
+    {
+      "epoch": 9.266666666666667,
+      "grad_norm": 0.07239523530006409,
+      "learning_rate": 1.6292390268568104e-06,
+      "loss": 0.0033,
+      "step": 13900
+    },
+    {
+      "epoch": 9.266666666666667,
+      "eval_darija_finetune_val_loss": 1.654667854309082,
+      "eval_darija_finetune_val_runtime": 250.5658,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.995,
+      "step": 13900
+    },
+    {
+      "epoch": 9.273333333333333,
+      "grad_norm": 0.05702801048755646,
+      "learning_rate": 1.5999094318432661e-06,
+      "loss": 0.0018,
+      "step": 13910
+    },
+    {
+      "epoch": 9.28,
+      "grad_norm": 0.2486821562051773,
+      "learning_rate": 1.5708419435684462e-06,
+      "loss": 0.0034,
+      "step": 13920
+    },
+    {
+      "epoch": 9.286666666666667,
+      "grad_norm": 0.023390335962176323,
+      "learning_rate": 1.5420367194449448e-06,
+      "loss": 0.002,
+      "step": 13930
+    },
+    {
+      "epoch": 9.293333333333333,
+      "grad_norm": 0.19281518459320068,
+      "learning_rate": 1.5134939154651196e-06,
+      "loss": 0.0025,
+      "step": 13940
+    },
+    {
+      "epoch": 9.3,
+      "grad_norm": 0.05233129858970642,
+      "learning_rate": 1.4852136862001764e-06,
+      "loss": 0.0023,
+      "step": 13950
+    },
+    {
+      "epoch": 9.306666666666667,
+      "grad_norm": 0.06005314365029335,
+      "learning_rate": 1.4571961847993976e-06,
+      "loss": 0.0018,
+      "step": 13960
+    },
+    {
+      "epoch": 9.313333333333333,
+      "grad_norm": 0.04353105649352074,
+      "learning_rate": 1.4294415629892754e-06,
+      "loss": 0.0015,
+      "step": 13970
+    },
+    {
+      "epoch": 9.32,
+      "grad_norm": 0.10295519232749939,
+      "learning_rate": 1.4019499710726913e-06,
+      "loss": 0.0017,
+      "step": 13980
+    },
+    {
+      "epoch": 9.326666666666666,
+      "grad_norm": 0.07320210337638855,
+      "learning_rate": 1.374721557928116e-06,
+      "loss": 0.0021,
+      "step": 13990
+    },
+    {
+      "epoch": 9.333333333333334,
+      "grad_norm": 0.377230703830719,
+      "learning_rate": 1.3477564710088098e-06,
+      "loss": 0.004,
+      "step": 14000
+    },
+    {
+      "epoch": 9.333333333333334,
+      "eval_darija_finetune_val_loss": 1.6622756719589233,
+      "eval_darija_finetune_val_runtime": 250.5902,
+      "eval_darija_finetune_val_samples_per_second": 3.991,
+      "eval_darija_finetune_val_steps_per_second": 1.995,
+      "step": 14000
+    },
+    {
+      "epoch": 9.34,
+      "grad_norm": 0.07935582101345062,
+      "learning_rate": 1.3210548563419856e-06,
+      "loss": 0.0019,
+      "step": 14010
+    },
+    {
+      "epoch": 9.346666666666668,
+      "grad_norm": 0.02722185105085373,
+      "learning_rate": 1.2946168585280639e-06,
+      "loss": 0.0013,
+      "step": 14020
+    },
+    {
+      "epoch": 9.353333333333333,
+      "grad_norm": 0.04203237593173981,
+      "learning_rate": 1.268442620739868e-06,
+      "loss": 0.0021,
+      "step": 14030
+    },
+    {
+      "epoch": 9.36,
+      "grad_norm": 0.06985631585121155,
+      "learning_rate": 1.2425322847218368e-06,
+      "loss": 0.0014,
+      "step": 14040
+    },
+    {
+      "epoch": 9.366666666666667,
+      "grad_norm": 0.026989003643393517,
+      "learning_rate": 1.2168859907892904e-06,
+      "loss": 0.0034,
+      "step": 14050
+    },
+    {
+      "epoch": 9.373333333333333,
+      "grad_norm": 0.10821487009525299,
+      "learning_rate": 1.191503877827621e-06,
+      "loss": 0.0042,
+      "step": 14060
+    },
+    {
+      "epoch": 9.38,
+      "grad_norm": 0.029435032978653908,
+      "learning_rate": 1.166386083291604e-06,
+      "loss": 0.0044,
+      "step": 14070
+    },
+    {
+      "epoch": 9.386666666666667,
+      "grad_norm": 0.04199404641985893,
+      "learning_rate": 1.141532743204604e-06,
+      "loss": 0.0032,
+      "step": 14080
+    },
+    {
+      "epoch": 9.393333333333333,
+      "grad_norm": 0.27149853110313416,
+      "learning_rate": 1.1169439921578484e-06,
+      "loss": 0.0021,
+      "step": 14090
+    },
+    {
+      "epoch": 9.4,
+      "grad_norm": 0.04442417621612549,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.002,
+      "step": 14100
+    },
+    {
+      "epoch": 9.4,
+      "eval_darija_finetune_val_loss": 1.6646496057510376,
+      "eval_darija_finetune_val_runtime": 255.7533,
+      "eval_darija_finetune_val_samples_per_second": 3.91,
+      "eval_darija_finetune_val_steps_per_second": 1.955,
+      "step": 14100
+    },
+    {
+      "epoch": 9.406666666666666,
+      "grad_norm": 0.06897199153900146,
+      "learning_rate": 1.0685607883850035e-06,
+      "loss": 0.0023,
+      "step": 14110
+    },
+    {
+      "epoch": 9.413333333333334,
+      "grad_norm": 0.03539164364337921,
+      "learning_rate": 1.044766597674196e-06,
+      "loss": 0.0033,
+      "step": 14120
+    },
+    {
+      "epoch": 9.42,
+      "grad_norm": 0.11743707209825516,
+      "learning_rate": 1.0212375200327973e-06,
+      "loss": 0.0019,
+      "step": 14130
+    },
+    {
+      "epoch": 9.426666666666666,
+      "grad_norm": 0.03879775479435921,
+      "learning_rate": 9.979736828806096e-07,
+      "loss": 0.001,
+      "step": 14140
+    },
+    {
+      "epoch": 9.433333333333334,
+      "grad_norm": 0.34983253479003906,
+      "learning_rate": 9.749752122010346e-07,
+      "loss": 0.0051,
+      "step": 14150
+    },
+    {
+      "epoch": 9.44,
+      "grad_norm": 0.12642650306224823,
+      "learning_rate": 9.522422325404235e-07,
+      "loss": 0.0015,
+      "step": 14160
+    },
+    {
+      "epoch": 9.446666666666667,
+      "grad_norm": 0.033092793077230453,
+      "learning_rate": 9.297748670073659e-07,
+      "loss": 0.001,
+      "step": 14170
+    },
+    {
+      "epoch": 9.453333333333333,
+      "grad_norm": 0.03557824715971947,
+      "learning_rate": 9.075732372720414e-07,
+      "loss": 0.0028,
+      "step": 14180
+    },
+    {
+      "epoch": 9.46,
+      "grad_norm": 0.028103673830628395,
+      "learning_rate": 8.856374635655695e-07,
+      "loss": 0.0026,
+      "step": 14190
+    },
+    {
+      "epoch": 9.466666666666667,
+      "grad_norm": 0.031043345108628273,
+      "learning_rate": 8.639676646793382e-07,
+      "loss": 0.0033,
+      "step": 14200
+    },
+    {
+      "epoch": 9.466666666666667,
+      "eval_darija_finetune_val_loss": 1.666609764099121,
+      "eval_darija_finetune_val_runtime": 255.5623,
+      "eval_darija_finetune_val_samples_per_second": 3.913,
+      "eval_darija_finetune_val_steps_per_second": 1.956,
+      "step": 14200
+    },
+    {
+      "epoch": 9.473333333333333,
+      "grad_norm": 0.09890888631343842,
+      "learning_rate": 8.425639579643762e-07,
+      "loss": 0.004,
+      "step": 14210
+    },
+    {
+      "epoch": 9.48,
+      "grad_norm": 0.22660115361213684,
+      "learning_rate": 8.214264593307098e-07,
+      "loss": 0.0034,
+      "step": 14220
+    },
+    {
+      "epoch": 9.486666666666666,
+      "grad_norm": 0.040176887065172195,
+      "learning_rate": 8.00555283246729e-07,
+      "loss": 0.0028,
+      "step": 14230
+    },
+    {
+      "epoch": 9.493333333333334,
+      "grad_norm": 0.022285951301455498,
+      "learning_rate": 7.799505427386e-07,
+      "loss": 0.0053,
+      "step": 14240
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 0.042314715683460236,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 0.0016,
+      "step": 14250
+    },
+    {
+      "epoch": 9.506666666666666,
+      "grad_norm": 0.11391445249319077,
+      "learning_rate": 7.395408133395509e-07,
+      "loss": 0.0015,
+      "step": 14260
+    },
+    {
+      "epoch": 9.513333333333334,
+      "grad_norm": 0.1724116951227188,
+      "learning_rate": 7.197360432842359e-07,
+      "loss": 0.0017,
+      "step": 14270
+    },
+    {
+      "epoch": 9.52,
+      "grad_norm": 0.16999681293964386,
+      "learning_rate": 7.001981464747565e-07,
+      "loss": 0.0023,
+      "step": 14280
+    },
+    {
+      "epoch": 9.526666666666667,
+      "grad_norm": 0.10029477626085281,
+      "learning_rate": 6.809272287169988e-07,
+      "loss": 0.0023,
+      "step": 14290
+    },
+    {
+      "epoch": 9.533333333333333,
+      "grad_norm": 0.039643097668886185,
+      "learning_rate": 6.61923394371039e-07,
+      "loss": 0.0027,
+      "step": 14300
+    },
+    {
+      "epoch": 9.533333333333333,
+      "eval_darija_finetune_val_loss": 1.6690089702606201,
+      "eval_darija_finetune_val_runtime": 255.4769,
+      "eval_darija_finetune_val_samples_per_second": 3.914,
+      "eval_darija_finetune_val_steps_per_second": 1.957,
+      "step": 14300
+    },
+    {
+      "epoch": 9.54,
+      "grad_norm": 0.03370843455195427,
+      "learning_rate": 6.431867463506048e-07,
+      "loss": 0.0027,
+      "step": 14310
+    },
+    {
+      "epoch": 9.546666666666667,
+      "grad_norm": 0.34513676166534424,
+      "learning_rate": 6.247173861224753e-07,
+      "loss": 0.0058,
+      "step": 14320
+    },
+    {
+      "epoch": 9.553333333333333,
+      "grad_norm": 0.17203524708747864,
+      "learning_rate": 6.065154137059603e-07,
+      "loss": 0.0044,
+      "step": 14330
+    },
+    {
+      "epoch": 9.56,
+      "grad_norm": 0.03655833750963211,
+      "learning_rate": 5.885809276723608e-07,
+      "loss": 0.0036,
+      "step": 14340
+    },
+    {
+      "epoch": 9.566666666666666,
+      "grad_norm": 0.02188190259039402,
+      "learning_rate": 5.7091402514442e-07,
+      "loss": 0.0048,
+      "step": 14350
+    },
+    {
+      "epoch": 9.573333333333334,
+      "grad_norm": 0.12789933383464813,
+      "learning_rate": 5.535148017958014e-07,
+      "loss": 0.002,
+      "step": 14360
+    },
+    {
+      "epoch": 9.58,
+      "grad_norm": 0.020552916452288628,
+      "learning_rate": 5.363833518505834e-07,
+      "loss": 0.0011,
+      "step": 14370
+    },
+    {
+      "epoch": 9.586666666666666,
+      "grad_norm": 0.6408979892730713,
+      "learning_rate": 5.19519768082738e-07,
+      "loss": 0.0087,
+      "step": 14380
+    },
+    {
+      "epoch": 9.593333333333334,
+      "grad_norm": 0.0416598841547966,
+      "learning_rate": 5.029241418156138e-07,
+      "loss": 0.0013,
+      "step": 14390
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.08508996665477753,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 0.0013,
+      "step": 14400
+    },
+    {
+      "epoch": 9.6,
+      "eval_darija_finetune_val_loss": 1.6721937656402588,
+      "eval_darija_finetune_val_runtime": 255.4787,
+      "eval_darija_finetune_val_samples_per_second": 3.914,
+      "eval_darija_finetune_val_steps_per_second": 1.957,
+      "step": 14400
+    },
+    {
+      "epoch": 9.606666666666667,
+      "grad_norm": 0.027304980903863907,
+      "learning_rate": 4.705371198210129e-07,
+      "loss": 0.0015,
+      "step": 14410
+    },
+    {
+      "epoch": 9.613333333333333,
+      "grad_norm": 0.5199796557426453,
+      "learning_rate": 4.547458994828002e-07,
+      "loss": 0.0046,
+      "step": 14420
+    },
+    {
+      "epoch": 9.62,
+      "grad_norm": 0.05668272078037262,
+      "learning_rate": 4.392229874229159e-07,
+      "loss": 0.0051,
+      "step": 14430
+    },
+    {
+      "epoch": 9.626666666666667,
+      "grad_norm": 0.09250006079673767,
+      "learning_rate": 4.239684677044165e-07,
+      "loss": 0.0038,
+      "step": 14440
+    },
+    {
+      "epoch": 9.633333333333333,
+      "grad_norm": 0.26337122917175293,
+      "learning_rate": 4.089824229369155e-07,
+      "loss": 0.0038,
+      "step": 14450
+    },
+    {
+      "epoch": 9.64,
+      "grad_norm": 0.036606959998607635,
+      "learning_rate": 3.9426493427611177e-07,
+      "loss": 0.003,
+      "step": 14460
+    },
+    {
+      "epoch": 9.646666666666667,
+      "grad_norm": 0.027376560494303703,
+      "learning_rate": 3.7981608142335643e-07,
+      "loss": 0.0027,
+      "step": 14470
+    },
+    {
+      "epoch": 9.653333333333332,
+      "grad_norm": 0.10615944862365723,
+      "learning_rate": 3.65635942625242e-07,
+      "loss": 0.0016,
+      "step": 14480
+    },
+    {
+      "epoch": 9.66,
+      "grad_norm": 0.15014106035232544,
+      "learning_rate": 3.517245946731529e-07,
+      "loss": 0.0019,
+      "step": 14490
+    },
+    {
+      "epoch": 9.666666666666666,
+      "grad_norm": 0.08429398387670517,
+      "learning_rate": 3.380821129028489e-07,
+      "loss": 0.0025,
+      "step": 14500
+    },
+    {
+      "epoch": 9.666666666666666,
+      "eval_darija_finetune_val_loss": 1.6728246212005615,
+      "eval_darija_finetune_val_runtime": 255.3964,
+      "eval_darija_finetune_val_samples_per_second": 3.915,
+      "eval_darija_finetune_val_steps_per_second": 1.958,
+      "step": 14500
+    },
+    {
+      "epoch": 9.673333333333334,
+      "grad_norm": 0.10686097294092178,
+      "learning_rate": 3.247085711940878e-07,
+      "loss": 0.0014,
+      "step": 14510
+    },
+    {
+      "epoch": 9.68,
+      "grad_norm": 0.3458156883716583,
+      "learning_rate": 3.1160404197018154e-07,
+      "loss": 0.0031,
+      "step": 14520
+    },
+    {
+      "epoch": 9.686666666666667,
+      "grad_norm": 0.053383663296699524,
+      "learning_rate": 2.987685961976461e-07,
+      "loss": 0.003,
+      "step": 14530
+    },
+    {
+      "epoch": 9.693333333333333,
+      "grad_norm": 0.06601729243993759,
+      "learning_rate": 2.8620230338578523e-07,
+      "loss": 0.0017,
+      "step": 14540
+    },
+    {
+      "epoch": 9.7,
+      "grad_norm": 0.0821034237742424,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 0.0018,
+      "step": 14550
+    },
+    {
+      "epoch": 9.706666666666667,
+      "grad_norm": 0.03112124837934971,
+      "learning_rate": 2.6187744739308297e-07,
+      "loss": 0.0035,
+      "step": 14560
+    },
+    {
+      "epoch": 9.713333333333333,
+      "grad_norm": 0.1146470457315445,
+      "learning_rate": 2.5011901594150787e-07,
+      "loss": 0.0059,
+      "step": 14570
+    },
+    {
+      "epoch": 9.72,
+      "grad_norm": 0.03972403705120087,
+      "learning_rate": 2.386300009084408e-07,
+      "loss": 0.0024,
+      "step": 14580
+    },
+    {
+      "epoch": 9.726666666666667,
+      "grad_norm": 0.0728117823600769,
+      "learning_rate": 2.27410464511707e-07,
+      "loss": 0.0064,
+      "step": 14590
+    },
+    {
+      "epoch": 9.733333333333333,
+      "grad_norm": 0.1488317847251892,
+      "learning_rate": 2.1646046750978254e-07,
+      "loss": 0.0029,
+      "step": 14600
+    },
+    {
+      "epoch": 9.733333333333333,
+      "eval_darija_finetune_val_loss": 1.673312783241272,
+      "eval_darija_finetune_val_runtime": 255.3991,
+      "eval_darija_finetune_val_samples_per_second": 3.915,
+      "eval_darija_finetune_val_steps_per_second": 1.958,
+      "step": 14600
+    },
+    {
+      "epoch": 9.74,
+      "grad_norm": 0.025615466758608818,
+      "learning_rate": 2.057800692014833e-07,
+      "loss": 0.0037,
+      "step": 14610
+    },
+    {
+      "epoch": 9.746666666666666,
+      "grad_norm": 0.30165600776672363,
+      "learning_rate": 1.953693274256374e-07,
+      "loss": 0.0017,
+      "step": 14620
+    },
+    {
+      "epoch": 9.753333333333334,
+      "grad_norm": 0.2331075370311737,
+      "learning_rate": 1.8522829856076894e-07,
+      "loss": 0.0021,
+      "step": 14630
+    },
+    {
+      "epoch": 9.76,
+      "grad_norm": 0.030038727447390556,
+      "learning_rate": 1.753570375247815e-07,
+      "loss": 0.0018,
+      "step": 14640
+    },
+    {
+      "epoch": 9.766666666666667,
+      "grad_norm": 0.06875910609960556,
+      "learning_rate": 1.657555977746972e-07,
+      "loss": 0.0015,
+      "step": 14650
+    },
+    {
+      "epoch": 9.773333333333333,
+      "grad_norm": 0.04768647253513336,
+      "learning_rate": 1.5642403130632365e-07,
+      "loss": 0.0016,
+      "step": 14660
+    },
+    {
+      "epoch": 9.78,
+      "grad_norm": 0.04930035024881363,
+      "learning_rate": 1.4736238865398765e-07,
+      "loss": 0.0032,
+      "step": 14670
+    },
+    {
+      "epoch": 9.786666666666667,
+      "grad_norm": 0.08424542844295502,
+      "learning_rate": 1.3857071889029072e-07,
+      "loss": 0.0019,
+      "step": 14680
+    },
+    {
+      "epoch": 9.793333333333333,
+      "grad_norm": 0.028574960306286812,
+      "learning_rate": 1.3004906962578721e-07,
+      "loss": 0.0037,
+      "step": 14690
+    },
+    {
+      "epoch": 9.8,
+      "grad_norm": 0.21403536200523376,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 0.0013,
+      "step": 14700
+    },
+    {
+      "epoch": 9.8,
+      "eval_darija_finetune_val_loss": 1.6734645366668701,
+      "eval_darija_finetune_val_runtime": 255.166,
+      "eval_darija_finetune_val_samples_per_second": 3.919,
+      "eval_darija_finetune_val_steps_per_second": 1.96,
+      "step": 14700
+    },
+    {
+      "epoch": 9.806666666666667,
+      "grad_norm": 0.19800934195518494,
+      "learning_rate": 1.1381601572505452e-07,
+      "loss": 0.002,
+      "step": 14710
+    },
+    {
+      "epoch": 9.813333333333333,
+      "grad_norm": 0.07532814145088196,
+      "learning_rate": 1.061046989976e-07,
+      "loss": 0.0016,
+      "step": 14720
+    },
+    {
+      "epoch": 9.82,
+      "grad_norm": 0.03803536668419838,
+      "learning_rate": 9.866357858642205e-08,
+      "loss": 0.0018,
+      "step": 14730
+    },
+    {
+      "epoch": 9.826666666666666,
+      "grad_norm": 0.02579469606280327,
+      "learning_rate": 9.14926947883088e-08,
+      "loss": 0.0018,
+      "step": 14740
+    },
+    {
+      "epoch": 9.833333333333334,
+      "grad_norm": 0.05008160322904587,
+      "learning_rate": 8.459208643659122e-08,
+      "loss": 0.0031,
+      "step": 14750
+    },
+    {
+      "epoch": 9.84,
+      "grad_norm": 0.030018998309969902,
+      "learning_rate": 7.796179090094891e-08,
+      "loss": 0.0037,
+      "step": 14760
+    },
+    {
+      "epoch": 9.846666666666668,
+      "grad_norm": 0.19618861377239227,
+      "learning_rate": 7.160184408721571e-08,
+      "loss": 0.0025,
+      "step": 14770
+    },
+    {
+      "epoch": 9.853333333333333,
+      "grad_norm": 0.34861278533935547,
+      "learning_rate": 6.551228043715219e-08,
+      "loss": 0.004,
+      "step": 14780
+    },
+    {
+      "epoch": 9.86,
+      "grad_norm": 0.04783879965543747,
+      "learning_rate": 5.969313292830125e-08,
+      "loss": 0.0026,
+      "step": 14790
+    },
+    {
+      "epoch": 9.866666666666667,
+      "grad_norm": 0.5102653503417969,
+      "learning_rate": 5.4144433073771707e-08,
+      "loss": 0.0026,
+      "step": 14800
+    },
+    {
+      "epoch": 9.866666666666667,
+      "eval_darija_finetune_val_loss": 1.673407793045044,
+      "eval_darija_finetune_val_runtime": 255.4391,
+      "eval_darija_finetune_val_samples_per_second": 3.915,
+      "eval_darija_finetune_val_steps_per_second": 1.957,
+      "step": 14800
+    },
+    {
+      "epoch": 9.873333333333333,
+      "grad_norm": 0.036181893199682236,
+      "learning_rate": 4.886621092211052e-08,
+      "loss": 0.0019,
+      "step": 14810
+    },
+    {
+      "epoch": 9.88,
+      "grad_norm": 0.06323245912790298,
+      "learning_rate": 4.385849505708084e-08,
+      "loss": 0.0022,
+      "step": 14820
+    },
+    {
+      "epoch": 9.886666666666667,
+      "grad_norm": 0.24941439926624298,
+      "learning_rate": 3.9121312597573125e-08,
+      "loss": 0.0028,
+      "step": 14830
+    },
+    {
+      "epoch": 9.893333333333333,
+      "grad_norm": 0.04239274561405182,
+      "learning_rate": 3.4654689197405335e-08,
+      "loss": 0.0017,
+      "step": 14840
+    },
+    {
+      "epoch": 9.9,
+      "grad_norm": 0.10489597171545029,
+      "learning_rate": 3.04586490452119e-08,
+      "loss": 0.0015,
+      "step": 14850
+    },
+    {
+      "epoch": 9.906666666666666,
+      "grad_norm": 0.026127703487873077,
+      "learning_rate": 2.6533214864310486e-08,
+      "loss": 0.0015,
+      "step": 14860
+    },
+    {
+      "epoch": 9.913333333333334,
+      "grad_norm": 0.054172832518815994,
+      "learning_rate": 2.2878407912563236e-08,
+      "loss": 0.0016,
+      "step": 14870
+    },
+    {
+      "epoch": 9.92,
+      "grad_norm": 0.04403897374868393,
+      "learning_rate": 1.949424798228239e-08,
+      "loss": 0.0027,
+      "step": 14880
+    },
+    {
+      "epoch": 9.926666666666666,
+      "grad_norm": 0.07947228848934174,
+      "learning_rate": 1.638075340010814e-08,
+      "loss": 0.0026,
+      "step": 14890
+    },
+    {
+      "epoch": 9.933333333333334,
+      "grad_norm": 0.14770367741584778,
+      "learning_rate": 1.3537941026914303e-08,
+      "loss": 0.0038,
+      "step": 14900
+    },
+    {
+      "epoch": 9.933333333333334,
+      "eval_darija_finetune_val_loss": 1.6740809679031372,
+      "eval_darija_finetune_val_runtime": 255.2455,
+      "eval_darija_finetune_val_samples_per_second": 3.918,
+      "eval_darija_finetune_val_steps_per_second": 1.959,
+      "step": 14900
+    },
+    {
+      "epoch": 9.94,
+      "grad_norm": 0.030284589156508446,
+      "learning_rate": 1.096582625772502e-08,
+      "loss": 0.0025,
+      "step": 14910
+    },
+    {
+      "epoch": 9.946666666666667,
+      "grad_norm": 0.04268106445670128,
+      "learning_rate": 8.664423021614853e-09,
+      "loss": 0.0019,
+      "step": 14920
+    },
+    {
+      "epoch": 9.953333333333333,
+      "grad_norm": 0.07388421893119812,
+      "learning_rate": 6.633743781642166e-09,
+      "loss": 0.0028,
+      "step": 14930
+    },
+    {
+      "epoch": 9.96,
+      "grad_norm": 0.09784652292728424,
+      "learning_rate": 4.873799534788059e-09,
+      "loss": 0.0027,
+      "step": 14940
+    },
+    {
+      "epoch": 9.966666666666667,
+      "grad_norm": 0.8997828364372253,
+      "learning_rate": 3.384599811889766e-09,
+      "loss": 0.0063,
+      "step": 14950
+    },
+    {
+      "epoch": 9.973333333333333,
+      "grad_norm": 0.031884029507637024,
+      "learning_rate": 2.1661526775795806e-09,
+      "loss": 0.0023,
+      "step": 14960
+    },
+    {
+      "epoch": 9.98,
+      "grad_norm": 0.045857325196266174,
+      "learning_rate": 1.2184647302626583e-09,
+      "loss": 0.0016,
+      "step": 14970
+    },
+    {
+      "epoch": 9.986666666666666,
+      "grad_norm": 0.06468190252780914,
+      "learning_rate": 5.415411020615047e-10,
+      "loss": 0.0026,
+      "step": 14980
+    },
+    {
+      "epoch": 9.993333333333334,
+      "grad_norm": 0.155287966132164,
+      "learning_rate": 1.3538545881042197e-10,
+      "loss": 0.0027,
+      "step": 14990
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.04103178158402443,
+      "learning_rate": 0.0,
+      "loss": 0.0032,
+      "step": 15000
+    },
+    {
+      "epoch": 10.0,
+      "eval_darija_finetune_val_loss": 1.6740385293960571,
+      "eval_darija_finetune_val_runtime": 255.3613,
+      "eval_darija_finetune_val_samples_per_second": 3.916,
+      "eval_darija_finetune_val_steps_per_second": 1.958,
+      "step": 15000
+    },
+    {
+      "epoch": 10.0,
+      "step": 15000,
+      "total_flos": 2.3021942645089894e+17,
+      "train_loss": 0.0,
+      "train_runtime": 2.5784,
+      "train_samples_per_second": 46541.284,
+      "train_steps_per_second": 5817.66
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 15000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3021942645089894e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}