ZMC2019 commited on
Commit
e165e37
·
verified ·
1 Parent(s): a43a817

Model save

Browse files
Files changed (4) hide show
  1. README.md +2 -4
  2. all_results.json +4 -4
  3. train_results.json +4 -4
  4. trainer_state.json +432 -432
README.md CHANGED
@@ -1,11 +1,9 @@
1
  ---
2
  base_model: open-r1/OpenR1-Qwen-7B
3
- datasets: open-r1/OpenR1-Math-220k
4
  library_name: transformers
5
  model_name: OpenR1-Qwen-7B-Sparse
6
  tags:
7
  - generated_from_trainer
8
- - open-r1
9
  - trl
10
  - sft
11
  licence: license
@@ -13,7 +11,7 @@ licence: license
13
 
14
  # Model Card for OpenR1-Qwen-7B-Sparse
15
 
16
- This model is a fine-tuned version of [open-r1/OpenR1-Qwen-7B](https://huggingface.co/open-r1/OpenR1-Qwen-7B) on the [open-r1/OpenR1-Math-220k](https://huggingface.co/datasets/open-r1/OpenR1-Math-220k) dataset.
17
  It has been trained using [TRL](https://github.com/huggingface/trl).
18
 
19
  ## Quick start
@@ -29,7 +27,7 @@ print(output["generated_text"])
29
 
30
  ## Training procedure
31
 
32
- [<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/chenzhuoming911/huggingface/runs/mharh69t)
33
 
34
 
35
  This model was trained with SFT.
 
1
  ---
2
  base_model: open-r1/OpenR1-Qwen-7B
 
3
  library_name: transformers
4
  model_name: OpenR1-Qwen-7B-Sparse
5
  tags:
6
  - generated_from_trainer
 
7
  - trl
8
  - sft
9
  licence: license
 
11
 
12
  # Model Card for OpenR1-Qwen-7B-Sparse
13
 
14
+ This model is a fine-tuned version of [open-r1/OpenR1-Qwen-7B](https://huggingface.co/open-r1/OpenR1-Qwen-7B).
15
  It has been trained using [TRL](https://github.com/huggingface/trl).
16
 
17
  ## Quick start
 
27
 
28
  ## Training procedure
29
 
30
+ [<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/chenzhuoming911/huggingface/runs/6s54j69e)
31
 
32
 
33
  This model was trained with SFT.
all_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "total_flos": 9.186429923093381e+17,
3
- "train_loss": 0.27417567097351914,
4
- "train_runtime": 29088.9913,
5
  "train_samples": 93733,
6
- "train_samples_per_second": 0.59,
7
- "train_steps_per_second": 0.037
8
  }
 
1
  {
2
  "total_flos": 9.186429923093381e+17,
3
+ "train_loss": 0.30834408108585926,
4
+ "train_runtime": 35203.5942,
5
  "train_samples": 93733,
6
+ "train_samples_per_second": 0.488,
7
+ "train_steps_per_second": 0.03
8
  }
train_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "total_flos": 9.186429923093381e+17,
3
- "train_loss": 0.27417567097351914,
4
- "train_runtime": 29088.9913,
5
  "train_samples": 93733,
6
- "train_samples_per_second": 0.59,
7
- "train_steps_per_second": 0.037
8
  }
 
1
  {
2
  "total_flos": 9.186429923093381e+17,
3
+ "train_loss": 0.30834408108585926,
4
+ "train_runtime": 35203.5942,
5
  "train_samples": 93733,
6
+ "train_samples_per_second": 0.488,
7
+ "train_steps_per_second": 0.03
8
  }
trainer_state.json CHANGED
@@ -10,1510 +10,1510 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.004659832246039142,
13
- "grad_norm": 0.2480848187526065,
14
  "learning_rate": 9.259259259259259e-07,
15
- "loss": 0.2856,
16
  "step": 5
17
  },
18
  {
19
  "epoch": 0.009319664492078284,
20
- "grad_norm": 0.27846440569740516,
21
  "learning_rate": 1.8518518518518519e-06,
22
- "loss": 0.2743,
23
  "step": 10
24
  },
25
  {
26
  "epoch": 0.013979496738117428,
27
- "grad_norm": 0.1775956763008417,
28
  "learning_rate": 2.7777777777777783e-06,
29
- "loss": 0.2735,
30
  "step": 15
31
  },
32
  {
33
  "epoch": 0.01863932898415657,
34
- "grad_norm": 0.2097019213694641,
35
  "learning_rate": 3.7037037037037037e-06,
36
- "loss": 0.2783,
37
  "step": 20
38
  },
39
  {
40
  "epoch": 0.023299161230195712,
41
- "grad_norm": 0.2017973119570326,
42
  "learning_rate": 4.62962962962963e-06,
43
- "loss": 0.2623,
44
  "step": 25
45
  },
46
  {
47
  "epoch": 0.027958993476234855,
48
- "grad_norm": 0.19396546589386038,
49
  "learning_rate": 5.555555555555557e-06,
50
- "loss": 0.2588,
51
  "step": 30
52
  },
53
  {
54
  "epoch": 0.032618825722273995,
55
- "grad_norm": 0.1833475348357745,
56
  "learning_rate": 6.481481481481482e-06,
57
- "loss": 0.2629,
58
  "step": 35
59
  },
60
  {
61
  "epoch": 0.03727865796831314,
62
- "grad_norm": 0.19103036464826775,
63
  "learning_rate": 7.4074074074074075e-06,
64
- "loss": 0.2639,
65
  "step": 40
66
  },
67
  {
68
  "epoch": 0.04193849021435228,
69
- "grad_norm": 0.1903046005080379,
70
  "learning_rate": 8.333333333333334e-06,
71
- "loss": 0.2673,
72
  "step": 45
73
  },
74
  {
75
  "epoch": 0.046598322460391424,
76
- "grad_norm": 0.18460973869272648,
77
  "learning_rate": 9.25925925925926e-06,
78
- "loss": 0.2761,
79
  "step": 50
80
  },
81
  {
82
  "epoch": 0.05125815470643057,
83
- "grad_norm": 0.19245235339515152,
84
  "learning_rate": 1.0185185185185186e-05,
85
- "loss": 0.2712,
86
  "step": 55
87
  },
88
  {
89
  "epoch": 0.05591798695246971,
90
- "grad_norm": 0.187838588087584,
91
  "learning_rate": 1.1111111111111113e-05,
92
- "loss": 0.2723,
93
  "step": 60
94
  },
95
  {
96
  "epoch": 0.06057781919850885,
97
- "grad_norm": 0.17781539091622867,
98
  "learning_rate": 1.2037037037037039e-05,
99
- "loss": 0.2667,
100
  "step": 65
101
  },
102
  {
103
  "epoch": 0.06523765144454799,
104
- "grad_norm": 0.20027656085731357,
105
  "learning_rate": 1.2962962962962964e-05,
106
- "loss": 0.2736,
107
  "step": 70
108
  },
109
  {
110
  "epoch": 0.06989748369058714,
111
- "grad_norm": 0.20349467354700868,
112
  "learning_rate": 1.388888888888889e-05,
113
- "loss": 0.2696,
114
  "step": 75
115
  },
116
  {
117
  "epoch": 0.07455731593662628,
118
- "grad_norm": 0.20858032960565945,
119
  "learning_rate": 1.4814814814814815e-05,
120
- "loss": 0.2659,
121
  "step": 80
122
  },
123
  {
124
  "epoch": 0.07921714818266543,
125
- "grad_norm": 0.21178392393672066,
126
  "learning_rate": 1.5740740740740744e-05,
127
- "loss": 0.2715,
128
  "step": 85
129
  },
130
  {
131
  "epoch": 0.08387698042870456,
132
- "grad_norm": 0.19683247262126224,
133
  "learning_rate": 1.6666666666666667e-05,
134
- "loss": 0.276,
135
  "step": 90
136
  },
137
  {
138
  "epoch": 0.08853681267474371,
139
- "grad_norm": 0.19763192488794942,
140
  "learning_rate": 1.7592592592592595e-05,
141
- "loss": 0.2704,
142
  "step": 95
143
  },
144
  {
145
  "epoch": 0.09319664492078285,
146
- "grad_norm": 0.1956972064059814,
147
  "learning_rate": 1.851851851851852e-05,
148
- "loss": 0.2682,
149
  "step": 100
150
  },
151
  {
152
  "epoch": 0.097856477166822,
153
- "grad_norm": 0.20066192797959884,
154
  "learning_rate": 1.9444444444444445e-05,
155
- "loss": 0.2694,
156
  "step": 105
157
  },
158
  {
159
  "epoch": 0.10251630941286113,
160
- "grad_norm": 0.22173843606276825,
161
  "learning_rate": 1.995854922279793e-05,
162
- "loss": 0.2691,
163
  "step": 110
164
  },
165
  {
166
  "epoch": 0.10717614165890028,
167
- "grad_norm": 0.22661606789228167,
168
  "learning_rate": 1.985492227979275e-05,
169
- "loss": 0.2707,
170
  "step": 115
171
  },
172
  {
173
  "epoch": 0.11183597390493942,
174
- "grad_norm": 0.25878304515306677,
175
  "learning_rate": 1.9751295336787565e-05,
176
- "loss": 0.2712,
177
  "step": 120
178
  },
179
  {
180
  "epoch": 0.11649580615097857,
181
- "grad_norm": 0.20769568193046992,
182
  "learning_rate": 1.9647668393782386e-05,
183
- "loss": 0.2662,
184
  "step": 125
185
  },
186
  {
187
  "epoch": 0.1211556383970177,
188
- "grad_norm": 0.2339523798236711,
189
  "learning_rate": 1.9544041450777206e-05,
190
- "loss": 0.2741,
191
  "step": 130
192
  },
193
  {
194
  "epoch": 0.12581547064305684,
195
- "grad_norm": 0.21510297906435297,
196
  "learning_rate": 1.9440414507772023e-05,
197
- "loss": 0.2684,
198
  "step": 135
199
  },
200
  {
201
  "epoch": 0.13047530288909598,
202
- "grad_norm": 0.23732427940490297,
203
  "learning_rate": 1.9336787564766843e-05,
204
- "loss": 0.2685,
205
  "step": 140
206
  },
207
  {
208
  "epoch": 0.13513513513513514,
209
- "grad_norm": 0.2123608724012592,
210
  "learning_rate": 1.923316062176166e-05,
211
- "loss": 0.2808,
212
  "step": 145
213
  },
214
  {
215
  "epoch": 0.13979496738117428,
216
- "grad_norm": 0.22764321452420136,
217
  "learning_rate": 1.9129533678756477e-05,
218
- "loss": 0.2726,
219
  "step": 150
220
  },
221
  {
222
  "epoch": 0.14445479962721341,
223
- "grad_norm": 0.20310601163154524,
224
  "learning_rate": 1.9025906735751297e-05,
225
- "loss": 0.2852,
226
  "step": 155
227
  },
228
  {
229
  "epoch": 0.14911463187325255,
230
- "grad_norm": 0.2298242877800892,
231
  "learning_rate": 1.8922279792746117e-05,
232
- "loss": 0.2757,
233
  "step": 160
234
  },
235
  {
236
  "epoch": 0.15377446411929171,
237
- "grad_norm": 0.20978701600081326,
238
  "learning_rate": 1.8818652849740934e-05,
239
- "loss": 0.2733,
240
  "step": 165
241
  },
242
  {
243
  "epoch": 0.15843429636533085,
244
- "grad_norm": 0.1998319044566166,
245
  "learning_rate": 1.8715025906735754e-05,
246
- "loss": 0.2559,
247
  "step": 170
248
  },
249
  {
250
  "epoch": 0.16309412861137,
251
- "grad_norm": 0.20450079549144815,
252
  "learning_rate": 1.861139896373057e-05,
253
- "loss": 0.2743,
254
  "step": 175
255
  },
256
  {
257
  "epoch": 0.16775396085740912,
258
- "grad_norm": 0.19585540202223178,
259
  "learning_rate": 1.850777202072539e-05,
260
- "loss": 0.2731,
261
  "step": 180
262
  },
263
  {
264
  "epoch": 0.1724137931034483,
265
- "grad_norm": 0.20114655528014272,
266
  "learning_rate": 1.8404145077720208e-05,
267
- "loss": 0.2676,
268
  "step": 185
269
  },
270
  {
271
  "epoch": 0.17707362534948742,
272
- "grad_norm": 0.20898866856201928,
273
  "learning_rate": 1.8300518134715028e-05,
274
- "loss": 0.2746,
275
  "step": 190
276
  },
277
  {
278
  "epoch": 0.18173345759552656,
279
- "grad_norm": 0.23418307676215824,
280
  "learning_rate": 1.8196891191709845e-05,
281
- "loss": 0.2738,
282
  "step": 195
283
  },
284
  {
285
  "epoch": 0.1863932898415657,
286
- "grad_norm": 0.21381181093698814,
287
  "learning_rate": 1.8093264248704665e-05,
288
- "loss": 0.2755,
289
  "step": 200
290
  },
291
  {
292
  "epoch": 0.19105312208760486,
293
- "grad_norm": 0.1945831655656839,
294
  "learning_rate": 1.7989637305699482e-05,
295
- "loss": 0.2729,
296
  "step": 205
297
  },
298
  {
299
  "epoch": 0.195712954333644,
300
- "grad_norm": 0.25188414879097026,
301
  "learning_rate": 1.7886010362694302e-05,
302
- "loss": 0.2747,
303
  "step": 210
304
  },
305
  {
306
  "epoch": 0.20037278657968313,
307
- "grad_norm": 0.2034438567116008,
308
  "learning_rate": 1.778238341968912e-05,
309
- "loss": 0.2707,
310
  "step": 215
311
  },
312
  {
313
  "epoch": 0.20503261882572227,
314
- "grad_norm": 0.19342833535436457,
315
  "learning_rate": 1.767875647668394e-05,
316
- "loss": 0.2761,
317
  "step": 220
318
  },
319
  {
320
  "epoch": 0.2096924510717614,
321
- "grad_norm": 0.2043835725939126,
322
  "learning_rate": 1.757512953367876e-05,
323
- "loss": 0.2681,
324
  "step": 225
325
  },
326
  {
327
  "epoch": 0.21435228331780057,
328
- "grad_norm": 0.2074491682435995,
329
  "learning_rate": 1.7471502590673576e-05,
330
- "loss": 0.2743,
331
  "step": 230
332
  },
333
  {
334
  "epoch": 0.2190121155638397,
335
- "grad_norm": 0.19431836721424317,
336
  "learning_rate": 1.7367875647668397e-05,
337
- "loss": 0.2696,
338
  "step": 235
339
  },
340
  {
341
  "epoch": 0.22367194780987884,
342
- "grad_norm": 0.23535008907014365,
343
  "learning_rate": 1.7264248704663214e-05,
344
- "loss": 0.2756,
345
  "step": 240
346
  },
347
  {
348
  "epoch": 0.22833178005591798,
349
- "grad_norm": 0.22992274931044096,
350
  "learning_rate": 1.716062176165803e-05,
351
- "loss": 0.2747,
352
  "step": 245
353
  },
354
  {
355
  "epoch": 0.23299161230195714,
356
- "grad_norm": 0.23642332032502936,
357
  "learning_rate": 1.705699481865285e-05,
358
- "loss": 0.2726,
359
  "step": 250
360
  },
361
  {
362
  "epoch": 0.23765144454799628,
363
- "grad_norm": 0.20748084991662222,
364
  "learning_rate": 1.695336787564767e-05,
365
- "loss": 0.2716,
366
  "step": 255
367
  },
368
  {
369
  "epoch": 0.2423112767940354,
370
- "grad_norm": 0.21945114618793227,
371
  "learning_rate": 1.6849740932642488e-05,
372
- "loss": 0.2771,
373
  "step": 260
374
  },
375
  {
376
  "epoch": 0.24697110904007455,
377
- "grad_norm": 0.22645209579957054,
378
  "learning_rate": 1.6746113989637308e-05,
379
- "loss": 0.2765,
380
  "step": 265
381
  },
382
  {
383
  "epoch": 0.2516309412861137,
384
- "grad_norm": 0.19551387120009264,
385
  "learning_rate": 1.6642487046632125e-05,
386
- "loss": 0.2723,
387
  "step": 270
388
  },
389
  {
390
  "epoch": 0.25629077353215285,
391
- "grad_norm": 0.20635102879128378,
392
  "learning_rate": 1.6538860103626945e-05,
393
- "loss": 0.2725,
394
  "step": 275
395
  },
396
  {
397
  "epoch": 0.26095060577819196,
398
- "grad_norm": 0.19198952075337267,
399
  "learning_rate": 1.6435233160621765e-05,
400
- "loss": 0.2709,
401
  "step": 280
402
  },
403
  {
404
  "epoch": 0.2656104380242311,
405
- "grad_norm": 0.2183101530827561,
406
  "learning_rate": 1.6331606217616582e-05,
407
- "loss": 0.2718,
408
  "step": 285
409
  },
410
  {
411
  "epoch": 0.2702702702702703,
412
- "grad_norm": 0.20425797133671955,
413
  "learning_rate": 1.6227979274611402e-05,
414
- "loss": 0.2788,
415
  "step": 290
416
  },
417
  {
418
  "epoch": 0.2749301025163094,
419
- "grad_norm": 0.23011000314623464,
420
  "learning_rate": 1.612435233160622e-05,
421
- "loss": 0.2905,
422
  "step": 295
423
  },
424
  {
425
  "epoch": 0.27958993476234856,
426
- "grad_norm": 0.2155480458012789,
427
  "learning_rate": 1.6020725388601036e-05,
428
- "loss": 0.2848,
429
  "step": 300
430
  },
431
  {
432
  "epoch": 0.2842497670083877,
433
- "grad_norm": 0.2197010179321984,
434
  "learning_rate": 1.5917098445595856e-05,
435
- "loss": 0.2747,
436
  "step": 305
437
  },
438
  {
439
  "epoch": 0.28890959925442683,
440
- "grad_norm": 0.22179807332039045,
441
  "learning_rate": 1.5813471502590673e-05,
442
- "loss": 0.2728,
443
  "step": 310
444
  },
445
  {
446
  "epoch": 0.293569431500466,
447
- "grad_norm": 0.2120751835986257,
448
  "learning_rate": 1.5709844559585493e-05,
449
- "loss": 0.2787,
450
  "step": 315
451
  },
452
  {
453
  "epoch": 0.2982292637465051,
454
- "grad_norm": 0.226069231034194,
455
  "learning_rate": 1.5606217616580313e-05,
456
- "loss": 0.2651,
457
  "step": 320
458
  },
459
  {
460
  "epoch": 0.30288909599254427,
461
- "grad_norm": 0.20857741942191318,
462
  "learning_rate": 1.550259067357513e-05,
463
- "loss": 0.2672,
464
  "step": 325
465
  },
466
  {
467
  "epoch": 0.30754892823858343,
468
- "grad_norm": 0.2027127864635231,
469
  "learning_rate": 1.539896373056995e-05,
470
- "loss": 0.2758,
471
  "step": 330
472
  },
473
  {
474
  "epoch": 0.31220876048462254,
475
- "grad_norm": 0.21391079816437977,
476
  "learning_rate": 1.5295336787564767e-05,
477
- "loss": 0.2737,
478
  "step": 335
479
  },
480
  {
481
  "epoch": 0.3168685927306617,
482
- "grad_norm": 0.1949931649207275,
483
  "learning_rate": 1.5191709844559586e-05,
484
- "loss": 0.2709,
485
  "step": 340
486
  },
487
  {
488
  "epoch": 0.32152842497670087,
489
- "grad_norm": 0.203272659243948,
490
  "learning_rate": 1.5088082901554406e-05,
491
- "loss": 0.2744,
492
  "step": 345
493
  },
494
  {
495
  "epoch": 0.32618825722274,
496
- "grad_norm": 0.23386254140039578,
497
  "learning_rate": 1.4984455958549225e-05,
498
- "loss": 0.2829,
499
  "step": 350
500
  },
501
  {
502
  "epoch": 0.33084808946877914,
503
- "grad_norm": 0.20956086579279376,
504
  "learning_rate": 1.4880829015544043e-05,
505
- "loss": 0.282,
506
  "step": 355
507
  },
508
  {
509
  "epoch": 0.33550792171481825,
510
- "grad_norm": 0.19915707487576464,
511
  "learning_rate": 1.4777202072538862e-05,
512
- "loss": 0.2728,
513
  "step": 360
514
  },
515
  {
516
  "epoch": 0.3401677539608574,
517
- "grad_norm": 0.19888362106152468,
518
  "learning_rate": 1.4673575129533678e-05,
519
- "loss": 0.2711,
520
  "step": 365
521
  },
522
  {
523
  "epoch": 0.3448275862068966,
524
- "grad_norm": 0.20565614821988315,
525
  "learning_rate": 1.4569948186528497e-05,
526
- "loss": 0.2771,
527
  "step": 370
528
  },
529
  {
530
  "epoch": 0.3494874184529357,
531
- "grad_norm": 0.22007541774769399,
532
  "learning_rate": 1.4466321243523317e-05,
533
- "loss": 0.2727,
534
  "step": 375
535
  },
536
  {
537
  "epoch": 0.35414725069897485,
538
- "grad_norm": 0.21285035462598179,
539
  "learning_rate": 1.4362694300518136e-05,
540
- "loss": 0.2813,
541
  "step": 380
542
  },
543
  {
544
  "epoch": 0.35880708294501396,
545
- "grad_norm": 0.2074859169658842,
546
  "learning_rate": 1.4259067357512954e-05,
547
- "loss": 0.2755,
548
  "step": 385
549
  },
550
  {
551
  "epoch": 0.3634669151910531,
552
- "grad_norm": 0.20518630624764556,
553
  "learning_rate": 1.4155440414507773e-05,
554
- "loss": 0.2751,
555
  "step": 390
556
  },
557
  {
558
  "epoch": 0.3681267474370923,
559
- "grad_norm": 0.24631525396138984,
560
  "learning_rate": 1.4051813471502591e-05,
561
- "loss": 0.2758,
562
  "step": 395
563
  },
564
  {
565
  "epoch": 0.3727865796831314,
566
- "grad_norm": 0.2072164144473051,
567
  "learning_rate": 1.394818652849741e-05,
568
- "loss": 0.2679,
569
  "step": 400
570
  },
571
  {
572
  "epoch": 0.37744641192917056,
573
- "grad_norm": 0.20130515204148264,
574
  "learning_rate": 1.384455958549223e-05,
575
- "loss": 0.288,
576
  "step": 405
577
  },
578
  {
579
  "epoch": 0.3821062441752097,
580
- "grad_norm": 0.21318795834604967,
581
  "learning_rate": 1.3740932642487049e-05,
582
- "loss": 0.2774,
583
  "step": 410
584
  },
585
  {
586
  "epoch": 0.38676607642124883,
587
- "grad_norm": 0.19837831244344498,
588
  "learning_rate": 1.3637305699481867e-05,
589
- "loss": 0.2732,
590
  "step": 415
591
  },
592
  {
593
  "epoch": 0.391425908667288,
594
- "grad_norm": 0.21706421514687568,
595
  "learning_rate": 1.3533678756476684e-05,
596
- "loss": 0.2805,
597
  "step": 420
598
  },
599
  {
600
  "epoch": 0.3960857409133271,
601
- "grad_norm": 0.21316576729012615,
602
  "learning_rate": 1.3430051813471503e-05,
603
- "loss": 0.2844,
604
  "step": 425
605
  },
606
  {
607
  "epoch": 0.40074557315936626,
608
- "grad_norm": 0.2014337720595473,
609
  "learning_rate": 1.3326424870466321e-05,
610
- "loss": 0.2828,
611
  "step": 430
612
  },
613
  {
614
  "epoch": 0.40540540540540543,
615
- "grad_norm": 0.2072514307470887,
616
  "learning_rate": 1.3222797927461141e-05,
617
- "loss": 0.2852,
618
  "step": 435
619
  },
620
  {
621
  "epoch": 0.41006523765144454,
622
- "grad_norm": 0.24227887513487076,
623
  "learning_rate": 1.311917098445596e-05,
624
- "loss": 0.2755,
625
  "step": 440
626
  },
627
  {
628
  "epoch": 0.4147250698974837,
629
- "grad_norm": 0.20801065806848365,
630
  "learning_rate": 1.3015544041450778e-05,
631
- "loss": 0.2764,
632
  "step": 445
633
  },
634
  {
635
  "epoch": 0.4193849021435228,
636
- "grad_norm": 0.1942439454612911,
637
  "learning_rate": 1.2911917098445597e-05,
638
- "loss": 0.2691,
639
  "step": 450
640
  },
641
  {
642
  "epoch": 0.424044734389562,
643
- "grad_norm": 0.2076864298032534,
644
  "learning_rate": 1.2808290155440415e-05,
645
- "loss": 0.2771,
646
  "step": 455
647
  },
648
  {
649
  "epoch": 0.42870456663560114,
650
- "grad_norm": 0.20740530807254287,
651
  "learning_rate": 1.2704663212435234e-05,
652
- "loss": 0.2749,
653
  "step": 460
654
  },
655
  {
656
  "epoch": 0.43336439888164024,
657
- "grad_norm": 0.2226181167276175,
658
  "learning_rate": 1.2601036269430054e-05,
659
- "loss": 0.2726,
660
  "step": 465
661
  },
662
  {
663
  "epoch": 0.4380242311276794,
664
- "grad_norm": 0.2163332314393917,
665
  "learning_rate": 1.2497409326424873e-05,
666
- "loss": 0.2801,
667
  "step": 470
668
  },
669
  {
670
  "epoch": 0.4426840633737186,
671
- "grad_norm": 0.22697445952775339,
672
  "learning_rate": 1.239378238341969e-05,
673
- "loss": 0.2721,
674
  "step": 475
675
  },
676
  {
677
  "epoch": 0.4473438956197577,
678
- "grad_norm": 0.21459489713651447,
679
  "learning_rate": 1.2290155440414508e-05,
680
- "loss": 0.2876,
681
  "step": 480
682
  },
683
  {
684
  "epoch": 0.45200372786579684,
685
- "grad_norm": 0.212728336485677,
686
  "learning_rate": 1.2186528497409327e-05,
687
- "loss": 0.2775,
688
  "step": 485
689
  },
690
  {
691
  "epoch": 0.45666356011183595,
692
- "grad_norm": 0.18956662975107208,
693
  "learning_rate": 1.2082901554404145e-05,
694
- "loss": 0.2717,
695
  "step": 490
696
  },
697
  {
698
  "epoch": 0.4613233923578751,
699
- "grad_norm": 0.19911793563914765,
700
  "learning_rate": 1.1979274611398965e-05,
701
- "loss": 0.2761,
702
  "step": 495
703
  },
704
  {
705
  "epoch": 0.4659832246039143,
706
- "grad_norm": 0.21638725379085677,
707
  "learning_rate": 1.1875647668393784e-05,
708
- "loss": 0.2876,
709
  "step": 500
710
  },
711
  {
712
  "epoch": 0.4706430568499534,
713
- "grad_norm": 0.21417364115903229,
714
  "learning_rate": 1.1772020725388602e-05,
715
- "loss": 0.2768,
716
  "step": 505
717
  },
718
  {
719
  "epoch": 0.47530288909599255,
720
- "grad_norm": 0.19378036957825795,
721
  "learning_rate": 1.1668393782383421e-05,
722
- "loss": 0.2757,
723
  "step": 510
724
  },
725
  {
726
  "epoch": 0.47996272134203166,
727
- "grad_norm": 0.20348312570963792,
728
  "learning_rate": 1.1564766839378238e-05,
729
- "loss": 0.2754,
730
  "step": 515
731
  },
732
  {
733
  "epoch": 0.4846225535880708,
734
- "grad_norm": 0.20078805057918098,
735
  "learning_rate": 1.1461139896373056e-05,
736
- "loss": 0.2801,
737
  "step": 520
738
  },
739
  {
740
  "epoch": 0.48928238583411,
741
- "grad_norm": 0.22711582634492097,
742
  "learning_rate": 1.1357512953367878e-05,
743
- "loss": 0.2805,
744
  "step": 525
745
  },
746
  {
747
  "epoch": 0.4939422180801491,
748
- "grad_norm": 0.19833314424388493,
749
  "learning_rate": 1.1253886010362695e-05,
750
- "loss": 0.2749,
751
  "step": 530
752
  },
753
  {
754
  "epoch": 0.49860205032618826,
755
- "grad_norm": 0.20627918163276826,
756
  "learning_rate": 1.1150259067357514e-05,
757
- "loss": 0.2807,
758
  "step": 535
759
  },
760
  {
761
  "epoch": 0.5032618825722274,
762
- "grad_norm": 0.22111449652544438,
763
  "learning_rate": 1.1046632124352332e-05,
764
- "loss": 0.2672,
765
  "step": 540
766
  },
767
  {
768
  "epoch": 0.5079217148182665,
769
- "grad_norm": 0.2245796946555213,
770
  "learning_rate": 1.094300518134715e-05,
771
- "loss": 0.2745,
772
  "step": 545
773
  },
774
  {
775
  "epoch": 0.5125815470643057,
776
- "grad_norm": 0.21913989463492667,
777
  "learning_rate": 1.083937823834197e-05,
778
- "loss": 0.2808,
779
  "step": 550
780
  },
781
  {
782
  "epoch": 0.5172413793103449,
783
- "grad_norm": 0.21743987494816502,
784
  "learning_rate": 1.073575129533679e-05,
785
- "loss": 0.2805,
786
  "step": 555
787
  },
788
  {
789
  "epoch": 0.5219012115563839,
790
- "grad_norm": 0.2223044993066891,
791
  "learning_rate": 1.0632124352331608e-05,
792
- "loss": 0.2875,
793
  "step": 560
794
  },
795
  {
796
  "epoch": 0.5265610438024231,
797
- "grad_norm": 0.18695066177700756,
798
  "learning_rate": 1.0528497409326426e-05,
799
- "loss": 0.2643,
800
  "step": 565
801
  },
802
  {
803
  "epoch": 0.5312208760484622,
804
- "grad_norm": 0.21093529744919742,
805
  "learning_rate": 1.0424870466321243e-05,
806
- "loss": 0.2699,
807
  "step": 570
808
  },
809
  {
810
  "epoch": 0.5358807082945014,
811
- "grad_norm": 0.19752807407672002,
812
  "learning_rate": 1.0321243523316062e-05,
813
- "loss": 0.2734,
814
  "step": 575
815
  },
816
  {
817
  "epoch": 0.5405405405405406,
818
- "grad_norm": 0.20088984513783537,
819
  "learning_rate": 1.021761658031088e-05,
820
- "loss": 0.2712,
821
  "step": 580
822
  },
823
  {
824
  "epoch": 0.5452003727865797,
825
- "grad_norm": 0.20325055999916153,
826
  "learning_rate": 1.01139896373057e-05,
827
- "loss": 0.2774,
828
  "step": 585
829
  },
830
  {
831
  "epoch": 0.5498602050326188,
832
- "grad_norm": 0.22174441086027497,
833
  "learning_rate": 1.0010362694300519e-05,
834
- "loss": 0.2689,
835
  "step": 590
836
  },
837
  {
838
  "epoch": 0.554520037278658,
839
- "grad_norm": 0.20061271709209516,
840
  "learning_rate": 9.906735751295338e-06,
841
- "loss": 0.273,
842
  "step": 595
843
  },
844
  {
845
  "epoch": 0.5591798695246971,
846
- "grad_norm": 0.2226596622045658,
847
  "learning_rate": 9.803108808290156e-06,
848
- "loss": 0.2756,
849
  "step": 600
850
  },
851
  {
852
  "epoch": 0.5638397017707363,
853
- "grad_norm": 0.19697076210420275,
854
  "learning_rate": 9.699481865284975e-06,
855
- "loss": 0.2732,
856
  "step": 605
857
  },
858
  {
859
  "epoch": 0.5684995340167754,
860
- "grad_norm": 0.22175232192708388,
861
  "learning_rate": 9.595854922279793e-06,
862
- "loss": 0.2812,
863
  "step": 610
864
  },
865
  {
866
  "epoch": 0.5731593662628145,
867
- "grad_norm": 0.21147846013410135,
868
  "learning_rate": 9.492227979274612e-06,
869
- "loss": 0.2729,
870
  "step": 615
871
  },
872
  {
873
  "epoch": 0.5778191985088537,
874
- "grad_norm": 0.20160869332931788,
875
  "learning_rate": 9.388601036269432e-06,
876
- "loss": 0.2663,
877
  "step": 620
878
  },
879
  {
880
  "epoch": 0.5824790307548928,
881
- "grad_norm": 0.20814998856523514,
882
  "learning_rate": 9.284974093264249e-06,
883
- "loss": 0.2787,
884
  "step": 625
885
  },
886
  {
887
  "epoch": 0.587138863000932,
888
- "grad_norm": 0.1873990471712869,
889
  "learning_rate": 9.181347150259067e-06,
890
- "loss": 0.2784,
891
  "step": 630
892
  },
893
  {
894
  "epoch": 0.5917986952469712,
895
- "grad_norm": 0.21324250407573406,
896
  "learning_rate": 9.077720207253888e-06,
897
- "loss": 0.2791,
898
  "step": 635
899
  },
900
  {
901
  "epoch": 0.5964585274930102,
902
- "grad_norm": 0.19205913704094654,
903
  "learning_rate": 8.974093264248706e-06,
904
- "loss": 0.2808,
905
  "step": 640
906
  },
907
  {
908
  "epoch": 0.6011183597390494,
909
- "grad_norm": 0.20657296059347666,
910
  "learning_rate": 8.870466321243523e-06,
911
- "loss": 0.2757,
912
  "step": 645
913
  },
914
  {
915
  "epoch": 0.6057781919850885,
916
- "grad_norm": 0.20355030156034296,
917
  "learning_rate": 8.766839378238343e-06,
918
- "loss": 0.2774,
919
  "step": 650
920
  },
921
  {
922
  "epoch": 0.6104380242311277,
923
- "grad_norm": 0.210129052042712,
924
  "learning_rate": 8.663212435233162e-06,
925
- "loss": 0.2813,
926
  "step": 655
927
  },
928
  {
929
  "epoch": 0.6150978564771669,
930
- "grad_norm": 0.20693376106919167,
931
  "learning_rate": 8.55958549222798e-06,
932
- "loss": 0.2654,
933
  "step": 660
934
  },
935
  {
936
  "epoch": 0.6197576887232059,
937
- "grad_norm": 0.20048258208742983,
938
  "learning_rate": 8.455958549222799e-06,
939
- "loss": 0.2686,
940
  "step": 665
941
  },
942
  {
943
  "epoch": 0.6244175209692451,
944
- "grad_norm": 0.19402957660001943,
945
  "learning_rate": 8.352331606217617e-06,
946
- "loss": 0.2695,
947
  "step": 670
948
  },
949
  {
950
  "epoch": 0.6290773532152842,
951
- "grad_norm": 0.18920776684229643,
952
  "learning_rate": 8.248704663212436e-06,
953
- "loss": 0.2673,
954
  "step": 675
955
  },
956
  {
957
  "epoch": 0.6337371854613234,
958
- "grad_norm": 0.21815092086301652,
959
  "learning_rate": 8.145077720207254e-06,
960
- "loss": 0.2788,
961
  "step": 680
962
  },
963
  {
964
  "epoch": 0.6383970177073626,
965
- "grad_norm": 0.18249459905289228,
966
  "learning_rate": 8.041450777202073e-06,
967
- "loss": 0.2794,
968
  "step": 685
969
  },
970
  {
971
  "epoch": 0.6430568499534017,
972
- "grad_norm": 0.19591809096684484,
973
  "learning_rate": 7.937823834196891e-06,
974
- "loss": 0.2715,
975
  "step": 690
976
  },
977
  {
978
  "epoch": 0.6477166821994408,
979
- "grad_norm": 0.19514031116444766,
980
  "learning_rate": 7.834196891191712e-06,
981
- "loss": 0.2795,
982
  "step": 695
983
  },
984
  {
985
  "epoch": 0.65237651444548,
986
- "grad_norm": 0.19204390954009534,
987
  "learning_rate": 7.730569948186528e-06,
988
- "loss": 0.2837,
989
  "step": 700
990
  },
991
  {
992
  "epoch": 0.6570363466915191,
993
- "grad_norm": 0.1814003327176538,
994
  "learning_rate": 7.626943005181348e-06,
995
- "loss": 0.27,
996
  "step": 705
997
  },
998
  {
999
  "epoch": 0.6616961789375583,
1000
- "grad_norm": 0.20946585680553592,
1001
  "learning_rate": 7.523316062176167e-06,
1002
- "loss": 0.2704,
1003
  "step": 710
1004
  },
1005
  {
1006
  "epoch": 0.6663560111835974,
1007
- "grad_norm": 0.1921568693032343,
1008
  "learning_rate": 7.419689119170985e-06,
1009
- "loss": 0.2677,
1010
  "step": 715
1011
  },
1012
  {
1013
  "epoch": 0.6710158434296365,
1014
- "grad_norm": 0.19912449557751416,
1015
  "learning_rate": 7.3160621761658035e-06,
1016
- "loss": 0.2703,
1017
  "step": 720
1018
  },
1019
  {
1020
  "epoch": 0.6756756756756757,
1021
- "grad_norm": 0.20566000197011958,
1022
  "learning_rate": 7.212435233160623e-06,
1023
- "loss": 0.2766,
1024
  "step": 725
1025
  },
1026
  {
1027
  "epoch": 0.6803355079217148,
1028
- "grad_norm": 0.20652162303920849,
1029
  "learning_rate": 7.108808290155441e-06,
1030
- "loss": 0.2727,
1031
  "step": 730
1032
  },
1033
  {
1034
  "epoch": 0.684995340167754,
1035
- "grad_norm": 0.19038258519772516,
1036
  "learning_rate": 7.005181347150259e-06,
1037
- "loss": 0.2724,
1038
  "step": 735
1039
  },
1040
  {
1041
  "epoch": 0.6896551724137931,
1042
- "grad_norm": 0.19490385886001102,
1043
  "learning_rate": 6.9015544041450784e-06,
1044
- "loss": 0.2675,
1045
  "step": 740
1046
  },
1047
  {
1048
  "epoch": 0.6943150046598322,
1049
- "grad_norm": 0.18560068669657961,
1050
  "learning_rate": 6.797927461139897e-06,
1051
- "loss": 0.2702,
1052
  "step": 745
1053
  },
1054
  {
1055
  "epoch": 0.6989748369058714,
1056
- "grad_norm": 0.19621768587568514,
1057
  "learning_rate": 6.6943005181347155e-06,
1058
- "loss": 0.2692,
1059
  "step": 750
1060
  },
1061
  {
1062
  "epoch": 0.7036346691519105,
1063
- "grad_norm": 0.2112507969969134,
1064
  "learning_rate": 6.590673575129535e-06,
1065
- "loss": 0.2743,
1066
  "step": 755
1067
  },
1068
  {
1069
  "epoch": 0.7082945013979497,
1070
- "grad_norm": 0.18981955629490066,
1071
  "learning_rate": 6.487046632124353e-06,
1072
- "loss": 0.2723,
1073
  "step": 760
1074
  },
1075
  {
1076
  "epoch": 0.7129543336439889,
1077
- "grad_norm": 0.18268361672429612,
1078
  "learning_rate": 6.383419689119171e-06,
1079
- "loss": 0.2689,
1080
  "step": 765
1081
  },
1082
  {
1083
  "epoch": 0.7176141658900279,
1084
- "grad_norm": 0.21759778168797214,
1085
  "learning_rate": 6.2797927461139905e-06,
1086
- "loss": 0.275,
1087
  "step": 770
1088
  },
1089
  {
1090
  "epoch": 0.7222739981360671,
1091
- "grad_norm": 0.19607867923889052,
1092
  "learning_rate": 6.176165803108809e-06,
1093
- "loss": 0.2784,
1094
  "step": 775
1095
  },
1096
  {
1097
  "epoch": 0.7269338303821062,
1098
- "grad_norm": 0.17816386997362446,
1099
  "learning_rate": 6.0725388601036275e-06,
1100
- "loss": 0.267,
1101
  "step": 780
1102
  },
1103
  {
1104
  "epoch": 0.7315936626281454,
1105
- "grad_norm": 0.21117162602410225,
1106
  "learning_rate": 5.968911917098445e-06,
1107
- "loss": 0.2698,
1108
  "step": 785
1109
  },
1110
  {
1111
  "epoch": 0.7362534948741846,
1112
- "grad_norm": 0.21060183599085328,
1113
  "learning_rate": 5.865284974093265e-06,
1114
- "loss": 0.2743,
1115
  "step": 790
1116
  },
1117
  {
1118
  "epoch": 0.7409133271202236,
1119
- "grad_norm": 0.19400476019142068,
1120
  "learning_rate": 5.761658031088083e-06,
1121
- "loss": 0.2748,
1122
  "step": 795
1123
  },
1124
  {
1125
  "epoch": 0.7455731593662628,
1126
- "grad_norm": 0.20052345073381453,
1127
  "learning_rate": 5.658031088082902e-06,
1128
- "loss": 0.2736,
1129
  "step": 800
1130
  },
1131
  {
1132
  "epoch": 0.750232991612302,
1133
- "grad_norm": 0.20728807092698712,
1134
  "learning_rate": 5.554404145077721e-06,
1135
- "loss": 0.2743,
1136
  "step": 805
1137
  },
1138
  {
1139
  "epoch": 0.7548928238583411,
1140
- "grad_norm": 0.19885878147551592,
1141
  "learning_rate": 5.4507772020725395e-06,
1142
- "loss": 0.2806,
1143
  "step": 810
1144
  },
1145
  {
1146
  "epoch": 0.7595526561043803,
1147
- "grad_norm": 0.18112546061809712,
1148
  "learning_rate": 5.347150259067357e-06,
1149
- "loss": 0.2721,
1150
  "step": 815
1151
  },
1152
  {
1153
  "epoch": 0.7642124883504194,
1154
- "grad_norm": 0.18692172501667362,
1155
  "learning_rate": 5.243523316062177e-06,
1156
- "loss": 0.2772,
1157
  "step": 820
1158
  },
1159
  {
1160
  "epoch": 0.7688723205964585,
1161
- "grad_norm": 0.18580108350557434,
1162
  "learning_rate": 5.139896373056995e-06,
1163
- "loss": 0.2691,
1164
  "step": 825
1165
  },
1166
  {
1167
  "epoch": 0.7735321528424977,
1168
- "grad_norm": 0.20217401036904592,
1169
  "learning_rate": 5.036269430051814e-06,
1170
- "loss": 0.2693,
1171
  "step": 830
1172
  },
1173
  {
1174
  "epoch": 0.7781919850885368,
1175
- "grad_norm": 0.1943652264496117,
1176
  "learning_rate": 4.932642487046633e-06,
1177
- "loss": 0.2706,
1178
  "step": 835
1179
  },
1180
  {
1181
  "epoch": 0.782851817334576,
1182
- "grad_norm": 0.2198072283577463,
1183
  "learning_rate": 4.829015544041451e-06,
1184
- "loss": 0.2767,
1185
  "step": 840
1186
  },
1187
  {
1188
  "epoch": 0.7875116495806151,
1189
- "grad_norm": 0.18668864356982678,
1190
  "learning_rate": 4.72538860103627e-06,
1191
- "loss": 0.2841,
1192
  "step": 845
1193
  },
1194
  {
1195
  "epoch": 0.7921714818266542,
1196
- "grad_norm": 0.2046695245569858,
1197
  "learning_rate": 4.621761658031089e-06,
1198
- "loss": 0.2691,
1199
  "step": 850
1200
  },
1201
  {
1202
  "epoch": 0.7968313140726934,
1203
- "grad_norm": 0.20500691517005445,
1204
  "learning_rate": 4.518134715025907e-06,
1205
- "loss": 0.2776,
1206
  "step": 855
1207
  },
1208
  {
1209
  "epoch": 0.8014911463187325,
1210
- "grad_norm": 0.19167582804792827,
1211
  "learning_rate": 4.414507772020726e-06,
1212
- "loss": 0.283,
1213
  "step": 860
1214
  },
1215
  {
1216
  "epoch": 0.8061509785647717,
1217
- "grad_norm": 0.19270689356754245,
1218
  "learning_rate": 4.310880829015544e-06,
1219
- "loss": 0.2731,
1220
  "step": 865
1221
  },
1222
  {
1223
  "epoch": 0.8108108108108109,
1224
- "grad_norm": 0.20242561543530732,
1225
  "learning_rate": 4.207253886010363e-06,
1226
- "loss": 0.276,
1227
  "step": 870
1228
  },
1229
  {
1230
  "epoch": 0.8154706430568499,
1231
- "grad_norm": 0.18482911338240235,
1232
  "learning_rate": 4.103626943005182e-06,
1233
- "loss": 0.274,
1234
  "step": 875
1235
  },
1236
  {
1237
  "epoch": 0.8201304753028891,
1238
- "grad_norm": 0.19023311518057515,
1239
  "learning_rate": 4.000000000000001e-06,
1240
- "loss": 0.2744,
1241
  "step": 880
1242
  },
1243
  {
1244
  "epoch": 0.8247903075489282,
1245
- "grad_norm": 0.17956559274009018,
1246
  "learning_rate": 3.896373056994819e-06,
1247
- "loss": 0.2753,
1248
  "step": 885
1249
  },
1250
  {
1251
  "epoch": 0.8294501397949674,
1252
- "grad_norm": 0.18533025491324542,
1253
  "learning_rate": 3.7927461139896377e-06,
1254
- "loss": 0.2716,
1255
  "step": 890
1256
  },
1257
  {
1258
  "epoch": 0.8341099720410066,
1259
- "grad_norm": 0.18868829919298247,
1260
  "learning_rate": 3.6891191709844567e-06,
1261
- "loss": 0.285,
1262
  "step": 895
1263
  },
1264
  {
1265
  "epoch": 0.8387698042870456,
1266
- "grad_norm": 0.1821294998845929,
1267
  "learning_rate": 3.5854922279792748e-06,
1268
- "loss": 0.275,
1269
  "step": 900
1270
  },
1271
  {
1272
  "epoch": 0.8434296365330848,
1273
- "grad_norm": 0.18362042280215524,
1274
  "learning_rate": 3.4818652849740937e-06,
1275
- "loss": 0.2717,
1276
  "step": 905
1277
  },
1278
  {
1279
  "epoch": 0.848089468779124,
1280
- "grad_norm": 0.18125344385824224,
1281
  "learning_rate": 3.3782383419689123e-06,
1282
- "loss": 0.275,
1283
  "step": 910
1284
  },
1285
  {
1286
  "epoch": 0.8527493010251631,
1287
- "grad_norm": 0.20049284941029782,
1288
  "learning_rate": 3.274611398963731e-06,
1289
- "loss": 0.2797,
1290
  "step": 915
1291
  },
1292
  {
1293
  "epoch": 0.8574091332712023,
1294
- "grad_norm": 0.19284600312397066,
1295
  "learning_rate": 3.1709844559585493e-06,
1296
- "loss": 0.2695,
1297
  "step": 920
1298
  },
1299
  {
1300
  "epoch": 0.8620689655172413,
1301
- "grad_norm": 0.18752491075216704,
1302
  "learning_rate": 3.0673575129533683e-06,
1303
- "loss": 0.2664,
1304
  "step": 925
1305
  },
1306
  {
1307
  "epoch": 0.8667287977632805,
1308
- "grad_norm": 0.1891493054852102,
1309
  "learning_rate": 2.963730569948187e-06,
1310
- "loss": 0.2675,
1311
  "step": 930
1312
  },
1313
  {
1314
  "epoch": 0.8713886300093197,
1315
- "grad_norm": 0.19851493019299982,
1316
  "learning_rate": 2.8601036269430053e-06,
1317
- "loss": 0.2699,
1318
  "step": 935
1319
  },
1320
  {
1321
  "epoch": 0.8760484622553588,
1322
- "grad_norm": 0.19015168393839105,
1323
  "learning_rate": 2.7564766839378243e-06,
1324
- "loss": 0.2741,
1325
  "step": 940
1326
  },
1327
  {
1328
  "epoch": 0.880708294501398,
1329
- "grad_norm": 0.19130488968167667,
1330
  "learning_rate": 2.6528497409326424e-06,
1331
- "loss": 0.2698,
1332
  "step": 945
1333
  },
1334
  {
1335
  "epoch": 0.8853681267474371,
1336
- "grad_norm": 0.19002010995722263,
1337
  "learning_rate": 2.5492227979274614e-06,
1338
- "loss": 0.2818,
1339
  "step": 950
1340
  },
1341
  {
1342
  "epoch": 0.8900279589934762,
1343
- "grad_norm": 0.18897353773835285,
1344
  "learning_rate": 2.44559585492228e-06,
1345
- "loss": 0.2745,
1346
  "step": 955
1347
  },
1348
  {
1349
  "epoch": 0.8946877912395154,
1350
- "grad_norm": 0.1902154880962153,
1351
  "learning_rate": 2.3419689119170984e-06,
1352
- "loss": 0.2798,
1353
  "step": 960
1354
  },
1355
  {
1356
  "epoch": 0.8993476234855545,
1357
- "grad_norm": 0.20192915350132004,
1358
  "learning_rate": 2.2383419689119174e-06,
1359
- "loss": 0.2771,
1360
  "step": 965
1361
  },
1362
  {
1363
  "epoch": 0.9040074557315937,
1364
- "grad_norm": 0.18079604071938268,
1365
  "learning_rate": 2.134715025906736e-06,
1366
- "loss": 0.265,
1367
  "step": 970
1368
  },
1369
  {
1370
  "epoch": 0.9086672879776329,
1371
- "grad_norm": 0.1843476030030155,
1372
  "learning_rate": 2.0310880829015544e-06,
1373
- "loss": 0.2807,
1374
  "step": 975
1375
  },
1376
  {
1377
  "epoch": 0.9133271202236719,
1378
- "grad_norm": 0.2150486826165296,
1379
  "learning_rate": 1.9274611398963734e-06,
1380
- "loss": 0.2727,
1381
  "step": 980
1382
  },
1383
  {
1384
  "epoch": 0.9179869524697111,
1385
- "grad_norm": 0.19640451524415894,
1386
  "learning_rate": 1.823834196891192e-06,
1387
- "loss": 0.2705,
1388
  "step": 985
1389
  },
1390
  {
1391
  "epoch": 0.9226467847157502,
1392
- "grad_norm": 0.1881146695565526,
1393
  "learning_rate": 1.7202072538860104e-06,
1394
- "loss": 0.2689,
1395
  "step": 990
1396
  },
1397
  {
1398
  "epoch": 0.9273066169617894,
1399
- "grad_norm": 0.1919966422921075,
1400
  "learning_rate": 1.6165803108808292e-06,
1401
- "loss": 0.2739,
1402
  "step": 995
1403
  },
1404
  {
1405
  "epoch": 0.9319664492078286,
1406
- "grad_norm": 0.18379110079996336,
1407
  "learning_rate": 1.5129533678756477e-06,
1408
- "loss": 0.2726,
1409
  "step": 1000
1410
  },
1411
  {
1412
  "epoch": 0.9366262814538676,
1413
- "grad_norm": 0.18038958121343104,
1414
  "learning_rate": 1.4093264248704663e-06,
1415
- "loss": 0.2756,
1416
  "step": 1005
1417
  },
1418
  {
1419
  "epoch": 0.9412861136999068,
1420
- "grad_norm": 0.18912068564324505,
1421
  "learning_rate": 1.3056994818652852e-06,
1422
- "loss": 0.2757,
1423
  "step": 1010
1424
  },
1425
  {
1426
  "epoch": 0.9459459459459459,
1427
- "grad_norm": 0.19447222147289886,
1428
  "learning_rate": 1.2020725388601037e-06,
1429
- "loss": 0.2773,
1430
  "step": 1015
1431
  },
1432
  {
1433
  "epoch": 0.9506057781919851,
1434
- "grad_norm": 0.17799555766267627,
1435
  "learning_rate": 1.0984455958549225e-06,
1436
- "loss": 0.2736,
1437
  "step": 1020
1438
  },
1439
  {
1440
  "epoch": 0.9552656104380243,
1441
- "grad_norm": 0.1879289390938795,
1442
  "learning_rate": 9.94818652849741e-07,
1443
- "loss": 0.2829,
1444
  "step": 1025
1445
  },
1446
  {
1447
  "epoch": 0.9599254426840633,
1448
- "grad_norm": 0.18465306001205795,
1449
  "learning_rate": 8.911917098445596e-07,
1450
- "loss": 0.2712,
1451
  "step": 1030
1452
  },
1453
  {
1454
  "epoch": 0.9645852749301025,
1455
- "grad_norm": 0.18684975369398882,
1456
  "learning_rate": 7.875647668393784e-07,
1457
- "loss": 0.2762,
1458
  "step": 1035
1459
  },
1460
  {
1461
  "epoch": 0.9692451071761417,
1462
- "grad_norm": 0.18354813003667567,
1463
  "learning_rate": 6.839378238341969e-07,
1464
- "loss": 0.2723,
1465
  "step": 1040
1466
  },
1467
  {
1468
  "epoch": 0.9739049394221808,
1469
- "grad_norm": 0.1790853955275003,
1470
  "learning_rate": 5.803108808290156e-07,
1471
- "loss": 0.2686,
1472
  "step": 1045
1473
  },
1474
  {
1475
  "epoch": 0.97856477166822,
1476
- "grad_norm": 0.18958296444822564,
1477
  "learning_rate": 4.7668393782383424e-07,
1478
- "loss": 0.286,
1479
  "step": 1050
1480
  },
1481
  {
1482
  "epoch": 0.983224603914259,
1483
- "grad_norm": 0.1857121657317691,
1484
  "learning_rate": 3.730569948186528e-07,
1485
- "loss": 0.2674,
1486
  "step": 1055
1487
  },
1488
  {
1489
  "epoch": 0.9878844361602982,
1490
- "grad_norm": 0.17831325037974058,
1491
  "learning_rate": 2.694300518134715e-07,
1492
- "loss": 0.272,
1493
  "step": 1060
1494
  },
1495
  {
1496
  "epoch": 0.9925442684063374,
1497
- "grad_norm": 0.18156458650747095,
1498
  "learning_rate": 1.6580310880829015e-07,
1499
- "loss": 0.2746,
1500
  "step": 1065
1501
  },
1502
  {
1503
  "epoch": 0.9972041006523765,
1504
- "grad_norm": 0.18194645895560613,
1505
  "learning_rate": 6.217616580310881e-08,
1506
- "loss": 0.2705,
1507
  "step": 1070
1508
  },
1509
  {
1510
  "epoch": 1.0,
1511
  "step": 1073,
1512
  "total_flos": 9.186429923093381e+17,
1513
- "train_loss": 0.27417567097351914,
1514
- "train_runtime": 29088.9913,
1515
- "train_samples_per_second": 0.59,
1516
- "train_steps_per_second": 0.037
1517
  }
1518
  ],
1519
  "logging_steps": 5,
 
10
  "log_history": [
11
  {
12
  "epoch": 0.004659832246039142,
13
+ "grad_norm": 1.8795702761938184,
14
  "learning_rate": 9.259259259259259e-07,
15
+ "loss": 0.3874,
16
  "step": 5
17
  },
18
  {
19
  "epoch": 0.009319664492078284,
20
+ "grad_norm": 1.810960933535657,
21
  "learning_rate": 1.8518518518518519e-06,
22
+ "loss": 0.3745,
23
  "step": 10
24
  },
25
  {
26
  "epoch": 0.013979496738117428,
27
+ "grad_norm": 0.689820489630518,
28
  "learning_rate": 2.7777777777777783e-06,
29
+ "loss": 0.3574,
30
  "step": 15
31
  },
32
  {
33
  "epoch": 0.01863932898415657,
34
+ "grad_norm": 0.23671360073050024,
35
  "learning_rate": 3.7037037037037037e-06,
36
+ "loss": 0.3465,
37
  "step": 20
38
  },
39
  {
40
  "epoch": 0.023299161230195712,
41
+ "grad_norm": 0.5035003762355204,
42
  "learning_rate": 4.62962962962963e-06,
43
+ "loss": 0.3273,
44
  "step": 25
45
  },
46
  {
47
  "epoch": 0.027958993476234855,
48
+ "grad_norm": 0.2861970991097442,
49
  "learning_rate": 5.555555555555557e-06,
50
+ "loss": 0.3177,
51
  "step": 30
52
  },
53
  {
54
  "epoch": 0.032618825722273995,
55
+ "grad_norm": 0.20083968480929654,
56
  "learning_rate": 6.481481481481482e-06,
57
+ "loss": 0.3161,
58
  "step": 35
59
  },
60
  {
61
  "epoch": 0.03727865796831314,
62
+ "grad_norm": 0.2135927219205515,
63
  "learning_rate": 7.4074074074074075e-06,
64
+ "loss": 0.3186,
65
  "step": 40
66
  },
67
  {
68
  "epoch": 0.04193849021435228,
69
+ "grad_norm": 0.20149881773912096,
70
  "learning_rate": 8.333333333333334e-06,
71
+ "loss": 0.3185,
72
  "step": 45
73
  },
74
  {
75
  "epoch": 0.046598322460391424,
76
+ "grad_norm": 0.17751016241192105,
77
  "learning_rate": 9.25925925925926e-06,
78
+ "loss": 0.3248,
79
  "step": 50
80
  },
81
  {
82
  "epoch": 0.05125815470643057,
83
+ "grad_norm": 0.18396942525421686,
84
  "learning_rate": 1.0185185185185186e-05,
85
+ "loss": 0.3175,
86
  "step": 55
87
  },
88
  {
89
  "epoch": 0.05591798695246971,
90
+ "grad_norm": 0.17229279499140202,
91
  "learning_rate": 1.1111111111111113e-05,
92
+ "loss": 0.3147,
93
  "step": 60
94
  },
95
  {
96
  "epoch": 0.06057781919850885,
97
+ "grad_norm": 0.1737383934121573,
98
  "learning_rate": 1.2037037037037039e-05,
99
+ "loss": 0.309,
100
  "step": 65
101
  },
102
  {
103
  "epoch": 0.06523765144454799,
104
+ "grad_norm": 0.1928149352536188,
105
  "learning_rate": 1.2962962962962964e-05,
106
+ "loss": 0.3157,
107
  "step": 70
108
  },
109
  {
110
  "epoch": 0.06989748369058714,
111
+ "grad_norm": 0.17826829224749713,
112
  "learning_rate": 1.388888888888889e-05,
113
+ "loss": 0.3099,
114
  "step": 75
115
  },
116
  {
117
  "epoch": 0.07455731593662628,
118
+ "grad_norm": 0.18477204996403923,
119
  "learning_rate": 1.4814814814814815e-05,
120
+ "loss": 0.3067,
121
  "step": 80
122
  },
123
  {
124
  "epoch": 0.07921714818266543,
125
+ "grad_norm": 0.1897409236877168,
126
  "learning_rate": 1.5740740740740744e-05,
127
+ "loss": 0.31,
128
  "step": 85
129
  },
130
  {
131
  "epoch": 0.08387698042870456,
132
+ "grad_norm": 0.17327980240361615,
133
  "learning_rate": 1.6666666666666667e-05,
134
+ "loss": 0.3163,
135
  "step": 90
136
  },
137
  {
138
  "epoch": 0.08853681267474371,
139
+ "grad_norm": 0.1841696908552682,
140
  "learning_rate": 1.7592592592592595e-05,
141
+ "loss": 0.3083,
142
  "step": 95
143
  },
144
  {
145
  "epoch": 0.09319664492078285,
146
+ "grad_norm": 0.18204159918734777,
147
  "learning_rate": 1.851851851851852e-05,
148
+ "loss": 0.3053,
149
  "step": 100
150
  },
151
  {
152
  "epoch": 0.097856477166822,
153
+ "grad_norm": 0.17179833079133283,
154
  "learning_rate": 1.9444444444444445e-05,
155
+ "loss": 0.3058,
156
  "step": 105
157
  },
158
  {
159
  "epoch": 0.10251630941286113,
160
+ "grad_norm": 0.19459644226361492,
161
  "learning_rate": 1.995854922279793e-05,
162
+ "loss": 0.3065,
163
  "step": 110
164
  },
165
  {
166
  "epoch": 0.10717614165890028,
167
+ "grad_norm": 0.1901341829663568,
168
  "learning_rate": 1.985492227979275e-05,
169
+ "loss": 0.3078,
170
  "step": 115
171
  },
172
  {
173
  "epoch": 0.11183597390493942,
174
+ "grad_norm": 0.18214653715281157,
175
  "learning_rate": 1.9751295336787565e-05,
176
+ "loss": 0.3059,
177
  "step": 120
178
  },
179
  {
180
  "epoch": 0.11649580615097857,
181
+ "grad_norm": 0.17815775257629182,
182
  "learning_rate": 1.9647668393782386e-05,
183
+ "loss": 0.3017,
184
  "step": 125
185
  },
186
  {
187
  "epoch": 0.1211556383970177,
188
+ "grad_norm": 0.1844645558957454,
189
  "learning_rate": 1.9544041450777206e-05,
190
+ "loss": 0.3095,
191
  "step": 130
192
  },
193
  {
194
  "epoch": 0.12581547064305684,
195
+ "grad_norm": 0.2030421375294079,
196
  "learning_rate": 1.9440414507772023e-05,
197
+ "loss": 0.305,
198
  "step": 135
199
  },
200
  {
201
  "epoch": 0.13047530288909598,
202
+ "grad_norm": 0.2070381771570163,
203
  "learning_rate": 1.9336787564766843e-05,
204
+ "loss": 0.3032,
205
  "step": 140
206
  },
207
  {
208
  "epoch": 0.13513513513513514,
209
+ "grad_norm": 0.19750341679314554,
210
  "learning_rate": 1.923316062176166e-05,
211
+ "loss": 0.3183,
212
  "step": 145
213
  },
214
  {
215
  "epoch": 0.13979496738117428,
216
+ "grad_norm": 0.19731313864346534,
217
  "learning_rate": 1.9129533678756477e-05,
218
+ "loss": 0.3067,
219
  "step": 150
220
  },
221
  {
222
  "epoch": 0.14445479962721341,
223
+ "grad_norm": 0.17260148498158165,
224
  "learning_rate": 1.9025906735751297e-05,
225
+ "loss": 0.3186,
226
  "step": 155
227
  },
228
  {
229
  "epoch": 0.14911463187325255,
230
+ "grad_norm": 0.2008627001637739,
231
  "learning_rate": 1.8922279792746117e-05,
232
+ "loss": 0.3085,
233
  "step": 160
234
  },
235
  {
236
  "epoch": 0.15377446411929171,
237
+ "grad_norm": 0.18712990541821012,
238
  "learning_rate": 1.8818652849740934e-05,
239
+ "loss": 0.3085,
240
  "step": 165
241
  },
242
  {
243
  "epoch": 0.15843429636533085,
244
+ "grad_norm": 0.17292039090794106,
245
  "learning_rate": 1.8715025906735754e-05,
246
+ "loss": 0.2908,
247
  "step": 170
248
  },
249
  {
250
  "epoch": 0.16309412861137,
251
+ "grad_norm": 0.19172387862691817,
252
  "learning_rate": 1.861139896373057e-05,
253
+ "loss": 0.3081,
254
  "step": 175
255
  },
256
  {
257
  "epoch": 0.16775396085740912,
258
+ "grad_norm": 0.18688008270471848,
259
  "learning_rate": 1.850777202072539e-05,
260
+ "loss": 0.306,
261
  "step": 180
262
  },
263
  {
264
  "epoch": 0.1724137931034483,
265
+ "grad_norm": 0.1745486683593482,
266
  "learning_rate": 1.8404145077720208e-05,
267
+ "loss": 0.3032,
268
  "step": 185
269
  },
270
  {
271
  "epoch": 0.17707362534948742,
272
+ "grad_norm": 0.19257694931627597,
273
  "learning_rate": 1.8300518134715028e-05,
274
+ "loss": 0.3101,
275
  "step": 190
276
  },
277
  {
278
  "epoch": 0.18173345759552656,
279
+ "grad_norm": 0.2104231700336429,
280
  "learning_rate": 1.8196891191709845e-05,
281
+ "loss": 0.3073,
282
  "step": 195
283
  },
284
  {
285
  "epoch": 0.1863932898415657,
286
+ "grad_norm": 0.2198068709198768,
287
  "learning_rate": 1.8093264248704665e-05,
288
+ "loss": 0.3097,
289
  "step": 200
290
  },
291
  {
292
  "epoch": 0.19105312208760486,
293
+ "grad_norm": 0.19860541284894057,
294
  "learning_rate": 1.7989637305699482e-05,
295
+ "loss": 0.3057,
296
  "step": 205
297
  },
298
  {
299
  "epoch": 0.195712954333644,
300
+ "grad_norm": 0.19761516589964884,
301
  "learning_rate": 1.7886010362694302e-05,
302
+ "loss": 0.31,
303
  "step": 210
304
  },
305
  {
306
  "epoch": 0.20037278657968313,
307
+ "grad_norm": 0.1857003842960702,
308
  "learning_rate": 1.778238341968912e-05,
309
+ "loss": 0.3035,
310
  "step": 215
311
  },
312
  {
313
  "epoch": 0.20503261882572227,
314
+ "grad_norm": 0.19655970430783293,
315
  "learning_rate": 1.767875647668394e-05,
316
+ "loss": 0.309,
317
  "step": 220
318
  },
319
  {
320
  "epoch": 0.2096924510717614,
321
+ "grad_norm": 0.18373076556409915,
322
  "learning_rate": 1.757512953367876e-05,
323
+ "loss": 0.2992,
324
  "step": 225
325
  },
326
  {
327
  "epoch": 0.21435228331780057,
328
+ "grad_norm": 0.1855241535339271,
329
  "learning_rate": 1.7471502590673576e-05,
330
+ "loss": 0.307,
331
  "step": 230
332
  },
333
  {
334
  "epoch": 0.2190121155638397,
335
+ "grad_norm": 0.18789691001904157,
336
  "learning_rate": 1.7367875647668397e-05,
337
+ "loss": 0.3034,
338
  "step": 235
339
  },
340
  {
341
  "epoch": 0.22367194780987884,
342
+ "grad_norm": 0.225904963129947,
343
  "learning_rate": 1.7264248704663214e-05,
344
+ "loss": 0.3073,
345
  "step": 240
346
  },
347
  {
348
  "epoch": 0.22833178005591798,
349
+ "grad_norm": 0.2176659893463581,
350
  "learning_rate": 1.716062176165803e-05,
351
+ "loss": 0.3082,
352
  "step": 245
353
  },
354
  {
355
  "epoch": 0.23299161230195714,
356
+ "grad_norm": 0.19279163806598115,
357
  "learning_rate": 1.705699481865285e-05,
358
+ "loss": 0.3049,
359
  "step": 250
360
  },
361
  {
362
  "epoch": 0.23765144454799628,
363
+ "grad_norm": 0.19980935074977862,
364
  "learning_rate": 1.695336787564767e-05,
365
+ "loss": 0.3059,
366
  "step": 255
367
  },
368
  {
369
  "epoch": 0.2423112767940354,
370
+ "grad_norm": 0.20286292649885426,
371
  "learning_rate": 1.6849740932642488e-05,
372
+ "loss": 0.3104,
373
  "step": 260
374
  },
375
  {
376
  "epoch": 0.24697110904007455,
377
+ "grad_norm": 0.20806622057526192,
378
  "learning_rate": 1.6746113989637308e-05,
379
+ "loss": 0.309,
380
  "step": 265
381
  },
382
  {
383
  "epoch": 0.2516309412861137,
384
+ "grad_norm": 0.1837006492305824,
385
  "learning_rate": 1.6642487046632125e-05,
386
+ "loss": 0.3054,
387
  "step": 270
388
  },
389
  {
390
  "epoch": 0.25629077353215285,
391
+ "grad_norm": 0.19343204990996146,
392
  "learning_rate": 1.6538860103626945e-05,
393
+ "loss": 0.3065,
394
  "step": 275
395
  },
396
  {
397
  "epoch": 0.26095060577819196,
398
+ "grad_norm": 0.17569927907529842,
399
  "learning_rate": 1.6435233160621765e-05,
400
+ "loss": 0.3038,
401
  "step": 280
402
  },
403
  {
404
  "epoch": 0.2656104380242311,
405
+ "grad_norm": 0.1964720824239362,
406
  "learning_rate": 1.6331606217616582e-05,
407
+ "loss": 0.3057,
408
  "step": 285
409
  },
410
  {
411
  "epoch": 0.2702702702702703,
412
+ "grad_norm": 0.17919773464670466,
413
  "learning_rate": 1.6227979274611402e-05,
414
+ "loss": 0.3119,
415
  "step": 290
416
  },
417
  {
418
  "epoch": 0.2749301025163094,
419
+ "grad_norm": 0.20289962735519462,
420
  "learning_rate": 1.612435233160622e-05,
421
+ "loss": 0.322,
422
  "step": 295
423
  },
424
  {
425
  "epoch": 0.27958993476234856,
426
+ "grad_norm": 0.20635974949126276,
427
  "learning_rate": 1.6020725388601036e-05,
428
+ "loss": 0.3176,
429
  "step": 300
430
  },
431
  {
432
  "epoch": 0.2842497670083877,
433
+ "grad_norm": 0.2128465330229402,
434
  "learning_rate": 1.5917098445595856e-05,
435
+ "loss": 0.3076,
436
  "step": 305
437
  },
438
  {
439
  "epoch": 0.28890959925442683,
440
+ "grad_norm": 0.21095377132964316,
441
  "learning_rate": 1.5813471502590673e-05,
442
+ "loss": 0.305,
443
  "step": 310
444
  },
445
  {
446
  "epoch": 0.293569431500466,
447
+ "grad_norm": 0.20117897001414128,
448
  "learning_rate": 1.5709844559585493e-05,
449
+ "loss": 0.3107,
450
  "step": 315
451
  },
452
  {
453
  "epoch": 0.2982292637465051,
454
+ "grad_norm": 0.210307217026029,
455
  "learning_rate": 1.5606217616580313e-05,
456
+ "loss": 0.2969,
457
  "step": 320
458
  },
459
  {
460
  "epoch": 0.30288909599254427,
461
+ "grad_norm": 0.1953188277902909,
462
  "learning_rate": 1.550259067357513e-05,
463
+ "loss": 0.2988,
464
  "step": 325
465
  },
466
  {
467
  "epoch": 0.30754892823858343,
468
+ "grad_norm": 0.20624395571895365,
469
  "learning_rate": 1.539896373056995e-05,
470
+ "loss": 0.3077,
471
  "step": 330
472
  },
473
  {
474
  "epoch": 0.31220876048462254,
475
+ "grad_norm": 0.19328155978476294,
476
  "learning_rate": 1.5295336787564767e-05,
477
+ "loss": 0.3059,
478
  "step": 335
479
  },
480
  {
481
  "epoch": 0.3168685927306617,
482
+ "grad_norm": 0.18260179855898995,
483
  "learning_rate": 1.5191709844559586e-05,
484
+ "loss": 0.3044,
485
  "step": 340
486
  },
487
  {
488
  "epoch": 0.32152842497670087,
489
+ "grad_norm": 0.1840438952163473,
490
  "learning_rate": 1.5088082901554406e-05,
491
+ "loss": 0.3059,
492
  "step": 345
493
  },
494
  {
495
  "epoch": 0.32618825722274,
496
+ "grad_norm": 0.19461016289059585,
497
  "learning_rate": 1.4984455958549225e-05,
498
+ "loss": 0.316,
499
  "step": 350
500
  },
501
  {
502
  "epoch": 0.33084808946877914,
503
+ "grad_norm": 0.19356848595491336,
504
  "learning_rate": 1.4880829015544043e-05,
505
+ "loss": 0.3125,
506
  "step": 355
507
  },
508
  {
509
  "epoch": 0.33550792171481825,
510
+ "grad_norm": 0.1903893603560245,
511
  "learning_rate": 1.4777202072538862e-05,
512
+ "loss": 0.3046,
513
  "step": 360
514
  },
515
  {
516
  "epoch": 0.3401677539608574,
517
+ "grad_norm": 0.1888576016162768,
518
  "learning_rate": 1.4673575129533678e-05,
519
+ "loss": 0.3027,
520
  "step": 365
521
  },
522
  {
523
  "epoch": 0.3448275862068966,
524
+ "grad_norm": 0.18928501902596923,
525
  "learning_rate": 1.4569948186528497e-05,
526
+ "loss": 0.31,
527
  "step": 370
528
  },
529
  {
530
  "epoch": 0.3494874184529357,
531
+ "grad_norm": 0.1966355160370978,
532
  "learning_rate": 1.4466321243523317e-05,
533
+ "loss": 0.3041,
534
  "step": 375
535
  },
536
  {
537
  "epoch": 0.35414725069897485,
538
+ "grad_norm": 0.1901672871632349,
539
  "learning_rate": 1.4362694300518136e-05,
540
+ "loss": 0.3136,
541
  "step": 380
542
  },
543
  {
544
  "epoch": 0.35880708294501396,
545
+ "grad_norm": 0.19972593288293097,
546
  "learning_rate": 1.4259067357512954e-05,
547
+ "loss": 0.3097,
548
  "step": 385
549
  },
550
  {
551
  "epoch": 0.3634669151910531,
552
+ "grad_norm": 0.19468214914369028,
553
  "learning_rate": 1.4155440414507773e-05,
554
+ "loss": 0.3068,
555
  "step": 390
556
  },
557
  {
558
  "epoch": 0.3681267474370923,
559
+ "grad_norm": 0.24360814017146365,
560
  "learning_rate": 1.4051813471502591e-05,
561
+ "loss": 0.3083,
562
  "step": 395
563
  },
564
  {
565
  "epoch": 0.3727865796831314,
566
+ "grad_norm": 0.20121403150161737,
567
  "learning_rate": 1.394818652849741e-05,
568
+ "loss": 0.2992,
569
  "step": 400
570
  },
571
  {
572
  "epoch": 0.37744641192917056,
573
+ "grad_norm": 0.18275980204979905,
574
  "learning_rate": 1.384455958549223e-05,
575
+ "loss": 0.3191,
576
  "step": 405
577
  },
578
  {
579
  "epoch": 0.3821062441752097,
580
+ "grad_norm": 0.19597361835647514,
581
  "learning_rate": 1.3740932642487049e-05,
582
+ "loss": 0.3102,
583
  "step": 410
584
  },
585
  {
586
  "epoch": 0.38676607642124883,
587
+ "grad_norm": 0.19121995822742002,
588
  "learning_rate": 1.3637305699481867e-05,
589
+ "loss": 0.3036,
590
  "step": 415
591
  },
592
  {
593
  "epoch": 0.391425908667288,
594
+ "grad_norm": 0.21411409371703122,
595
  "learning_rate": 1.3533678756476684e-05,
596
+ "loss": 0.3138,
597
  "step": 420
598
  },
599
  {
600
  "epoch": 0.3960857409133271,
601
+ "grad_norm": 0.20555940672664647,
602
  "learning_rate": 1.3430051813471503e-05,
603
+ "loss": 0.3169,
604
  "step": 425
605
  },
606
  {
607
  "epoch": 0.40074557315936626,
608
+ "grad_norm": 0.19221801982606176,
609
  "learning_rate": 1.3326424870466321e-05,
610
+ "loss": 0.3121,
611
  "step": 430
612
  },
613
  {
614
  "epoch": 0.40540540540540543,
615
+ "grad_norm": 0.2014890349514093,
616
  "learning_rate": 1.3222797927461141e-05,
617
+ "loss": 0.3175,
618
  "step": 435
619
  },
620
  {
621
  "epoch": 0.41006523765144454,
622
+ "grad_norm": 0.24792004508641477,
623
  "learning_rate": 1.311917098445596e-05,
624
+ "loss": 0.3084,
625
  "step": 440
626
  },
627
  {
628
  "epoch": 0.4147250698974837,
629
+ "grad_norm": 0.1954769185865929,
630
  "learning_rate": 1.3015544041450778e-05,
631
+ "loss": 0.3076,
632
  "step": 445
633
  },
634
  {
635
  "epoch": 0.4193849021435228,
636
+ "grad_norm": 0.20194311212258356,
637
  "learning_rate": 1.2911917098445597e-05,
638
+ "loss": 0.3005,
639
  "step": 450
640
  },
641
  {
642
  "epoch": 0.424044734389562,
643
+ "grad_norm": 0.19502464315598184,
644
  "learning_rate": 1.2808290155440415e-05,
645
+ "loss": 0.308,
646
  "step": 455
647
  },
648
  {
649
  "epoch": 0.42870456663560114,
650
+ "grad_norm": 0.1985626146517041,
651
  "learning_rate": 1.2704663212435234e-05,
652
+ "loss": 0.3057,
653
  "step": 460
654
  },
655
  {
656
  "epoch": 0.43336439888164024,
657
+ "grad_norm": 0.21421287702611994,
658
  "learning_rate": 1.2601036269430054e-05,
659
+ "loss": 0.3033,
660
  "step": 465
661
  },
662
  {
663
  "epoch": 0.4380242311276794,
664
+ "grad_norm": 0.1987802920868664,
665
  "learning_rate": 1.2497409326424873e-05,
666
+ "loss": 0.3126,
667
  "step": 470
668
  },
669
  {
670
  "epoch": 0.4426840633737186,
671
+ "grad_norm": 0.1895491437169421,
672
  "learning_rate": 1.239378238341969e-05,
673
+ "loss": 0.304,
674
  "step": 475
675
  },
676
  {
677
  "epoch": 0.4473438956197577,
678
+ "grad_norm": 0.1985509321068275,
679
  "learning_rate": 1.2290155440414508e-05,
680
+ "loss": 0.3189,
681
  "step": 480
682
  },
683
  {
684
  "epoch": 0.45200372786579684,
685
+ "grad_norm": 0.2173910116765384,
686
  "learning_rate": 1.2186528497409327e-05,
687
+ "loss": 0.3092,
688
  "step": 485
689
  },
690
  {
691
  "epoch": 0.45666356011183595,
692
+ "grad_norm": 0.17261612546150368,
693
  "learning_rate": 1.2082901554404145e-05,
694
+ "loss": 0.3039,
695
  "step": 490
696
  },
697
  {
698
  "epoch": 0.4613233923578751,
699
+ "grad_norm": 0.20048439029565604,
700
  "learning_rate": 1.1979274611398965e-05,
701
+ "loss": 0.3077,
702
  "step": 495
703
  },
704
  {
705
  "epoch": 0.4659832246039143,
706
+ "grad_norm": 0.20844885780214473,
707
  "learning_rate": 1.1875647668393784e-05,
708
+ "loss": 0.3179,
709
  "step": 500
710
  },
711
  {
712
  "epoch": 0.4706430568499534,
713
+ "grad_norm": 0.19509047480375188,
714
  "learning_rate": 1.1772020725388602e-05,
715
+ "loss": 0.307,
716
  "step": 505
717
  },
718
  {
719
  "epoch": 0.47530288909599255,
720
+ "grad_norm": 0.18379044121686752,
721
  "learning_rate": 1.1668393782383421e-05,
722
+ "loss": 0.3076,
723
  "step": 510
724
  },
725
  {
726
  "epoch": 0.47996272134203166,
727
+ "grad_norm": 0.20046163502948242,
728
  "learning_rate": 1.1564766839378238e-05,
729
+ "loss": 0.3073,
730
  "step": 515
731
  },
732
  {
733
  "epoch": 0.4846225535880708,
734
+ "grad_norm": 0.1891503524111604,
735
  "learning_rate": 1.1461139896373056e-05,
736
+ "loss": 0.3119,
737
  "step": 520
738
  },
739
  {
740
  "epoch": 0.48928238583411,
741
+ "grad_norm": 0.20769187983919965,
742
  "learning_rate": 1.1357512953367878e-05,
743
+ "loss": 0.312,
744
  "step": 525
745
  },
746
  {
747
  "epoch": 0.4939422180801491,
748
+ "grad_norm": 0.1956521662876443,
749
  "learning_rate": 1.1253886010362695e-05,
750
+ "loss": 0.3069,
751
  "step": 530
752
  },
753
  {
754
  "epoch": 0.49860205032618826,
755
+ "grad_norm": 0.1851287031638996,
756
  "learning_rate": 1.1150259067357514e-05,
757
+ "loss": 0.3117,
758
  "step": 535
759
  },
760
  {
761
  "epoch": 0.5032618825722274,
762
+ "grad_norm": 0.20050732452739828,
763
  "learning_rate": 1.1046632124352332e-05,
764
+ "loss": 0.2985,
765
  "step": 540
766
  },
767
  {
768
  "epoch": 0.5079217148182665,
769
+ "grad_norm": 0.2219598360154172,
770
  "learning_rate": 1.094300518134715e-05,
771
+ "loss": 0.3058,
772
  "step": 545
773
  },
774
  {
775
  "epoch": 0.5125815470643057,
776
+ "grad_norm": 0.22159014441089023,
777
  "learning_rate": 1.083937823834197e-05,
778
+ "loss": 0.3114,
779
  "step": 550
780
  },
781
  {
782
  "epoch": 0.5172413793103449,
783
+ "grad_norm": 0.21189175620802284,
784
  "learning_rate": 1.073575129533679e-05,
785
+ "loss": 0.3097,
786
  "step": 555
787
  },
788
  {
789
  "epoch": 0.5219012115563839,
790
+ "grad_norm": 0.20194991625949968,
791
  "learning_rate": 1.0632124352331608e-05,
792
+ "loss": 0.3195,
793
  "step": 560
794
  },
795
  {
796
  "epoch": 0.5265610438024231,
797
+ "grad_norm": 0.17929820608315875,
798
  "learning_rate": 1.0528497409326426e-05,
799
+ "loss": 0.2966,
800
  "step": 565
801
  },
802
  {
803
  "epoch": 0.5312208760484622,
804
+ "grad_norm": 0.18847514867987192,
805
  "learning_rate": 1.0424870466321243e-05,
806
+ "loss": 0.3013,
807
  "step": 570
808
  },
809
  {
810
  "epoch": 0.5358807082945014,
811
+ "grad_norm": 0.1918865802913081,
812
  "learning_rate": 1.0321243523316062e-05,
813
+ "loss": 0.3054,
814
  "step": 575
815
  },
816
  {
817
  "epoch": 0.5405405405405406,
818
+ "grad_norm": 0.19646625910996846,
819
  "learning_rate": 1.021761658031088e-05,
820
+ "loss": 0.3039,
821
  "step": 580
822
  },
823
  {
824
  "epoch": 0.5452003727865797,
825
+ "grad_norm": 0.1957026436292748,
826
  "learning_rate": 1.01139896373057e-05,
827
+ "loss": 0.3085,
828
  "step": 585
829
  },
830
  {
831
  "epoch": 0.5498602050326188,
832
+ "grad_norm": 0.2215747140393126,
833
  "learning_rate": 1.0010362694300519e-05,
834
+ "loss": 0.3004,
835
  "step": 590
836
  },
837
  {
838
  "epoch": 0.554520037278658,
839
+ "grad_norm": 0.2096798005029143,
840
  "learning_rate": 9.906735751295338e-06,
841
+ "loss": 0.3045,
842
  "step": 595
843
  },
844
  {
845
  "epoch": 0.5591798695246971,
846
+ "grad_norm": 0.21043804051484524,
847
  "learning_rate": 9.803108808290156e-06,
848
+ "loss": 0.3061,
849
  "step": 600
850
  },
851
  {
852
  "epoch": 0.5638397017707363,
853
+ "grad_norm": 0.18777718502993346,
854
  "learning_rate": 9.699481865284975e-06,
855
+ "loss": 0.3048,
856
  "step": 605
857
  },
858
  {
859
  "epoch": 0.5684995340167754,
860
+ "grad_norm": 0.20237085315201214,
861
  "learning_rate": 9.595854922279793e-06,
862
+ "loss": 0.3132,
863
  "step": 610
864
  },
865
  {
866
  "epoch": 0.5731593662628145,
867
+ "grad_norm": 0.193385995407008,
868
  "learning_rate": 9.492227979274612e-06,
869
+ "loss": 0.3042,
870
  "step": 615
871
  },
872
  {
873
  "epoch": 0.5778191985088537,
874
+ "grad_norm": 0.1933950220530074,
875
  "learning_rate": 9.388601036269432e-06,
876
+ "loss": 0.2979,
877
  "step": 620
878
  },
879
  {
880
  "epoch": 0.5824790307548928,
881
+ "grad_norm": 0.19132327866819904,
882
  "learning_rate": 9.284974093264249e-06,
883
+ "loss": 0.3121,
884
  "step": 625
885
  },
886
  {
887
  "epoch": 0.587138863000932,
888
+ "grad_norm": 0.18145967807189134,
889
  "learning_rate": 9.181347150259067e-06,
890
+ "loss": 0.3104,
891
  "step": 630
892
  },
893
  {
894
  "epoch": 0.5917986952469712,
895
+ "grad_norm": 0.1938112202212723,
896
  "learning_rate": 9.077720207253888e-06,
897
+ "loss": 0.3114,
898
  "step": 635
899
  },
900
  {
901
  "epoch": 0.5964585274930102,
902
+ "grad_norm": 0.18005219766713837,
903
  "learning_rate": 8.974093264248706e-06,
904
+ "loss": 0.3109,
905
  "step": 640
906
  },
907
  {
908
  "epoch": 0.6011183597390494,
909
+ "grad_norm": 0.19954264682643283,
910
  "learning_rate": 8.870466321243523e-06,
911
+ "loss": 0.3073,
912
  "step": 645
913
  },
914
  {
915
  "epoch": 0.6057781919850885,
916
+ "grad_norm": 0.2029508363977868,
917
  "learning_rate": 8.766839378238343e-06,
918
+ "loss": 0.3099,
919
  "step": 650
920
  },
921
  {
922
  "epoch": 0.6104380242311277,
923
+ "grad_norm": 0.20067540450864405,
924
  "learning_rate": 8.663212435233162e-06,
925
+ "loss": 0.3131,
926
  "step": 655
927
  },
928
  {
929
  "epoch": 0.6150978564771669,
930
+ "grad_norm": 0.18278420923843008,
931
  "learning_rate": 8.55958549222798e-06,
932
+ "loss": 0.2968,
933
  "step": 660
934
  },
935
  {
936
  "epoch": 0.6197576887232059,
937
+ "grad_norm": 0.19255194330618958,
938
  "learning_rate": 8.455958549222799e-06,
939
+ "loss": 0.3,
940
  "step": 665
941
  },
942
  {
943
  "epoch": 0.6244175209692451,
944
+ "grad_norm": 0.17805047451733982,
945
  "learning_rate": 8.352331606217617e-06,
946
+ "loss": 0.3002,
947
  "step": 670
948
  },
949
  {
950
  "epoch": 0.6290773532152842,
951
+ "grad_norm": 0.1809729112938702,
952
  "learning_rate": 8.248704663212436e-06,
953
+ "loss": 0.3004,
954
  "step": 675
955
  },
956
  {
957
  "epoch": 0.6337371854613234,
958
+ "grad_norm": 0.19843229643919744,
959
  "learning_rate": 8.145077720207254e-06,
960
+ "loss": 0.3093,
961
  "step": 680
962
  },
963
  {
964
  "epoch": 0.6383970177073626,
965
+ "grad_norm": 0.17094593426100432,
966
  "learning_rate": 8.041450777202073e-06,
967
+ "loss": 0.3118,
968
  "step": 685
969
  },
970
  {
971
  "epoch": 0.6430568499534017,
972
+ "grad_norm": 0.17842406465044058,
973
  "learning_rate": 7.937823834196891e-06,
974
+ "loss": 0.3026,
975
  "step": 690
976
  },
977
  {
978
  "epoch": 0.6477166821994408,
979
+ "grad_norm": 0.18735190688774842,
980
  "learning_rate": 7.834196891191712e-06,
981
+ "loss": 0.3097,
982
  "step": 695
983
  },
984
  {
985
  "epoch": 0.65237651444548,
986
+ "grad_norm": 0.18672212273790229,
987
  "learning_rate": 7.730569948186528e-06,
988
+ "loss": 0.3149,
989
  "step": 700
990
  },
991
  {
992
  "epoch": 0.6570363466915191,
993
+ "grad_norm": 0.16216816399314543,
994
  "learning_rate": 7.626943005181348e-06,
995
+ "loss": 0.3026,
996
  "step": 705
997
  },
998
  {
999
  "epoch": 0.6616961789375583,
1000
+ "grad_norm": 0.19617575721215516,
1001
  "learning_rate": 7.523316062176167e-06,
1002
+ "loss": 0.3036,
1003
  "step": 710
1004
  },
1005
  {
1006
  "epoch": 0.6663560111835974,
1007
+ "grad_norm": 0.1783695592863534,
1008
  "learning_rate": 7.419689119170985e-06,
1009
+ "loss": 0.2985,
1010
  "step": 715
1011
  },
1012
  {
1013
  "epoch": 0.6710158434296365,
1014
+ "grad_norm": 0.17934516453245036,
1015
  "learning_rate": 7.3160621761658035e-06,
1016
+ "loss": 0.3031,
1017
  "step": 720
1018
  },
1019
  {
1020
  "epoch": 0.6756756756756757,
1021
+ "grad_norm": 0.19399978320829833,
1022
  "learning_rate": 7.212435233160623e-06,
1023
+ "loss": 0.3077,
1024
  "step": 725
1025
  },
1026
  {
1027
  "epoch": 0.6803355079217148,
1028
+ "grad_norm": 0.19060796532512359,
1029
  "learning_rate": 7.108808290155441e-06,
1030
+ "loss": 0.3039,
1031
  "step": 730
1032
  },
1033
  {
1034
  "epoch": 0.684995340167754,
1035
+ "grad_norm": 0.17663402079064713,
1036
  "learning_rate": 7.005181347150259e-06,
1037
+ "loss": 0.304,
1038
  "step": 735
1039
  },
1040
  {
1041
  "epoch": 0.6896551724137931,
1042
+ "grad_norm": 0.18728492382652162,
1043
  "learning_rate": 6.9015544041450784e-06,
1044
+ "loss": 0.2996,
1045
  "step": 740
1046
  },
1047
  {
1048
  "epoch": 0.6943150046598322,
1049
+ "grad_norm": 0.16539414234955993,
1050
  "learning_rate": 6.797927461139897e-06,
1051
+ "loss": 0.3007,
1052
  "step": 745
1053
  },
1054
  {
1055
  "epoch": 0.6989748369058714,
1056
+ "grad_norm": 0.18796932042651304,
1057
  "learning_rate": 6.6943005181347155e-06,
1058
+ "loss": 0.3006,
1059
  "step": 750
1060
  },
1061
  {
1062
  "epoch": 0.7036346691519105,
1063
+ "grad_norm": 0.1934535934904552,
1064
  "learning_rate": 6.590673575129535e-06,
1065
+ "loss": 0.3051,
1066
  "step": 755
1067
  },
1068
  {
1069
  "epoch": 0.7082945013979497,
1070
+ "grad_norm": 0.17511509631442268,
1071
  "learning_rate": 6.487046632124353e-06,
1072
+ "loss": 0.3047,
1073
  "step": 760
1074
  },
1075
  {
1076
  "epoch": 0.7129543336439889,
1077
+ "grad_norm": 0.16967569477610708,
1078
  "learning_rate": 6.383419689119171e-06,
1079
+ "loss": 0.2981,
1080
  "step": 765
1081
  },
1082
  {
1083
  "epoch": 0.7176141658900279,
1084
+ "grad_norm": 0.20551530112906796,
1085
  "learning_rate": 6.2797927461139905e-06,
1086
+ "loss": 0.3048,
1087
  "step": 770
1088
  },
1089
  {
1090
  "epoch": 0.7222739981360671,
1091
+ "grad_norm": 0.1772568831952956,
1092
  "learning_rate": 6.176165803108809e-06,
1093
+ "loss": 0.3106,
1094
  "step": 775
1095
  },
1096
  {
1097
  "epoch": 0.7269338303821062,
1098
+ "grad_norm": 0.17122628778280205,
1099
  "learning_rate": 6.0725388601036275e-06,
1100
+ "loss": 0.2986,
1101
  "step": 780
1102
  },
1103
  {
1104
  "epoch": 0.7315936626281454,
1105
+ "grad_norm": 0.19005996568436556,
1106
  "learning_rate": 5.968911917098445e-06,
1107
+ "loss": 0.3024,
1108
  "step": 785
1109
  },
1110
  {
1111
  "epoch": 0.7362534948741846,
1112
+ "grad_norm": 0.1896569557324295,
1113
  "learning_rate": 5.865284974093265e-06,
1114
+ "loss": 0.3068,
1115
  "step": 790
1116
  },
1117
  {
1118
  "epoch": 0.7409133271202236,
1119
+ "grad_norm": 0.17553068397844512,
1120
  "learning_rate": 5.761658031088083e-06,
1121
+ "loss": 0.306,
1122
  "step": 795
1123
  },
1124
  {
1125
  "epoch": 0.7455731593662628,
1126
+ "grad_norm": 0.1902146433481209,
1127
  "learning_rate": 5.658031088082902e-06,
1128
+ "loss": 0.3044,
1129
  "step": 800
1130
  },
1131
  {
1132
  "epoch": 0.750232991612302,
1133
+ "grad_norm": 0.18379958493058496,
1134
  "learning_rate": 5.554404145077721e-06,
1135
+ "loss": 0.3046,
1136
  "step": 805
1137
  },
1138
  {
1139
  "epoch": 0.7548928238583411,
1140
+ "grad_norm": 0.19238104735204387,
1141
  "learning_rate": 5.4507772020725395e-06,
1142
+ "loss": 0.3133,
1143
  "step": 810
1144
  },
1145
  {
1146
  "epoch": 0.7595526561043803,
1147
+ "grad_norm": 0.16684993046883195,
1148
  "learning_rate": 5.347150259067357e-06,
1149
+ "loss": 0.3019,
1150
  "step": 815
1151
  },
1152
  {
1153
  "epoch": 0.7642124883504194,
1154
+ "grad_norm": 0.17317168720572065,
1155
  "learning_rate": 5.243523316062177e-06,
1156
+ "loss": 0.3092,
1157
  "step": 820
1158
  },
1159
  {
1160
  "epoch": 0.7688723205964585,
1161
+ "grad_norm": 0.17257530643463354,
1162
  "learning_rate": 5.139896373056995e-06,
1163
+ "loss": 0.3012,
1164
  "step": 825
1165
  },
1166
  {
1167
  "epoch": 0.7735321528424977,
1168
+ "grad_norm": 0.19022509153976733,
1169
  "learning_rate": 5.036269430051814e-06,
1170
+ "loss": 0.3006,
1171
  "step": 830
1172
  },
1173
  {
1174
  "epoch": 0.7781919850885368,
1175
+ "grad_norm": 0.18273563180618016,
1176
  "learning_rate": 4.932642487046633e-06,
1177
+ "loss": 0.302,
1178
  "step": 835
1179
  },
1180
  {
1181
  "epoch": 0.782851817334576,
1182
+ "grad_norm": 0.2068935985590348,
1183
  "learning_rate": 4.829015544041451e-06,
1184
+ "loss": 0.3083,
1185
  "step": 840
1186
  },
1187
  {
1188
  "epoch": 0.7875116495806151,
1189
+ "grad_norm": 0.1787063525187819,
1190
  "learning_rate": 4.72538860103627e-06,
1191
+ "loss": 0.3158,
1192
  "step": 845
1193
  },
1194
  {
1195
  "epoch": 0.7921714818266542,
1196
+ "grad_norm": 0.17589355462106077,
1197
  "learning_rate": 4.621761658031089e-06,
1198
+ "loss": 0.3015,
1199
  "step": 850
1200
  },
1201
  {
1202
  "epoch": 0.7968313140726934,
1203
+ "grad_norm": 0.19008199962840902,
1204
  "learning_rate": 4.518134715025907e-06,
1205
+ "loss": 0.3087,
1206
  "step": 855
1207
  },
1208
  {
1209
  "epoch": 0.8014911463187325,
1210
+ "grad_norm": 0.1744284628031719,
1211
  "learning_rate": 4.414507772020726e-06,
1212
+ "loss": 0.3146,
1213
  "step": 860
1214
  },
1215
  {
1216
  "epoch": 0.8061509785647717,
1217
+ "grad_norm": 0.1764675363887709,
1218
  "learning_rate": 4.310880829015544e-06,
1219
+ "loss": 0.3028,
1220
  "step": 865
1221
  },
1222
  {
1223
  "epoch": 0.8108108108108109,
1224
+ "grad_norm": 0.18723433018807362,
1225
  "learning_rate": 4.207253886010363e-06,
1226
+ "loss": 0.3082,
1227
  "step": 870
1228
  },
1229
  {
1230
  "epoch": 0.8154706430568499,
1231
+ "grad_norm": 0.16928853740679736,
1232
  "learning_rate": 4.103626943005182e-06,
1233
+ "loss": 0.3059,
1234
  "step": 875
1235
  },
1236
  {
1237
  "epoch": 0.8201304753028891,
1238
+ "grad_norm": 0.17841937199548402,
1239
  "learning_rate": 4.000000000000001e-06,
1240
+ "loss": 0.3042,
1241
  "step": 880
1242
  },
1243
  {
1244
  "epoch": 0.8247903075489282,
1245
+ "grad_norm": 0.1656726857328673,
1246
  "learning_rate": 3.896373056994819e-06,
1247
+ "loss": 0.3079,
1248
  "step": 885
1249
  },
1250
  {
1251
  "epoch": 0.8294501397949674,
1252
+ "grad_norm": 0.17487630016211303,
1253
  "learning_rate": 3.7927461139896377e-06,
1254
+ "loss": 0.3027,
1255
  "step": 890
1256
  },
1257
  {
1258
  "epoch": 0.8341099720410066,
1259
+ "grad_norm": 0.16843425617538177,
1260
  "learning_rate": 3.6891191709844567e-06,
1261
+ "loss": 0.3172,
1262
  "step": 895
1263
  },
1264
  {
1265
  "epoch": 0.8387698042870456,
1266
+ "grad_norm": 0.17177773487516515,
1267
  "learning_rate": 3.5854922279792748e-06,
1268
+ "loss": 0.3055,
1269
  "step": 900
1270
  },
1271
  {
1272
  "epoch": 0.8434296365330848,
1273
+ "grad_norm": 0.16684455749445157,
1274
  "learning_rate": 3.4818652849740937e-06,
1275
+ "loss": 0.3031,
1276
  "step": 905
1277
  },
1278
  {
1279
  "epoch": 0.848089468779124,
1280
+ "grad_norm": 0.171250184663666,
1281
  "learning_rate": 3.3782383419689123e-06,
1282
+ "loss": 0.3068,
1283
  "step": 910
1284
  },
1285
  {
1286
  "epoch": 0.8527493010251631,
1287
+ "grad_norm": 0.1904755654711732,
1288
  "learning_rate": 3.274611398963731e-06,
1289
+ "loss": 0.3091,
1290
  "step": 915
1291
  },
1292
  {
1293
  "epoch": 0.8574091332712023,
1294
+ "grad_norm": 0.17322382387681076,
1295
  "learning_rate": 3.1709844559585493e-06,
1296
+ "loss": 0.3029,
1297
  "step": 920
1298
  },
1299
  {
1300
  "epoch": 0.8620689655172413,
1301
+ "grad_norm": 0.17587838098911934,
1302
  "learning_rate": 3.0673575129533683e-06,
1303
+ "loss": 0.2978,
1304
  "step": 925
1305
  },
1306
  {
1307
  "epoch": 0.8667287977632805,
1308
+ "grad_norm": 0.17389743789103038,
1309
  "learning_rate": 2.963730569948187e-06,
1310
+ "loss": 0.2979,
1311
  "step": 930
1312
  },
1313
  {
1314
  "epoch": 0.8713886300093197,
1315
+ "grad_norm": 0.18137733240826867,
1316
  "learning_rate": 2.8601036269430053e-06,
1317
+ "loss": 0.3027,
1318
  "step": 935
1319
  },
1320
  {
1321
  "epoch": 0.8760484622553588,
1322
+ "grad_norm": 0.17290656767359902,
1323
  "learning_rate": 2.7564766839378243e-06,
1324
+ "loss": 0.3054,
1325
  "step": 940
1326
  },
1327
  {
1328
  "epoch": 0.880708294501398,
1329
+ "grad_norm": 0.17569375365058235,
1330
  "learning_rate": 2.6528497409326424e-06,
1331
+ "loss": 0.3023,
1332
  "step": 945
1333
  },
1334
  {
1335
  "epoch": 0.8853681267474371,
1336
+ "grad_norm": 0.1727950452551694,
1337
  "learning_rate": 2.5492227979274614e-06,
1338
+ "loss": 0.3137,
1339
  "step": 950
1340
  },
1341
  {
1342
  "epoch": 0.8900279589934762,
1343
+ "grad_norm": 0.1740200974029668,
1344
  "learning_rate": 2.44559585492228e-06,
1345
+ "loss": 0.307,
1346
  "step": 955
1347
  },
1348
  {
1349
  "epoch": 0.8946877912395154,
1350
+ "grad_norm": 0.1732738746462953,
1351
  "learning_rate": 2.3419689119170984e-06,
1352
+ "loss": 0.3111,
1353
  "step": 960
1354
  },
1355
  {
1356
  "epoch": 0.8993476234855545,
1357
+ "grad_norm": 0.18648726628836773,
1358
  "learning_rate": 2.2383419689119174e-06,
1359
+ "loss": 0.3069,
1360
  "step": 965
1361
  },
1362
  {
1363
  "epoch": 0.9040074557315937,
1364
+ "grad_norm": 0.1697331695842795,
1365
  "learning_rate": 2.134715025906736e-06,
1366
+ "loss": 0.297,
1367
  "step": 970
1368
  },
1369
  {
1370
  "epoch": 0.9086672879776329,
1371
+ "grad_norm": 0.16507665028070173,
1372
  "learning_rate": 2.0310880829015544e-06,
1373
+ "loss": 0.3125,
1374
  "step": 975
1375
  },
1376
  {
1377
  "epoch": 0.9133271202236719,
1378
+ "grad_norm": 0.17494951036076584,
1379
  "learning_rate": 1.9274611398963734e-06,
1380
+ "loss": 0.3041,
1381
  "step": 980
1382
  },
1383
  {
1384
  "epoch": 0.9179869524697111,
1385
+ "grad_norm": 0.17876267200484872,
1386
  "learning_rate": 1.823834196891192e-06,
1387
+ "loss": 0.3024,
1388
  "step": 985
1389
  },
1390
  {
1391
  "epoch": 0.9226467847157502,
1392
+ "grad_norm": 0.17300125358384327,
1393
  "learning_rate": 1.7202072538860104e-06,
1394
+ "loss": 0.3007,
1395
  "step": 990
1396
  },
1397
  {
1398
  "epoch": 0.9273066169617894,
1399
+ "grad_norm": 0.1739041985560771,
1400
  "learning_rate": 1.6165803108808292e-06,
1401
+ "loss": 0.3039,
1402
  "step": 995
1403
  },
1404
  {
1405
  "epoch": 0.9319664492078286,
1406
+ "grad_norm": 0.17113300633163106,
1407
  "learning_rate": 1.5129533678756477e-06,
1408
+ "loss": 0.3035,
1409
  "step": 1000
1410
  },
1411
  {
1412
  "epoch": 0.9366262814538676,
1413
+ "grad_norm": 0.16281913618369226,
1414
  "learning_rate": 1.4093264248704663e-06,
1415
+ "loss": 0.3071,
1416
  "step": 1005
1417
  },
1418
  {
1419
  "epoch": 0.9412861136999068,
1420
+ "grad_norm": 0.17924475619300242,
1421
  "learning_rate": 1.3056994818652852e-06,
1422
+ "loss": 0.3058,
1423
  "step": 1010
1424
  },
1425
  {
1426
  "epoch": 0.9459459459459459,
1427
+ "grad_norm": 0.17688052898291365,
1428
  "learning_rate": 1.2020725388601037e-06,
1429
+ "loss": 0.3087,
1430
  "step": 1015
1431
  },
1432
  {
1433
  "epoch": 0.9506057781919851,
1434
+ "grad_norm": 0.16179921554930488,
1435
  "learning_rate": 1.0984455958549225e-06,
1436
+ "loss": 0.3044,
1437
  "step": 1020
1438
  },
1439
  {
1440
  "epoch": 0.9552656104380243,
1441
+ "grad_norm": 0.17553736079048324,
1442
  "learning_rate": 9.94818652849741e-07,
1443
+ "loss": 0.3129,
1444
  "step": 1025
1445
  },
1446
  {
1447
  "epoch": 0.9599254426840633,
1448
+ "grad_norm": 0.1704446487232818,
1449
  "learning_rate": 8.911917098445596e-07,
1450
+ "loss": 0.3046,
1451
  "step": 1030
1452
  },
1453
  {
1454
  "epoch": 0.9645852749301025,
1455
+ "grad_norm": 0.169056664565789,
1456
  "learning_rate": 7.875647668393784e-07,
1457
+ "loss": 0.3072,
1458
  "step": 1035
1459
  },
1460
  {
1461
  "epoch": 0.9692451071761417,
1462
+ "grad_norm": 0.16668251867193293,
1463
  "learning_rate": 6.839378238341969e-07,
1464
+ "loss": 0.3036,
1465
  "step": 1040
1466
  },
1467
  {
1468
  "epoch": 0.9739049394221808,
1469
+ "grad_norm": 0.1639424483827266,
1470
  "learning_rate": 5.803108808290156e-07,
1471
+ "loss": 0.2989,
1472
  "step": 1045
1473
  },
1474
  {
1475
  "epoch": 0.97856477166822,
1476
+ "grad_norm": 0.17474417966467756,
1477
  "learning_rate": 4.7668393782383424e-07,
1478
+ "loss": 0.3187,
1479
  "step": 1050
1480
  },
1481
  {
1482
  "epoch": 0.983224603914259,
1483
+ "grad_norm": 0.17412618700034416,
1484
  "learning_rate": 3.730569948186528e-07,
1485
+ "loss": 0.2996,
1486
  "step": 1055
1487
  },
1488
  {
1489
  "epoch": 0.9878844361602982,
1490
+ "grad_norm": 0.16453567016761128,
1491
  "learning_rate": 2.694300518134715e-07,
1492
+ "loss": 0.3028,
1493
  "step": 1060
1494
  },
1495
  {
1496
  "epoch": 0.9925442684063374,
1497
+ "grad_norm": 0.1609387610584271,
1498
  "learning_rate": 1.6580310880829015e-07,
1499
+ "loss": 0.3061,
1500
  "step": 1065
1501
  },
1502
  {
1503
  "epoch": 0.9972041006523765,
1504
+ "grad_norm": 0.1665161978210062,
1505
  "learning_rate": 6.217616580310881e-08,
1506
+ "loss": 0.303,
1507
  "step": 1070
1508
  },
1509
  {
1510
  "epoch": 1.0,
1511
  "step": 1073,
1512
  "total_flos": 9.186429923093381e+17,
1513
+ "train_loss": 0.30834408108585926,
1514
+ "train_runtime": 35203.5942,
1515
+ "train_samples_per_second": 0.488,
1516
+ "train_steps_per_second": 0.03
1517
  }
1518
  ],
1519
  "logging_steps": 5,