SebastianBodza commited on
Commit
2d320be
·
verified ·
1 Parent(s): 94f3aab

Add files using upload-large-folder tool

Browse files
Files changed (2) hide show
  1. model.safetensors +1 -1
  2. trainer_state.json +1419 -3
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1bbf971df86d2b3c87d65cd9ded20ffe99062cdd7b8b530de83b65ff947e7994
3
  size 2740113872
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c613193c24d4be76cc18609b14643006fa41b211a3afb34ad44440d8b9f5f954
3
  size 2740113872
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.5063599720016413,
5
  "eval_steps": 1000,
6
- "global_step": 6993,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4956,6 +4956,1422 @@
4956
  "learning_rate": 2.5718163788181375e-05,
4957
  "loss": 6.4442,
4958
  "step": 6990
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4959
  }
4960
  ],
4961
  "logging_steps": 10,
@@ -4975,7 +6391,7 @@
4975
  "attributes": {}
4976
  }
4977
  },
4978
- "total_flos": 1.5052037229461373e+19,
4979
  "train_batch_size": 30,
4980
  "trial_name": null,
4981
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.6510342497163959,
5
  "eval_steps": 1000,
6
+ "global_step": 8991,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4956
  "learning_rate": 2.5718163788181375e-05,
4957
  "loss": 6.4442,
4958
  "step": 6990
4959
+ },
4960
+ {
4961
+ "epoch": 0.5068668388404818,
4962
+ "grad_norm": 1.2421875,
4963
+ "learning_rate": 2.5659552382933732e-05,
4964
+ "loss": 6.4818,
4965
+ "step": 7000
4966
+ },
4967
+ {
4968
+ "epoch": 0.5068668388404818,
4969
+ "eval_loss": 6.613395690917969,
4970
+ "eval_runtime": 1.5015,
4971
+ "eval_samples_per_second": 7.992,
4972
+ "eval_steps_per_second": 1.998,
4973
+ "step": 7000
4974
+ },
4975
+ {
4976
+ "epoch": 0.5075909343245396,
4977
+ "grad_norm": 1.21875,
4978
+ "learning_rate": 2.5600937349718462e-05,
4979
+ "loss": 6.4476,
4980
+ "step": 7010
4981
+ },
4982
+ {
4983
+ "epoch": 0.5083150298085974,
4984
+ "grad_norm": 1.1953125,
4985
+ "learning_rate": 2.554231901095641e-05,
4986
+ "loss": 6.459,
4987
+ "step": 7020
4988
+ },
4989
+ {
4990
+ "epoch": 0.5090391252926553,
4991
+ "grad_norm": 1.25,
4992
+ "learning_rate": 2.5483697689086615e-05,
4993
+ "loss": 6.4414,
4994
+ "step": 7030
4995
+ },
4996
+ {
4997
+ "epoch": 0.5097632207767131,
4998
+ "grad_norm": 1.1796875,
4999
+ "learning_rate": 2.5425073706564528e-05,
5000
+ "loss": 6.4691,
5001
+ "step": 7040
5002
+ },
5003
+ {
5004
+ "epoch": 0.5104873162607709,
5005
+ "grad_norm": 1.2421875,
5006
+ "learning_rate": 2.5366447385860225e-05,
5007
+ "loss": 6.4414,
5008
+ "step": 7050
5009
+ },
5010
+ {
5011
+ "epoch": 0.5112114117448288,
5012
+ "grad_norm": 1.21875,
5013
+ "learning_rate": 2.5307819049456655e-05,
5014
+ "loss": 6.478,
5015
+ "step": 7060
5016
+ },
5017
+ {
5018
+ "epoch": 0.5119355072288866,
5019
+ "grad_norm": 1.2109375,
5020
+ "learning_rate": 2.524918901984784e-05,
5021
+ "loss": 6.4605,
5022
+ "step": 7070
5023
+ },
5024
+ {
5025
+ "epoch": 0.5126596027129444,
5026
+ "grad_norm": 1.2421875,
5027
+ "learning_rate": 2.519055761953714e-05,
5028
+ "loss": 6.4395,
5029
+ "step": 7080
5030
+ },
5031
+ {
5032
+ "epoch": 0.5133836981970022,
5033
+ "grad_norm": 1.2109375,
5034
+ "learning_rate": 2.5131925171035438e-05,
5035
+ "loss": 6.4684,
5036
+ "step": 7090
5037
+ },
5038
+ {
5039
+ "epoch": 0.5141077936810601,
5040
+ "grad_norm": 1.2265625,
5041
+ "learning_rate": 2.5073291996859372e-05,
5042
+ "loss": 6.4657,
5043
+ "step": 7100
5044
+ },
5045
+ {
5046
+ "epoch": 0.5148318891651179,
5047
+ "grad_norm": 1.2109375,
5048
+ "learning_rate": 2.501465841952959e-05,
5049
+ "loss": 6.4963,
5050
+ "step": 7110
5051
+ },
5052
+ {
5053
+ "epoch": 0.5155559846491757,
5054
+ "grad_norm": 1.1875,
5055
+ "learning_rate": 2.4956024761568965e-05,
5056
+ "loss": 6.4635,
5057
+ "step": 7120
5058
+ },
5059
+ {
5060
+ "epoch": 0.5162800801332336,
5061
+ "grad_norm": 1.2890625,
5062
+ "learning_rate": 2.4897391345500777e-05,
5063
+ "loss": 6.4686,
5064
+ "step": 7130
5065
+ },
5066
+ {
5067
+ "epoch": 0.5170041756172914,
5068
+ "grad_norm": 1.1875,
5069
+ "learning_rate": 2.483875849384702e-05,
5070
+ "loss": 6.4515,
5071
+ "step": 7140
5072
+ },
5073
+ {
5074
+ "epoch": 0.5177282711013492,
5075
+ "grad_norm": 1.1953125,
5076
+ "learning_rate": 2.4780126529126555e-05,
5077
+ "loss": 6.4655,
5078
+ "step": 7150
5079
+ },
5080
+ {
5081
+ "epoch": 0.518452366585407,
5082
+ "grad_norm": 1.2109375,
5083
+ "learning_rate": 2.4721495773853366e-05,
5084
+ "loss": 6.457,
5085
+ "step": 7160
5086
+ },
5087
+ {
5088
+ "epoch": 0.5191764620694649,
5089
+ "grad_norm": 1.1796875,
5090
+ "learning_rate": 2.4662866550534798e-05,
5091
+ "loss": 6.4679,
5092
+ "step": 7170
5093
+ },
5094
+ {
5095
+ "epoch": 0.5199005575535227,
5096
+ "grad_norm": 1.25,
5097
+ "learning_rate": 2.460423918166975e-05,
5098
+ "loss": 6.4634,
5099
+ "step": 7180
5100
+ },
5101
+ {
5102
+ "epoch": 0.5206246530375805,
5103
+ "grad_norm": 1.15625,
5104
+ "learning_rate": 2.4545613989746953e-05,
5105
+ "loss": 6.4335,
5106
+ "step": 7190
5107
+ },
5108
+ {
5109
+ "epoch": 0.5213487485216384,
5110
+ "grad_norm": 1.2421875,
5111
+ "learning_rate": 2.4486991297243123e-05,
5112
+ "loss": 6.4535,
5113
+ "step": 7200
5114
+ },
5115
+ {
5116
+ "epoch": 0.5220728440056962,
5117
+ "grad_norm": 1.171875,
5118
+ "learning_rate": 2.4428371426621248e-05,
5119
+ "loss": 6.4829,
5120
+ "step": 7210
5121
+ },
5122
+ {
5123
+ "epoch": 0.522796939489754,
5124
+ "grad_norm": 1.2265625,
5125
+ "learning_rate": 2.4369754700328805e-05,
5126
+ "loss": 6.4657,
5127
+ "step": 7220
5128
+ },
5129
+ {
5130
+ "epoch": 0.5235210349738119,
5131
+ "grad_norm": 1.1875,
5132
+ "learning_rate": 2.4311141440795953e-05,
5133
+ "loss": 6.4412,
5134
+ "step": 7230
5135
+ },
5136
+ {
5137
+ "epoch": 0.5242451304578697,
5138
+ "grad_norm": 1.1796875,
5139
+ "learning_rate": 2.4252531970433786e-05,
5140
+ "loss": 6.4693,
5141
+ "step": 7240
5142
+ },
5143
+ {
5144
+ "epoch": 0.5249692259419275,
5145
+ "grad_norm": 1.1640625,
5146
+ "learning_rate": 2.419392661163257e-05,
5147
+ "loss": 6.46,
5148
+ "step": 7250
5149
+ },
5150
+ {
5151
+ "epoch": 0.5256933214259853,
5152
+ "grad_norm": 1.171875,
5153
+ "learning_rate": 2.4135325686759942e-05,
5154
+ "loss": 6.4613,
5155
+ "step": 7260
5156
+ },
5157
+ {
5158
+ "epoch": 0.5264174169100432,
5159
+ "grad_norm": 1.1796875,
5160
+ "learning_rate": 2.4076729518159146e-05,
5161
+ "loss": 6.463,
5162
+ "step": 7270
5163
+ },
5164
+ {
5165
+ "epoch": 0.527141512394101,
5166
+ "grad_norm": 1.265625,
5167
+ "learning_rate": 2.401813842814728e-05,
5168
+ "loss": 6.4323,
5169
+ "step": 7280
5170
+ },
5171
+ {
5172
+ "epoch": 0.5278656078781588,
5173
+ "grad_norm": 1.203125,
5174
+ "learning_rate": 2.395955273901349e-05,
5175
+ "loss": 6.4312,
5176
+ "step": 7290
5177
+ },
5178
+ {
5179
+ "epoch": 0.5285897033622167,
5180
+ "grad_norm": 1.2109375,
5181
+ "learning_rate": 2.390097277301722e-05,
5182
+ "loss": 6.4483,
5183
+ "step": 7300
5184
+ },
5185
+ {
5186
+ "epoch": 0.5293137988462745,
5187
+ "grad_norm": 1.1796875,
5188
+ "learning_rate": 2.3842398852386434e-05,
5189
+ "loss": 6.468,
5190
+ "step": 7310
5191
+ },
5192
+ {
5193
+ "epoch": 0.5300378943303323,
5194
+ "grad_norm": 1.234375,
5195
+ "learning_rate": 2.3783831299315845e-05,
5196
+ "loss": 6.4574,
5197
+ "step": 7320
5198
+ },
5199
+ {
5200
+ "epoch": 0.5307619898143902,
5201
+ "grad_norm": 1.21875,
5202
+ "learning_rate": 2.3725270435965123e-05,
5203
+ "loss": 6.4518,
5204
+ "step": 7330
5205
+ },
5206
+ {
5207
+ "epoch": 0.531486085298448,
5208
+ "grad_norm": 1.2265625,
5209
+ "learning_rate": 2.3666716584457174e-05,
5210
+ "loss": 6.4598,
5211
+ "step": 7340
5212
+ },
5213
+ {
5214
+ "epoch": 0.5322101807825058,
5215
+ "grad_norm": 1.21875,
5216
+ "learning_rate": 2.36081700668763e-05,
5217
+ "loss": 6.4511,
5218
+ "step": 7350
5219
+ },
5220
+ {
5221
+ "epoch": 0.5329342762665636,
5222
+ "grad_norm": 1.328125,
5223
+ "learning_rate": 2.3549631205266482e-05,
5224
+ "loss": 6.477,
5225
+ "step": 7360
5226
+ },
5227
+ {
5228
+ "epoch": 0.5336583717506215,
5229
+ "grad_norm": 1.1484375,
5230
+ "learning_rate": 2.3491100321629573e-05,
5231
+ "loss": 6.4593,
5232
+ "step": 7370
5233
+ },
5234
+ {
5235
+ "epoch": 0.5343824672346793,
5236
+ "grad_norm": 1.203125,
5237
+ "learning_rate": 2.3432577737923564e-05,
5238
+ "loss": 6.4507,
5239
+ "step": 7380
5240
+ },
5241
+ {
5242
+ "epoch": 0.5351065627187371,
5243
+ "grad_norm": 1.1640625,
5244
+ "learning_rate": 2.337406377606077e-05,
5245
+ "loss": 6.4771,
5246
+ "step": 7390
5247
+ },
5248
+ {
5249
+ "epoch": 0.535830658202795,
5250
+ "grad_norm": 1.2265625,
5251
+ "learning_rate": 2.3315558757906087e-05,
5252
+ "loss": 6.4647,
5253
+ "step": 7400
5254
+ },
5255
+ {
5256
+ "epoch": 0.5365547536868528,
5257
+ "grad_norm": 1.1640625,
5258
+ "learning_rate": 2.325706300527521e-05,
5259
+ "loss": 6.4545,
5260
+ "step": 7410
5261
+ },
5262
+ {
5263
+ "epoch": 0.5372788491709106,
5264
+ "grad_norm": 1.21875,
5265
+ "learning_rate": 2.3198576839932893e-05,
5266
+ "loss": 6.4633,
5267
+ "step": 7420
5268
+ },
5269
+ {
5270
+ "epoch": 0.5380029446549685,
5271
+ "grad_norm": 1.203125,
5272
+ "learning_rate": 2.3140100583591124e-05,
5273
+ "loss": 6.4553,
5274
+ "step": 7430
5275
+ },
5276
+ {
5277
+ "epoch": 0.5387270401390263,
5278
+ "grad_norm": 1.171875,
5279
+ "learning_rate": 2.3081634557907388e-05,
5280
+ "loss": 6.4596,
5281
+ "step": 7440
5282
+ },
5283
+ {
5284
+ "epoch": 0.5394511356230841,
5285
+ "grad_norm": 1.2109375,
5286
+ "learning_rate": 2.3023179084482916e-05,
5287
+ "loss": 6.4385,
5288
+ "step": 7450
5289
+ },
5290
+ {
5291
+ "epoch": 0.5401752311071419,
5292
+ "grad_norm": 1.21875,
5293
+ "learning_rate": 2.296473448486087e-05,
5294
+ "loss": 6.4597,
5295
+ "step": 7460
5296
+ },
5297
+ {
5298
+ "epoch": 0.5408993265911999,
5299
+ "grad_norm": 1.1328125,
5300
+ "learning_rate": 2.2906301080524614e-05,
5301
+ "loss": 6.4686,
5302
+ "step": 7470
5303
+ },
5304
+ {
5305
+ "epoch": 0.5416234220752577,
5306
+ "grad_norm": 1.1484375,
5307
+ "learning_rate": 2.2847879192895922e-05,
5308
+ "loss": 6.4299,
5309
+ "step": 7480
5310
+ },
5311
+ {
5312
+ "epoch": 0.5423475175593155,
5313
+ "grad_norm": 1.15625,
5314
+ "learning_rate": 2.278946914333323e-05,
5315
+ "loss": 6.4546,
5316
+ "step": 7490
5317
+ },
5318
+ {
5319
+ "epoch": 0.5430716130433734,
5320
+ "grad_norm": 1.1484375,
5321
+ "learning_rate": 2.2731071253129844e-05,
5322
+ "loss": 6.4454,
5323
+ "step": 7500
5324
+ },
5325
+ {
5326
+ "epoch": 0.5437957085274312,
5327
+ "grad_norm": 1.234375,
5328
+ "learning_rate": 2.2672685843512187e-05,
5329
+ "loss": 6.471,
5330
+ "step": 7510
5331
+ },
5332
+ {
5333
+ "epoch": 0.544519804011489,
5334
+ "grad_norm": 1.234375,
5335
+ "learning_rate": 2.2614313235638047e-05,
5336
+ "loss": 6.4412,
5337
+ "step": 7520
5338
+ },
5339
+ {
5340
+ "epoch": 0.5452438994955469,
5341
+ "grad_norm": 1.2109375,
5342
+ "learning_rate": 2.2555953750594777e-05,
5343
+ "loss": 6.4591,
5344
+ "step": 7530
5345
+ },
5346
+ {
5347
+ "epoch": 0.5459679949796047,
5348
+ "grad_norm": 1.1484375,
5349
+ "learning_rate": 2.2497607709397543e-05,
5350
+ "loss": 6.4524,
5351
+ "step": 7540
5352
+ },
5353
+ {
5354
+ "epoch": 0.5466920904636625,
5355
+ "grad_norm": 1.2265625,
5356
+ "learning_rate": 2.2439275432987585e-05,
5357
+ "loss": 6.4796,
5358
+ "step": 7550
5359
+ },
5360
+ {
5361
+ "epoch": 0.5474161859477203,
5362
+ "grad_norm": 1.2734375,
5363
+ "learning_rate": 2.23809572422304e-05,
5364
+ "loss": 6.4641,
5365
+ "step": 7560
5366
+ },
5367
+ {
5368
+ "epoch": 0.5481402814317782,
5369
+ "grad_norm": 1.125,
5370
+ "learning_rate": 2.2322653457914014e-05,
5371
+ "loss": 6.4564,
5372
+ "step": 7570
5373
+ },
5374
+ {
5375
+ "epoch": 0.548864376915836,
5376
+ "grad_norm": 1.1796875,
5377
+ "learning_rate": 2.2264364400747226e-05,
5378
+ "loss": 6.4588,
5379
+ "step": 7580
5380
+ },
5381
+ {
5382
+ "epoch": 0.5495884723998938,
5383
+ "grad_norm": 1.296875,
5384
+ "learning_rate": 2.2206090391357797e-05,
5385
+ "loss": 6.4472,
5386
+ "step": 7590
5387
+ },
5388
+ {
5389
+ "epoch": 0.5503125678839517,
5390
+ "grad_norm": 1.21875,
5391
+ "learning_rate": 2.2147831750290732e-05,
5392
+ "loss": 6.4609,
5393
+ "step": 7600
5394
+ },
5395
+ {
5396
+ "epoch": 0.5510366633680095,
5397
+ "grad_norm": 1.171875,
5398
+ "learning_rate": 2.20895887980065e-05,
5399
+ "loss": 6.4575,
5400
+ "step": 7610
5401
+ },
5402
+ {
5403
+ "epoch": 0.5517607588520673,
5404
+ "grad_norm": 1.140625,
5405
+ "learning_rate": 2.203136185487927e-05,
5406
+ "loss": 6.4575,
5407
+ "step": 7620
5408
+ },
5409
+ {
5410
+ "epoch": 0.5524848543361252,
5411
+ "grad_norm": 1.1875,
5412
+ "learning_rate": 2.1973151241195143e-05,
5413
+ "loss": 6.4774,
5414
+ "step": 7630
5415
+ },
5416
+ {
5417
+ "epoch": 0.553208949820183,
5418
+ "grad_norm": 1.2421875,
5419
+ "learning_rate": 2.191495727715041e-05,
5420
+ "loss": 6.4593,
5421
+ "step": 7640
5422
+ },
5423
+ {
5424
+ "epoch": 0.5539330453042408,
5425
+ "grad_norm": 1.1875,
5426
+ "learning_rate": 2.1856780282849765e-05,
5427
+ "loss": 6.4552,
5428
+ "step": 7650
5429
+ },
5430
+ {
5431
+ "epoch": 0.5546571407882986,
5432
+ "grad_norm": 1.1640625,
5433
+ "learning_rate": 2.1798620578304575e-05,
5434
+ "loss": 6.4388,
5435
+ "step": 7660
5436
+ },
5437
+ {
5438
+ "epoch": 0.5553812362723565,
5439
+ "grad_norm": 1.171875,
5440
+ "learning_rate": 2.1740478483431088e-05,
5441
+ "loss": 6.4495,
5442
+ "step": 7670
5443
+ },
5444
+ {
5445
+ "epoch": 0.5561053317564143,
5446
+ "grad_norm": 1.1640625,
5447
+ "learning_rate": 2.1682354318048676e-05,
5448
+ "loss": 6.4629,
5449
+ "step": 7680
5450
+ },
5451
+ {
5452
+ "epoch": 0.5568294272404721,
5453
+ "grad_norm": 1.2265625,
5454
+ "learning_rate": 2.1624248401878123e-05,
5455
+ "loss": 6.4558,
5456
+ "step": 7690
5457
+ },
5458
+ {
5459
+ "epoch": 0.55755352272453,
5460
+ "grad_norm": 1.1328125,
5461
+ "learning_rate": 2.1566161054539798e-05,
5462
+ "loss": 6.4757,
5463
+ "step": 7700
5464
+ },
5465
+ {
5466
+ "epoch": 0.5582776182085878,
5467
+ "grad_norm": 1.2578125,
5468
+ "learning_rate": 2.1508092595551938e-05,
5469
+ "loss": 6.4555,
5470
+ "step": 7710
5471
+ },
5472
+ {
5473
+ "epoch": 0.5590017136926456,
5474
+ "grad_norm": 1.1953125,
5475
+ "learning_rate": 2.1450043344328892e-05,
5476
+ "loss": 6.4687,
5477
+ "step": 7720
5478
+ },
5479
+ {
5480
+ "epoch": 0.5597258091767034,
5481
+ "grad_norm": 1.171875,
5482
+ "learning_rate": 2.1392013620179337e-05,
5483
+ "loss": 6.4549,
5484
+ "step": 7730
5485
+ },
5486
+ {
5487
+ "epoch": 0.5604499046607613,
5488
+ "grad_norm": 1.1875,
5489
+ "learning_rate": 2.133400374230455e-05,
5490
+ "loss": 6.4584,
5491
+ "step": 7740
5492
+ },
5493
+ {
5494
+ "epoch": 0.5611740001448191,
5495
+ "grad_norm": 1.15625,
5496
+ "learning_rate": 2.127601402979665e-05,
5497
+ "loss": 6.4676,
5498
+ "step": 7750
5499
+ },
5500
+ {
5501
+ "epoch": 0.5618980956288769,
5502
+ "grad_norm": 1.21875,
5503
+ "learning_rate": 2.1218044801636805e-05,
5504
+ "loss": 6.4536,
5505
+ "step": 7760
5506
+ },
5507
+ {
5508
+ "epoch": 0.5626221911129348,
5509
+ "grad_norm": 1.1953125,
5510
+ "learning_rate": 2.116009637669353e-05,
5511
+ "loss": 6.4334,
5512
+ "step": 7770
5513
+ },
5514
+ {
5515
+ "epoch": 0.5633462865969926,
5516
+ "grad_norm": 1.1953125,
5517
+ "learning_rate": 2.1102169073720894e-05,
5518
+ "loss": 6.4507,
5519
+ "step": 7780
5520
+ },
5521
+ {
5522
+ "epoch": 0.5640703820810504,
5523
+ "grad_norm": 1.203125,
5524
+ "learning_rate": 2.1044263211356797e-05,
5525
+ "loss": 6.436,
5526
+ "step": 7790
5527
+ },
5528
+ {
5529
+ "epoch": 0.5647944775651083,
5530
+ "grad_norm": 1.1328125,
5531
+ "learning_rate": 2.098637910812119e-05,
5532
+ "loss": 6.4561,
5533
+ "step": 7800
5534
+ },
5535
+ {
5536
+ "epoch": 0.5655185730491661,
5537
+ "grad_norm": 1.1953125,
5538
+ "learning_rate": 2.0928517082414335e-05,
5539
+ "loss": 6.454,
5540
+ "step": 7810
5541
+ },
5542
+ {
5543
+ "epoch": 0.5662426685332239,
5544
+ "grad_norm": 1.1796875,
5545
+ "learning_rate": 2.0870677452515057e-05,
5546
+ "loss": 6.4499,
5547
+ "step": 7820
5548
+ },
5549
+ {
5550
+ "epoch": 0.5669667640172817,
5551
+ "grad_norm": 1.2265625,
5552
+ "learning_rate": 2.081286053657899e-05,
5553
+ "loss": 6.4552,
5554
+ "step": 7830
5555
+ },
5556
+ {
5557
+ "epoch": 0.5676908595013396,
5558
+ "grad_norm": 1.203125,
5559
+ "learning_rate": 2.0755066652636817e-05,
5560
+ "loss": 6.4605,
5561
+ "step": 7840
5562
+ },
5563
+ {
5564
+ "epoch": 0.5684149549853974,
5565
+ "grad_norm": 1.203125,
5566
+ "learning_rate": 2.0697296118592553e-05,
5567
+ "loss": 6.4492,
5568
+ "step": 7850
5569
+ },
5570
+ {
5571
+ "epoch": 0.5691390504694552,
5572
+ "grad_norm": 1.2734375,
5573
+ "learning_rate": 2.0639549252221745e-05,
5574
+ "loss": 6.4476,
5575
+ "step": 7860
5576
+ },
5577
+ {
5578
+ "epoch": 0.5698631459535131,
5579
+ "grad_norm": 1.1953125,
5580
+ "learning_rate": 2.058182637116976e-05,
5581
+ "loss": 6.4568,
5582
+ "step": 7870
5583
+ },
5584
+ {
5585
+ "epoch": 0.5705872414375709,
5586
+ "grad_norm": 1.2734375,
5587
+ "learning_rate": 2.0524127792950056e-05,
5588
+ "loss": 6.4512,
5589
+ "step": 7880
5590
+ },
5591
+ {
5592
+ "epoch": 0.5713113369216287,
5593
+ "grad_norm": 1.1875,
5594
+ "learning_rate": 2.046645383494237e-05,
5595
+ "loss": 6.4383,
5596
+ "step": 7890
5597
+ },
5598
+ {
5599
+ "epoch": 0.5720354324056866,
5600
+ "grad_norm": 1.2265625,
5601
+ "learning_rate": 2.0408804814391043e-05,
5602
+ "loss": 6.4694,
5603
+ "step": 7900
5604
+ },
5605
+ {
5606
+ "epoch": 0.5727595278897444,
5607
+ "grad_norm": 1.1640625,
5608
+ "learning_rate": 2.0351181048403227e-05,
5609
+ "loss": 6.4535,
5610
+ "step": 7910
5611
+ },
5612
+ {
5613
+ "epoch": 0.5734836233738022,
5614
+ "grad_norm": 1.2109375,
5615
+ "learning_rate": 2.0293582853947164e-05,
5616
+ "loss": 6.4736,
5617
+ "step": 7920
5618
+ },
5619
+ {
5620
+ "epoch": 0.57420771885786,
5621
+ "grad_norm": 1.203125,
5622
+ "learning_rate": 2.0236010547850432e-05,
5623
+ "loss": 6.4463,
5624
+ "step": 7930
5625
+ },
5626
+ {
5627
+ "epoch": 0.5749318143419179,
5628
+ "grad_norm": 1.2421875,
5629
+ "learning_rate": 2.0178464446798206e-05,
5630
+ "loss": 6.462,
5631
+ "step": 7940
5632
+ },
5633
+ {
5634
+ "epoch": 0.5756559098259757,
5635
+ "grad_norm": 1.2109375,
5636
+ "learning_rate": 2.0120944867331522e-05,
5637
+ "loss": 6.4542,
5638
+ "step": 7950
5639
+ },
5640
+ {
5641
+ "epoch": 0.5763800053100335,
5642
+ "grad_norm": 1.171875,
5643
+ "learning_rate": 2.0063452125845522e-05,
5644
+ "loss": 6.4458,
5645
+ "step": 7960
5646
+ },
5647
+ {
5648
+ "epoch": 0.5771041007940914,
5649
+ "grad_norm": 1.1484375,
5650
+ "learning_rate": 2.0005986538587735e-05,
5651
+ "loss": 6.4731,
5652
+ "step": 7970
5653
+ },
5654
+ {
5655
+ "epoch": 0.5778281962781492,
5656
+ "grad_norm": 1.1328125,
5657
+ "learning_rate": 1.9948548421656303e-05,
5658
+ "loss": 6.4686,
5659
+ "step": 7980
5660
+ },
5661
+ {
5662
+ "epoch": 0.578552291762207,
5663
+ "grad_norm": 1.1953125,
5664
+ "learning_rate": 1.9891138090998285e-05,
5665
+ "loss": 6.4521,
5666
+ "step": 7990
5667
+ },
5668
+ {
5669
+ "epoch": 0.5792763872462648,
5670
+ "grad_norm": 1.1875,
5671
+ "learning_rate": 1.983375586240789e-05,
5672
+ "loss": 6.4232,
5673
+ "step": 8000
5674
+ },
5675
+ {
5676
+ "epoch": 0.5792763872462648,
5677
+ "eval_loss": 6.610226154327393,
5678
+ "eval_runtime": 1.4712,
5679
+ "eval_samples_per_second": 8.157,
5680
+ "eval_steps_per_second": 2.039,
5681
+ "step": 8000
5682
+ },
5683
+ {
5684
+ "epoch": 0.5800004827303227,
5685
+ "grad_norm": 1.25,
5686
+ "learning_rate": 1.9776402051524724e-05,
5687
+ "loss": 6.4368,
5688
+ "step": 8010
5689
+ },
5690
+ {
5691
+ "epoch": 0.5807245782143805,
5692
+ "grad_norm": 1.1875,
5693
+ "learning_rate": 1.971907697383213e-05,
5694
+ "loss": 6.4723,
5695
+ "step": 8020
5696
+ },
5697
+ {
5698
+ "epoch": 0.5814486736984383,
5699
+ "grad_norm": 1.1953125,
5700
+ "learning_rate": 1.9661780944655345e-05,
5701
+ "loss": 6.4643,
5702
+ "step": 8030
5703
+ },
5704
+ {
5705
+ "epoch": 0.5821727691824962,
5706
+ "grad_norm": 1.1796875,
5707
+ "learning_rate": 1.9604514279159843e-05,
5708
+ "loss": 6.4756,
5709
+ "step": 8040
5710
+ },
5711
+ {
5712
+ "epoch": 0.582896864666554,
5713
+ "grad_norm": 1.140625,
5714
+ "learning_rate": 1.95472772923496e-05,
5715
+ "loss": 6.4411,
5716
+ "step": 8050
5717
+ },
5718
+ {
5719
+ "epoch": 0.5836209601506118,
5720
+ "grad_norm": 1.25,
5721
+ "learning_rate": 1.9490070299065293e-05,
5722
+ "loss": 6.4344,
5723
+ "step": 8060
5724
+ },
5725
+ {
5726
+ "epoch": 0.5843450556346697,
5727
+ "grad_norm": 1.1953125,
5728
+ "learning_rate": 1.943289361398266e-05,
5729
+ "loss": 6.4451,
5730
+ "step": 8070
5731
+ },
5732
+ {
5733
+ "epoch": 0.5850691511187275,
5734
+ "grad_norm": 1.25,
5735
+ "learning_rate": 1.9375747551610688e-05,
5736
+ "loss": 6.4609,
5737
+ "step": 8080
5738
+ },
5739
+ {
5740
+ "epoch": 0.5857932466027853,
5741
+ "grad_norm": 1.2421875,
5742
+ "learning_rate": 1.931863242628995e-05,
5743
+ "loss": 6.4627,
5744
+ "step": 8090
5745
+ },
5746
+ {
5747
+ "epoch": 0.5865173420868431,
5748
+ "grad_norm": 1.1484375,
5749
+ "learning_rate": 1.9261548552190827e-05,
5750
+ "loss": 6.4676,
5751
+ "step": 8100
5752
+ },
5753
+ {
5754
+ "epoch": 0.587241437570901,
5755
+ "grad_norm": 1.1875,
5756
+ "learning_rate": 1.920449624331179e-05,
5757
+ "loss": 6.457,
5758
+ "step": 8110
5759
+ },
5760
+ {
5761
+ "epoch": 0.5879655330549588,
5762
+ "grad_norm": 1.140625,
5763
+ "learning_rate": 1.9147475813477718e-05,
5764
+ "loss": 6.4659,
5765
+ "step": 8120
5766
+ },
5767
+ {
5768
+ "epoch": 0.5886896285390166,
5769
+ "grad_norm": 1.21875,
5770
+ "learning_rate": 1.909048757633809e-05,
5771
+ "loss": 6.4445,
5772
+ "step": 8130
5773
+ },
5774
+ {
5775
+ "epoch": 0.5894137240230745,
5776
+ "grad_norm": 1.265625,
5777
+ "learning_rate": 1.9033531845365334e-05,
5778
+ "loss": 6.4637,
5779
+ "step": 8140
5780
+ },
5781
+ {
5782
+ "epoch": 0.5901378195071323,
5783
+ "grad_norm": 1.171875,
5784
+ "learning_rate": 1.897660893385305e-05,
5785
+ "loss": 6.4351,
5786
+ "step": 8150
5787
+ },
5788
+ {
5789
+ "epoch": 0.5908619149911901,
5790
+ "grad_norm": 1.1953125,
5791
+ "learning_rate": 1.891971915491434e-05,
5792
+ "loss": 6.4607,
5793
+ "step": 8160
5794
+ },
5795
+ {
5796
+ "epoch": 0.591586010475248,
5797
+ "grad_norm": 1.1796875,
5798
+ "learning_rate": 1.8862862821480025e-05,
5799
+ "loss": 6.4635,
5800
+ "step": 8170
5801
+ },
5802
+ {
5803
+ "epoch": 0.5923101059593059,
5804
+ "grad_norm": 1.2578125,
5805
+ "learning_rate": 1.8806040246296966e-05,
5806
+ "loss": 6.4431,
5807
+ "step": 8180
5808
+ },
5809
+ {
5810
+ "epoch": 0.5930342014433637,
5811
+ "grad_norm": 1.1796875,
5812
+ "learning_rate": 1.8749251741926326e-05,
5813
+ "loss": 6.4586,
5814
+ "step": 8190
5815
+ },
5816
+ {
5817
+ "epoch": 0.5937582969274215,
5818
+ "grad_norm": 1.1484375,
5819
+ "learning_rate": 1.8692497620741884e-05,
5820
+ "loss": 6.4613,
5821
+ "step": 8200
5822
+ },
5823
+ {
5824
+ "epoch": 0.5944823924114794,
5825
+ "grad_norm": 1.2734375,
5826
+ "learning_rate": 1.8635778194928246e-05,
5827
+ "loss": 6.4493,
5828
+ "step": 8210
5829
+ },
5830
+ {
5831
+ "epoch": 0.5952064878955372,
5832
+ "grad_norm": 1.203125,
5833
+ "learning_rate": 1.85790937764792e-05,
5834
+ "loss": 6.4421,
5835
+ "step": 8220
5836
+ },
5837
+ {
5838
+ "epoch": 0.595930583379595,
5839
+ "grad_norm": 1.2109375,
5840
+ "learning_rate": 1.8522444677195965e-05,
5841
+ "loss": 6.4376,
5842
+ "step": 8230
5843
+ },
5844
+ {
5845
+ "epoch": 0.5966546788636529,
5846
+ "grad_norm": 1.171875,
5847
+ "learning_rate": 1.8465831208685476e-05,
5848
+ "loss": 6.4449,
5849
+ "step": 8240
5850
+ },
5851
+ {
5852
+ "epoch": 0.5973787743477107,
5853
+ "grad_norm": 1.1796875,
5854
+ "learning_rate": 1.8409253682358678e-05,
5855
+ "loss": 6.4748,
5856
+ "step": 8250
5857
+ },
5858
+ {
5859
+ "epoch": 0.5981028698317685,
5860
+ "grad_norm": 1.2265625,
5861
+ "learning_rate": 1.835271240942882e-05,
5862
+ "loss": 6.4677,
5863
+ "step": 8260
5864
+ },
5865
+ {
5866
+ "epoch": 0.5988269653158264,
5867
+ "grad_norm": 1.1953125,
5868
+ "learning_rate": 1.8296207700909717e-05,
5869
+ "loss": 6.4513,
5870
+ "step": 8270
5871
+ },
5872
+ {
5873
+ "epoch": 0.5995510607998842,
5874
+ "grad_norm": 1.1328125,
5875
+ "learning_rate": 1.823973986761406e-05,
5876
+ "loss": 6.4442,
5877
+ "step": 8280
5878
+ },
5879
+ {
5880
+ "epoch": 0.600275156283942,
5881
+ "grad_norm": 1.09375,
5882
+ "learning_rate": 1.8183309220151717e-05,
5883
+ "loss": 6.4554,
5884
+ "step": 8290
5885
+ },
5886
+ {
5887
+ "epoch": 0.6009992517679998,
5888
+ "grad_norm": 1.1484375,
5889
+ "learning_rate": 1.8126916068928e-05,
5890
+ "loss": 6.4365,
5891
+ "step": 8300
5892
+ },
5893
+ {
5894
+ "epoch": 0.6017233472520577,
5895
+ "grad_norm": 1.2109375,
5896
+ "learning_rate": 1.807056072414195e-05,
5897
+ "loss": 6.441,
5898
+ "step": 8310
5899
+ },
5900
+ {
5901
+ "epoch": 0.6024474427361155,
5902
+ "grad_norm": 1.203125,
5903
+ "learning_rate": 1.801424349578469e-05,
5904
+ "loss": 6.4688,
5905
+ "step": 8320
5906
+ },
5907
+ {
5908
+ "epoch": 0.6031715382201733,
5909
+ "grad_norm": 1.15625,
5910
+ "learning_rate": 1.795796469363763e-05,
5911
+ "loss": 6.4426,
5912
+ "step": 8330
5913
+ },
5914
+ {
5915
+ "epoch": 0.6038956337042312,
5916
+ "grad_norm": 1.15625,
5917
+ "learning_rate": 1.7901724627270833e-05,
5918
+ "loss": 6.4416,
5919
+ "step": 8340
5920
+ },
5921
+ {
5922
+ "epoch": 0.604619729188289,
5923
+ "grad_norm": 1.1953125,
5924
+ "learning_rate": 1.784552360604131e-05,
5925
+ "loss": 6.4545,
5926
+ "step": 8350
5927
+ },
5928
+ {
5929
+ "epoch": 0.6053438246723468,
5930
+ "grad_norm": 1.171875,
5931
+ "learning_rate": 1.778936193909126e-05,
5932
+ "loss": 6.422,
5933
+ "step": 8360
5934
+ },
5935
+ {
5936
+ "epoch": 0.6060679201564046,
5937
+ "grad_norm": 1.1796875,
5938
+ "learning_rate": 1.773323993534644e-05,
5939
+ "loss": 6.4194,
5940
+ "step": 8370
5941
+ },
5942
+ {
5943
+ "epoch": 0.6067920156404625,
5944
+ "grad_norm": 1.1484375,
5945
+ "learning_rate": 1.7677157903514412e-05,
5946
+ "loss": 6.4644,
5947
+ "step": 8380
5948
+ },
5949
+ {
5950
+ "epoch": 0.6075161111245203,
5951
+ "grad_norm": 1.203125,
5952
+ "learning_rate": 1.762111615208287e-05,
5953
+ "loss": 6.4715,
5954
+ "step": 8390
5955
+ },
5956
+ {
5957
+ "epoch": 0.6082402066085781,
5958
+ "grad_norm": 1.2421875,
5959
+ "learning_rate": 1.756511498931795e-05,
5960
+ "loss": 6.4393,
5961
+ "step": 8400
5962
+ },
5963
+ {
5964
+ "epoch": 0.608964302092636,
5965
+ "grad_norm": 1.171875,
5966
+ "learning_rate": 1.750915472326252e-05,
5967
+ "loss": 6.4506,
5968
+ "step": 8410
5969
+ },
5970
+ {
5971
+ "epoch": 0.6096883975766938,
5972
+ "grad_norm": 1.1875,
5973
+ "learning_rate": 1.7453235661734478e-05,
5974
+ "loss": 6.4369,
5975
+ "step": 8420
5976
+ },
5977
+ {
5978
+ "epoch": 0.6104124930607516,
5979
+ "grad_norm": 1.171875,
5980
+ "learning_rate": 1.7397358112325085e-05,
5981
+ "loss": 6.4276,
5982
+ "step": 8430
5983
+ },
5984
+ {
5985
+ "epoch": 0.6111365885448095,
5986
+ "grad_norm": 1.15625,
5987
+ "learning_rate": 1.7341522382397256e-05,
5988
+ "loss": 6.4483,
5989
+ "step": 8440
5990
+ },
5991
+ {
5992
+ "epoch": 0.6118606840288673,
5993
+ "grad_norm": 1.1328125,
5994
+ "learning_rate": 1.7285728779083862e-05,
5995
+ "loss": 6.4641,
5996
+ "step": 8450
5997
+ },
5998
+ {
5999
+ "epoch": 0.6125847795129251,
6000
+ "grad_norm": 1.125,
6001
+ "learning_rate": 1.7229977609286062e-05,
6002
+ "loss": 6.4545,
6003
+ "step": 8460
6004
+ },
6005
+ {
6006
+ "epoch": 0.613308874996983,
6007
+ "grad_norm": 1.1640625,
6008
+ "learning_rate": 1.7174269179671593e-05,
6009
+ "loss": 6.454,
6010
+ "step": 8470
6011
+ },
6012
+ {
6013
+ "epoch": 0.6140329704810408,
6014
+ "grad_norm": 1.1640625,
6015
+ "learning_rate": 1.7118603796673102e-05,
6016
+ "loss": 6.4447,
6017
+ "step": 8480
6018
+ },
6019
+ {
6020
+ "epoch": 0.6147570659650986,
6021
+ "grad_norm": 1.21875,
6022
+ "learning_rate": 1.7062981766486437e-05,
6023
+ "loss": 6.4641,
6024
+ "step": 8490
6025
+ },
6026
+ {
6027
+ "epoch": 0.6154811614491564,
6028
+ "grad_norm": 1.1796875,
6029
+ "learning_rate": 1.7007403395069005e-05,
6030
+ "loss": 6.4613,
6031
+ "step": 8500
6032
+ },
6033
+ {
6034
+ "epoch": 0.6162052569332143,
6035
+ "grad_norm": 1.2109375,
6036
+ "learning_rate": 1.695186898813803e-05,
6037
+ "loss": 6.4616,
6038
+ "step": 8510
6039
+ },
6040
+ {
6041
+ "epoch": 0.6169293524172721,
6042
+ "grad_norm": 1.2421875,
6043
+ "learning_rate": 1.6896378851168914e-05,
6044
+ "loss": 6.4392,
6045
+ "step": 8520
6046
+ },
6047
+ {
6048
+ "epoch": 0.6176534479013299,
6049
+ "grad_norm": 1.109375,
6050
+ "learning_rate": 1.6840933289393564e-05,
6051
+ "loss": 6.4388,
6052
+ "step": 8530
6053
+ },
6054
+ {
6055
+ "epoch": 0.6183775433853878,
6056
+ "grad_norm": 1.15625,
6057
+ "learning_rate": 1.6785532607798664e-05,
6058
+ "loss": 6.4475,
6059
+ "step": 8540
6060
+ },
6061
+ {
6062
+ "epoch": 0.6191016388694456,
6063
+ "grad_norm": 1.2421875,
6064
+ "learning_rate": 1.673017711112405e-05,
6065
+ "loss": 6.4399,
6066
+ "step": 8550
6067
+ },
6068
+ {
6069
+ "epoch": 0.6198257343535034,
6070
+ "grad_norm": 1.1953125,
6071
+ "learning_rate": 1.6674867103861e-05,
6072
+ "loss": 6.4491,
6073
+ "step": 8560
6074
+ },
6075
+ {
6076
+ "epoch": 0.6205498298375612,
6077
+ "grad_norm": 1.203125,
6078
+ "learning_rate": 1.6619602890250565e-05,
6079
+ "loss": 6.4558,
6080
+ "step": 8570
6081
+ },
6082
+ {
6083
+ "epoch": 0.6212739253216191,
6084
+ "grad_norm": 1.2421875,
6085
+ "learning_rate": 1.656438477428193e-05,
6086
+ "loss": 6.4644,
6087
+ "step": 8580
6088
+ },
6089
+ {
6090
+ "epoch": 0.6219980208056769,
6091
+ "grad_norm": 1.1640625,
6092
+ "learning_rate": 1.6509213059690683e-05,
6093
+ "loss": 6.4744,
6094
+ "step": 8590
6095
+ },
6096
+ {
6097
+ "epoch": 0.6227221162897347,
6098
+ "grad_norm": 1.140625,
6099
+ "learning_rate": 1.645408804995719e-05,
6100
+ "loss": 6.4486,
6101
+ "step": 8600
6102
+ },
6103
+ {
6104
+ "epoch": 0.6234462117737926,
6105
+ "grad_norm": 1.171875,
6106
+ "learning_rate": 1.6399010048304897e-05,
6107
+ "loss": 6.4742,
6108
+ "step": 8610
6109
+ },
6110
+ {
6111
+ "epoch": 0.6241703072578504,
6112
+ "grad_norm": 1.1796875,
6113
+ "learning_rate": 1.6343979357698687e-05,
6114
+ "loss": 6.4486,
6115
+ "step": 8620
6116
+ },
6117
+ {
6118
+ "epoch": 0.6248944027419082,
6119
+ "grad_norm": 1.1640625,
6120
+ "learning_rate": 1.6288996280843188e-05,
6121
+ "loss": 6.4436,
6122
+ "step": 8630
6123
+ },
6124
+ {
6125
+ "epoch": 0.625618498225966,
6126
+ "grad_norm": 1.2109375,
6127
+ "learning_rate": 1.6234061120181142e-05,
6128
+ "loss": 6.4286,
6129
+ "step": 8640
6130
+ },
6131
+ {
6132
+ "epoch": 0.6263425937100239,
6133
+ "grad_norm": 1.1796875,
6134
+ "learning_rate": 1.6179174177891703e-05,
6135
+ "loss": 6.4383,
6136
+ "step": 8650
6137
+ },
6138
+ {
6139
+ "epoch": 0.6270666891940817,
6140
+ "grad_norm": 1.1484375,
6141
+ "learning_rate": 1.6124335755888797e-05,
6142
+ "loss": 6.4773,
6143
+ "step": 8660
6144
+ },
6145
+ {
6146
+ "epoch": 0.6277907846781395,
6147
+ "grad_norm": 1.203125,
6148
+ "learning_rate": 1.6069546155819464e-05,
6149
+ "loss": 6.415,
6150
+ "step": 8670
6151
+ },
6152
+ {
6153
+ "epoch": 0.6285148801621974,
6154
+ "grad_norm": 1.1875,
6155
+ "learning_rate": 1.6014805679062185e-05,
6156
+ "loss": 6.4114,
6157
+ "step": 8680
6158
+ },
6159
+ {
6160
+ "epoch": 0.6292389756462552,
6161
+ "grad_norm": 1.1953125,
6162
+ "learning_rate": 1.596011462672522e-05,
6163
+ "loss": 6.4498,
6164
+ "step": 8690
6165
+ },
6166
+ {
6167
+ "epoch": 0.629963071130313,
6168
+ "grad_norm": 1.2265625,
6169
+ "learning_rate": 1.590547329964499e-05,
6170
+ "loss": 6.4754,
6171
+ "step": 8700
6172
+ },
6173
+ {
6174
+ "epoch": 0.6306871666143709,
6175
+ "grad_norm": 1.1953125,
6176
+ "learning_rate": 1.585088199838437e-05,
6177
+ "loss": 6.4334,
6178
+ "step": 8710
6179
+ },
6180
+ {
6181
+ "epoch": 0.6314112620984287,
6182
+ "grad_norm": 1.21875,
6183
+ "learning_rate": 1.5796341023231066e-05,
6184
+ "loss": 6.4284,
6185
+ "step": 8720
6186
+ },
6187
+ {
6188
+ "epoch": 0.6321353575824865,
6189
+ "grad_norm": 1.2890625,
6190
+ "learning_rate": 1.5741850674195975e-05,
6191
+ "loss": 6.4493,
6192
+ "step": 8730
6193
+ },
6194
+ {
6195
+ "epoch": 0.6328594530665443,
6196
+ "grad_norm": 1.15625,
6197
+ "learning_rate": 1.5687411251011487e-05,
6198
+ "loss": 6.4531,
6199
+ "step": 8740
6200
+ },
6201
+ {
6202
+ "epoch": 0.6335835485506022,
6203
+ "grad_norm": 1.1328125,
6204
+ "learning_rate": 1.563302305312989e-05,
6205
+ "loss": 6.4532,
6206
+ "step": 8750
6207
+ },
6208
+ {
6209
+ "epoch": 0.63430764403466,
6210
+ "grad_norm": 1.15625,
6211
+ "learning_rate": 1.5578686379721698e-05,
6212
+ "loss": 6.4465,
6213
+ "step": 8760
6214
+ },
6215
+ {
6216
+ "epoch": 0.6350317395187178,
6217
+ "grad_norm": 1.171875,
6218
+ "learning_rate": 1.5524401529673994e-05,
6219
+ "loss": 6.4508,
6220
+ "step": 8770
6221
+ },
6222
+ {
6223
+ "epoch": 0.6357558350027757,
6224
+ "grad_norm": 1.1484375,
6225
+ "learning_rate": 1.5470168801588805e-05,
6226
+ "loss": 6.4562,
6227
+ "step": 8780
6228
+ },
6229
+ {
6230
+ "epoch": 0.6364799304868335,
6231
+ "grad_norm": 1.2109375,
6232
+ "learning_rate": 1.541598849378145e-05,
6233
+ "loss": 6.4499,
6234
+ "step": 8790
6235
+ },
6236
+ {
6237
+ "epoch": 0.6372040259708913,
6238
+ "grad_norm": 1.1875,
6239
+ "learning_rate": 1.5361860904278927e-05,
6240
+ "loss": 6.4544,
6241
+ "step": 8800
6242
+ },
6243
+ {
6244
+ "epoch": 0.6379281214549491,
6245
+ "grad_norm": 1.1953125,
6246
+ "learning_rate": 1.53077863308182e-05,
6247
+ "loss": 6.4484,
6248
+ "step": 8810
6249
+ },
6250
+ {
6251
+ "epoch": 0.638652216939007,
6252
+ "grad_norm": 1.1015625,
6253
+ "learning_rate": 1.525376507084466e-05,
6254
+ "loss": 6.4392,
6255
+ "step": 8820
6256
+ },
6257
+ {
6258
+ "epoch": 0.6393763124230648,
6259
+ "grad_norm": 1.1875,
6260
+ "learning_rate": 1.5199797421510415e-05,
6261
+ "loss": 6.4545,
6262
+ "step": 8830
6263
+ },
6264
+ {
6265
+ "epoch": 0.6401004079071226,
6266
+ "grad_norm": 1.203125,
6267
+ "learning_rate": 1.514588367967268e-05,
6268
+ "loss": 6.4504,
6269
+ "step": 8840
6270
+ },
6271
+ {
6272
+ "epoch": 0.6408245033911805,
6273
+ "grad_norm": 1.1640625,
6274
+ "learning_rate": 1.5092024141892142e-05,
6275
+ "loss": 6.4662,
6276
+ "step": 8850
6277
+ },
6278
+ {
6279
+ "epoch": 0.6415485988752383,
6280
+ "grad_norm": 1.1484375,
6281
+ "learning_rate": 1.5038219104431334e-05,
6282
+ "loss": 6.4296,
6283
+ "step": 8860
6284
+ },
6285
+ {
6286
+ "epoch": 0.6422726943592961,
6287
+ "grad_norm": 1.2109375,
6288
+ "learning_rate": 1.498446886325301e-05,
6289
+ "loss": 6.4654,
6290
+ "step": 8870
6291
+ },
6292
+ {
6293
+ "epoch": 0.642996789843354,
6294
+ "grad_norm": 1.1640625,
6295
+ "learning_rate": 1.49307737140185e-05,
6296
+ "loss": 6.4722,
6297
+ "step": 8880
6298
+ },
6299
+ {
6300
+ "epoch": 0.6437208853274119,
6301
+ "grad_norm": 1.2265625,
6302
+ "learning_rate": 1.4877133952086089e-05,
6303
+ "loss": 6.4471,
6304
+ "step": 8890
6305
+ },
6306
+ {
6307
+ "epoch": 0.6444449808114697,
6308
+ "grad_norm": 1.1796875,
6309
+ "learning_rate": 1.4823549872509396e-05,
6310
+ "loss": 6.4602,
6311
+ "step": 8900
6312
+ },
6313
+ {
6314
+ "epoch": 0.6451690762955276,
6315
+ "grad_norm": 1.171875,
6316
+ "learning_rate": 1.4770021770035767e-05,
6317
+ "loss": 6.4455,
6318
+ "step": 8910
6319
+ },
6320
+ {
6321
+ "epoch": 0.6458931717795854,
6322
+ "grad_norm": 1.1640625,
6323
+ "learning_rate": 1.4716549939104618e-05,
6324
+ "loss": 6.4532,
6325
+ "step": 8920
6326
+ },
6327
+ {
6328
+ "epoch": 0.6466172672636432,
6329
+ "grad_norm": 1.1328125,
6330
+ "learning_rate": 1.4663134673845838e-05,
6331
+ "loss": 6.4466,
6332
+ "step": 8930
6333
+ },
6334
+ {
6335
+ "epoch": 0.647341362747701,
6336
+ "grad_norm": 1.2265625,
6337
+ "learning_rate": 1.4609776268078184e-05,
6338
+ "loss": 6.439,
6339
+ "step": 8940
6340
+ },
6341
+ {
6342
+ "epoch": 0.6480654582317589,
6343
+ "grad_norm": 1.21875,
6344
+ "learning_rate": 1.455647501530763e-05,
6345
+ "loss": 6.4401,
6346
+ "step": 8950
6347
+ },
6348
+ {
6349
+ "epoch": 0.6487895537158167,
6350
+ "grad_norm": 1.1171875,
6351
+ "learning_rate": 1.4503231208725781e-05,
6352
+ "loss": 6.4521,
6353
+ "step": 8960
6354
+ },
6355
+ {
6356
+ "epoch": 0.6495136491998745,
6357
+ "grad_norm": 1.203125,
6358
+ "learning_rate": 1.4450045141208234e-05,
6359
+ "loss": 6.452,
6360
+ "step": 8970
6361
+ },
6362
+ {
6363
+ "epoch": 0.6502377446839324,
6364
+ "grad_norm": 1.109375,
6365
+ "learning_rate": 1.4396917105313018e-05,
6366
+ "loss": 6.481,
6367
+ "step": 8980
6368
+ },
6369
+ {
6370
+ "epoch": 0.6509618401679902,
6371
+ "grad_norm": 1.171875,
6372
+ "learning_rate": 1.4343847393278925e-05,
6373
+ "loss": 6.474,
6374
+ "step": 8990
6375
  }
6376
  ],
6377
  "logging_steps": 10,
 
6391
  "attributes": {}
6392
  }
6393
  },
6394
+ "total_flos": 1.935261929621055e+19,
6395
  "train_batch_size": 30,
6396
  "trial_name": null,
6397
  "trial_params": null