agentlans commited on
Commit
6cb79da
·
verified ·
1 Parent(s): eed2815

Upload 10 files

Browse files
all_results.json ADDED
@@ -0,0 +1,17 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 10.0,
3
+ "eval_accuracy": 0.8723666666666666,
4
+ "eval_loss": 0.297105997800827,
5
+ "eval_runtime": 27.8139,
6
+ "eval_samples": 120000,
7
+ "eval_samples_per_second": 4314.397,
8
+ "eval_steps_per_second": 33.724,
9
+ "num_input_tokens_seen": 614400000,
10
+ "total_flos": 3.97989715968e+16,
11
+ "train_loss": 0.4128596073404948,
12
+ "train_runtime": 3094.7189,
13
+ "train_samples": 480000,
14
+ "train_samples_per_second": 1551.029,
15
+ "train_steps_per_second": 12.117,
16
+ "train_tokens_per_second": 198531.765
17
+ }
config.json ADDED
@@ -0,0 +1,36 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "agentlans/snowflake-arctic-embed-xs-zyda-2",
3
+ "architectures": [
4
+ "BertForSequenceClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "finetuning_task": "text-classification",
9
+ "gradient_checkpointing": false,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 384,
13
+ "id2label": {
14
+ "0": "ungrammatical",
15
+ "1": "grammatical"
16
+ },
17
+ "initializer_range": 0.02,
18
+ "intermediate_size": 1536,
19
+ "label2id": {
20
+ "ungrammatical": 0,
21
+ "grammatical": 1
22
+ },
23
+ "layer_norm_eps": 1e-12,
24
+ "max_position_embeddings": 512,
25
+ "model_type": "bert",
26
+ "num_attention_heads": 12,
27
+ "num_hidden_layers": 6,
28
+ "pad_token_id": 0,
29
+ "position_embedding_type": "absolute",
30
+ "problem_type": "single_label_classification",
31
+ "torch_dtype": "float32",
32
+ "transformers_version": "4.46.3",
33
+ "type_vocab_size": 2,
34
+ "use_cache": true,
35
+ "vocab_size": 30522
36
+ }
eval_results.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 10.0,
3
+ "eval_accuracy": 0.8723666666666666,
4
+ "eval_loss": 0.297105997800827,
5
+ "eval_runtime": 27.8139,
6
+ "eval_samples": 120000,
7
+ "eval_samples_per_second": 4314.397,
8
+ "eval_steps_per_second": 33.724,
9
+ "num_input_tokens_seen": 614400000
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0d973dd4a893d2604329a9e1558567829c2b8fd57ceb1e3339fb0500eea1f03d
3
+ size 90867952
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "100": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "101": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "102": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "103": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": true,
45
+ "cls_token": "[CLS]",
46
+ "do_basic_tokenize": true,
47
+ "do_lower_case": true,
48
+ "mask_token": "[MASK]",
49
+ "max_length": 512,
50
+ "model_max_length": 512,
51
+ "never_split": null,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "[PAD]",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "[SEP]",
57
+ "stride": 0,
58
+ "strip_accents": null,
59
+ "tokenize_chinese_chars": true,
60
+ "tokenizer_class": "BertTokenizer",
61
+ "truncation_side": "right",
62
+ "truncation_strategy": "longest_first",
63
+ "unk_token": "[UNK]"
64
+ }
train_results.json ADDED
@@ -0,0 +1,11 @@
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 10.0,
3
+ "num_input_tokens_seen": 614400000,
4
+ "total_flos": 3.97989715968e+16,
5
+ "train_loss": 0.4128596073404948,
6
+ "train_runtime": 3094.7189,
7
+ "train_samples": 480000,
8
+ "train_samples_per_second": 1551.029,
9
+ "train_steps_per_second": 12.117,
10
+ "train_tokens_per_second": 198531.765
11
+ }
trainer_state.json ADDED
@@ -0,0 +1,744 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.297105997800827,
3
+ "best_model_checkpoint": "snowflake-arctic-xs-grammar-classifier/checkpoint-37500",
4
+ "epoch": 10.0,
5
+ "eval_steps": 500,
6
+ "global_step": 37500,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.13333333333333333,
13
+ "grad_norm": 1.5045716762542725,
14
+ "learning_rate": 4.933333333333334e-05,
15
+ "loss": 0.5858,
16
+ "num_input_tokens_seen": 8192000,
17
+ "step": 500
18
+ },
19
+ {
20
+ "epoch": 0.26666666666666666,
21
+ "grad_norm": 1.7554640769958496,
22
+ "learning_rate": 4.866666666666667e-05,
23
+ "loss": 0.5463,
24
+ "num_input_tokens_seen": 16384000,
25
+ "step": 1000
26
+ },
27
+ {
28
+ "epoch": 0.4,
29
+ "grad_norm": 1.640052080154419,
30
+ "learning_rate": 4.8e-05,
31
+ "loss": 0.5376,
32
+ "num_input_tokens_seen": 24576000,
33
+ "step": 1500
34
+ },
35
+ {
36
+ "epoch": 0.5333333333333333,
37
+ "grad_norm": 1.9901877641677856,
38
+ "learning_rate": 4.7333333333333336e-05,
39
+ "loss": 0.5268,
40
+ "num_input_tokens_seen": 32768000,
41
+ "step": 2000
42
+ },
43
+ {
44
+ "epoch": 0.6666666666666666,
45
+ "grad_norm": 2.5309431552886963,
46
+ "learning_rate": 4.666666666666667e-05,
47
+ "loss": 0.5251,
48
+ "num_input_tokens_seen": 40960000,
49
+ "step": 2500
50
+ },
51
+ {
52
+ "epoch": 0.8,
53
+ "grad_norm": 1.460696816444397,
54
+ "learning_rate": 4.600000000000001e-05,
55
+ "loss": 0.5236,
56
+ "num_input_tokens_seen": 49152000,
57
+ "step": 3000
58
+ },
59
+ {
60
+ "epoch": 0.9333333333333333,
61
+ "grad_norm": 1.6280235052108765,
62
+ "learning_rate": 4.5333333333333335e-05,
63
+ "loss": 0.5192,
64
+ "num_input_tokens_seen": 57344000,
65
+ "step": 3500
66
+ },
67
+ {
68
+ "epoch": 1.0,
69
+ "eval_accuracy": 0.773825,
70
+ "eval_loss": 0.4721794128417969,
71
+ "eval_runtime": 27.0455,
72
+ "eval_samples_per_second": 4436.97,
73
+ "eval_steps_per_second": 34.682,
74
+ "num_input_tokens_seen": 61440000,
75
+ "step": 3750
76
+ },
77
+ {
78
+ "epoch": 1.0666666666666667,
79
+ "grad_norm": 1.978297233581543,
80
+ "learning_rate": 4.466666666666667e-05,
81
+ "loss": 0.5007,
82
+ "num_input_tokens_seen": 65536000,
83
+ "step": 4000
84
+ },
85
+ {
86
+ "epoch": 1.2,
87
+ "grad_norm": 1.6531486511230469,
88
+ "learning_rate": 4.4000000000000006e-05,
89
+ "loss": 0.4834,
90
+ "num_input_tokens_seen": 73728000,
91
+ "step": 4500
92
+ },
93
+ {
94
+ "epoch": 1.3333333333333333,
95
+ "grad_norm": 1.8116512298583984,
96
+ "learning_rate": 4.3333333333333334e-05,
97
+ "loss": 0.4862,
98
+ "num_input_tokens_seen": 81920000,
99
+ "step": 5000
100
+ },
101
+ {
102
+ "epoch": 1.4666666666666668,
103
+ "grad_norm": 1.8606685400009155,
104
+ "learning_rate": 4.266666666666667e-05,
105
+ "loss": 0.4845,
106
+ "num_input_tokens_seen": 90112000,
107
+ "step": 5500
108
+ },
109
+ {
110
+ "epoch": 1.6,
111
+ "grad_norm": 1.6184378862380981,
112
+ "learning_rate": 4.2e-05,
113
+ "loss": 0.4858,
114
+ "num_input_tokens_seen": 98304000,
115
+ "step": 6000
116
+ },
117
+ {
118
+ "epoch": 1.7333333333333334,
119
+ "grad_norm": 1.5692903995513916,
120
+ "learning_rate": 4.133333333333333e-05,
121
+ "loss": 0.4873,
122
+ "num_input_tokens_seen": 106496000,
123
+ "step": 6500
124
+ },
125
+ {
126
+ "epoch": 1.8666666666666667,
127
+ "grad_norm": 1.7296677827835083,
128
+ "learning_rate": 4.066666666666667e-05,
129
+ "loss": 0.4845,
130
+ "num_input_tokens_seen": 114688000,
131
+ "step": 7000
132
+ },
133
+ {
134
+ "epoch": 2.0,
135
+ "grad_norm": 1.7600680589675903,
136
+ "learning_rate": 4e-05,
137
+ "loss": 0.4875,
138
+ "num_input_tokens_seen": 122880000,
139
+ "step": 7500
140
+ },
141
+ {
142
+ "epoch": 2.0,
143
+ "eval_accuracy": 0.7881,
144
+ "eval_loss": 0.4521035850048065,
145
+ "eval_runtime": 28.0644,
146
+ "eval_samples_per_second": 4275.881,
147
+ "eval_steps_per_second": 33.423,
148
+ "num_input_tokens_seen": 122880000,
149
+ "step": 7500
150
+ },
151
+ {
152
+ "epoch": 2.1333333333333333,
153
+ "grad_norm": 2.024643898010254,
154
+ "learning_rate": 3.933333333333333e-05,
155
+ "loss": 0.4533,
156
+ "num_input_tokens_seen": 131072000,
157
+ "step": 8000
158
+ },
159
+ {
160
+ "epoch": 2.2666666666666666,
161
+ "grad_norm": 1.7930974960327148,
162
+ "learning_rate": 3.866666666666667e-05,
163
+ "loss": 0.4534,
164
+ "num_input_tokens_seen": 139264000,
165
+ "step": 8500
166
+ },
167
+ {
168
+ "epoch": 2.4,
169
+ "grad_norm": 1.975646734237671,
170
+ "learning_rate": 3.8e-05,
171
+ "loss": 0.4561,
172
+ "num_input_tokens_seen": 147456000,
173
+ "step": 9000
174
+ },
175
+ {
176
+ "epoch": 2.533333333333333,
177
+ "grad_norm": 1.9401493072509766,
178
+ "learning_rate": 3.733333333333334e-05,
179
+ "loss": 0.4556,
180
+ "num_input_tokens_seen": 155648000,
181
+ "step": 9500
182
+ },
183
+ {
184
+ "epoch": 2.6666666666666665,
185
+ "grad_norm": 1.6677656173706055,
186
+ "learning_rate": 3.6666666666666666e-05,
187
+ "loss": 0.4578,
188
+ "num_input_tokens_seen": 163840000,
189
+ "step": 10000
190
+ },
191
+ {
192
+ "epoch": 2.8,
193
+ "grad_norm": 2.6936464309692383,
194
+ "learning_rate": 3.6e-05,
195
+ "loss": 0.4549,
196
+ "num_input_tokens_seen": 172032000,
197
+ "step": 10500
198
+ },
199
+ {
200
+ "epoch": 2.9333333333333336,
201
+ "grad_norm": 1.581692099571228,
202
+ "learning_rate": 3.5333333333333336e-05,
203
+ "loss": 0.459,
204
+ "num_input_tokens_seen": 180224000,
205
+ "step": 11000
206
+ },
207
+ {
208
+ "epoch": 3.0,
209
+ "eval_accuracy": 0.822725,
210
+ "eval_loss": 0.3895083963871002,
211
+ "eval_runtime": 28.0488,
212
+ "eval_samples_per_second": 4278.25,
213
+ "eval_steps_per_second": 33.442,
214
+ "num_input_tokens_seen": 184320000,
215
+ "step": 11250
216
+ },
217
+ {
218
+ "epoch": 3.066666666666667,
219
+ "grad_norm": 2.0593159198760986,
220
+ "learning_rate": 3.466666666666667e-05,
221
+ "loss": 0.4426,
222
+ "num_input_tokens_seen": 188416000,
223
+ "step": 11500
224
+ },
225
+ {
226
+ "epoch": 3.2,
227
+ "grad_norm": 2.6850345134735107,
228
+ "learning_rate": 3.4000000000000007e-05,
229
+ "loss": 0.4235,
230
+ "num_input_tokens_seen": 196608000,
231
+ "step": 12000
232
+ },
233
+ {
234
+ "epoch": 3.3333333333333335,
235
+ "grad_norm": 2.2773895263671875,
236
+ "learning_rate": 3.3333333333333335e-05,
237
+ "loss": 0.4308,
238
+ "num_input_tokens_seen": 204800000,
239
+ "step": 12500
240
+ },
241
+ {
242
+ "epoch": 3.466666666666667,
243
+ "grad_norm": 2.625030755996704,
244
+ "learning_rate": 3.266666666666667e-05,
245
+ "loss": 0.4347,
246
+ "num_input_tokens_seen": 212992000,
247
+ "step": 13000
248
+ },
249
+ {
250
+ "epoch": 3.6,
251
+ "grad_norm": 2.0799620151519775,
252
+ "learning_rate": 3.2000000000000005e-05,
253
+ "loss": 0.4303,
254
+ "num_input_tokens_seen": 221184000,
255
+ "step": 13500
256
+ },
257
+ {
258
+ "epoch": 3.7333333333333334,
259
+ "grad_norm": 2.666182518005371,
260
+ "learning_rate": 3.1333333333333334e-05,
261
+ "loss": 0.436,
262
+ "num_input_tokens_seen": 229376000,
263
+ "step": 14000
264
+ },
265
+ {
266
+ "epoch": 3.8666666666666667,
267
+ "grad_norm": 2.1593098640441895,
268
+ "learning_rate": 3.066666666666667e-05,
269
+ "loss": 0.4349,
270
+ "num_input_tokens_seen": 237568000,
271
+ "step": 14500
272
+ },
273
+ {
274
+ "epoch": 4.0,
275
+ "grad_norm": 2.7516207695007324,
276
+ "learning_rate": 3e-05,
277
+ "loss": 0.4351,
278
+ "num_input_tokens_seen": 245760000,
279
+ "step": 15000
280
+ },
281
+ {
282
+ "epoch": 4.0,
283
+ "eval_accuracy": 0.81975,
284
+ "eval_loss": 0.39812853932380676,
285
+ "eval_runtime": 27.6493,
286
+ "eval_samples_per_second": 4340.069,
287
+ "eval_steps_per_second": 33.925,
288
+ "num_input_tokens_seen": 245760000,
289
+ "step": 15000
290
+ },
291
+ {
292
+ "epoch": 4.133333333333334,
293
+ "grad_norm": 2.7369744777679443,
294
+ "learning_rate": 2.9333333333333336e-05,
295
+ "loss": 0.4006,
296
+ "num_input_tokens_seen": 253952000,
297
+ "step": 15500
298
+ },
299
+ {
300
+ "epoch": 4.266666666666667,
301
+ "grad_norm": 2.408130168914795,
302
+ "learning_rate": 2.8666666666666668e-05,
303
+ "loss": 0.4072,
304
+ "num_input_tokens_seen": 262144000,
305
+ "step": 16000
306
+ },
307
+ {
308
+ "epoch": 4.4,
309
+ "grad_norm": 2.4573802947998047,
310
+ "learning_rate": 2.8000000000000003e-05,
311
+ "loss": 0.4097,
312
+ "num_input_tokens_seen": 270336000,
313
+ "step": 16500
314
+ },
315
+ {
316
+ "epoch": 4.533333333333333,
317
+ "grad_norm": 2.4049203395843506,
318
+ "learning_rate": 2.733333333333333e-05,
319
+ "loss": 0.4102,
320
+ "num_input_tokens_seen": 278528000,
321
+ "step": 17000
322
+ },
323
+ {
324
+ "epoch": 4.666666666666667,
325
+ "grad_norm": 2.6198604106903076,
326
+ "learning_rate": 2.6666666666666667e-05,
327
+ "loss": 0.4091,
328
+ "num_input_tokens_seen": 286720000,
329
+ "step": 17500
330
+ },
331
+ {
332
+ "epoch": 4.8,
333
+ "grad_norm": 2.9522268772125244,
334
+ "learning_rate": 2.6000000000000002e-05,
335
+ "loss": 0.4134,
336
+ "num_input_tokens_seen": 294912000,
337
+ "step": 18000
338
+ },
339
+ {
340
+ "epoch": 4.933333333333334,
341
+ "grad_norm": 2.653822660446167,
342
+ "learning_rate": 2.5333333333333337e-05,
343
+ "loss": 0.4157,
344
+ "num_input_tokens_seen": 303104000,
345
+ "step": 18500
346
+ },
347
+ {
348
+ "epoch": 5.0,
349
+ "eval_accuracy": 0.8337416666666667,
350
+ "eval_loss": 0.3689940571784973,
351
+ "eval_runtime": 27.6019,
352
+ "eval_samples_per_second": 4347.53,
353
+ "eval_steps_per_second": 33.983,
354
+ "num_input_tokens_seen": 307200000,
355
+ "step": 18750
356
+ },
357
+ {
358
+ "epoch": 5.066666666666666,
359
+ "grad_norm": 2.4163355827331543,
360
+ "learning_rate": 2.466666666666667e-05,
361
+ "loss": 0.3985,
362
+ "num_input_tokens_seen": 311296000,
363
+ "step": 19000
364
+ },
365
+ {
366
+ "epoch": 5.2,
367
+ "grad_norm": 2.7729780673980713,
368
+ "learning_rate": 2.4e-05,
369
+ "loss": 0.3884,
370
+ "num_input_tokens_seen": 319488000,
371
+ "step": 19500
372
+ },
373
+ {
374
+ "epoch": 5.333333333333333,
375
+ "grad_norm": 1.9611395597457886,
376
+ "learning_rate": 2.3333333333333336e-05,
377
+ "loss": 0.3869,
378
+ "num_input_tokens_seen": 327680000,
379
+ "step": 20000
380
+ },
381
+ {
382
+ "epoch": 5.466666666666667,
383
+ "grad_norm": 2.737003803253174,
384
+ "learning_rate": 2.2666666666666668e-05,
385
+ "loss": 0.3869,
386
+ "num_input_tokens_seen": 335872000,
387
+ "step": 20500
388
+ },
389
+ {
390
+ "epoch": 5.6,
391
+ "grad_norm": 2.3950681686401367,
392
+ "learning_rate": 2.2000000000000003e-05,
393
+ "loss": 0.3923,
394
+ "num_input_tokens_seen": 344064000,
395
+ "step": 21000
396
+ },
397
+ {
398
+ "epoch": 5.733333333333333,
399
+ "grad_norm": 2.6194348335266113,
400
+ "learning_rate": 2.1333333333333335e-05,
401
+ "loss": 0.391,
402
+ "num_input_tokens_seen": 352256000,
403
+ "step": 21500
404
+ },
405
+ {
406
+ "epoch": 5.866666666666667,
407
+ "grad_norm": 2.414700984954834,
408
+ "learning_rate": 2.0666666666666666e-05,
409
+ "loss": 0.3929,
410
+ "num_input_tokens_seen": 360448000,
411
+ "step": 22000
412
+ },
413
+ {
414
+ "epoch": 6.0,
415
+ "grad_norm": 2.8838109970092773,
416
+ "learning_rate": 2e-05,
417
+ "loss": 0.3955,
418
+ "num_input_tokens_seen": 368640000,
419
+ "step": 22500
420
+ },
421
+ {
422
+ "epoch": 6.0,
423
+ "eval_accuracy": 0.8584666666666667,
424
+ "eval_loss": 0.3260098993778229,
425
+ "eval_runtime": 27.6684,
426
+ "eval_samples_per_second": 4337.074,
427
+ "eval_steps_per_second": 33.901,
428
+ "num_input_tokens_seen": 368640000,
429
+ "step": 22500
430
+ },
431
+ {
432
+ "epoch": 6.133333333333334,
433
+ "grad_norm": 2.748154878616333,
434
+ "learning_rate": 1.9333333333333333e-05,
435
+ "loss": 0.3693,
436
+ "num_input_tokens_seen": 376832000,
437
+ "step": 23000
438
+ },
439
+ {
440
+ "epoch": 6.266666666666667,
441
+ "grad_norm": 2.3991076946258545,
442
+ "learning_rate": 1.866666666666667e-05,
443
+ "loss": 0.3678,
444
+ "num_input_tokens_seen": 385024000,
445
+ "step": 23500
446
+ },
447
+ {
448
+ "epoch": 6.4,
449
+ "grad_norm": 2.2785775661468506,
450
+ "learning_rate": 1.8e-05,
451
+ "loss": 0.3699,
452
+ "num_input_tokens_seen": 393216000,
453
+ "step": 24000
454
+ },
455
+ {
456
+ "epoch": 6.533333333333333,
457
+ "grad_norm": 2.8767619132995605,
458
+ "learning_rate": 1.7333333333333336e-05,
459
+ "loss": 0.3758,
460
+ "num_input_tokens_seen": 401408000,
461
+ "step": 24500
462
+ },
463
+ {
464
+ "epoch": 6.666666666666667,
465
+ "grad_norm": 2.706383228302002,
466
+ "learning_rate": 1.6666666666666667e-05,
467
+ "loss": 0.3735,
468
+ "num_input_tokens_seen": 409600000,
469
+ "step": 25000
470
+ },
471
+ {
472
+ "epoch": 6.8,
473
+ "grad_norm": 2.9211957454681396,
474
+ "learning_rate": 1.6000000000000003e-05,
475
+ "loss": 0.3746,
476
+ "num_input_tokens_seen": 417792000,
477
+ "step": 25500
478
+ },
479
+ {
480
+ "epoch": 6.933333333333334,
481
+ "grad_norm": 3.114459276199341,
482
+ "learning_rate": 1.5333333333333334e-05,
483
+ "loss": 0.3788,
484
+ "num_input_tokens_seen": 425984000,
485
+ "step": 26000
486
+ },
487
+ {
488
+ "epoch": 7.0,
489
+ "eval_accuracy": 0.8565583333333333,
490
+ "eval_loss": 0.3266533315181732,
491
+ "eval_runtime": 27.725,
492
+ "eval_samples_per_second": 4328.221,
493
+ "eval_steps_per_second": 33.832,
494
+ "num_input_tokens_seen": 430080000,
495
+ "step": 26250
496
+ },
497
+ {
498
+ "epoch": 7.066666666666666,
499
+ "grad_norm": 2.6135785579681396,
500
+ "learning_rate": 1.4666666666666668e-05,
501
+ "loss": 0.3681,
502
+ "num_input_tokens_seen": 434176000,
503
+ "step": 26500
504
+ },
505
+ {
506
+ "epoch": 7.2,
507
+ "grad_norm": 2.914867877960205,
508
+ "learning_rate": 1.4000000000000001e-05,
509
+ "loss": 0.3569,
510
+ "num_input_tokens_seen": 442368000,
511
+ "step": 27000
512
+ },
513
+ {
514
+ "epoch": 7.333333333333333,
515
+ "grad_norm": 2.9901046752929688,
516
+ "learning_rate": 1.3333333333333333e-05,
517
+ "loss": 0.3562,
518
+ "num_input_tokens_seen": 450560000,
519
+ "step": 27500
520
+ },
521
+ {
522
+ "epoch": 7.466666666666667,
523
+ "grad_norm": 2.5703506469726562,
524
+ "learning_rate": 1.2666666666666668e-05,
525
+ "loss": 0.3593,
526
+ "num_input_tokens_seen": 458752000,
527
+ "step": 28000
528
+ },
529
+ {
530
+ "epoch": 7.6,
531
+ "grad_norm": 2.760713577270508,
532
+ "learning_rate": 1.2e-05,
533
+ "loss": 0.3592,
534
+ "num_input_tokens_seen": 466944000,
535
+ "step": 28500
536
+ },
537
+ {
538
+ "epoch": 7.733333333333333,
539
+ "grad_norm": 2.76792311668396,
540
+ "learning_rate": 1.1333333333333334e-05,
541
+ "loss": 0.3608,
542
+ "num_input_tokens_seen": 475136000,
543
+ "step": 29000
544
+ },
545
+ {
546
+ "epoch": 7.866666666666667,
547
+ "grad_norm": 3.0294759273529053,
548
+ "learning_rate": 1.0666666666666667e-05,
549
+ "loss": 0.3641,
550
+ "num_input_tokens_seen": 483328000,
551
+ "step": 29500
552
+ },
553
+ {
554
+ "epoch": 8.0,
555
+ "grad_norm": 2.9588348865509033,
556
+ "learning_rate": 1e-05,
557
+ "loss": 0.3616,
558
+ "num_input_tokens_seen": 491520000,
559
+ "step": 30000
560
+ },
561
+ {
562
+ "epoch": 8.0,
563
+ "eval_accuracy": 0.8620916666666667,
564
+ "eval_loss": 0.3191862404346466,
565
+ "eval_runtime": 27.6673,
566
+ "eval_samples_per_second": 4337.255,
567
+ "eval_steps_per_second": 33.903,
568
+ "num_input_tokens_seen": 491520000,
569
+ "step": 30000
570
+ },
571
+ {
572
+ "epoch": 8.133333333333333,
573
+ "grad_norm": 3.4707741737365723,
574
+ "learning_rate": 9.333333333333334e-06,
575
+ "loss": 0.3441,
576
+ "num_input_tokens_seen": 499712000,
577
+ "step": 30500
578
+ },
579
+ {
580
+ "epoch": 8.266666666666667,
581
+ "grad_norm": 2.2097768783569336,
582
+ "learning_rate": 8.666666666666668e-06,
583
+ "loss": 0.3475,
584
+ "num_input_tokens_seen": 507904000,
585
+ "step": 31000
586
+ },
587
+ {
588
+ "epoch": 8.4,
589
+ "grad_norm": 3.0237128734588623,
590
+ "learning_rate": 8.000000000000001e-06,
591
+ "loss": 0.3493,
592
+ "num_input_tokens_seen": 516096000,
593
+ "step": 31500
594
+ },
595
+ {
596
+ "epoch": 8.533333333333333,
597
+ "grad_norm": 2.644113063812256,
598
+ "learning_rate": 7.333333333333334e-06,
599
+ "loss": 0.3484,
600
+ "num_input_tokens_seen": 524288000,
601
+ "step": 32000
602
+ },
603
+ {
604
+ "epoch": 8.666666666666666,
605
+ "grad_norm": 3.0785672664642334,
606
+ "learning_rate": 6.666666666666667e-06,
607
+ "loss": 0.347,
608
+ "num_input_tokens_seen": 532480000,
609
+ "step": 32500
610
+ },
611
+ {
612
+ "epoch": 8.8,
613
+ "grad_norm": 3.4324257373809814,
614
+ "learning_rate": 6e-06,
615
+ "loss": 0.3508,
616
+ "num_input_tokens_seen": 540672000,
617
+ "step": 33000
618
+ },
619
+ {
620
+ "epoch": 8.933333333333334,
621
+ "grad_norm": 4.357520580291748,
622
+ "learning_rate": 5.333333333333334e-06,
623
+ "loss": 0.3459,
624
+ "num_input_tokens_seen": 548864000,
625
+ "step": 33500
626
+ },
627
+ {
628
+ "epoch": 9.0,
629
+ "eval_accuracy": 0.870725,
630
+ "eval_loss": 0.30166763067245483,
631
+ "eval_runtime": 27.737,
632
+ "eval_samples_per_second": 4326.344,
633
+ "eval_steps_per_second": 33.818,
634
+ "num_input_tokens_seen": 552960000,
635
+ "step": 33750
636
+ },
637
+ {
638
+ "epoch": 9.066666666666666,
639
+ "grad_norm": 2.85298490524292,
640
+ "learning_rate": 4.666666666666667e-06,
641
+ "loss": 0.344,
642
+ "num_input_tokens_seen": 557056000,
643
+ "step": 34000
644
+ },
645
+ {
646
+ "epoch": 9.2,
647
+ "grad_norm": 3.3768234252929688,
648
+ "learning_rate": 4.000000000000001e-06,
649
+ "loss": 0.3387,
650
+ "num_input_tokens_seen": 565248000,
651
+ "step": 34500
652
+ },
653
+ {
654
+ "epoch": 9.333333333333334,
655
+ "grad_norm": 2.875610113143921,
656
+ "learning_rate": 3.3333333333333333e-06,
657
+ "loss": 0.3404,
658
+ "num_input_tokens_seen": 573440000,
659
+ "step": 35000
660
+ },
661
+ {
662
+ "epoch": 9.466666666666667,
663
+ "grad_norm": 3.179046154022217,
664
+ "learning_rate": 2.666666666666667e-06,
665
+ "loss": 0.3366,
666
+ "num_input_tokens_seen": 581632000,
667
+ "step": 35500
668
+ },
669
+ {
670
+ "epoch": 9.6,
671
+ "grad_norm": 2.9764773845672607,
672
+ "learning_rate": 2.0000000000000003e-06,
673
+ "loss": 0.3415,
674
+ "num_input_tokens_seen": 589824000,
675
+ "step": 36000
676
+ },
677
+ {
678
+ "epoch": 9.733333333333333,
679
+ "grad_norm": 2.807232141494751,
680
+ "learning_rate": 1.3333333333333334e-06,
681
+ "loss": 0.339,
682
+ "num_input_tokens_seen": 598016000,
683
+ "step": 36500
684
+ },
685
+ {
686
+ "epoch": 9.866666666666667,
687
+ "grad_norm": 2.9385030269622803,
688
+ "learning_rate": 6.666666666666667e-07,
689
+ "loss": 0.337,
690
+ "num_input_tokens_seen": 606208000,
691
+ "step": 37000
692
+ },
693
+ {
694
+ "epoch": 10.0,
695
+ "grad_norm": 2.7753288745880127,
696
+ "learning_rate": 0.0,
697
+ "loss": 0.3382,
698
+ "num_input_tokens_seen": 614400000,
699
+ "step": 37500
700
+ },
701
+ {
702
+ "epoch": 10.0,
703
+ "eval_accuracy": 0.8723666666666666,
704
+ "eval_loss": 0.297105997800827,
705
+ "eval_runtime": 27.7546,
706
+ "eval_samples_per_second": 4323.601,
707
+ "eval_steps_per_second": 33.796,
708
+ "num_input_tokens_seen": 614400000,
709
+ "step": 37500
710
+ },
711
+ {
712
+ "epoch": 10.0,
713
+ "num_input_tokens_seen": 614400000,
714
+ "step": 37500,
715
+ "total_flos": 3.97989715968e+16,
716
+ "train_loss": 0.4128596073404948,
717
+ "train_runtime": 3094.7189,
718
+ "train_samples_per_second": 1551.029,
719
+ "train_steps_per_second": 12.117,
720
+ "train_tokens_per_second": 198531.765
721
+ }
722
+ ],
723
+ "logging_steps": 500,
724
+ "max_steps": 37500,
725
+ "num_input_tokens_seen": 614400000,
726
+ "num_train_epochs": 10,
727
+ "save_steps": 500,
728
+ "stateful_callbacks": {
729
+ "TrainerControl": {
730
+ "args": {
731
+ "should_epoch_stop": false,
732
+ "should_evaluate": false,
733
+ "should_log": false,
734
+ "should_save": true,
735
+ "should_training_stop": true
736
+ },
737
+ "attributes": {}
738
+ }
739
+ },
740
+ "total_flos": 3.97989715968e+16,
741
+ "train_batch_size": 128,
742
+ "trial_name": null,
743
+ "trial_params": null
744
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2c4c10e5ef0e8ffd49b348d0b7c32c6c22d7ff58100f0ba1428a230db146a7bc
3
+ size 5368
vocab.txt ADDED
The diff for this file is too large to render. See raw diff