bharati2324 commited on
Commit
197f155
·
verified ·
1 Parent(s): f2d0858

Training in progress, step 937, checkpoint

Browse files
checkpoint-937/adapter_config.json CHANGED
@@ -23,12 +23,12 @@
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
26
- "o_proj",
27
- "up_proj",
28
  "k_proj",
29
- "down_proj",
30
  "v_proj",
 
31
  "q_proj",
 
32
  "gate_proj"
33
  ],
34
  "task_type": "CAUSAL_LM",
 
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
 
 
26
  "k_proj",
27
+ "up_proj",
28
  "v_proj",
29
+ "o_proj",
30
  "q_proj",
31
+ "down_proj",
32
  "gate_proj"
33
  ],
34
  "task_type": "CAUSAL_LM",
checkpoint-937/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f91bd11ebfcd099bb482988fc62b4f7e281a00ad77ba968e111870cd412356da
3
  size 45118424
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:40443a6f16112604e5549b7887209b1c83fdfa7d6ef2aa902ec429fcf991cc9b
3
  size 45118424
checkpoint-937/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a3b619f2756f60ff0f6127a4dd02328968973551f06ddb7a913668ec747773d2
3
  size 23159546
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3948c74c44757b375f6e71036bbdf0e3114274345f46479bec86cdbc4b9c6d9f
3
  size 23159546
checkpoint-937/trainer_state.json CHANGED
@@ -10,322 +10,322 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.021333333333333333,
13
- "grad_norm": 0.47001057863235474,
14
  "learning_rate": 0.00019678111587982831,
15
- "loss": 1.2773,
16
  "step": 20
17
  },
18
  {
19
  "epoch": 0.042666666666666665,
20
- "grad_norm": 0.3469043970108032,
21
  "learning_rate": 0.0001924892703862661,
22
  "loss": 0.8918,
23
  "step": 40
24
  },
25
  {
26
  "epoch": 0.064,
27
- "grad_norm": 0.4485608637332916,
28
  "learning_rate": 0.00018819742489270387,
29
  "loss": 0.8588,
30
  "step": 60
31
  },
32
  {
33
  "epoch": 0.08533333333333333,
34
- "grad_norm": 0.4924505054950714,
35
  "learning_rate": 0.00018390557939914164,
36
  "loss": 0.7577,
37
  "step": 80
38
  },
39
  {
40
  "epoch": 0.10666666666666667,
41
- "grad_norm": 0.3011874854564667,
42
  "learning_rate": 0.00017961373390557942,
43
  "loss": 0.7796,
44
  "step": 100
45
  },
46
  {
47
  "epoch": 0.128,
48
- "grad_norm": 0.35178664326667786,
49
  "learning_rate": 0.00017532188841201717,
50
  "loss": 0.7647,
51
  "step": 120
52
  },
53
  {
54
  "epoch": 0.14933333333333335,
55
- "grad_norm": 0.29895663261413574,
56
  "learning_rate": 0.00017103004291845494,
57
- "loss": 0.6741,
58
  "step": 140
59
  },
60
  {
61
  "epoch": 0.17066666666666666,
62
- "grad_norm": 0.265635222196579,
63
  "learning_rate": 0.00016673819742489272,
64
  "loss": 0.7586,
65
  "step": 160
66
  },
67
  {
68
  "epoch": 0.192,
69
- "grad_norm": 0.29633283615112305,
70
  "learning_rate": 0.0001624463519313305,
71
  "loss": 0.7364,
72
  "step": 180
73
  },
74
  {
75
  "epoch": 0.21333333333333335,
76
- "grad_norm": 0.3618737757205963,
77
  "learning_rate": 0.00015815450643776824,
78
  "loss": 0.7943,
79
  "step": 200
80
  },
81
  {
82
  "epoch": 0.23466666666666666,
83
- "grad_norm": 0.2392752766609192,
84
  "learning_rate": 0.000153862660944206,
85
- "loss": 0.7054,
86
  "step": 220
87
  },
88
  {
89
  "epoch": 0.256,
90
- "grad_norm": 0.3207932114601135,
91
  "learning_rate": 0.00014957081545064377,
92
  "loss": 0.7495,
93
  "step": 240
94
  },
95
  {
96
  "epoch": 0.2773333333333333,
97
- "grad_norm": 0.3499705493450165,
98
  "learning_rate": 0.00014527896995708155,
99
  "loss": 0.7739,
100
  "step": 260
101
  },
102
  {
103
  "epoch": 0.2986666666666667,
104
- "grad_norm": 0.27541521191596985,
105
  "learning_rate": 0.00014098712446351932,
106
  "loss": 0.7125,
107
  "step": 280
108
  },
109
  {
110
  "epoch": 0.32,
111
- "grad_norm": 0.27608659863471985,
112
  "learning_rate": 0.0001366952789699571,
113
- "loss": 0.7307,
114
  "step": 300
115
  },
116
  {
117
  "epoch": 0.3413333333333333,
118
- "grad_norm": 0.27710551023483276,
119
  "learning_rate": 0.00013240343347639485,
120
  "loss": 0.6974,
121
  "step": 320
122
  },
123
  {
124
  "epoch": 0.3626666666666667,
125
- "grad_norm": 0.334416002035141,
126
  "learning_rate": 0.00012811158798283262,
127
  "loss": 0.7555,
128
  "step": 340
129
  },
130
  {
131
  "epoch": 0.384,
132
- "grad_norm": 0.288921594619751,
133
  "learning_rate": 0.0001238197424892704,
134
- "loss": 0.7222,
135
  "step": 360
136
  },
137
  {
138
  "epoch": 0.4053333333333333,
139
- "grad_norm": 0.3428654074668884,
140
  "learning_rate": 0.00011952789699570816,
141
  "loss": 0.7466,
142
  "step": 380
143
  },
144
  {
145
  "epoch": 0.4266666666666667,
146
- "grad_norm": 0.42291027307510376,
147
  "learning_rate": 0.00011523605150214594,
148
  "loss": 0.6999,
149
  "step": 400
150
  },
151
  {
152
  "epoch": 0.448,
153
- "grad_norm": 0.32916492223739624,
154
  "learning_rate": 0.0001109442060085837,
155
  "loss": 0.7554,
156
  "step": 420
157
  },
158
  {
159
  "epoch": 0.4693333333333333,
160
- "grad_norm": 0.343192458152771,
161
  "learning_rate": 0.00010665236051502145,
162
  "loss": 0.7347,
163
  "step": 440
164
  },
165
  {
166
  "epoch": 0.49066666666666664,
167
- "grad_norm": 0.35772615671157837,
168
  "learning_rate": 0.00010236051502145923,
169
  "loss": 0.7075,
170
  "step": 460
171
  },
172
  {
173
  "epoch": 0.512,
174
- "grad_norm": 0.34257206320762634,
175
  "learning_rate": 9.8068669527897e-05,
176
- "loss": 0.7338,
177
  "step": 480
178
  },
179
  {
180
  "epoch": 0.5333333333333333,
181
- "grad_norm": 0.34853076934814453,
182
  "learning_rate": 9.377682403433476e-05,
183
  "loss": 0.7269,
184
  "step": 500
185
  },
186
  {
187
  "epoch": 0.5546666666666666,
188
- "grad_norm": 0.3989846706390381,
189
  "learning_rate": 8.948497854077254e-05,
190
  "loss": 0.7505,
191
  "step": 520
192
  },
193
  {
194
  "epoch": 0.576,
195
- "grad_norm": 0.3323940634727478,
196
  "learning_rate": 8.51931330472103e-05,
197
  "loss": 0.7085,
198
  "step": 540
199
  },
200
  {
201
  "epoch": 0.5973333333333334,
202
- "grad_norm": 0.31621086597442627,
203
  "learning_rate": 8.090128755364808e-05,
204
  "loss": 0.6989,
205
  "step": 560
206
  },
207
  {
208
  "epoch": 0.6186666666666667,
209
- "grad_norm": 0.2995954155921936,
210
  "learning_rate": 7.660944206008584e-05,
211
  "loss": 0.7368,
212
  "step": 580
213
  },
214
  {
215
  "epoch": 0.64,
216
- "grad_norm": 0.325448215007782,
217
  "learning_rate": 7.23175965665236e-05,
218
  "loss": 0.7167,
219
  "step": 600
220
  },
221
  {
222
  "epoch": 0.6613333333333333,
223
- "grad_norm": 0.29876643419265747,
224
  "learning_rate": 6.802575107296138e-05,
225
  "loss": 0.7022,
226
  "step": 620
227
  },
228
  {
229
  "epoch": 0.6826666666666666,
230
- "grad_norm": 0.3770740330219269,
231
  "learning_rate": 6.373390557939914e-05,
232
- "loss": 0.7497,
233
  "step": 640
234
  },
235
  {
236
  "epoch": 0.704,
237
- "grad_norm": 0.34811219573020935,
238
  "learning_rate": 5.944206008583692e-05,
239
  "loss": 0.7509,
240
  "step": 660
241
  },
242
  {
243
  "epoch": 0.7253333333333334,
244
- "grad_norm": 0.2978745996952057,
245
  "learning_rate": 5.515021459227469e-05,
246
  "loss": 0.6887,
247
  "step": 680
248
  },
249
  {
250
  "epoch": 0.7466666666666667,
251
- "grad_norm": 0.3408530652523041,
252
  "learning_rate": 5.085836909871244e-05,
253
  "loss": 0.7296,
254
  "step": 700
255
  },
256
  {
257
  "epoch": 0.768,
258
- "grad_norm": 0.3775036036968231,
259
  "learning_rate": 4.656652360515021e-05,
260
- "loss": 0.7759,
261
  "step": 720
262
  },
263
  {
264
  "epoch": 0.7893333333333333,
265
- "grad_norm": 0.3197150230407715,
266
  "learning_rate": 4.227467811158798e-05,
267
  "loss": 0.7324,
268
  "step": 740
269
  },
270
  {
271
  "epoch": 0.8106666666666666,
272
- "grad_norm": 0.25818583369255066,
273
  "learning_rate": 3.798283261802575e-05,
274
  "loss": 0.7155,
275
  "step": 760
276
  },
277
  {
278
  "epoch": 0.832,
279
- "grad_norm": 0.319762647151947,
280
  "learning_rate": 3.369098712446352e-05,
281
  "loss": 0.7063,
282
  "step": 780
283
  },
284
  {
285
  "epoch": 0.8533333333333334,
286
- "grad_norm": 0.35238417983055115,
287
  "learning_rate": 2.939914163090129e-05,
288
  "loss": 0.6556,
289
  "step": 800
290
  },
291
  {
292
  "epoch": 0.8746666666666667,
293
- "grad_norm": 0.35853707790374756,
294
  "learning_rate": 2.510729613733906e-05,
295
  "loss": 0.7319,
296
  "step": 820
297
  },
298
  {
299
  "epoch": 0.896,
300
- "grad_norm": 0.2910785973072052,
301
  "learning_rate": 2.0815450643776825e-05,
302
  "loss": 0.6889,
303
  "step": 840
304
  },
305
  {
306
  "epoch": 0.9173333333333333,
307
- "grad_norm": 0.41235440969467163,
308
  "learning_rate": 1.6523605150214594e-05,
309
  "loss": 0.7442,
310
  "step": 860
311
  },
312
  {
313
  "epoch": 0.9386666666666666,
314
- "grad_norm": 0.32353946566581726,
315
  "learning_rate": 1.2231759656652362e-05,
316
  "loss": 0.7174,
317
  "step": 880
318
  },
319
  {
320
  "epoch": 0.96,
321
- "grad_norm": 0.28284719586372375,
322
  "learning_rate": 7.93991416309013e-06,
323
  "loss": 0.6603,
324
  "step": 900
325
  },
326
  {
327
  "epoch": 0.9813333333333333,
328
- "grad_norm": 0.3192315101623535,
329
  "learning_rate": 3.648068669527897e-06,
330
  "loss": 0.7313,
331
  "step": 920
 
10
  "log_history": [
11
  {
12
  "epoch": 0.021333333333333333,
13
+ "grad_norm": 0.4694526791572571,
14
  "learning_rate": 0.00019678111587982831,
15
+ "loss": 1.2772,
16
  "step": 20
17
  },
18
  {
19
  "epoch": 0.042666666666666665,
20
+ "grad_norm": 0.34691280126571655,
21
  "learning_rate": 0.0001924892703862661,
22
  "loss": 0.8918,
23
  "step": 40
24
  },
25
  {
26
  "epoch": 0.064,
27
+ "grad_norm": 0.44894590973854065,
28
  "learning_rate": 0.00018819742489270387,
29
  "loss": 0.8588,
30
  "step": 60
31
  },
32
  {
33
  "epoch": 0.08533333333333333,
34
+ "grad_norm": 0.4901750981807709,
35
  "learning_rate": 0.00018390557939914164,
36
  "loss": 0.7577,
37
  "step": 80
38
  },
39
  {
40
  "epoch": 0.10666666666666667,
41
+ "grad_norm": 0.3013491630554199,
42
  "learning_rate": 0.00017961373390557942,
43
  "loss": 0.7796,
44
  "step": 100
45
  },
46
  {
47
  "epoch": 0.128,
48
+ "grad_norm": 0.35143589973449707,
49
  "learning_rate": 0.00017532188841201717,
50
  "loss": 0.7647,
51
  "step": 120
52
  },
53
  {
54
  "epoch": 0.14933333333333335,
55
+ "grad_norm": 0.29885634779930115,
56
  "learning_rate": 0.00017103004291845494,
57
+ "loss": 0.674,
58
  "step": 140
59
  },
60
  {
61
  "epoch": 0.17066666666666666,
62
+ "grad_norm": 0.26554301381111145,
63
  "learning_rate": 0.00016673819742489272,
64
  "loss": 0.7586,
65
  "step": 160
66
  },
67
  {
68
  "epoch": 0.192,
69
+ "grad_norm": 0.2963835895061493,
70
  "learning_rate": 0.0001624463519313305,
71
  "loss": 0.7364,
72
  "step": 180
73
  },
74
  {
75
  "epoch": 0.21333333333333335,
76
+ "grad_norm": 0.36166927218437195,
77
  "learning_rate": 0.00015815450643776824,
78
  "loss": 0.7943,
79
  "step": 200
80
  },
81
  {
82
  "epoch": 0.23466666666666666,
83
+ "grad_norm": 0.23920877277851105,
84
  "learning_rate": 0.000153862660944206,
85
+ "loss": 0.7055,
86
  "step": 220
87
  },
88
  {
89
  "epoch": 0.256,
90
+ "grad_norm": 0.32076919078826904,
91
  "learning_rate": 0.00014957081545064377,
92
  "loss": 0.7495,
93
  "step": 240
94
  },
95
  {
96
  "epoch": 0.2773333333333333,
97
+ "grad_norm": 0.34986230731010437,
98
  "learning_rate": 0.00014527896995708155,
99
  "loss": 0.7739,
100
  "step": 260
101
  },
102
  {
103
  "epoch": 0.2986666666666667,
104
+ "grad_norm": 0.27509021759033203,
105
  "learning_rate": 0.00014098712446351932,
106
  "loss": 0.7125,
107
  "step": 280
108
  },
109
  {
110
  "epoch": 0.32,
111
+ "grad_norm": 0.2761971652507782,
112
  "learning_rate": 0.0001366952789699571,
113
+ "loss": 0.7306,
114
  "step": 300
115
  },
116
  {
117
  "epoch": 0.3413333333333333,
118
+ "grad_norm": 0.27699899673461914,
119
  "learning_rate": 0.00013240343347639485,
120
  "loss": 0.6974,
121
  "step": 320
122
  },
123
  {
124
  "epoch": 0.3626666666666667,
125
+ "grad_norm": 0.33432355523109436,
126
  "learning_rate": 0.00012811158798283262,
127
  "loss": 0.7555,
128
  "step": 340
129
  },
130
  {
131
  "epoch": 0.384,
132
+ "grad_norm": 0.2890004515647888,
133
  "learning_rate": 0.0001238197424892704,
134
+ "loss": 0.7221,
135
  "step": 360
136
  },
137
  {
138
  "epoch": 0.4053333333333333,
139
+ "grad_norm": 0.3435133397579193,
140
  "learning_rate": 0.00011952789699570816,
141
  "loss": 0.7466,
142
  "step": 380
143
  },
144
  {
145
  "epoch": 0.4266666666666667,
146
+ "grad_norm": 0.42325925827026367,
147
  "learning_rate": 0.00011523605150214594,
148
  "loss": 0.6999,
149
  "step": 400
150
  },
151
  {
152
  "epoch": 0.448,
153
+ "grad_norm": 0.3292069733142853,
154
  "learning_rate": 0.0001109442060085837,
155
  "loss": 0.7554,
156
  "step": 420
157
  },
158
  {
159
  "epoch": 0.4693333333333333,
160
+ "grad_norm": 0.3431546092033386,
161
  "learning_rate": 0.00010665236051502145,
162
  "loss": 0.7347,
163
  "step": 440
164
  },
165
  {
166
  "epoch": 0.49066666666666664,
167
+ "grad_norm": 0.35773923993110657,
168
  "learning_rate": 0.00010236051502145923,
169
  "loss": 0.7075,
170
  "step": 460
171
  },
172
  {
173
  "epoch": 0.512,
174
+ "grad_norm": 0.34283700585365295,
175
  "learning_rate": 9.8068669527897e-05,
176
+ "loss": 0.7339,
177
  "step": 480
178
  },
179
  {
180
  "epoch": 0.5333333333333333,
181
+ "grad_norm": 0.3486020267009735,
182
  "learning_rate": 9.377682403433476e-05,
183
  "loss": 0.7269,
184
  "step": 500
185
  },
186
  {
187
  "epoch": 0.5546666666666666,
188
+ "grad_norm": 0.3991217315196991,
189
  "learning_rate": 8.948497854077254e-05,
190
  "loss": 0.7505,
191
  "step": 520
192
  },
193
  {
194
  "epoch": 0.576,
195
+ "grad_norm": 0.33239027857780457,
196
  "learning_rate": 8.51931330472103e-05,
197
  "loss": 0.7085,
198
  "step": 540
199
  },
200
  {
201
  "epoch": 0.5973333333333334,
202
+ "grad_norm": 0.31634777784347534,
203
  "learning_rate": 8.090128755364808e-05,
204
  "loss": 0.6989,
205
  "step": 560
206
  },
207
  {
208
  "epoch": 0.6186666666666667,
209
+ "grad_norm": 0.29959481954574585,
210
  "learning_rate": 7.660944206008584e-05,
211
  "loss": 0.7368,
212
  "step": 580
213
  },
214
  {
215
  "epoch": 0.64,
216
+ "grad_norm": 0.32558491826057434,
217
  "learning_rate": 7.23175965665236e-05,
218
  "loss": 0.7167,
219
  "step": 600
220
  },
221
  {
222
  "epoch": 0.6613333333333333,
223
+ "grad_norm": 0.29890871047973633,
224
  "learning_rate": 6.802575107296138e-05,
225
  "loss": 0.7022,
226
  "step": 620
227
  },
228
  {
229
  "epoch": 0.6826666666666666,
230
+ "grad_norm": 0.37701210379600525,
231
  "learning_rate": 6.373390557939914e-05,
232
+ "loss": 0.7496,
233
  "step": 640
234
  },
235
  {
236
  "epoch": 0.704,
237
+ "grad_norm": 0.3479043245315552,
238
  "learning_rate": 5.944206008583692e-05,
239
  "loss": 0.7509,
240
  "step": 660
241
  },
242
  {
243
  "epoch": 0.7253333333333334,
244
+ "grad_norm": 0.297861784696579,
245
  "learning_rate": 5.515021459227469e-05,
246
  "loss": 0.6887,
247
  "step": 680
248
  },
249
  {
250
  "epoch": 0.7466666666666667,
251
+ "grad_norm": 0.34087368845939636,
252
  "learning_rate": 5.085836909871244e-05,
253
  "loss": 0.7296,
254
  "step": 700
255
  },
256
  {
257
  "epoch": 0.768,
258
+ "grad_norm": 0.3773903548717499,
259
  "learning_rate": 4.656652360515021e-05,
260
+ "loss": 0.776,
261
  "step": 720
262
  },
263
  {
264
  "epoch": 0.7893333333333333,
265
+ "grad_norm": 0.3205181360244751,
266
  "learning_rate": 4.227467811158798e-05,
267
  "loss": 0.7324,
268
  "step": 740
269
  },
270
  {
271
  "epoch": 0.8106666666666666,
272
+ "grad_norm": 0.2584711015224457,
273
  "learning_rate": 3.798283261802575e-05,
274
  "loss": 0.7155,
275
  "step": 760
276
  },
277
  {
278
  "epoch": 0.832,
279
+ "grad_norm": 0.3200976252555847,
280
  "learning_rate": 3.369098712446352e-05,
281
  "loss": 0.7063,
282
  "step": 780
283
  },
284
  {
285
  "epoch": 0.8533333333333334,
286
+ "grad_norm": 0.35253649950027466,
287
  "learning_rate": 2.939914163090129e-05,
288
  "loss": 0.6556,
289
  "step": 800
290
  },
291
  {
292
  "epoch": 0.8746666666666667,
293
+ "grad_norm": 0.358339786529541,
294
  "learning_rate": 2.510729613733906e-05,
295
  "loss": 0.7319,
296
  "step": 820
297
  },
298
  {
299
  "epoch": 0.896,
300
+ "grad_norm": 0.2910996973514557,
301
  "learning_rate": 2.0815450643776825e-05,
302
  "loss": 0.6889,
303
  "step": 840
304
  },
305
  {
306
  "epoch": 0.9173333333333333,
307
+ "grad_norm": 0.4119875431060791,
308
  "learning_rate": 1.6523605150214594e-05,
309
  "loss": 0.7442,
310
  "step": 860
311
  },
312
  {
313
  "epoch": 0.9386666666666666,
314
+ "grad_norm": 0.3234633505344391,
315
  "learning_rate": 1.2231759656652362e-05,
316
  "loss": 0.7174,
317
  "step": 880
318
  },
319
  {
320
  "epoch": 0.96,
321
+ "grad_norm": 0.2828710377216339,
322
  "learning_rate": 7.93991416309013e-06,
323
  "loss": 0.6603,
324
  "step": 900
325
  },
326
  {
327
  "epoch": 0.9813333333333333,
328
+ "grad_norm": 0.3194393813610077,
329
  "learning_rate": 3.648068669527897e-06,
330
  "loss": 0.7313,
331
  "step": 920
checkpoint-937/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4651d06185709dd3d181207d567d0b3ed653efb01f01015cb44b8df4eebee657
3
  size 5560
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:69617c1bea4a27e99b6c6729498e45489dcd01641dbfbfbf0cc0b118ad579975
3
  size 5560