MatteoOmenetti commited on
Commit
17ad632
·
verified ·
1 Parent(s): a9b8b10

Upload tokenizer

Browse files
added_tokens.json ADDED
@@ -0,0 +1,564 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "</caption>": 50281,
3
+ "</chart>": 50307,
4
+ "</checkbox-selected>": 50313,
5
+ "</checkbox-unselected>": 50315,
6
+ "</code>": 50291,
7
+ "</code_image_to_text>": 50323,
8
+ "</doc>": 50293,
9
+ "</document-index>": 50311,
10
+ "</equation>": 50279,
11
+ "</figure>": 50283,
12
+ "</footnote>": 50287,
13
+ "</img>": 50826,
14
+ "</key>": 50303,
15
+ "</kv_region>": 50317,
16
+ "</line-number>": 50319,
17
+ "</list>": 50285,
18
+ "</ocr>": 50289,
19
+ "</oscr>": 50309,
20
+ "</otsl>": 50295,
21
+ "</page-footer>": 50277,
22
+ "</page-header>": 50275,
23
+ "</paragraph>": 50273,
24
+ "</section-header>": 50271,
25
+ "</table>": 50269,
26
+ "</title>": 50267,
27
+ "</value>": 50305,
28
+ "<caption>": 50280,
29
+ "<chart>": 50306,
30
+ "<checkbox-selected>": 50312,
31
+ "<checkbox-unselected>": 50314,
32
+ "<code>": 50290,
33
+ "<code_image_to_text>": 50322,
34
+ "<doc>": 50292,
35
+ "<document-index>": 50310,
36
+ "<ecel>": 50296,
37
+ "<equation>": 50278,
38
+ "<fcel>": 50297,
39
+ "<figure>": 50282,
40
+ "<footnote>": 50286,
41
+ "<img>": 50825,
42
+ "<imgpad>": 50265,
43
+ "<key>": 50302,
44
+ "<kv_region>": 50316,
45
+ "<lcel>": 50298,
46
+ "<line-number>": 50318,
47
+ "<list>": 50284,
48
+ "<loc_0>": 50324,
49
+ "<loc_100>": 50424,
50
+ "<loc_101>": 50425,
51
+ "<loc_102>": 50426,
52
+ "<loc_103>": 50427,
53
+ "<loc_104>": 50428,
54
+ "<loc_105>": 50429,
55
+ "<loc_106>": 50430,
56
+ "<loc_107>": 50431,
57
+ "<loc_108>": 50432,
58
+ "<loc_109>": 50433,
59
+ "<loc_10>": 50334,
60
+ "<loc_110>": 50434,
61
+ "<loc_111>": 50435,
62
+ "<loc_112>": 50436,
63
+ "<loc_113>": 50437,
64
+ "<loc_114>": 50438,
65
+ "<loc_115>": 50439,
66
+ "<loc_116>": 50440,
67
+ "<loc_117>": 50441,
68
+ "<loc_118>": 50442,
69
+ "<loc_119>": 50443,
70
+ "<loc_11>": 50335,
71
+ "<loc_120>": 50444,
72
+ "<loc_121>": 50445,
73
+ "<loc_122>": 50446,
74
+ "<loc_123>": 50447,
75
+ "<loc_124>": 50448,
76
+ "<loc_125>": 50449,
77
+ "<loc_126>": 50450,
78
+ "<loc_127>": 50451,
79
+ "<loc_128>": 50452,
80
+ "<loc_129>": 50453,
81
+ "<loc_12>": 50336,
82
+ "<loc_130>": 50454,
83
+ "<loc_131>": 50455,
84
+ "<loc_132>": 50456,
85
+ "<loc_133>": 50457,
86
+ "<loc_134>": 50458,
87
+ "<loc_135>": 50459,
88
+ "<loc_136>": 50460,
89
+ "<loc_137>": 50461,
90
+ "<loc_138>": 50462,
91
+ "<loc_139>": 50463,
92
+ "<loc_13>": 50337,
93
+ "<loc_140>": 50464,
94
+ "<loc_141>": 50465,
95
+ "<loc_142>": 50466,
96
+ "<loc_143>": 50467,
97
+ "<loc_144>": 50468,
98
+ "<loc_145>": 50469,
99
+ "<loc_146>": 50470,
100
+ "<loc_147>": 50471,
101
+ "<loc_148>": 50472,
102
+ "<loc_149>": 50473,
103
+ "<loc_14>": 50338,
104
+ "<loc_150>": 50474,
105
+ "<loc_151>": 50475,
106
+ "<loc_152>": 50476,
107
+ "<loc_153>": 50477,
108
+ "<loc_154>": 50478,
109
+ "<loc_155>": 50479,
110
+ "<loc_156>": 50480,
111
+ "<loc_157>": 50481,
112
+ "<loc_158>": 50482,
113
+ "<loc_159>": 50483,
114
+ "<loc_15>": 50339,
115
+ "<loc_160>": 50484,
116
+ "<loc_161>": 50485,
117
+ "<loc_162>": 50486,
118
+ "<loc_163>": 50487,
119
+ "<loc_164>": 50488,
120
+ "<loc_165>": 50489,
121
+ "<loc_166>": 50490,
122
+ "<loc_167>": 50491,
123
+ "<loc_168>": 50492,
124
+ "<loc_169>": 50493,
125
+ "<loc_16>": 50340,
126
+ "<loc_170>": 50494,
127
+ "<loc_171>": 50495,
128
+ "<loc_172>": 50496,
129
+ "<loc_173>": 50497,
130
+ "<loc_174>": 50498,
131
+ "<loc_175>": 50499,
132
+ "<loc_176>": 50500,
133
+ "<loc_177>": 50501,
134
+ "<loc_178>": 50502,
135
+ "<loc_179>": 50503,
136
+ "<loc_17>": 50341,
137
+ "<loc_180>": 50504,
138
+ "<loc_181>": 50505,
139
+ "<loc_182>": 50506,
140
+ "<loc_183>": 50507,
141
+ "<loc_184>": 50508,
142
+ "<loc_185>": 50509,
143
+ "<loc_186>": 50510,
144
+ "<loc_187>": 50511,
145
+ "<loc_188>": 50512,
146
+ "<loc_189>": 50513,
147
+ "<loc_18>": 50342,
148
+ "<loc_190>": 50514,
149
+ "<loc_191>": 50515,
150
+ "<loc_192>": 50516,
151
+ "<loc_193>": 50517,
152
+ "<loc_194>": 50518,
153
+ "<loc_195>": 50519,
154
+ "<loc_196>": 50520,
155
+ "<loc_197>": 50521,
156
+ "<loc_198>": 50522,
157
+ "<loc_199>": 50523,
158
+ "<loc_19>": 50343,
159
+ "<loc_1>": 50325,
160
+ "<loc_200>": 50524,
161
+ "<loc_201>": 50525,
162
+ "<loc_202>": 50526,
163
+ "<loc_203>": 50527,
164
+ "<loc_204>": 50528,
165
+ "<loc_205>": 50529,
166
+ "<loc_206>": 50530,
167
+ "<loc_207>": 50531,
168
+ "<loc_208>": 50532,
169
+ "<loc_209>": 50533,
170
+ "<loc_20>": 50344,
171
+ "<loc_210>": 50534,
172
+ "<loc_211>": 50535,
173
+ "<loc_212>": 50536,
174
+ "<loc_213>": 50537,
175
+ "<loc_214>": 50538,
176
+ "<loc_215>": 50539,
177
+ "<loc_216>": 50540,
178
+ "<loc_217>": 50541,
179
+ "<loc_218>": 50542,
180
+ "<loc_219>": 50543,
181
+ "<loc_21>": 50345,
182
+ "<loc_220>": 50544,
183
+ "<loc_221>": 50545,
184
+ "<loc_222>": 50546,
185
+ "<loc_223>": 50547,
186
+ "<loc_224>": 50548,
187
+ "<loc_225>": 50549,
188
+ "<loc_226>": 50550,
189
+ "<loc_227>": 50551,
190
+ "<loc_228>": 50552,
191
+ "<loc_229>": 50553,
192
+ "<loc_22>": 50346,
193
+ "<loc_230>": 50554,
194
+ "<loc_231>": 50555,
195
+ "<loc_232>": 50556,
196
+ "<loc_233>": 50557,
197
+ "<loc_234>": 50558,
198
+ "<loc_235>": 50559,
199
+ "<loc_236>": 50560,
200
+ "<loc_237>": 50561,
201
+ "<loc_238>": 50562,
202
+ "<loc_239>": 50563,
203
+ "<loc_23>": 50347,
204
+ "<loc_240>": 50564,
205
+ "<loc_241>": 50565,
206
+ "<loc_242>": 50566,
207
+ "<loc_243>": 50567,
208
+ "<loc_244>": 50568,
209
+ "<loc_245>": 50569,
210
+ "<loc_246>": 50570,
211
+ "<loc_247>": 50571,
212
+ "<loc_248>": 50572,
213
+ "<loc_249>": 50573,
214
+ "<loc_24>": 50348,
215
+ "<loc_250>": 50574,
216
+ "<loc_251>": 50575,
217
+ "<loc_252>": 50576,
218
+ "<loc_253>": 50577,
219
+ "<loc_254>": 50578,
220
+ "<loc_255>": 50579,
221
+ "<loc_256>": 50580,
222
+ "<loc_257>": 50581,
223
+ "<loc_258>": 50582,
224
+ "<loc_259>": 50583,
225
+ "<loc_25>": 50349,
226
+ "<loc_260>": 50584,
227
+ "<loc_261>": 50585,
228
+ "<loc_262>": 50586,
229
+ "<loc_263>": 50587,
230
+ "<loc_264>": 50588,
231
+ "<loc_265>": 50589,
232
+ "<loc_266>": 50590,
233
+ "<loc_267>": 50591,
234
+ "<loc_268>": 50592,
235
+ "<loc_269>": 50593,
236
+ "<loc_26>": 50350,
237
+ "<loc_270>": 50594,
238
+ "<loc_271>": 50595,
239
+ "<loc_272>": 50596,
240
+ "<loc_273>": 50597,
241
+ "<loc_274>": 50598,
242
+ "<loc_275>": 50599,
243
+ "<loc_276>": 50600,
244
+ "<loc_277>": 50601,
245
+ "<loc_278>": 50602,
246
+ "<loc_279>": 50603,
247
+ "<loc_27>": 50351,
248
+ "<loc_280>": 50604,
249
+ "<loc_281>": 50605,
250
+ "<loc_282>": 50606,
251
+ "<loc_283>": 50607,
252
+ "<loc_284>": 50608,
253
+ "<loc_285>": 50609,
254
+ "<loc_286>": 50610,
255
+ "<loc_287>": 50611,
256
+ "<loc_288>": 50612,
257
+ "<loc_289>": 50613,
258
+ "<loc_28>": 50352,
259
+ "<loc_290>": 50614,
260
+ "<loc_291>": 50615,
261
+ "<loc_292>": 50616,
262
+ "<loc_293>": 50617,
263
+ "<loc_294>": 50618,
264
+ "<loc_295>": 50619,
265
+ "<loc_296>": 50620,
266
+ "<loc_297>": 50621,
267
+ "<loc_298>": 50622,
268
+ "<loc_299>": 50623,
269
+ "<loc_29>": 50353,
270
+ "<loc_2>": 50326,
271
+ "<loc_300>": 50624,
272
+ "<loc_301>": 50625,
273
+ "<loc_302>": 50626,
274
+ "<loc_303>": 50627,
275
+ "<loc_304>": 50628,
276
+ "<loc_305>": 50629,
277
+ "<loc_306>": 50630,
278
+ "<loc_307>": 50631,
279
+ "<loc_308>": 50632,
280
+ "<loc_309>": 50633,
281
+ "<loc_30>": 50354,
282
+ "<loc_310>": 50634,
283
+ "<loc_311>": 50635,
284
+ "<loc_312>": 50636,
285
+ "<loc_313>": 50637,
286
+ "<loc_314>": 50638,
287
+ "<loc_315>": 50639,
288
+ "<loc_316>": 50640,
289
+ "<loc_317>": 50641,
290
+ "<loc_318>": 50642,
291
+ "<loc_319>": 50643,
292
+ "<loc_31>": 50355,
293
+ "<loc_320>": 50644,
294
+ "<loc_321>": 50645,
295
+ "<loc_322>": 50646,
296
+ "<loc_323>": 50647,
297
+ "<loc_324>": 50648,
298
+ "<loc_325>": 50649,
299
+ "<loc_326>": 50650,
300
+ "<loc_327>": 50651,
301
+ "<loc_328>": 50652,
302
+ "<loc_329>": 50653,
303
+ "<loc_32>": 50356,
304
+ "<loc_330>": 50654,
305
+ "<loc_331>": 50655,
306
+ "<loc_332>": 50656,
307
+ "<loc_333>": 50657,
308
+ "<loc_334>": 50658,
309
+ "<loc_335>": 50659,
310
+ "<loc_336>": 50660,
311
+ "<loc_337>": 50661,
312
+ "<loc_338>": 50662,
313
+ "<loc_339>": 50663,
314
+ "<loc_33>": 50357,
315
+ "<loc_340>": 50664,
316
+ "<loc_341>": 50665,
317
+ "<loc_342>": 50666,
318
+ "<loc_343>": 50667,
319
+ "<loc_344>": 50668,
320
+ "<loc_345>": 50669,
321
+ "<loc_346>": 50670,
322
+ "<loc_347>": 50671,
323
+ "<loc_348>": 50672,
324
+ "<loc_349>": 50673,
325
+ "<loc_34>": 50358,
326
+ "<loc_350>": 50674,
327
+ "<loc_351>": 50675,
328
+ "<loc_352>": 50676,
329
+ "<loc_353>": 50677,
330
+ "<loc_354>": 50678,
331
+ "<loc_355>": 50679,
332
+ "<loc_356>": 50680,
333
+ "<loc_357>": 50681,
334
+ "<loc_358>": 50682,
335
+ "<loc_359>": 50683,
336
+ "<loc_35>": 50359,
337
+ "<loc_360>": 50684,
338
+ "<loc_361>": 50685,
339
+ "<loc_362>": 50686,
340
+ "<loc_363>": 50687,
341
+ "<loc_364>": 50688,
342
+ "<loc_365>": 50689,
343
+ "<loc_366>": 50690,
344
+ "<loc_367>": 50691,
345
+ "<loc_368>": 50692,
346
+ "<loc_369>": 50693,
347
+ "<loc_36>": 50360,
348
+ "<loc_370>": 50694,
349
+ "<loc_371>": 50695,
350
+ "<loc_372>": 50696,
351
+ "<loc_373>": 50697,
352
+ "<loc_374>": 50698,
353
+ "<loc_375>": 50699,
354
+ "<loc_376>": 50700,
355
+ "<loc_377>": 50701,
356
+ "<loc_378>": 50702,
357
+ "<loc_379>": 50703,
358
+ "<loc_37>": 50361,
359
+ "<loc_380>": 50704,
360
+ "<loc_381>": 50705,
361
+ "<loc_382>": 50706,
362
+ "<loc_383>": 50707,
363
+ "<loc_384>": 50708,
364
+ "<loc_385>": 50709,
365
+ "<loc_386>": 50710,
366
+ "<loc_387>": 50711,
367
+ "<loc_388>": 50712,
368
+ "<loc_389>": 50713,
369
+ "<loc_38>": 50362,
370
+ "<loc_390>": 50714,
371
+ "<loc_391>": 50715,
372
+ "<loc_392>": 50716,
373
+ "<loc_393>": 50717,
374
+ "<loc_394>": 50718,
375
+ "<loc_395>": 50719,
376
+ "<loc_396>": 50720,
377
+ "<loc_397>": 50721,
378
+ "<loc_398>": 50722,
379
+ "<loc_399>": 50723,
380
+ "<loc_39>": 50363,
381
+ "<loc_3>": 50327,
382
+ "<loc_400>": 50724,
383
+ "<loc_401>": 50725,
384
+ "<loc_402>": 50726,
385
+ "<loc_403>": 50727,
386
+ "<loc_404>": 50728,
387
+ "<loc_405>": 50729,
388
+ "<loc_406>": 50730,
389
+ "<loc_407>": 50731,
390
+ "<loc_408>": 50732,
391
+ "<loc_409>": 50733,
392
+ "<loc_40>": 50364,
393
+ "<loc_410>": 50734,
394
+ "<loc_411>": 50735,
395
+ "<loc_412>": 50736,
396
+ "<loc_413>": 50737,
397
+ "<loc_414>": 50738,
398
+ "<loc_415>": 50739,
399
+ "<loc_416>": 50740,
400
+ "<loc_417>": 50741,
401
+ "<loc_418>": 50742,
402
+ "<loc_419>": 50743,
403
+ "<loc_41>": 50365,
404
+ "<loc_420>": 50744,
405
+ "<loc_421>": 50745,
406
+ "<loc_422>": 50746,
407
+ "<loc_423>": 50747,
408
+ "<loc_424>": 50748,
409
+ "<loc_425>": 50749,
410
+ "<loc_426>": 50750,
411
+ "<loc_427>": 50751,
412
+ "<loc_428>": 50752,
413
+ "<loc_429>": 50753,
414
+ "<loc_42>": 50366,
415
+ "<loc_430>": 50754,
416
+ "<loc_431>": 50755,
417
+ "<loc_432>": 50756,
418
+ "<loc_433>": 50757,
419
+ "<loc_434>": 50758,
420
+ "<loc_435>": 50759,
421
+ "<loc_436>": 50760,
422
+ "<loc_437>": 50761,
423
+ "<loc_438>": 50762,
424
+ "<loc_439>": 50763,
425
+ "<loc_43>": 50367,
426
+ "<loc_440>": 50764,
427
+ "<loc_441>": 50765,
428
+ "<loc_442>": 50766,
429
+ "<loc_443>": 50767,
430
+ "<loc_444>": 50768,
431
+ "<loc_445>": 50769,
432
+ "<loc_446>": 50770,
433
+ "<loc_447>": 50771,
434
+ "<loc_448>": 50772,
435
+ "<loc_449>": 50773,
436
+ "<loc_44>": 50368,
437
+ "<loc_450>": 50774,
438
+ "<loc_451>": 50775,
439
+ "<loc_452>": 50776,
440
+ "<loc_453>": 50777,
441
+ "<loc_454>": 50778,
442
+ "<loc_455>": 50779,
443
+ "<loc_456>": 50780,
444
+ "<loc_457>": 50781,
445
+ "<loc_458>": 50782,
446
+ "<loc_459>": 50783,
447
+ "<loc_45>": 50369,
448
+ "<loc_460>": 50784,
449
+ "<loc_461>": 50785,
450
+ "<loc_462>": 50786,
451
+ "<loc_463>": 50787,
452
+ "<loc_464>": 50788,
453
+ "<loc_465>": 50789,
454
+ "<loc_466>": 50790,
455
+ "<loc_467>": 50791,
456
+ "<loc_468>": 50792,
457
+ "<loc_469>": 50793,
458
+ "<loc_46>": 50370,
459
+ "<loc_470>": 50794,
460
+ "<loc_471>": 50795,
461
+ "<loc_472>": 50796,
462
+ "<loc_473>": 50797,
463
+ "<loc_474>": 50798,
464
+ "<loc_475>": 50799,
465
+ "<loc_476>": 50800,
466
+ "<loc_477>": 50801,
467
+ "<loc_478>": 50802,
468
+ "<loc_479>": 50803,
469
+ "<loc_47>": 50371,
470
+ "<loc_480>": 50804,
471
+ "<loc_481>": 50805,
472
+ "<loc_482>": 50806,
473
+ "<loc_483>": 50807,
474
+ "<loc_484>": 50808,
475
+ "<loc_485>": 50809,
476
+ "<loc_486>": 50810,
477
+ "<loc_487>": 50811,
478
+ "<loc_488>": 50812,
479
+ "<loc_489>": 50813,
480
+ "<loc_48>": 50372,
481
+ "<loc_490>": 50814,
482
+ "<loc_491>": 50815,
483
+ "<loc_492>": 50816,
484
+ "<loc_493>": 50817,
485
+ "<loc_494>": 50818,
486
+ "<loc_495>": 50819,
487
+ "<loc_496>": 50820,
488
+ "<loc_497>": 50821,
489
+ "<loc_498>": 50822,
490
+ "<loc_499>": 50823,
491
+ "<loc_49>": 50373,
492
+ "<loc_4>": 50328,
493
+ "<loc_500>": 50824,
494
+ "<loc_50>": 50374,
495
+ "<loc_51>": 50375,
496
+ "<loc_52>": 50376,
497
+ "<loc_53>": 50377,
498
+ "<loc_54>": 50378,
499
+ "<loc_55>": 50379,
500
+ "<loc_56>": 50380,
501
+ "<loc_57>": 50381,
502
+ "<loc_58>": 50382,
503
+ "<loc_59>": 50383,
504
+ "<loc_5>": 50329,
505
+ "<loc_60>": 50384,
506
+ "<loc_61>": 50385,
507
+ "<loc_62>": 50386,
508
+ "<loc_63>": 50387,
509
+ "<loc_64>": 50388,
510
+ "<loc_65>": 50389,
511
+ "<loc_66>": 50390,
512
+ "<loc_67>": 50391,
513
+ "<loc_68>": 50392,
514
+ "<loc_69>": 50393,
515
+ "<loc_6>": 50330,
516
+ "<loc_70>": 50394,
517
+ "<loc_71>": 50395,
518
+ "<loc_72>": 50396,
519
+ "<loc_73>": 50397,
520
+ "<loc_74>": 50398,
521
+ "<loc_75>": 50399,
522
+ "<loc_76>": 50400,
523
+ "<loc_77>": 50401,
524
+ "<loc_78>": 50402,
525
+ "<loc_79>": 50403,
526
+ "<loc_7>": 50331,
527
+ "<loc_80>": 50404,
528
+ "<loc_81>": 50405,
529
+ "<loc_82>": 50406,
530
+ "<loc_83>": 50407,
531
+ "<loc_84>": 50408,
532
+ "<loc_85>": 50409,
533
+ "<loc_86>": 50410,
534
+ "<loc_87>": 50411,
535
+ "<loc_88>": 50412,
536
+ "<loc_89>": 50413,
537
+ "<loc_8>": 50332,
538
+ "<loc_90>": 50414,
539
+ "<loc_91>": 50415,
540
+ "<loc_92>": 50416,
541
+ "<loc_93>": 50417,
542
+ "<loc_94>": 50418,
543
+ "<loc_95>": 50419,
544
+ "<loc_96>": 50420,
545
+ "<loc_97>": 50421,
546
+ "<loc_98>": 50422,
547
+ "<loc_99>": 50423,
548
+ "<loc_9>": 50333,
549
+ "<nl>": 50300,
550
+ "<ocr>": 50288,
551
+ "<oscr>": 50308,
552
+ "<otsl>": 50294,
553
+ "<page-break>": 50321,
554
+ "<page-footer>": 50276,
555
+ "<page-header>": 50274,
556
+ "<paragraph>": 50272,
557
+ "<section-header>": 50270,
558
+ "<table>": 50268,
559
+ "<text-break>": 50320,
560
+ "<title>": 50266,
561
+ "<ucel>": 50299,
562
+ "<value>": 50304,
563
+ "<xcel>": 50301
564
+ }
merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
special_tokens_map.json ADDED
@@ -0,0 +1,594 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<imgpad>",
4
+ "<title>",
5
+ "</title>",
6
+ "<table>",
7
+ "</table>",
8
+ "<section-header>",
9
+ "</section-header>",
10
+ "<paragraph>",
11
+ "</paragraph>",
12
+ "<page-header>",
13
+ "</page-header>",
14
+ "<page-footer>",
15
+ "</page-footer>",
16
+ "<equation>",
17
+ "</equation>",
18
+ "<caption>",
19
+ "</caption>",
20
+ "<figure>",
21
+ "</figure>",
22
+ "<list>",
23
+ "</list>",
24
+ "<footnote>",
25
+ "</footnote>",
26
+ "<ocr>",
27
+ "</ocr>",
28
+ "<code>",
29
+ "</code>",
30
+ "<doc>",
31
+ "</doc>",
32
+ "<otsl>",
33
+ "</otsl>",
34
+ "<ecel>",
35
+ "<fcel>",
36
+ "<lcel>",
37
+ "<ucel>",
38
+ "<nl>",
39
+ "<xcel>",
40
+ "<key>",
41
+ "</key>",
42
+ "<value>",
43
+ "</value>",
44
+ "<chart>",
45
+ "</chart>",
46
+ "<oscr>",
47
+ "</oscr>",
48
+ "<document-index>",
49
+ "</document-index>",
50
+ "<checkbox-selected>",
51
+ "</checkbox-selected>",
52
+ "<checkbox-unselected>",
53
+ "</checkbox-unselected>",
54
+ "<kv_region>",
55
+ "</kv_region>",
56
+ "<line-number>",
57
+ "</line-number>",
58
+ "<text-break>",
59
+ "<page-break>",
60
+ "<code_image_to_text>",
61
+ "</code_image_to_text>",
62
+ "<loc_0>",
63
+ "<loc_1>",
64
+ "<loc_2>",
65
+ "<loc_3>",
66
+ "<loc_4>",
67
+ "<loc_5>",
68
+ "<loc_6>",
69
+ "<loc_7>",
70
+ "<loc_8>",
71
+ "<loc_9>",
72
+ "<loc_10>",
73
+ "<loc_11>",
74
+ "<loc_12>",
75
+ "<loc_13>",
76
+ "<loc_14>",
77
+ "<loc_15>",
78
+ "<loc_16>",
79
+ "<loc_17>",
80
+ "<loc_18>",
81
+ "<loc_19>",
82
+ "<loc_20>",
83
+ "<loc_21>",
84
+ "<loc_22>",
85
+ "<loc_23>",
86
+ "<loc_24>",
87
+ "<loc_25>",
88
+ "<loc_26>",
89
+ "<loc_27>",
90
+ "<loc_28>",
91
+ "<loc_29>",
92
+ "<loc_30>",
93
+ "<loc_31>",
94
+ "<loc_32>",
95
+ "<loc_33>",
96
+ "<loc_34>",
97
+ "<loc_35>",
98
+ "<loc_36>",
99
+ "<loc_37>",
100
+ "<loc_38>",
101
+ "<loc_39>",
102
+ "<loc_40>",
103
+ "<loc_41>",
104
+ "<loc_42>",
105
+ "<loc_43>",
106
+ "<loc_44>",
107
+ "<loc_45>",
108
+ "<loc_46>",
109
+ "<loc_47>",
110
+ "<loc_48>",
111
+ "<loc_49>",
112
+ "<loc_50>",
113
+ "<loc_51>",
114
+ "<loc_52>",
115
+ "<loc_53>",
116
+ "<loc_54>",
117
+ "<loc_55>",
118
+ "<loc_56>",
119
+ "<loc_57>",
120
+ "<loc_58>",
121
+ "<loc_59>",
122
+ "<loc_60>",
123
+ "<loc_61>",
124
+ "<loc_62>",
125
+ "<loc_63>",
126
+ "<loc_64>",
127
+ "<loc_65>",
128
+ "<loc_66>",
129
+ "<loc_67>",
130
+ "<loc_68>",
131
+ "<loc_69>",
132
+ "<loc_70>",
133
+ "<loc_71>",
134
+ "<loc_72>",
135
+ "<loc_73>",
136
+ "<loc_74>",
137
+ "<loc_75>",
138
+ "<loc_76>",
139
+ "<loc_77>",
140
+ "<loc_78>",
141
+ "<loc_79>",
142
+ "<loc_80>",
143
+ "<loc_81>",
144
+ "<loc_82>",
145
+ "<loc_83>",
146
+ "<loc_84>",
147
+ "<loc_85>",
148
+ "<loc_86>",
149
+ "<loc_87>",
150
+ "<loc_88>",
151
+ "<loc_89>",
152
+ "<loc_90>",
153
+ "<loc_91>",
154
+ "<loc_92>",
155
+ "<loc_93>",
156
+ "<loc_94>",
157
+ "<loc_95>",
158
+ "<loc_96>",
159
+ "<loc_97>",
160
+ "<loc_98>",
161
+ "<loc_99>",
162
+ "<loc_100>",
163
+ "<loc_101>",
164
+ "<loc_102>",
165
+ "<loc_103>",
166
+ "<loc_104>",
167
+ "<loc_105>",
168
+ "<loc_106>",
169
+ "<loc_107>",
170
+ "<loc_108>",
171
+ "<loc_109>",
172
+ "<loc_110>",
173
+ "<loc_111>",
174
+ "<loc_112>",
175
+ "<loc_113>",
176
+ "<loc_114>",
177
+ "<loc_115>",
178
+ "<loc_116>",
179
+ "<loc_117>",
180
+ "<loc_118>",
181
+ "<loc_119>",
182
+ "<loc_120>",
183
+ "<loc_121>",
184
+ "<loc_122>",
185
+ "<loc_123>",
186
+ "<loc_124>",
187
+ "<loc_125>",
188
+ "<loc_126>",
189
+ "<loc_127>",
190
+ "<loc_128>",
191
+ "<loc_129>",
192
+ "<loc_130>",
193
+ "<loc_131>",
194
+ "<loc_132>",
195
+ "<loc_133>",
196
+ "<loc_134>",
197
+ "<loc_135>",
198
+ "<loc_136>",
199
+ "<loc_137>",
200
+ "<loc_138>",
201
+ "<loc_139>",
202
+ "<loc_140>",
203
+ "<loc_141>",
204
+ "<loc_142>",
205
+ "<loc_143>",
206
+ "<loc_144>",
207
+ "<loc_145>",
208
+ "<loc_146>",
209
+ "<loc_147>",
210
+ "<loc_148>",
211
+ "<loc_149>",
212
+ "<loc_150>",
213
+ "<loc_151>",
214
+ "<loc_152>",
215
+ "<loc_153>",
216
+ "<loc_154>",
217
+ "<loc_155>",
218
+ "<loc_156>",
219
+ "<loc_157>",
220
+ "<loc_158>",
221
+ "<loc_159>",
222
+ "<loc_160>",
223
+ "<loc_161>",
224
+ "<loc_162>",
225
+ "<loc_163>",
226
+ "<loc_164>",
227
+ "<loc_165>",
228
+ "<loc_166>",
229
+ "<loc_167>",
230
+ "<loc_168>",
231
+ "<loc_169>",
232
+ "<loc_170>",
233
+ "<loc_171>",
234
+ "<loc_172>",
235
+ "<loc_173>",
236
+ "<loc_174>",
237
+ "<loc_175>",
238
+ "<loc_176>",
239
+ "<loc_177>",
240
+ "<loc_178>",
241
+ "<loc_179>",
242
+ "<loc_180>",
243
+ "<loc_181>",
244
+ "<loc_182>",
245
+ "<loc_183>",
246
+ "<loc_184>",
247
+ "<loc_185>",
248
+ "<loc_186>",
249
+ "<loc_187>",
250
+ "<loc_188>",
251
+ "<loc_189>",
252
+ "<loc_190>",
253
+ "<loc_191>",
254
+ "<loc_192>",
255
+ "<loc_193>",
256
+ "<loc_194>",
257
+ "<loc_195>",
258
+ "<loc_196>",
259
+ "<loc_197>",
260
+ "<loc_198>",
261
+ "<loc_199>",
262
+ "<loc_200>",
263
+ "<loc_201>",
264
+ "<loc_202>",
265
+ "<loc_203>",
266
+ "<loc_204>",
267
+ "<loc_205>",
268
+ "<loc_206>",
269
+ "<loc_207>",
270
+ "<loc_208>",
271
+ "<loc_209>",
272
+ "<loc_210>",
273
+ "<loc_211>",
274
+ "<loc_212>",
275
+ "<loc_213>",
276
+ "<loc_214>",
277
+ "<loc_215>",
278
+ "<loc_216>",
279
+ "<loc_217>",
280
+ "<loc_218>",
281
+ "<loc_219>",
282
+ "<loc_220>",
283
+ "<loc_221>",
284
+ "<loc_222>",
285
+ "<loc_223>",
286
+ "<loc_224>",
287
+ "<loc_225>",
288
+ "<loc_226>",
289
+ "<loc_227>",
290
+ "<loc_228>",
291
+ "<loc_229>",
292
+ "<loc_230>",
293
+ "<loc_231>",
294
+ "<loc_232>",
295
+ "<loc_233>",
296
+ "<loc_234>",
297
+ "<loc_235>",
298
+ "<loc_236>",
299
+ "<loc_237>",
300
+ "<loc_238>",
301
+ "<loc_239>",
302
+ "<loc_240>",
303
+ "<loc_241>",
304
+ "<loc_242>",
305
+ "<loc_243>",
306
+ "<loc_244>",
307
+ "<loc_245>",
308
+ "<loc_246>",
309
+ "<loc_247>",
310
+ "<loc_248>",
311
+ "<loc_249>",
312
+ "<loc_250>",
313
+ "<loc_251>",
314
+ "<loc_252>",
315
+ "<loc_253>",
316
+ "<loc_254>",
317
+ "<loc_255>",
318
+ "<loc_256>",
319
+ "<loc_257>",
320
+ "<loc_258>",
321
+ "<loc_259>",
322
+ "<loc_260>",
323
+ "<loc_261>",
324
+ "<loc_262>",
325
+ "<loc_263>",
326
+ "<loc_264>",
327
+ "<loc_265>",
328
+ "<loc_266>",
329
+ "<loc_267>",
330
+ "<loc_268>",
331
+ "<loc_269>",
332
+ "<loc_270>",
333
+ "<loc_271>",
334
+ "<loc_272>",
335
+ "<loc_273>",
336
+ "<loc_274>",
337
+ "<loc_275>",
338
+ "<loc_276>",
339
+ "<loc_277>",
340
+ "<loc_278>",
341
+ "<loc_279>",
342
+ "<loc_280>",
343
+ "<loc_281>",
344
+ "<loc_282>",
345
+ "<loc_283>",
346
+ "<loc_284>",
347
+ "<loc_285>",
348
+ "<loc_286>",
349
+ "<loc_287>",
350
+ "<loc_288>",
351
+ "<loc_289>",
352
+ "<loc_290>",
353
+ "<loc_291>",
354
+ "<loc_292>",
355
+ "<loc_293>",
356
+ "<loc_294>",
357
+ "<loc_295>",
358
+ "<loc_296>",
359
+ "<loc_297>",
360
+ "<loc_298>",
361
+ "<loc_299>",
362
+ "<loc_300>",
363
+ "<loc_301>",
364
+ "<loc_302>",
365
+ "<loc_303>",
366
+ "<loc_304>",
367
+ "<loc_305>",
368
+ "<loc_306>",
369
+ "<loc_307>",
370
+ "<loc_308>",
371
+ "<loc_309>",
372
+ "<loc_310>",
373
+ "<loc_311>",
374
+ "<loc_312>",
375
+ "<loc_313>",
376
+ "<loc_314>",
377
+ "<loc_315>",
378
+ "<loc_316>",
379
+ "<loc_317>",
380
+ "<loc_318>",
381
+ "<loc_319>",
382
+ "<loc_320>",
383
+ "<loc_321>",
384
+ "<loc_322>",
385
+ "<loc_323>",
386
+ "<loc_324>",
387
+ "<loc_325>",
388
+ "<loc_326>",
389
+ "<loc_327>",
390
+ "<loc_328>",
391
+ "<loc_329>",
392
+ "<loc_330>",
393
+ "<loc_331>",
394
+ "<loc_332>",
395
+ "<loc_333>",
396
+ "<loc_334>",
397
+ "<loc_335>",
398
+ "<loc_336>",
399
+ "<loc_337>",
400
+ "<loc_338>",
401
+ "<loc_339>",
402
+ "<loc_340>",
403
+ "<loc_341>",
404
+ "<loc_342>",
405
+ "<loc_343>",
406
+ "<loc_344>",
407
+ "<loc_345>",
408
+ "<loc_346>",
409
+ "<loc_347>",
410
+ "<loc_348>",
411
+ "<loc_349>",
412
+ "<loc_350>",
413
+ "<loc_351>",
414
+ "<loc_352>",
415
+ "<loc_353>",
416
+ "<loc_354>",
417
+ "<loc_355>",
418
+ "<loc_356>",
419
+ "<loc_357>",
420
+ "<loc_358>",
421
+ "<loc_359>",
422
+ "<loc_360>",
423
+ "<loc_361>",
424
+ "<loc_362>",
425
+ "<loc_363>",
426
+ "<loc_364>",
427
+ "<loc_365>",
428
+ "<loc_366>",
429
+ "<loc_367>",
430
+ "<loc_368>",
431
+ "<loc_369>",
432
+ "<loc_370>",
433
+ "<loc_371>",
434
+ "<loc_372>",
435
+ "<loc_373>",
436
+ "<loc_374>",
437
+ "<loc_375>",
438
+ "<loc_376>",
439
+ "<loc_377>",
440
+ "<loc_378>",
441
+ "<loc_379>",
442
+ "<loc_380>",
443
+ "<loc_381>",
444
+ "<loc_382>",
445
+ "<loc_383>",
446
+ "<loc_384>",
447
+ "<loc_385>",
448
+ "<loc_386>",
449
+ "<loc_387>",
450
+ "<loc_388>",
451
+ "<loc_389>",
452
+ "<loc_390>",
453
+ "<loc_391>",
454
+ "<loc_392>",
455
+ "<loc_393>",
456
+ "<loc_394>",
457
+ "<loc_395>",
458
+ "<loc_396>",
459
+ "<loc_397>",
460
+ "<loc_398>",
461
+ "<loc_399>",
462
+ "<loc_400>",
463
+ "<loc_401>",
464
+ "<loc_402>",
465
+ "<loc_403>",
466
+ "<loc_404>",
467
+ "<loc_405>",
468
+ "<loc_406>",
469
+ "<loc_407>",
470
+ "<loc_408>",
471
+ "<loc_409>",
472
+ "<loc_410>",
473
+ "<loc_411>",
474
+ "<loc_412>",
475
+ "<loc_413>",
476
+ "<loc_414>",
477
+ "<loc_415>",
478
+ "<loc_416>",
479
+ "<loc_417>",
480
+ "<loc_418>",
481
+ "<loc_419>",
482
+ "<loc_420>",
483
+ "<loc_421>",
484
+ "<loc_422>",
485
+ "<loc_423>",
486
+ "<loc_424>",
487
+ "<loc_425>",
488
+ "<loc_426>",
489
+ "<loc_427>",
490
+ "<loc_428>",
491
+ "<loc_429>",
492
+ "<loc_430>",
493
+ "<loc_431>",
494
+ "<loc_432>",
495
+ "<loc_433>",
496
+ "<loc_434>",
497
+ "<loc_435>",
498
+ "<loc_436>",
499
+ "<loc_437>",
500
+ "<loc_438>",
501
+ "<loc_439>",
502
+ "<loc_440>",
503
+ "<loc_441>",
504
+ "<loc_442>",
505
+ "<loc_443>",
506
+ "<loc_444>",
507
+ "<loc_445>",
508
+ "<loc_446>",
509
+ "<loc_447>",
510
+ "<loc_448>",
511
+ "<loc_449>",
512
+ "<loc_450>",
513
+ "<loc_451>",
514
+ "<loc_452>",
515
+ "<loc_453>",
516
+ "<loc_454>",
517
+ "<loc_455>",
518
+ "<loc_456>",
519
+ "<loc_457>",
520
+ "<loc_458>",
521
+ "<loc_459>",
522
+ "<loc_460>",
523
+ "<loc_461>",
524
+ "<loc_462>",
525
+ "<loc_463>",
526
+ "<loc_464>",
527
+ "<loc_465>",
528
+ "<loc_466>",
529
+ "<loc_467>",
530
+ "<loc_468>",
531
+ "<loc_469>",
532
+ "<loc_470>",
533
+ "<loc_471>",
534
+ "<loc_472>",
535
+ "<loc_473>",
536
+ "<loc_474>",
537
+ "<loc_475>",
538
+ "<loc_476>",
539
+ "<loc_477>",
540
+ "<loc_478>",
541
+ "<loc_479>",
542
+ "<loc_480>",
543
+ "<loc_481>",
544
+ "<loc_482>",
545
+ "<loc_483>",
546
+ "<loc_484>",
547
+ "<loc_485>",
548
+ "<loc_486>",
549
+ "<loc_487>",
550
+ "<loc_488>",
551
+ "<loc_489>",
552
+ "<loc_490>",
553
+ "<loc_491>",
554
+ "<loc_492>",
555
+ "<loc_493>",
556
+ "<loc_494>",
557
+ "<loc_495>",
558
+ "<loc_496>",
559
+ "<loc_497>",
560
+ "<loc_498>",
561
+ "<loc_499>",
562
+ "<loc_500>",
563
+ "<img>",
564
+ "</img>"
565
+ ],
566
+ "bos_token": {
567
+ "content": "</s>",
568
+ "lstrip": false,
569
+ "normalized": true,
570
+ "rstrip": false,
571
+ "single_word": false
572
+ },
573
+ "eos_token": {
574
+ "content": "</s>",
575
+ "lstrip": false,
576
+ "normalized": true,
577
+ "rstrip": false,
578
+ "single_word": false
579
+ },
580
+ "pad_token": {
581
+ "content": "<pad>",
582
+ "lstrip": false,
583
+ "normalized": true,
584
+ "rstrip": false,
585
+ "single_word": false
586
+ },
587
+ "unk_token": {
588
+ "content": "</s>",
589
+ "lstrip": false,
590
+ "normalized": true,
591
+ "rstrip": false,
592
+ "single_word": false
593
+ }
594
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
The diff for this file is too large to render. See raw diff
 
vocab.json ADDED
The diff for this file is too large to render. See raw diff