Upload 6 files

Browse files

Files changed (6) hide show

config.json +79 -0
model.safetensors +3 -0
special_tokens_map.json +37 -0
tokenizer.json +239 -0
tokenizer_config.json +65 -0
vocab.txt +75 -0

config.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+  "_name_or_path": "./bert-morphology-token-classification-finetunedv2v3",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "END",
+    "1": "END1",
+    "2": "HYPH",
+    "3": "HYPH1",
+    "4": "LINK",
+    "5": "LINK1",
+    "6": "LINK2",
+    "7": "LINK3",
+    "8": "POSTFIX",
+    "9": "PREF",
+    "10": "PREF1",
+    "11": "PREF2",
+    "12": "ROOT",
+    "13": "ROOT1",
+    "14": "ROOT2",
+    "15": "ROOT3",
+    "16": "ROOT4",
+    "17": "ROOT5",
+    "18": "SUFF",
+    "19": "SUFF1",
+    "20": "SUFF2",
+    "21": "SUFF3",
+    "22": "SUFF4",
+    "23": "SUFF5",
+    "24": "SUFF6"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "END": 0,
+    "END1": 1,
+    "HYPH": 2,
+    "HYPH1": 3,
+    "LINK": 4,
+    "LINK1": 5,
+    "LINK2": 6,
+    "LINK3": 7,
+    "POSTFIX": 8,
+    "PREF": 9,
+    "PREF1": 10,
+    "PREF2": 11,
+    "ROOT": 12,
+    "ROOT1": 13,
+    "ROOT2": 14,
+    "ROOT3": 15,
+    "ROOT4": 16,
+    "ROOT5": 17,
+    "SUFF": 18,
+    "SUFF1": 19,
+    "SUFF2": 20,
+    "SUFF3": 21,
+    "SUFF4": 22,
+    "SUFF5": 23,
+    "SUFF6": 24
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 75
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00ce21b18af4a2c040fda2e4af4e3b8f4b909c5c960c799ee4641d01a3eb3775
+size 342133524

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 34,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
+  "padding": {
+    "strategy": {
+      "Fixed": 34
+    },
+    "direction": "Right",
+    "pad_to_multiple_of": null,
+    "pad_id": 0,
+    "pad_type_id": 0,
+    "pad_token": "[PAD]"
+  },
+  "added_tokens": [
+    {
+      "id": 0,
+      "content": "[PAD]",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 1,
+      "content": "[UNK]",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 2,
+      "content": "[CLS]",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 3,
+      "content": "[SEP]",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 4,
+      "content": "[MASK]",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    }
+  ],
+  "normalizer": {
+    "type": "BertNormalizer",
+    "clean_text": true,
+    "handle_chinese_chars": true,
+    "strip_accents": false,
+    "lowercase": true
+  },
+  "pre_tokenizer": {
+    "type": "BertPreTokenizer"
+  },
+  "post_processor": {
+    "type": "TemplateProcessing",
+    "single": [
+      {
+        "SpecialToken": {
+          "id": "[CLS]",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "[SEP]",
+          "type_id": 0
+        }
+      }
+    ],
+    "pair": [
+      {
+        "SpecialToken": {
+          "id": "[CLS]",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "[SEP]",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "B",
+          "type_id": 1
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "[SEP]",
+          "type_id": 1
+        }
+      }
+    ],
+    "special_tokens": {
+      "[CLS]": {
+        "id": "[CLS]",
+        "ids": [
+          2
+        ],
+        "tokens": [
+          "[CLS]"
+        ]
+      },
+      "[SEP]": {
+        "id": "[SEP]",
+        "ids": [
+          3
+        ],
+        "tokens": [
+          "[SEP]"
+        ]
+      }
+    }
+  },
+  "decoder": {
+    "type": "WordPiece",
+    "prefix": "##",
+    "cleanup": true
+  },
+  "model": {
+    "type": "WordPiece",
+    "unk_token": "[UNK]",
+    "continuing_subword_prefix": "##",
+    "max_input_chars_per_word": 100,
+    "vocab": {
+      "[PAD]": 0,
+      "[UNK]": 1,
+      "[CLS]": 2,
+      "[SEP]": 3,
+      "[MASK]": 4,
+      "а": 5,
+      "б": 6,
+      "в": 7,
+      "г": 8,
+      "д": 9,
+      "е": 10,
+      "ё": 11,
+      "ж": 12,
+      "з": 13,
+      "и": 14,
+      "й": 15,
+      "к": 16,
+      "л": 17,
+      "м": 18,
+      "н": 19,
+      "о": 20,
+      "п": 21,
+      "р": 22,
+      "с": 23,
+      "т": 24,
+      "у": 25,
+      "ф": 26,
+      "х": 27,
+      "ц": 28,
+      "ч": 29,
+      "ш": 30,
+      "щ": 31,
+      "ъ": 32,
+      "ы": 33,
+      "ь": 34,
+      "э": 35,
+      "ю": 36,
+      "я": 37,
+      "##а": 38,
+      "##б": 39,
+      "##в": 40,
+      "##г": 41,
+      "##д": 42,
+      "##е": 43,
+      "##ё": 44,
+      "##ж": 45,
+      "##з": 46,
+      "##и": 47,
+      "##й": 48,
+      "##к": 49,
+      "##л": 50,
+      "##м": 51,
+      "##н": 52,
+      "##о": 53,
+      "##п": 54,
+      "##р": 55,
+      "##с": 56,
+      "##т": 57,
+      "##у": 58,
+      "##ф": 59,
+      "##х": 60,
+      "##ц": 61,
+      "##ч": 62,
+      "##ш": 63,
+      "##щ": 64,
+      "##ъ": 65,
+      "##ы": 66,
+      "##ь": 67,
+      "##э": 68,
+      "##ю": 69,
+      "##я": 70,
+      "_": 71,
+      "-": 72,
+      "##_": 73,
+      "##-": 74
+    }
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "lowercase": true,
+  "mask_token": "[MASK]",
+  "max_length": 34,
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": false,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

vocab.txt ADDED Viewed

	@@ -0,0 +1,75 @@

+[PAD]
+[UNK]
+[CLS]
+[SEP]
+[MASK]
+а
+б
+в
+г
+д
+е
+ё
+ж
+з
+и
+й
+к
+л
+м
+н
+о
+п
+р
+с
+т
+у
+ф
+х
+ц
+ч
+ш
+щ
+ъ
+ы
+ь
+э
+ю
+я
+##а
+##б
+##в
+##г
+##д
+##е
+##ё
+##ж
+##з
+##и
+##й
+##к
+##л
+##м
+##н
+##о
+##п
+##р
+##с
+##т
+##у
+##ф
+##х
+##ц
+##ч
+##ш
+##щ
+##ъ
+##ы
+##ь
+##э
+##ю
+##я
+_
+-
+##_
+##-