Training in progress, epoch 1

Files changed (10) hide show

config.json CHANGED Viewed

@@ -1,12 +1,11 @@
 {
-  "_name_or_path": "Geotrend/bert-base-bg-cased",
   "architectures": [
     "BertForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "directionality": "bidi",
-  "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
@@ -35,6 +34,7 @@
   "model_type": "bert",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "pad_token_id": 0,
   "pooler_fc_size": 768,
   "pooler_num_attention_heads": 12,
@@ -47,5 +47,5 @@
   "transformers_version": "4.27.4",
   "type_vocab_size": 2,
   "use_cache": true,
-  "vocab_size": 12134
 }

 {
+  "_name_or_path": "DeepPavlov/bert-base-bg-cs-pl-ru-cased",
   "architectures": [
     "BertForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "directionality": "bidi",
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "model_type": "bert",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
+  "output_past": true,
   "pad_token_id": 0,
   "pooler_fc_size": 768,
   "pooler_num_attention_heads": 12,
   "transformers_version": "4.27.4",
   "type_vocab_size": 2,
   "use_cache": true,
+  "vocab_size": 119547
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12046501283d8b26b21a61d7de45b49d27f8c1ab7010d34a4e70a1c074b2d9bd
-size 381535349

 version https://git-lfs.github.com/spec/v1
+oid sha256:181740487ed0e6fe105166908b13c4280cf3ddd3f50e2d245de19e9025eba415
+size 711508085

runs/Apr03_06-28-19_93e96c54436e/events.out.tfevents.1680503330.93e96c54436e.135.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b912062c0c3dd28ad5561e7de796ffcb2eaee36904da5cd00cffb3a0f9ee0462
-size 7164

 version https://git-lfs.github.com/spec/v1
+oid sha256:4783c353ebfab23f67374512dd28560c644267aa430130e674a23eea919abc57
+size 7518

runs/Apr03_06-28-19_93e96c54436e/events.out.tfevents.1680504601.93e96c54436e.135.2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:4dd9835fd16917fc99d12ddcdbf76d530ee394634a4557c7884de4008e4541fc
+size 457

runs/Apr03_06-58-30_93e96c54436e/1680505156.2080572/events.out.tfevents.1680505156.93e96c54436e.135.4 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c6076e8784053406a7f77e31ada8b2274679ff4914384b5dfd308aec8eeea02
+size 5887

runs/Apr03_06-58-30_93e96c54436e/events.out.tfevents.1680505156.93e96c54436e.135.3 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:1444ba48f5914fc4b3cc920705ea04b7d4645bfe034e74ed5f8cd7a3fede26f6
+size 5054

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -3,11 +3,11 @@
   "do_basic_tokenize": true,
   "do_lower_case": false,
   "mask_token": "[MASK]",
-  "model_max_length": 512,
   "never_split": null,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
-  "special_tokens_map_file": null,
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "BertTokenizer",

   "do_basic_tokenize": true,
   "do_lower_case": false,
   "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
   "never_split": null,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
+  "special_tokens_map_file": "/root/.cache/huggingface/hub/models--DeepPavlov--bert-base-bg-cs-pl-ru-cased/snapshots/0ab00895c22312978e0a8abd16bbec3fbf7f2bc8/special_tokens_map.json",
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "BertTokenizer",

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:707aaffd5f2e63e4dfee6c3803969edda413fb5138a5db5c7e358fb9e5606eba
 size 3579

 version https://git-lfs.github.com/spec/v1
+oid sha256:a35bf911db0770445e001b82f62698ef32e8be97f3d422b14ae72951bd03d9e5
 size 3579

vocab.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff