Training in progress, epoch 1

Browse files

Files changed (6) hide show

config.json +15 -7
model.safetensors +2 -2
special_tokens_map.json +28 -4
tokenizer_config.json +17 -16
training_args.bin +2 -2
vocab.json +46 -149

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/m/triton/scratch/elec/puhe/p/palp3/MUCS/commonvoice_with_xlsr/wav2vec2-xls-r-300m",
   "activation_dropout": 0.0,
   "adapter_attn_dim": null,
   "adapter_kernel_size": 3,
@@ -42,7 +42,7 @@
     2,
     2
   ],
-  "ctc_loss_reduction": "mean",
   "ctc_zero_infinity": false,
   "diversity_loss_weight": 0.1,
   "do_stable_layer_norm": true,
@@ -59,13 +59,21 @@
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
-  "layerdrop": 0.0,
   "mask_feature_length": 10,
   "mask_feature_min_masks": 0,
   "mask_feature_prob": 0.0,
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
-  "mask_time_prob": 0.05,
   "model_type": "wav2vec2",
   "num_adapter_layers": 3,
   "num_attention_heads": 16,
@@ -77,7 +85,7 @@
   "num_hidden_layers": 24,
   "num_negatives": 100,
   "output_hidden_size": 1024,
-  "pad_token_id": 148,
   "proj_codevector_dim": 768,
   "tdnn_dilation": [
     1,
@@ -101,8 +109,8 @@
     1
   ],
   "torch_dtype": "float32",
-  "transformers_version": "4.43.1",
   "use_weighted_layer_sum": false,
-  "vocab_size": 151,
   "xvector_output_dim": 512
 }

 {
+  "_name_or_path": "/scratch/elec/puhe/p/palp3/sami_ASR/downloaded-large-sami/wav2vec2-large-sami-22k",
   "activation_dropout": 0.0,
   "adapter_attn_dim": null,
   "adapter_kernel_size": 3,
     2,
     2
   ],
+  "ctc_loss_reduction": "sum",
   "ctc_zero_infinity": false,
   "diversity_loss_weight": 0.1,
   "do_stable_layer_norm": true,
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
   "mask_feature_length": 10,
   "mask_feature_min_masks": 0,
   "mask_feature_prob": 0.0,
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.075,
+  "mask_time_selection": "static",
   "model_type": "wav2vec2",
   "num_adapter_layers": 3,
   "num_attention_heads": 16,
   "num_hidden_layers": 24,
   "num_negatives": 100,
   "output_hidden_size": 1024,
+  "pad_token_id": 0,
   "proj_codevector_dim": 768,
   "tdnn_dilation": [
     1,
     1
   ],
   "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
   "use_weighted_layer_sum": false,
+  "vocab_size": 46,
   "xvector_output_dim": 512
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7e054683214adacbdf0024a70815feace4a1bc7c6b8b0fc74b5155880272744
-size 1262426580

 version https://git-lfs.github.com/spec/v1
+oid sha256:319752d98f832a046929197c9252fd2d091f9e8b2d805e7aade17a58fc9639c6
+size 1261996080

special_tokens_map.json CHANGED Viewed

@@ -1,6 +1,30 @@
 {
-  "bos_token": "<s>",
-  "eos_token": "</s>",
-  "pad_token": "[PAD]",
-  "unk_token": "[UNK]"
 }

 {
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": true,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": true,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": true,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": true,
+    "single_word": false
+  }
 }

tokenizer_config.json CHANGED Viewed

@@ -1,48 +1,49 @@
 {
   "added_tokens_decoder": {
-    "147": {
-      "content": "[UNK]",
       "lstrip": true,
       "normalized": false,
       "rstrip": true,
       "single_word": false,
       "special": false
     },
-    "148": {
-      "content": "[PAD]",
       "lstrip": true,
       "normalized": false,
       "rstrip": true,
       "single_word": false,
       "special": false
     },
-    "149": {
-      "content": "<s>",
-      "lstrip": false,
       "normalized": false,
-      "rstrip": false,
       "single_word": false,
-      "special": true
     },
-    "150": {
-      "content": "</s>",
-      "lstrip": false,
       "normalized": false,
-      "rstrip": false,
       "single_word": false,
-      "special": true
     }
   },
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": true,
   "do_lower_case": false,
   "eos_token": "</s>",
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "[PAD]",
   "processor_class": "Wav2Vec2Processor",
   "replace_word_delimiter_char": " ",
   "target_lang": null,
   "tokenizer_class": "Wav2Vec2CTCTokenizer",
-  "unk_token": "[UNK]",
   "word_delimiter_token": "|"
 }

 {
   "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
       "lstrip": true,
       "normalized": false,
       "rstrip": true,
       "single_word": false,
       "special": false
     },
+    "1": {
+      "content": "<s>",
       "lstrip": true,
       "normalized": false,
       "rstrip": true,
       "single_word": false,
       "special": false
     },
+    "2": {
+      "content": "</s>",
+      "lstrip": true,
       "normalized": false,
+      "rstrip": true,
       "single_word": false,
+      "special": false
     },
+    "3": {
+      "content": "<unk>",
+      "lstrip": true,
       "normalized": false,
+      "rstrip": true,
       "single_word": false,
+      "special": false
     }
   },
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": true,
   "do_lower_case": false,
   "eos_token": "</s>",
+  "extra_special_tokens": {},
   "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
   "processor_class": "Wav2Vec2Processor",
   "replace_word_delimiter_char": " ",
   "target_lang": null,
   "tokenizer_class": "Wav2Vec2CTCTokenizer",
+  "unk_token": "<unk>",
   "word_delimiter_token": "|"
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06506a8c01770d72e91032d86a6d861bf0ea22c208e29e94261ac2099fedd049
-size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:31db71451cfcf19c3e70545607fc065ba7fab32d28bee8cb16f2e2f67cb5861b
+size 5432

vocab.json CHANGED Viewed

@@ -1,151 +1,48 @@
 {
-  "!": 1,
-  "#": 2,
-  "$": 3,
-  "%": 4,
-  "&": 5,
-  "*": 6,
-  "+": 7,
-  "/": 8,
-  "0": 9,
-  "1": 10,
-  "2": 11,
-  "3": 12,
-  "4": 13,
-  "5": 14,
-  "6": 15,
-  "7": 16,
-  "8": 17,
-  "9": 18,
-  ":": 19,
-  ";": 20,
-  "<": 21,
-  "=": 22,
-  ">": 23,
-  "@": 24,
-  "[PAD]": 148,
-  "[UNK]": 147,
-  "\\": 25,
-  "^": 26,
-  "_": 27,
-  "`": 28,
-  "a": 29,
-  "b": 30,
-  "c": 31,
-  "d": 32,
-  "e": 33,
-  "f": 34,
-  "g": 35,
-  "h": 36,
-  "i": 37,
-  "j": 38,
-  "k": 39,
-  "l": 40,
-  "m": 41,
-  "n": 42,
-  "o": 43,
-  "p": 44,
-  "q": 45,
-  "r": 46,
-  "s": 47,
-  "t": 48,
-  "u": 49,
-  "v": 50,
-  "w": 51,
-  "x": 52,
-  "y": 53,
-  "z": 54,
-  "{": 55,
-  "|": 0,
-  "}": 56,
-  "~": 57,
-  "°": 58,
-  "º": 59,
-  "×": 60,
-  "λ": 61,
-  "μ": 62,
-  "π": 63,
-  "φ": 64,
-  "ω": 65,
-  "ँ": 66,
-  "ं": 67,
-  "ः": 68,
-  "अ": 69,
-  "आ": 70,
-  "इ": 71,
-  "ई": 72,
-  "उ": 73,
-  "ऊ": 74,
-  "ऋ": 75,
-  "ऍ": 76,
-  "ए": 77,
-  "ऐ": 78,
-  "ऑ": 79,
-  "ओ": 80,
-  "औ": 81,
-  "क": 82,
-  "ख": 83,
-  "ग": 84,
-  "घ": 85,
-  "च": 86,
-  "छ": 87,
-  "ज": 88,
-  "झ": 89,
-  "ञ": 90,
-  "ट": 91,
-  "ठ": 92,
-  "ड": 93,
-  "ढ": 94,
-  "ण": 95,
-  "त": 96,
-  "थ": 97,
-  "द": 98,
-  "ध": 99,
-  "न": 100,
-  "ऩ": 101,
-  "प": 102,
-  "फ": 103,
-  "ब": 104,
-  "भ": 105,
-  "म": 106,
-  "य": 107,
-  "र": 108,
-  "ऱ": 109,
-  "ल": 110,
-  "व": 111,
-  "श": 112,
-  "ष": 113,
-  "स": 114,
-  "ह": 115,
-  "़": 116,
-  "ा": 117,
-  "ि": 118,
-  "ी": 119,
-  "ु": 120,
-  "ू": 121,
-  "ृ": 122,
-  "ॅ": 123,
-  "े": 124,
-  "ै": 125,
-  "ॉ": 126,
-  "ो": 127,
-  "ौ": 128,
-  "्": 129,
-  "०": 130,
-  "१": 131,
-  "२": 132,
-  "३": 133,
-  "४": 134,
-  "५": 135,
-  "६": 136,
-  "७": 137,
-  "८": 138,
-  "९": 139,
-  "–": 140,
-  "•": 141,
-  "…": 142,
-  "›": 143,
-  "⅓": 144,
-  "→": 145,
-  "−": 146
 }

 {
+  "</s>": 2,
+  "<pad>": 0,
+  "<s>": 1,
+  "<unk>": 3,
+  "a": 16,
+  "b": 27,
+  "c": 28,
+  "d": 23,
+  "e": 19,
+  "f": 26,
+  "g": 25,
+  "h": 8,
+  "i": 9,
+  "j": 11,
+  "k": 21,
+  "l": 20,
+  "m": 18,
+  "n": 10,
+  "o": 7,
+  "p": 15,
+  "q": 31,
+  "r": 22,
+  "s": 17,
+  "t": 14,
+  "u": 6,
+  "v": 5,
+  "w": 30,
+  "x": 32,
+  "y": 13,
+  "z": 29,
+  "|": 4,
+  "á": 34,
+  "ä": 12,
+  "å": 33,
+  "æ": 35,
+  "é": 36,
+  "ï": 37,
+  "ö": 24,
+  "ø": 38,
+  "ü": 39,
+  "č": 40,
+  "đ": 41,
+  "ŋ": 42,
+  "š": 43,
+  "ŧ": 44,
+  "ž": 45
 }