Training in progress, step 1500

Files changed (6) hide show

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "indictrans-en-ne-checkpoint/checkpoint-732",
   "activation_dropout": 0.0,
   "activation_function": "gelu",
   "architectures": [
@@ -12,18 +12,18 @@
     "AutoModelForSeq2SeqLM": "modeling_indictrans.IndicTransForConditionalGeneration"
   },
   "bos_token_id": 0,
-  "decoder_attention_heads": 8,
-  "decoder_embed_dim": 512,
-  "decoder_ffn_dim": 2048,
   "decoder_layerdrop": 0,
   "decoder_layers": 18,
   "decoder_normalize_before": true,
   "decoder_start_token_id": 2,
   "decoder_vocab_size": 122672,
   "dropout": 0.2,
-  "encoder_attention_heads": 8,
-  "encoder_embed_dim": 512,
-  "encoder_ffn_dim": 2048,
   "encoder_layerdrop": 0,
   "encoder_layers": 18,
   "encoder_normalize_before": true,
@@ -31,14 +31,14 @@
   "eos_token_id": 2,
   "init_std": 0.02,
   "is_encoder_decoder": true,
-  "layernorm_embedding": true,
   "max_source_positions": 256,
   "max_target_positions": 256,
   "model_type": "IndicTrans",
   "num_hidden_layers": 18,
   "pad_token_id": 1,
   "scale_embedding": true,
-  "share_decoder_input_output_embed": true,
   "tokenizer_class": "IndicTransTokenizer",
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.2",

 {
+  "_name_or_path": "indictrans2-en-indic-1B",
   "activation_dropout": 0.0,
   "activation_function": "gelu",
   "architectures": [
     "AutoModelForSeq2SeqLM": "modeling_indictrans.IndicTransForConditionalGeneration"
   },
   "bos_token_id": 0,
+  "decoder_attention_heads": 16,
+  "decoder_embed_dim": 1024,
+  "decoder_ffn_dim": 8192,
   "decoder_layerdrop": 0,
   "decoder_layers": 18,
   "decoder_normalize_before": true,
   "decoder_start_token_id": 2,
   "decoder_vocab_size": 122672,
   "dropout": 0.2,
+  "encoder_attention_heads": 16,
+  "encoder_embed_dim": 1024,
+  "encoder_ffn_dim": 8192,
   "encoder_layerdrop": 0,
   "encoder_layers": 18,
   "encoder_normalize_before": true,
   "eos_token_id": 2,
   "init_std": 0.02,
   "is_encoder_decoder": true,
+  "layernorm_embedding": false,
   "max_source_positions": 256,
   "max_target_positions": 256,
   "model_type": "IndicTrans",
   "num_hidden_layers": 18,
   "pad_token_id": 1,
   "scale_embedding": true,
+  "share_decoder_input_output_embed": false,
   "tokenizer_class": "IndicTransTokenizer",
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.2",

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57ab9a212c34ac081c016977ec6a878b53636ae17a36dfd7aed8f52136c99d01
-size 549258952

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b119a9e743ae5f25320dd5bc3973c2c8e39c3cb81d397aa2cab123b921254d8
+size 2231178416

runs/Aug25_05-13-29_ip-10-192-11-185/events.out.tfevents.1724562810.ip-10-192-11-185.4259.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:06697ddb9996c0d7a0c5d5c411f33e46f9b88cb8803300d20a254e47c079f15e
+size 12024

runs/Aug25_05-20-42_ip-10-192-11-185/events.out.tfevents.1724563243.ip-10-192-11-185.12802.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5afb96f355dea401e97736077432f294404e472bf5d70d5ee2cfaeb54f3202e
+size 5795

runs/Aug25_05-22-20_ip-10-192-11-185/events.out.tfevents.1724563340.ip-10-192-11-185.14365.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:5321ce71e4fe574859a181a23a83ef0d96e80b18a58078adbb4bea12bb18cc2c
+size 69268

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89410dd144daa94d81e9649aa908c9a7aa5b26014f77632c4e3dbbbf389351cf
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a46a0d317ad95b2ddbaf58e3b8f7b936e045b021e8cf9d726a1a02c71a8fcbc
 size 5368