Ragab167/m2m_translation_v2

Files changed (5) hide show

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/m2m100_418M](https://huggingface.co/facebook/m2m100_418M) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6394
 ## Model description
@@ -35,8 +35,8 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 64
-- eval_batch_size: 32
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
@@ -46,18 +46,26 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 3.7525        | 0.53  | 100  | 0.9179          |
-| 0.7831        | 1.06  | 200  | 0.6902          |
-| 0.6143        | 1.6   | 300  | 0.6662          |
-| 0.5988        | 2.13  | 400  | 0.6493          |
-| 0.5075        | 2.66  | 500  | 0.6415          |
-| 0.4766        | 3.19  | 600  | 0.6408          |
-| 0.4445        | 3.72  | 700  | 0.6394          |
 ### Framework versions
-- Transformers 4.38.2
 - Pytorch 2.1.2
-- Datasets 2.1.0
 - Tokenizers 0.15.2

 This model is a fine-tuned version of [facebook/m2m100_418M](https://huggingface.co/facebook/m2m100_418M) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1872
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 16
+- eval_batch_size: 4
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 3.7586        | 0.25  | 100  | 0.4346          |
+| 0.3151        | 0.51  | 200  | 0.2401          |
+| 0.2789        | 0.76  | 300  | 0.2173          |
+| 0.2415        | 1.02  | 400  | 0.2048          |
+| 0.166         | 1.27  | 500  | 0.2021          |
+| 0.161         | 1.52  | 600  | 0.1979          |
+| 0.1653        | 1.78  | 700  | 0.1931          |
+| 0.1508        | 2.03  | 800  | 0.1921          |
+| 0.1107        | 2.28  | 900  | 0.1894          |
+| 0.0961        | 2.54  | 1000 | 0.1905          |
+| 0.1185        | 2.79  | 1100 | 0.1871          |
+| 0.1032        | 3.05  | 1200 | 0.1881          |
+| 0.0788        | 3.3   | 1300 | 0.1881          |
+| 0.0765        | 3.55  | 1400 | 0.1876          |
+| 0.0816        | 3.81  | 1500 | 0.1872          |
 ### Framework versions
+- Transformers 4.39.3
 - Pytorch 2.1.2
+- Datasets 2.18.0
 - Tokenizers 0.15.2

config.json CHANGED Viewed

@@ -31,7 +31,7 @@
   "pad_token_id": 1,
   "scale_embedding": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.38.2",
   "use_cache": true,
   "vocab_size": 128112
 }

   "pad_token_id": 1,
   "scale_embedding": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
   "use_cache": true,
   "vocab_size": 128112
 }

generation_config.json CHANGED Viewed

@@ -7,5 +7,5 @@
   "max_length": 200,
   "num_beams": 5,
   "pad_token_id": 1,
-  "transformers_version": "4.38.2"
 }

   "max_length": 200,
   "num_beams": 5,
   "pad_token_id": 1,
+  "transformers_version": "4.39.3"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e819ac3a8b292cae7c145ca2936f26b903faac4248da139e34f138d85a55ed0
 size 1935681888

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcb7a604bbded2bbab46c1eabc882e52bec41b7e2682bdb8646d020de47b4f27
 size 1935681888

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a06de3b7ce2b9dc64c466884365b1102dcbce806083d307b467f1bf977ae27a
-size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:673df13a22d1b7b8cd680550189c8efb8eeeb56a0bce87a3bcac55714d9e7cc0
+size 5048