Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

1_Pooling/config.json +2 -2
README.md +26 -22
config_sentence_transformers.json +1 -1
model.safetensors +1 -1
modules.json +0 -6
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
sentence_bert_config.json +1 -1
tokenizer.json +1 -1
tokenizer_config.json +2 -2
trainer_state.json +157 -82
training_args.bin +2 -2

1_Pooling/config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "word_embedding_dimension": 768,
-  "pooling_mode_cls_token": false,
-  "pooling_mode_mean_tokens": true,
   "pooling_mode_max_tokens": false,
   "pooling_mode_mean_sqrt_len_tokens": false,
   "pooling_mode_weightedmean_tokens": false,

 {
   "word_embedding_dimension": 768,
+  "pooling_mode_cls_token": true,
+  "pooling_mode_mean_tokens": false,
   "pooling_mode_max_tokens": false,
   "pooling_mode_mean_sqrt_len_tokens": false,
   "pooling_mode_weightedmean_tokens": false,

README.md CHANGED Viewed

@@ -6,7 +6,7 @@ tags:
 - generated_from_trainer
 - dataset_size:10635
 - loss:MultipleNegativesSymmetricRankingLoss
-base_model: sentence-transformers/all-mpnet-base-v2
 widget:
 - source_sentence: '12 Rules For Life: An Antidote to Chaos by Jordan B. Peterson'
   sentences:
@@ -40,18 +40,18 @@ pipeline_tag: sentence-similarity
 library_name: sentence-transformers
 ---
-# SentenceTransformer based on sentence-transformers/all-mpnet-base-v2
-This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2) on the train dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
 ### Model Description
 - **Model Type:** Sentence Transformer
-- **Base model:** [sentence-transformers/all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2) <!-- at revision 12e86a3c702fc3c50205a8db88f0ec7c0b6b94a0 -->
-- **Maximum Sequence Length:** 384 tokens
 - **Output Dimensionality:** 768 dimensions
-- **Similarity Function:** Cosine Similarity
 - **Training Dataset:**
     - train
 <!-- - **Language:** Unknown -->
@@ -67,9 +67,8 @@ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [s
 ```
 SentenceTransformer(
-  (0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: MPNetModel
-  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
-  (2): Normalize()
 )
 ```
@@ -202,7 +201,7 @@ You can finetune this model on your own dataset.
 - `per_device_train_batch_size`: 16
 - `per_device_eval_batch_size`: 16
 - `learning_rate`: 2e-05
-- `num_train_epochs`: 7
 - `warmup_ratio`: 0.1
 #### All Hyperparameters
@@ -225,7 +224,7 @@ You can finetune this model on your own dataset.
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
-- `num_train_epochs`: 7
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
@@ -327,17 +326,22 @@ You can finetune this model on your own dataset.
 ### Training Logs
 | Epoch  | Step | Training Loss | train loss |
 |:------:|:----:|:-------------:|:----------:|
-| 0.6006 | 200  | 2.5755        | 2.4113     |
-| 1.2012 | 400  | 2.2395        | 2.3553     |
-| 1.8018 | 600  | 2.0813        | 2.3290     |
-| 2.4024 | 800  | 1.9813        | 2.3169     |
-| 3.0030 | 1000 | 1.9233        | 2.3081     |
-| 3.6036 | 1200 | 1.8338        | 2.3076     |
-| 4.2042 | 1400 | 1.8029        | 2.3380     |
-| 4.8048 | 1600 | 1.7766        | 2.3005     |
-| 5.4054 | 1800 | 1.722         | 2.3254     |
-| 6.0060 | 2000 | 1.7217        | 2.3215     |
-| 6.6066 | 2200 | 1.6759        | 2.3322     |
 ### Framework Versions

 - generated_from_trainer
 - dataset_size:10635
 - loss:MultipleNegativesSymmetricRankingLoss
+base_model: sentence-transformers/multi-qa-mpnet-base-dot-v1
 widget:
 - source_sentence: '12 Rules For Life: An Antidote to Chaos by Jordan B. Peterson'
   sentences:
 library_name: sentence-transformers
 ---
+# SentenceTransformer based on sentence-transformers/multi-qa-mpnet-base-dot-v1
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/multi-qa-mpnet-base-dot-v1](https://huggingface.co/sentence-transformers/multi-qa-mpnet-base-dot-v1) on the train dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
 ### Model Description
 - **Model Type:** Sentence Transformer
+- **Base model:** [sentence-transformers/multi-qa-mpnet-base-dot-v1](https://huggingface.co/sentence-transformers/multi-qa-mpnet-base-dot-v1) <!-- at revision 4633e80e17ea975bc090c97b049da26062b054d3 -->
+- **Maximum Sequence Length:** 512 tokens
 - **Output Dimensionality:** 768 dimensions
+- **Similarity Function:** Dot Product
 - **Training Dataset:**
     - train
 <!-- - **Language:** Unknown -->
 ```
 SentenceTransformer(
+  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: MPNetModel
+  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
 )
 ```
 - `per_device_train_batch_size`: 16
 - `per_device_eval_batch_size`: 16
 - `learning_rate`: 2e-05
+- `num_train_epochs`: 10
 - `warmup_ratio`: 0.1
 #### All Hyperparameters
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
+- `num_train_epochs`: 10
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
 ### Training Logs
 | Epoch  | Step | Training Loss | train loss |
 |:------:|:----:|:-------------:|:----------:|
+| 0.6006 | 200  | 2.6385        | 2.4890     |
+| 1.2012 | 400  | 2.3324        | 2.4199     |
+| 1.8018 | 600  | 2.1772        | 2.3891     |
+| 2.4024 | 800  | 2.0635        | 2.3691     |
+| 3.0030 | 1000 | 1.9915        | 2.3609     |
+| 3.6036 | 1200 | 1.9008        | 2.3689     |
+| 4.2042 | 1400 | 1.8603        | 2.3850     |
+| 4.8048 | 1600 | 1.8421        | 2.3468     |
+| 5.4054 | 1800 | 1.785         | 2.3649     |
+| 6.0060 | 2000 | 1.786         | 2.3783     |
+| 6.6066 | 2200 | 1.7331        | 2.3782     |
+| 7.2072 | 2400 | 1.7062        | 2.3826     |
+| 7.8078 | 2600 | 1.6929        | 2.3926     |
+| 8.4084 | 2800 | 1.6618        | 2.4069     |
+| 9.0090 | 3000 | 1.6348        | 2.4155     |
+| 9.6096 | 3200 | 1.6553        | 2.4060     |
 ### Framework Versions

config_sentence_transformers.json CHANGED Viewed

@@ -6,5 +6,5 @@
   },
   "prompts": {},
   "default_prompt_name": null,
-  "similarity_fn_name": "cosine"
 }

   },
   "prompts": {},
   "default_prompt_name": null,
+  "similarity_fn_name": "dot"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ddbdb6468cca74299465849d3460bd26cc567441655d3084af35bb3acd7144e
 size 437967672

 version https://git-lfs.github.com/spec/v1
+oid sha256:75eb15217feda2677c50021eb1b205602aafb32075a93777c06d32e5ed495f54
 size 437967672

modules.json CHANGED Viewed

@@ -10,11 +10,5 @@
     "name": "1",
     "path": "1_Pooling",
     "type": "sentence_transformers.models.Pooling"
-  },
-  {
-    "idx": 2,
-    "name": "2",
-    "path": "2_Normalize",
-    "type": "sentence_transformers.models.Normalize"
   }
 ]

     "name": "1",
     "path": "1_Pooling",
     "type": "sentence_transformers.models.Pooling"
   }
 ]

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43f6626a50f5d4a1fe140af797071be81b4523615afa4e4b6d5795ee9ef59320
 size 876058170

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b3cab1a8a0c140c73e96cbcb529e091bfa6bba42ac1dc93a4ecf69ccf501fbf
 size 876058170

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9887d9179089333ff9b4030c7aa932e0435c5243b5cc42026e85559ac64ae3e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e0d77b405f4c1d7f21a2c4933ee4193fa622ed4c467c356582f6f67c7022846
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:190fc72819eea0b8f2844c8816cd0625c6bce70b27c2d3b3ce154d7ea3cae54a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:243e8de64f4f19d16558eb6f5b4a77ed28295d1f7205fc19fb8d2b20be1c6b46
 size 1064

sentence_bert_config.json CHANGED Viewed

@@ -1,4 +1,4 @@
 {
-  "max_seq_length": 384,
   "do_lower_case": false
 }

 {
+  "max_seq_length": 512,
   "do_lower_case": false
 }

tokenizer.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 384,
     "strategy": "LongestFirst",
     "stride": 0
   },

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 512,
     "strategy": "LongestFirst",
     "stride": 0
   },

tokenizer_config.json CHANGED Viewed

@@ -56,8 +56,8 @@
   "eos_token": "</s>",
   "extra_special_tokens": {},
   "mask_token": "<mask>",
-  "max_length": 128,
-  "model_max_length": 384,
   "pad_to_multiple_of": null,
   "pad_token": "<pad>",
   "pad_token_type_id": 0,

   "eos_token": "</s>",
   "extra_special_tokens": {},
   "mask_token": "<mask>",
+  "max_length": 250,
+  "model_max_length": 512,
   "pad_to_multiple_of": null,
   "pad_token": "<pad>",
   "pad_token_type_id": 0,

trainer_state.json CHANGED Viewed

@@ -2,184 +2,259 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.0,
   "eval_steps": 200,
-  "global_step": 2331,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.6006006006006006,
-      "grad_norm": 9.713151931762695,
-      "learning_rate": 1.700854700854701e-05,
-      "loss": 2.5755,
       "step": 200
     },
     {
       "epoch": 0.6006006006006006,
-      "eval_train_loss": 2.4112653732299805,
-      "eval_train_runtime": 16.1652,
-      "eval_train_samples_per_second": 331.515,
-      "eval_train_steps_per_second": 10.393,
       "step": 200
     },
     {
       "epoch": 1.2012012012012012,
-      "grad_norm": 8.402304649353027,
-      "learning_rate": 1.8426323319027183e-05,
-      "loss": 2.2395,
       "step": 400
     },
     {
       "epoch": 1.2012012012012012,
-      "eval_train_loss": 2.3553037643432617,
-      "eval_train_runtime": 16.1973,
-      "eval_train_samples_per_second": 330.857,
-      "eval_train_steps_per_second": 10.372,
       "step": 400
     },
     {
       "epoch": 1.8018018018018018,
-      "grad_norm": 8.638038635253906,
-      "learning_rate": 1.6518836432999526e-05,
-      "loss": 2.0813,
       "step": 600
     },
     {
       "epoch": 1.8018018018018018,
-      "eval_train_loss": 2.3290350437164307,
-      "eval_train_runtime": 15.8942,
-      "eval_train_samples_per_second": 337.167,
-      "eval_train_steps_per_second": 10.57,
       "step": 600
     },
     {
       "epoch": 2.4024024024024024,
-      "grad_norm": 8.17331314086914,
-      "learning_rate": 1.4611349546971865e-05,
-      "loss": 1.9813,
       "step": 800
     },
     {
       "epoch": 2.4024024024024024,
-      "eval_train_loss": 2.316850423812866,
-      "eval_train_runtime": 16.4597,
-      "eval_train_samples_per_second": 325.584,
-      "eval_train_steps_per_second": 10.207,
       "step": 800
     },
     {
       "epoch": 3.003003003003003,
-      "grad_norm": 8.972688674926758,
-      "learning_rate": 1.2703862660944206e-05,
-      "loss": 1.9233,
       "step": 1000
     },
     {
       "epoch": 3.003003003003003,
-      "eval_train_loss": 2.3080697059631348,
-      "eval_train_runtime": 16.059,
-      "eval_train_samples_per_second": 333.707,
-      "eval_train_steps_per_second": 10.461,
       "step": 1000
     },
     {
       "epoch": 3.6036036036036037,
-      "grad_norm": 8.94318962097168,
-      "learning_rate": 1.0796375774916547e-05,
-      "loss": 1.8338,
       "step": 1200
     },
     {
       "epoch": 3.6036036036036037,
-      "eval_train_loss": 2.3076283931732178,
-      "eval_train_runtime": 16.1704,
-      "eval_train_samples_per_second": 331.408,
-      "eval_train_steps_per_second": 10.389,
       "step": 1200
     },
     {
       "epoch": 4.2042042042042045,
-      "grad_norm": 10.612234115600586,
-      "learning_rate": 8.888888888888888e-06,
-      "loss": 1.8029,
       "step": 1400
     },
     {
       "epoch": 4.2042042042042045,
-      "eval_train_loss": 2.337951183319092,
-      "eval_train_runtime": 16.2105,
-      "eval_train_samples_per_second": 330.588,
-      "eval_train_steps_per_second": 10.364,
       "step": 1400
     },
     {
       "epoch": 4.804804804804805,
-      "grad_norm": 8.080140113830566,
-      "learning_rate": 6.981402002861231e-06,
-      "loss": 1.7766,
       "step": 1600
     },
     {
       "epoch": 4.804804804804805,
-      "eval_train_loss": 2.300466775894165,
-      "eval_train_runtime": 16.2606,
-      "eval_train_samples_per_second": 329.569,
-      "eval_train_steps_per_second": 10.332,
       "step": 1600
     },
     {
       "epoch": 5.405405405405405,
-      "grad_norm": 8.161681175231934,
-      "learning_rate": 5.073915116833572e-06,
-      "loss": 1.722,
       "step": 1800
     },
     {
       "epoch": 5.405405405405405,
-      "eval_train_loss": 2.325410842895508,
-      "eval_train_runtime": 16.2864,
-      "eval_train_samples_per_second": 329.047,
-      "eval_train_steps_per_second": 10.315,
       "step": 1800
     },
     {
       "epoch": 6.006006006006006,
-      "grad_norm": 9.505444526672363,
-      "learning_rate": 3.1664282308059137e-06,
-      "loss": 1.7217,
       "step": 2000
     },
     {
       "epoch": 6.006006006006006,
-      "eval_train_loss": 2.3215274810791016,
-      "eval_train_runtime": 15.9019,
-      "eval_train_samples_per_second": 337.003,
-      "eval_train_steps_per_second": 10.565,
       "step": 2000
     },
     {
       "epoch": 6.606606606606607,
-      "grad_norm": 11.631622314453125,
-      "learning_rate": 1.2589413447782547e-06,
-      "loss": 1.6759,
       "step": 2200
     },
     {
       "epoch": 6.606606606606607,
-      "eval_train_loss": 2.3322482109069824,
-      "eval_train_runtime": 15.9374,
-      "eval_train_samples_per_second": 336.253,
-      "eval_train_steps_per_second": 10.541,
       "step": 2200
     }
   ],
   "logging_steps": 200,
-  "max_steps": 2331,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
-  "save_steps": 3000,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.0,
   "eval_steps": 200,
+  "global_step": 3330,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.6006006006006006,
+      "grad_norm": 10.51630973815918,
+      "learning_rate": 1.1951951951951951e-05,
+      "loss": 2.6385,
       "step": 200
     },
     {
       "epoch": 0.6006006006006006,
+      "eval_train_loss": 2.488961696624756,
+      "eval_train_runtime": 15.8109,
+      "eval_train_samples_per_second": 338.943,
+      "eval_train_steps_per_second": 10.626,
       "step": 200
     },
     {
       "epoch": 1.2012012012012012,
+      "grad_norm": 9.947551727294922,
+      "learning_rate": 1.9559559559559563e-05,
+      "loss": 2.3324,
       "step": 400
     },
     {
       "epoch": 1.2012012012012012,
+      "eval_train_loss": 2.419891119003296,
+      "eval_train_runtime": 15.4172,
+      "eval_train_samples_per_second": 347.6,
+      "eval_train_steps_per_second": 10.897,
       "step": 400
     },
     {
       "epoch": 1.8018018018018018,
+      "grad_norm": 9.27906322479248,
+      "learning_rate": 1.8224891558224895e-05,
+      "loss": 2.1772,
       "step": 600
     },
     {
       "epoch": 1.8018018018018018,
+      "eval_train_loss": 2.389059543609619,
+      "eval_train_runtime": 15.629,
+      "eval_train_samples_per_second": 342.889,
+      "eval_train_steps_per_second": 10.749,
       "step": 600
     },
     {
       "epoch": 2.4024024024024024,
+      "grad_norm": 8.641522407531738,
+      "learning_rate": 1.6890223556890223e-05,
+      "loss": 2.0635,
       "step": 800
     },
     {
       "epoch": 2.4024024024024024,
+      "eval_train_loss": 2.369140148162842,
+      "eval_train_runtime": 15.6802,
+      "eval_train_samples_per_second": 341.768,
+      "eval_train_steps_per_second": 10.714,
       "step": 800
     },
     {
       "epoch": 3.003003003003003,
+      "grad_norm": 9.14696216583252,
+      "learning_rate": 1.555555555555556e-05,
+      "loss": 1.9915,
       "step": 1000
     },
     {
       "epoch": 3.003003003003003,
+      "eval_train_loss": 2.360917806625366,
+      "eval_train_runtime": 15.1166,
+      "eval_train_samples_per_second": 354.511,
+      "eval_train_steps_per_second": 11.114,
       "step": 1000
     },
     {
       "epoch": 3.6036036036036037,
+      "grad_norm": 8.530783653259277,
+      "learning_rate": 1.4220887554220888e-05,
+      "loss": 1.9008,
       "step": 1200
     },
     {
       "epoch": 3.6036036036036037,
+      "eval_train_loss": 2.3688642978668213,
+      "eval_train_runtime": 15.4199,
+      "eval_train_samples_per_second": 347.539,
+      "eval_train_steps_per_second": 10.895,
       "step": 1200
     },
     {
       "epoch": 4.2042042042042045,
+      "grad_norm": 10.91430377960205,
+      "learning_rate": 1.288621955288622e-05,
+      "loss": 1.8603,
       "step": 1400
     },
     {
       "epoch": 4.2042042042042045,
+      "eval_train_loss": 2.3849704265594482,
+      "eval_train_runtime": 15.4842,
+      "eval_train_samples_per_second": 346.094,
+      "eval_train_steps_per_second": 10.85,
       "step": 1400
     },
     {
       "epoch": 4.804804804804805,
+      "grad_norm": 7.67103910446167,
+      "learning_rate": 1.1551551551551552e-05,
+      "loss": 1.8421,
       "step": 1600
     },
     {
       "epoch": 4.804804804804805,
+      "eval_train_loss": 2.3467628955841064,
+      "eval_train_runtime": 15.716,
+      "eval_train_samples_per_second": 340.99,
+      "eval_train_steps_per_second": 10.69,
       "step": 1600
     },
     {
       "epoch": 5.405405405405405,
+      "grad_norm": 10.279878616333008,
+      "learning_rate": 1.0216883550216886e-05,
+      "loss": 1.785,
       "step": 1800
     },
     {
       "epoch": 5.405405405405405,
+      "eval_train_loss": 2.3648931980133057,
+      "eval_train_runtime": 15.8675,
+      "eval_train_samples_per_second": 337.735,
+      "eval_train_steps_per_second": 10.588,
       "step": 1800
     },
     {
       "epoch": 6.006006006006006,
+      "grad_norm": 9.513252258300781,
+      "learning_rate": 8.882215548882216e-06,
+      "loss": 1.786,
       "step": 2000
     },
     {
       "epoch": 6.006006006006006,
+      "eval_train_loss": 2.378257989883423,
+      "eval_train_runtime": 16.2336,
+      "eval_train_samples_per_second": 330.118,
+      "eval_train_steps_per_second": 10.349,
       "step": 2000
     },
     {
       "epoch": 6.606606606606607,
+      "grad_norm": 11.29470157623291,
+      "learning_rate": 7.547547547547548e-06,
+      "loss": 1.7331,
       "step": 2200
     },
     {
       "epoch": 6.606606606606607,
+      "eval_train_loss": 2.3782169818878174,
+      "eval_train_runtime": 15.9451,
+      "eval_train_samples_per_second": 336.091,
+      "eval_train_steps_per_second": 10.536,
       "step": 2200
+    },
+    {
+      "epoch": 7.207207207207207,
+      "grad_norm": 10.022029876708984,
+      "learning_rate": 6.21287954621288e-06,
+      "loss": 1.7062,
+      "step": 2400
+    },
+    {
+      "epoch": 7.207207207207207,
+      "eval_train_loss": 2.3825714588165283,
+      "eval_train_runtime": 15.9203,
+      "eval_train_samples_per_second": 336.615,
+      "eval_train_steps_per_second": 10.553,
+      "step": 2400
+    },
+    {
+      "epoch": 7.807807807807808,
+      "grad_norm": 10.572230339050293,
+      "learning_rate": 4.878211544878212e-06,
+      "loss": 1.6929,
+      "step": 2600
+    },
+    {
+      "epoch": 7.807807807807808,
+      "eval_train_loss": 2.3926050662994385,
+      "eval_train_runtime": 15.9657,
+      "eval_train_samples_per_second": 335.657,
+      "eval_train_steps_per_second": 10.523,
+      "step": 2600
+    },
+    {
+      "epoch": 8.408408408408409,
+      "grad_norm": 10.39648723602295,
+      "learning_rate": 3.5435435435435437e-06,
+      "loss": 1.6618,
+      "step": 2800
+    },
+    {
+      "epoch": 8.408408408408409,
+      "eval_train_loss": 2.4069101810455322,
+      "eval_train_runtime": 15.7461,
+      "eval_train_samples_per_second": 340.337,
+      "eval_train_steps_per_second": 10.669,
+      "step": 2800
+    },
+    {
+      "epoch": 9.00900900900901,
+      "grad_norm": 12.46285343170166,
+      "learning_rate": 2.2088755422088755e-06,
+      "loss": 1.6348,
+      "step": 3000
+    },
+    {
+      "epoch": 9.00900900900901,
+      "eval_train_loss": 2.415452480316162,
+      "eval_train_runtime": 15.6461,
+      "eval_train_samples_per_second": 342.513,
+      "eval_train_steps_per_second": 10.737,
+      "step": 3000
+    },
+    {
+      "epoch": 9.60960960960961,
+      "grad_norm": 11.425995826721191,
+      "learning_rate": 8.742075408742076e-07,
+      "loss": 1.6553,
+      "step": 3200
+    },
+    {
+      "epoch": 9.60960960960961,
+      "eval_train_loss": 2.40596079826355,
+      "eval_train_runtime": 15.9222,
+      "eval_train_samples_per_second": 336.573,
+      "eval_train_steps_per_second": 10.551,
+      "step": 3200
     }
   ],
   "logging_steps": 200,
+  "max_steps": 3330,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 2000,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20f9cc1bfbf387326ed07dacc8a11b82a6ff607c0cb073f258fc1350a90ff02a
-size 5496

 version https://git-lfs.github.com/spec/v1
+oid sha256:4190153994cc09d055ab5654484b8b69d39cb01e17665d63b0fc073bb9a0ba91
+size 5560