Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

README.md +95 -123
config.json +1 -1
config_sentence_transformers.json +2 -2
model.safetensors +1 -1
optimizer.pt +2 -2
rng_state.pth +2 -2
scheduler.pt +2 -2
special_tokens_map.json +2 -2
tokenizer_config.json +0 -7
trainer_state.json +377 -232
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -4,46 +4,45 @@ tags:
 - sentence-similarity
 - feature-extraction
 - generated_from_trainer
-- dataset_size:10668
 - loss:MultipleNegativesSymmetricRankingLoss
 base_model: microsoft/mpnet-base
 widget:
-- source_sentence: Best Job Ever! Rethink Your Career, Redefine Rich, Revolutionize
-    Your Life by Dr. CK Bray
   sentences:
-  - Books on Sales
   - Books on Self-Help for Women
-  - Books on the Cold War
-- source_sentence: 'Empire of Pain: The Secret History of the Sackler Dynasty by Patrick
-    Radden Keefe'
   sentences:
   - Books on Personal Development
-  - Books on Wealth
-  - Books on Communication
-- source_sentence: Seven Kinds of People You Find in Bookshops by Shaun Bythell
-  sentences:
-  - Books on Self-Help
-  - Books on Social Skills
-  - Books on Emotional Labor
-- source_sentence: 'The Law of Attraction: How to Attract Money, Love, and Happiness
-    by David R. Hooper'
   sentences:
-  - Books on How to Attract Money
-  - Books on Mental Health
-  - Books on Civil Rights
-- source_sentence: 'Hyperfocus: How to Manage Your Attention in a World of Distraction
-    by Chris Bailey'
   sentences:
-  - Books on Career Development
-  - Books on Astronomy
-  - Books on Self-Care
 pipeline_tag: sentence-similarity
 library_name: sentence-transformers
 ---
 # SentenceTransformer based on microsoft/mpnet-base
-This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [microsoft/mpnet-base](https://huggingface.co/microsoft/mpnet-base) on the csv dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
@@ -54,7 +53,7 @@ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [m
 - **Output Dimensionality:** 768 dimensions
 - **Similarity Function:** Cosine Similarity
 - **Training Dataset:**
-    - csv
 <!-- - **Language:** Unknown -->
 <!-- - **License:** Unknown -->
@@ -88,12 +87,12 @@ Then you can load this model and run inference.
 from sentence_transformers import SentenceTransformer
 # Download from the 🤗 Hub
-model = SentenceTransformer("yuriivoievidka/microsoft_mpnet-base-librarian")
 # Run inference
 sentences = [
-    'Hyperfocus: How to Manage Your Attention in a World of Distraction by Chris Bailey',
-    'Books on Self-Care',
-    'Books on Career Development',
 ]
 embeddings = model.encode(sentences)
 print(embeddings.shape)
@@ -145,22 +144,22 @@ You can finetune this model on your own dataset.
 ### Training Dataset
-#### csv
-* Dataset: csv
-* Size: 10,668 training samples
 * Columns: <code>anchor</code> and <code>positive</code>
 * Approximate statistics based on the first 1000 samples:
-  |         | anchor                                                                            | positive                                                                         |
-  |:--------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
-  | type    | string                                                                            | string                                                                           |
-  | details | <ul><li>min: 6 tokens</li><li>mean: 22.04 tokens</li><li>max: 60 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 5.85 tokens</li><li>max: 10 tokens</li></ul> |
 * Samples:
-  | anchor                                                                                                              | positive                        |
-  |:--------------------------------------------------------------------------------------------------------------------|:--------------------------------|
-  | <code>Getting to Yes: Negotiating Agreement Without Giving In by Roger Fisher, William Ury, and Bruce Patton</code> | <code>Books on Success</code>   |
-  | <code>Whistling Vivaldi: How Stereotypes Affect Us and What We Can Do by Claude M. Steele</code>                    | <code>Books on Diversity</code> |
-  | <code>Blindspot: Hidden Biases of Good People by Mahzarin R. Banaji and Anthony G. Greenwald</code>                 | <code>Books on Mindset</code>   |
 * Loss: [<code>MultipleNegativesSymmetricRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativessymmetricrankingloss) with these parameters:
   ```json
   {
@@ -171,22 +170,22 @@ You can finetune this model on your own dataset.
 ### Evaluation Dataset
-#### csv
-* Dataset: csv
-* Size: 5,333 evaluation samples
 * Columns: <code>anchor</code> and <code>positive</code>
 * Approximate statistics based on the first 1000 samples:
-  |         | anchor                                                                            | positive                                                                         |
-  |:--------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
-  | type    | string                                                                            | string                                                                           |
-  | details | <ul><li>min: 6 tokens</li><li>mean: 22.26 tokens</li><li>max: 60 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 5.83 tokens</li><li>max: 10 tokens</li></ul> |
 * Samples:
-  | anchor                                                                                                             | positive                                  |
-  |:-------------------------------------------------------------------------------------------------------------------|:------------------------------------------|
-  | <code>Will It Fly?: How to Test Your Next Business Idea So You Don’t Waste Your Time and Money by Pat Flynn</code> | <code>Books on Advertising</code>         |
-  | <code>The Art of Stillness: Adventures in Going Nowhere by Pico Iyer</code>                                        | <code>Books on Spiritual Awakening</code> |
-  | <code>Just As I Am: A Memoir by Cicely Tyson, Michelle Burford</code>                                              | <code>Books about Misinformation</code>   |
 * Loss: [<code>MultipleNegativesSymmetricRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativessymmetricrankingloss) with these parameters:
   ```json
   {
@@ -198,11 +197,11 @@ You can finetune this model on your own dataset.
 ### Training Hyperparameters
 #### Non-Default Hyperparameters
-- `eval_strategy`: epoch
 - `per_device_train_batch_size`: 16
 - `per_device_eval_batch_size`: 16
 - `learning_rate`: 2e-05
-- `num_train_epochs`: 8
 - `warmup_ratio`: 0.1
 #### All Hyperparameters
@@ -210,7 +209,7 @@ You can finetune this model on your own dataset.
 - `overwrite_output_dir`: False
 - `do_predict`: False
-- `eval_strategy`: epoch
 - `prediction_loss_only`: True
 - `per_device_train_batch_size`: 16
 - `per_device_eval_batch_size`: 16
@@ -225,7 +224,7 @@ You can finetune this model on your own dataset.
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
-- `num_train_epochs`: 8
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
@@ -325,76 +324,49 @@ You can finetune this model on your own dataset.
 </details>
 ### Training Logs
-| Epoch  | Step | Training Loss | Validation Loss |
-|:------:|:----:|:-------------:|:---------------:|
-| 0.1499 | 100  | 3.0137        | -               |
-| 0.2999 | 200  | 2.3781        | -               |
-| 0.4498 | 300  | 2.1067        | -               |
-| 0.5997 | 400  | 2.0142        | -               |
-| 0.7496 | 500  | 1.9861        | -               |
-| 0.8996 | 600  | 1.8463        | -               |
-| 1.0    | 667  | -             | 1.7604          |
-| 1.0495 | 700  | 1.8115        | -               |
-| 1.1994 | 800  | 1.7093        | -               |
-| 1.3493 | 900  | 1.6853        | -               |
-| 1.4993 | 1000 | 1.702         | -               |
-| 1.6492 | 1100 | 1.6664        | -               |
-| 1.7991 | 1200 | 1.6824        | -               |
-| 1.9490 | 1300 | 1.6174        | -               |
-| 2.0    | 1334 | -             | 1.6624          |
-| 2.0990 | 1400 | 1.5585        | -               |
-| 2.2489 | 1500 | 1.5112        | -               |
-| 2.3988 | 1600 | 1.5384        | -               |
-| 2.5487 | 1700 | 1.5013        | -               |
-| 2.6987 | 1800 | 1.4589        | -               |
-| 2.8486 | 1900 | 1.5108        | -               |
-| 2.9985 | 2000 | 1.5287        | -               |
-| 3.0    | 2001 | -             | 1.6140          |
-| 3.1484 | 2100 | 1.3973        | -               |
-| 3.2984 | 2200 | 1.3658        | -               |
-| 3.4483 | 2300 | 1.4294        | -               |
-| 3.5982 | 2400 | 1.3957        | -               |
-| 3.7481 | 2500 | 1.3888        | -               |
-| 3.8981 | 2600 | 1.4405        | -               |
-| 4.0    | 2668 | -             | 1.6155          |
-| 4.0480 | 2700 | 1.3603        | -               |
-| 4.1979 | 2800 | 1.2872        | -               |
-| 4.3478 | 2900 | 1.2514        | -               |
-| 4.4978 | 3000 | 1.3011        | -               |
-| 4.6477 | 3100 | 1.3175        | -               |
-| 4.7976 | 3200 | 1.3553        | -               |
-| 4.9475 | 3300 | 1.3157        | -               |
-| 5.0    | 3335 | -             | 1.6061          |
-| 5.0975 | 3400 | 1.2754        | -               |
-| 5.2474 | 3500 | 1.2315        | -               |
-| 5.3973 | 3600 | 1.2454        | -               |
-| 5.5472 | 3700 | 1.2441        | -               |
-| 5.6972 | 3800 | 1.266         | -               |
-| 5.8471 | 3900 | 1.2304        | -               |
-| 5.9970 | 4000 | 1.2717        | -               |
-| 6.0    | 4002 | -             | 1.6100          |
-| 6.1469 | 4100 | 1.1706        | -               |
-| 6.2969 | 4200 | 1.2203        | -               |
-| 6.4468 | 4300 | 1.1441        | -               |
-| 6.5967 | 4400 | 1.1895        | -               |
-| 6.7466 | 4500 | 1.176         | -               |
-| 6.8966 | 4600 | 1.1903        | -               |
-| 7.0    | 4669 | -             | 1.6341          |
-| 7.0465 | 4700 | 1.2028        | -               |
-| 7.1964 | 4800 | 1.1416        | -               |
-| 7.3463 | 4900 | 1.1405        | -               |
-| 7.4963 | 5000 | 1.1454        | -               |
-| 7.6462 | 5100 | 1.1217        | -               |
-| 7.7961 | 5200 | 1.1682        | -               |
-| 7.9460 | 5300 | 1.1582        | -               |
 ### Framework Versions
 - Python: 3.10.12
 - Sentence Transformers: 4.1.0
-- Transformers: 4.53.0.dev0
-- PyTorch: 2.7.1+cu126
-- Accelerate: 1.7.0
 - Datasets: 3.6.0
 - Tokenizers: 0.21.1

 - sentence-similarity
 - feature-extraction
 - generated_from_trainer
+- dataset_size:10635
 - loss:MultipleNegativesSymmetricRankingLoss
 base_model: microsoft/mpnet-base
 widget:
+- source_sentence: '12 Rules For Life: An Antidote to Chaos by Jordan B. Peterson'
   sentences:
+  - Books on Investing
+  - Books on Resilience
+  - Books on Motivational
+- source_sentence: 'Get the Guy: Learn Secrets of the Male Mind to Find the Man You
+    Want and the Love You Deserve by Matthew Hussey'
+  sentences:
+  - Books on Complexity
+  - Books on Decision Making
   - Books on Self-Help for Women
+- source_sentence: The Magic of Tiny Business (You Don’t Have to Go Big to Make a
+    Great Living) by Sharon Rowe
   sentences:
+  - Books on Vegetarianism
   - Books on Personal Development
+  - Books on Emotions
+- source_sentence: 'The Dorito Effect: The Surprising New Truth About Food and Flavor
+    by Mark Schatzker'
   sentences:
+  - Books on Skincare
+  - Books on Work-Life Balance
+  - Books on Problem Solving
+- source_sentence: '12 Rules For Life: An Antidote to Chaos by Jordan B. Peterson'
   sentences:
+  - Books on Psychology
+  - Books on Positive Thinking
+  - Books on Investing
 pipeline_tag: sentence-similarity
 library_name: sentence-transformers
 ---
 # SentenceTransformer based on microsoft/mpnet-base
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [microsoft/mpnet-base](https://huggingface.co/microsoft/mpnet-base) on the train dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
 - **Output Dimensionality:** 768 dimensions
 - **Similarity Function:** Cosine Similarity
 - **Training Dataset:**
+    - train
 <!-- - **Language:** Unknown -->
 <!-- - **License:** Unknown -->
 from sentence_transformers import SentenceTransformer
 # Download from the 🤗 Hub
+model = SentenceTransformer("sentence_transformers_model_id")
 # Run inference
 sentences = [
+    '12 Rules For Life: An Antidote to Chaos by Jordan B. Peterson',
+    'Books on Psychology',
+    'Books on Positive Thinking',
 ]
 embeddings = model.encode(sentences)
 print(embeddings.shape)
 ### Training Dataset
+#### train
+* Dataset: train
+* Size: 10,635 training samples
 * Columns: <code>anchor</code> and <code>positive</code>
 * Approximate statistics based on the first 1000 samples:
+  |         | anchor                                                                             | positive                                                                         |
+  |:--------|:-----------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
+  | type    | string                                                                             | string                                                                           |
+  | details | <ul><li>min: 11 tokens</li><li>mean: 24.11 tokens</li><li>max: 60 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 5.89 tokens</li><li>max: 10 tokens</li></ul> |
 * Samples:
+  | anchor                                                                                                             | positive                           |
+  |:-------------------------------------------------------------------------------------------------------------------|:-----------------------------------|
+  | <code>The Life-Changing Magic of Tidying Up: The Japanese Art of Decluttering and Organizing by Marie Kondō</code> | <code>Books on Organization</code> |
+  | <code>The Life-Changing Magic of Tidying Up: The Japanese Art of Decluttering and Organizing by Marie Kondō</code> | <code>Books on Minimalism</code>   |
+  | <code>The Life-Changing Magic of Tidying Up: The Japanese Art of Decluttering and Organizing by Marie Kondō</code> | <code>Books on Japanese Art</code> |
 * Loss: [<code>MultipleNegativesSymmetricRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativessymmetricrankingloss) with these parameters:
   ```json
   {
 ### Evaluation Dataset
+#### train
+* Dataset: train
+* Size: 5,359 evaluation samples
 * Columns: <code>anchor</code> and <code>positive</code>
 * Approximate statistics based on the first 1000 samples:
+  |         | anchor                                                                           | positive                                                                         |
+  |:--------|:---------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
+  | type    | string                                                                           | string                                                                           |
+  | details | <ul><li>min: 8 tokens</li><li>mean: 22.0 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 5.85 tokens</li><li>max: 13 tokens</li></ul> |
 * Samples:
+  | anchor                                                                     | positive                                   |
+  |:---------------------------------------------------------------------------|:-------------------------------------------|
+  | <code>12 Rules For Life: An Antidote to Chaos by Jordan B. Peterson</code> | <code>Books on Psychology</code>           |
+  | <code>12 Rules For Life: An Antidote to Chaos by Jordan B. Peterson</code> | <code>Books on Self-Help</code>            |
+  | <code>12 Rules For Life: An Antidote to Chaos by Jordan B. Peterson</code> | <code>Books on Personal Development</code> |
 * Loss: [<code>MultipleNegativesSymmetricRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativessymmetricrankingloss) with these parameters:
   ```json
   {
 ### Training Hyperparameters
 #### Non-Default Hyperparameters
+- `eval_strategy`: steps
 - `per_device_train_batch_size`: 16
 - `per_device_eval_batch_size`: 16
 - `learning_rate`: 2e-05
+- `num_train_epochs`: 10
 - `warmup_ratio`: 0.1
 #### All Hyperparameters
 - `overwrite_output_dir`: False
 - `do_predict`: False
+- `eval_strategy`: steps
 - `prediction_loss_only`: True
 - `per_device_train_batch_size`: 16
 - `per_device_eval_batch_size`: 16
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
+- `num_train_epochs`: 10
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
 </details>
 ### Training Logs
+| Epoch  | Step | Training Loss | train loss |
+|:------:|:----:|:-------------:|:----------:|
+| 0.3008 | 200  | 2.8113        | 2.0799     |
+| 0.6015 | 400  | 2.0877        | 1.9239     |
+| 0.9023 | 600  | 1.9258        | 1.8882     |
+| 1.2030 | 800  | 1.7382        | 1.8684     |
+| 1.5038 | 1000 | 1.7232        | 1.8226     |
+| 1.8045 | 1200 | 1.6814        | 1.8167     |
+| 2.1053 | 1400 | 1.5764        | 1.8133     |
+| 2.4060 | 1600 | 1.5333        | 1.7898     |
+| 2.7068 | 1800 | 1.5216        | 1.7782     |
+| 3.0075 | 2000 | 1.4966        | 1.7663     |
+| 3.3083 | 2200 | 1.4325        | 1.7642     |
+| 3.6090 | 2400 | 1.4043        | 1.7956     |
+| 3.9098 | 2600 | 1.4212        | 1.7609     |
+| 4.2105 | 2800 | 1.3808        | 1.7611     |
+| 4.5113 | 3000 | 1.35          | 1.7671     |
+| 4.8120 | 3200 | 1.3644        | 1.7517     |
+| 5.1128 | 3400 | 1.304         | 1.7712     |
+| 5.4135 | 3600 | 1.288         | 1.7820     |
+| 5.7143 | 3800 | 1.3051        | 1.7699     |
+| 6.0150 | 4000 | 1.2803        | 1.7678     |
+| 6.3158 | 4200 | 1.2026        | 1.7812     |
+| 6.6165 | 4400 | 1.2602        | 1.7846     |
+| 6.9173 | 4600 | 1.2392        | 1.7733     |
+| 7.2180 | 4800 | 1.2088        | 1.7745     |
+| 7.5188 | 5000 | 1.1791        | 1.7867     |
+| 7.8195 | 5200 | 1.1946        | 1.7779     |
+| 8.1203 | 5400 | 1.1617        | 1.7931     |
+| 8.4211 | 5600 | 1.1495        | 1.7911     |
+| 8.7218 | 5800 | 1.1635        | 1.7949     |
+| 9.0226 | 6000 | 1.1324        | 1.7962     |
+| 9.3233 | 6200 | 1.1304        | 1.8035     |
+| 9.6241 | 6400 | 1.1126        | 1.8056     |
+| 9.9248 | 6600 | 1.0986        | 1.8062     |
 ### Framework Versions
 - Python: 3.10.12
 - Sentence Transformers: 4.1.0
+- Transformers: 4.52.4
+- PyTorch: 2.6.0+cu124
+- Accelerate: 1.8.1
 - Datasets: 3.6.0
 - Tokenizers: 0.21.1

config.json CHANGED Viewed

@@ -18,6 +18,6 @@
   "pad_token_id": 1,
   "relative_attention_num_buckets": 32,
   "torch_dtype": "float32",
-  "transformers_version": "4.53.0.dev0",
   "vocab_size": 30527
 }

   "pad_token_id": 1,
   "relative_attention_num_buckets": 32,
   "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
   "vocab_size": 30527
 }

config_sentence_transformers.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "__version__": {
     "sentence_transformers": "4.1.0",
-    "transformers": "4.53.0.dev0",
-    "pytorch": "2.7.1+cu126"
   },
   "prompts": {},
   "default_prompt_name": null,

 {
   "__version__": {
     "sentence_transformers": "4.1.0",
+    "transformers": "4.52.4",
+    "pytorch": "2.6.0+cu124"
   },
   "prompts": {},
   "default_prompt_name": null,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78b275fa71a5560f7f63d8c94611c8f5c946a149acf2dd3da3ec538d475eeb55
 size 437967672

 version https://git-lfs.github.com/spec/v1
+oid sha256:070b8e311a59229e3d1911753c8912809c4b6c99f9cf43c46f1c8ac5dfe915e0
 size 437967672

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a18eff5b664d8f157a3ad9b8a30005d08cf9c585c1ae1891947228afaa84418
-size 871332235

 version https://git-lfs.github.com/spec/v1
+oid sha256:636d83f75ef3b6379d2de1380140e9e6db0862aa30c2f61df168fa48a5f11f94
+size 871331770

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c48dde672ed03e77e045d0c82330c6b3c2192c6cb466bff8ae450344c711c8a
-size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:784b875c2b86372c41eaa4d7d8efaa50c3c0a99edec1ace8f8b943345f97b54f
+size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab0d223a393f22ac34c1911f5e5be757f106a1d2c6c8a7bef5fb3ffd7decea9c
-size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:45b9b94e19b7c7a2fcd96ee21ab65fa9d6c05333276c875f55a40f3bff2d6f6f
+size 1064

special_tokens_map.json CHANGED Viewed

@@ -9,7 +9,7 @@
   "cls_token": {
     "content": "<s>",
     "lstrip": false,
-    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
@@ -37,7 +37,7 @@
   "sep_token": {
     "content": "</s>",
     "lstrip": false,
-    "normalized": false,
     "rstrip": false,
     "single_word": false
   },

   "cls_token": {
     "content": "<s>",
     "lstrip": false,
+    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "sep_token": {
     "content": "</s>",
     "lstrip": false,
+    "normalized": true,
     "rstrip": false,
     "single_word": false
   },

tokenizer_config.json CHANGED Viewed

@@ -56,18 +56,11 @@
   "eos_token": "</s>",
   "extra_special_tokens": {},
   "mask_token": "<mask>",
-  "max_length": 512,
   "model_max_length": 512,
-  "pad_to_multiple_of": null,
   "pad_token": "<pad>",
-  "pad_token_type_id": 0,
-  "padding_side": "right",
   "sep_token": "</s>",
-  "stride": 0,
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "MPNetTokenizer",
-  "truncation_side": "right",
-  "truncation_strategy": "longest_first",
   "unk_token": "[UNK]"
 }

   "eos_token": "</s>",
   "extra_special_tokens": {},
   "mask_token": "<mask>",
   "model_max_length": 512,
   "pad_token": "<pad>",
   "sep_token": "</s>",
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "MPNetTokenizer",
   "unk_token": "[UNK]"
 }

trainer_state.json CHANGED Viewed

@@ -2,369 +2,514 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
-  "eval_steps": 500,
-  "global_step": 5005,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0999000999000999,
-      "grad_norm": 8.842884063720703,
-      "learning_rate": 3.952095808383234e-06,
-      "loss": 3.0908,
-      "step": 100
     },
     {
-      "epoch": 0.1998001998001998,
-      "grad_norm": 19.580947875976562,
-      "learning_rate": 7.944111776447106e-06,
-      "loss": 2.3816,
       "step": 200
     },
     {
-      "epoch": 0.2997002997002997,
-      "grad_norm": 17.492271423339844,
-      "learning_rate": 1.193612774451098e-05,
-      "loss": 2.1439,
-      "step": 300
     },
     {
-      "epoch": 0.3996003996003996,
-      "grad_norm": 17.586090087890625,
-      "learning_rate": 1.592814371257485e-05,
-      "loss": 1.9773,
       "step": 400
     },
     {
-      "epoch": 0.4995004995004995,
-      "grad_norm": 15.372795104980469,
-      "learning_rate": 1.9920159680638723e-05,
-      "loss": 1.9802,
-      "step": 500
     },
     {
-      "epoch": 0.5994005994005994,
-      "grad_norm": 13.545052528381348,
-      "learning_rate": 1.9564831261101244e-05,
-      "loss": 1.9266,
       "step": 600
     },
     {
-      "epoch": 0.6993006993006993,
-      "grad_norm": 14.97186279296875,
-      "learning_rate": 1.9120781527531086e-05,
-      "loss": 1.8154,
-      "step": 700
     },
     {
-      "epoch": 0.7992007992007992,
-      "grad_norm": 14.916701316833496,
-      "learning_rate": 1.8676731793960924e-05,
-      "loss": 1.792,
       "step": 800
     },
     {
-      "epoch": 0.8991008991008991,
-      "grad_norm": 12.8872709274292,
-      "learning_rate": 1.8232682060390766e-05,
-      "loss": 1.7716,
-      "step": 900
     },
     {
-      "epoch": 0.999000999000999,
-      "grad_norm": 10.461772918701172,
-      "learning_rate": 1.7788632326820604e-05,
-      "loss": 1.7447,
       "step": 1000
     },
     {
-      "epoch": 1.098901098901099,
-      "grad_norm": 11.06071662902832,
-      "learning_rate": 1.7344582593250445e-05,
-      "loss": 1.6836,
-      "step": 1100
     },
     {
-      "epoch": 1.1988011988011988,
-      "grad_norm": 13.601765632629395,
-      "learning_rate": 1.6900532859680287e-05,
-      "loss": 1.635,
       "step": 1200
     },
     {
-      "epoch": 1.2987012987012987,
-      "grad_norm": 13.174976348876953,
-      "learning_rate": 1.6456483126110125e-05,
-      "loss": 1.555,
-      "step": 1300
     },
     {
-      "epoch": 1.3986013986013985,
-      "grad_norm": 16.08052635192871,
-      "learning_rate": 1.6012433392539967e-05,
-      "loss": 1.6318,
       "step": 1400
     },
     {
-      "epoch": 1.4985014985014984,
-      "grad_norm": 15.495978355407715,
-      "learning_rate": 1.5568383658969805e-05,
-      "loss": 1.6539,
-      "step": 1500
     },
     {
-      "epoch": 1.5984015984015985,
-      "grad_norm": 11.14354133605957,
-      "learning_rate": 1.5124333925399647e-05,
-      "loss": 1.5797,
       "step": 1600
     },
     {
-      "epoch": 1.6983016983016983,
-      "grad_norm": 10.451489448547363,
-      "learning_rate": 1.4680284191829486e-05,
-      "loss": 1.5831,
-      "step": 1700
     },
     {
-      "epoch": 1.7982017982017982,
-      "grad_norm": 12.40042781829834,
-      "learning_rate": 1.4236234458259326e-05,
-      "loss": 1.5727,
       "step": 1800
     },
     {
-      "epoch": 1.8981018981018982,
-      "grad_norm": 13.592798233032227,
-      "learning_rate": 1.3792184724689166e-05,
-      "loss": 1.5969,
-      "step": 1900
     },
     {
-      "epoch": 1.9980019980019978,
-      "grad_norm": 12.129600524902344,
-      "learning_rate": 1.3348134991119006e-05,
-      "loss": 1.5202,
       "step": 2000
     },
     {
-      "epoch": 2.097902097902098,
-      "grad_norm": 13.278411865234375,
-      "learning_rate": 1.2904085257548846e-05,
-      "loss": 1.4787,
-      "step": 2100
     },
     {
-      "epoch": 2.197802197802198,
-      "grad_norm": 11.896201133728027,
-      "learning_rate": 1.2460035523978686e-05,
-      "loss": 1.4702,
       "step": 2200
     },
     {
-      "epoch": 2.2977022977022976,
-      "grad_norm": 12.858651161193848,
-      "learning_rate": 1.2015985790408526e-05,
-      "loss": 1.4389,
-      "step": 2300
     },
     {
-      "epoch": 2.3976023976023977,
-      "grad_norm": 11.218062400817871,
-      "learning_rate": 1.1571936056838366e-05,
-      "loss": 1.4196,
       "step": 2400
     },
     {
-      "epoch": 2.4975024975024973,
-      "grad_norm": 12.738713264465332,
-      "learning_rate": 1.1127886323268207e-05,
-      "loss": 1.4352,
-      "step": 2500
     },
     {
-      "epoch": 2.5974025974025974,
-      "grad_norm": 11.351848602294922,
-      "learning_rate": 1.0683836589698047e-05,
-      "loss": 1.395,
       "step": 2600
     },
     {
-      "epoch": 2.6973026973026974,
-      "grad_norm": 15.531521797180176,
-      "learning_rate": 1.0239786856127887e-05,
-      "loss": 1.462,
-      "step": 2700
     },
     {
-      "epoch": 2.797202797202797,
-      "grad_norm": 13.97511100769043,
-      "learning_rate": 9.795737122557727e-06,
-      "loss": 1.4439,
       "step": 2800
     },
     {
-      "epoch": 2.897102897102897,
-      "grad_norm": 11.752087593078613,
-      "learning_rate": 9.351687388987567e-06,
-      "loss": 1.4478,
-      "step": 2900
     },
     {
-      "epoch": 2.9970029970029968,
-      "grad_norm": 10.799909591674805,
-      "learning_rate": 8.907637655417407e-06,
-      "loss": 1.4617,
       "step": 3000
     },
     {
-      "epoch": 3.096903096903097,
-      "grad_norm": 13.04091739654541,
-      "learning_rate": 8.463587921847247e-06,
-      "loss": 1.3563,
-      "step": 3100
     },
     {
-      "epoch": 3.196803196803197,
-      "grad_norm": 8.328659057617188,
-      "learning_rate": 8.019538188277087e-06,
-      "loss": 1.4004,
       "step": 3200
     },
     {
-      "epoch": 3.2967032967032965,
-      "grad_norm": 14.43315601348877,
-      "learning_rate": 7.575488454706927e-06,
-      "loss": 1.3557,
-      "step": 3300
     },
     {
-      "epoch": 3.3966033966033966,
-      "grad_norm": 11.241643905639648,
-      "learning_rate": 7.131438721136767e-06,
-      "loss": 1.3226,
       "step": 3400
     },
     {
-      "epoch": 3.4965034965034967,
-      "grad_norm": 13.721736907958984,
-      "learning_rate": 6.687388987566608e-06,
-      "loss": 1.3516,
-      "step": 3500
     },
     {
-      "epoch": 3.5964035964035963,
-      "grad_norm": 9.1060791015625,
-      "learning_rate": 6.243339253996448e-06,
-      "loss": 1.3219,
       "step": 3600
     },
     {
-      "epoch": 3.6963036963036964,
-      "grad_norm": 15.87879753112793,
-      "learning_rate": 5.799289520426288e-06,
-      "loss": 1.4065,
-      "step": 3700
     },
     {
-      "epoch": 3.7962037962037964,
-      "grad_norm": 15.852932929992676,
-      "learning_rate": 5.355239786856128e-06,
-      "loss": 1.3987,
       "step": 3800
     },
     {
-      "epoch": 3.896103896103896,
-      "grad_norm": 14.717906951904297,
-      "learning_rate": 4.911190053285968e-06,
-      "loss": 1.3364,
-      "step": 3900
     },
     {
-      "epoch": 3.996003996003996,
-      "grad_norm": 12.673909187316895,
-      "learning_rate": 4.467140319715808e-06,
-      "loss": 1.3198,
       "step": 4000
     },
     {
-      "epoch": 4.095904095904096,
-      "grad_norm": 14.972280502319336,
-      "learning_rate": 4.023090586145649e-06,
-      "loss": 1.2749,
-      "step": 4100
     },
     {
-      "epoch": 4.195804195804196,
-      "grad_norm": 14.906390190124512,
-      "learning_rate": 3.579040852575489e-06,
-      "loss": 1.2973,
       "step": 4200
     },
     {
-      "epoch": 4.2957042957042955,
-      "grad_norm": 13.691140174865723,
-      "learning_rate": 3.134991119005329e-06,
-      "loss": 1.2335,
-      "step": 4300
     },
     {
-      "epoch": 4.395604395604396,
-      "grad_norm": 10.398210525512695,
-      "learning_rate": 2.690941385435169e-06,
-      "loss": 1.2816,
       "step": 4400
     },
     {
-      "epoch": 4.495504495504496,
-      "grad_norm": 10.417113304138184,
-      "learning_rate": 2.246891651865009e-06,
-      "loss": 1.2963,
-      "step": 4500
     },
     {
-      "epoch": 4.595404595404595,
-      "grad_norm": 9.694279670715332,
-      "learning_rate": 1.8028419182948491e-06,
-      "loss": 1.2932,
       "step": 4600
     },
     {
-      "epoch": 4.695304695304696,
-      "grad_norm": 9.184102058410645,
-      "learning_rate": 1.3587921847246892e-06,
-      "loss": 1.2579,
-      "step": 4700
     },
     {
-      "epoch": 4.795204795204795,
-      "grad_norm": 14.067358016967773,
-      "learning_rate": 9.147424511545295e-07,
-      "loss": 1.3312,
       "step": 4800
     },
     {
-      "epoch": 4.895104895104895,
-      "grad_norm": 12.279874801635742,
-      "learning_rate": 4.706927175843695e-07,
-      "loss": 1.262,
-      "step": 4900
     },
     {
-      "epoch": 4.995004995004995,
-      "grad_norm": 16.635345458984375,
-      "learning_rate": 2.6642984014209594e-08,
-      "loss": 1.3559,
       "step": 5000
     }
   ],
-  "logging_steps": 100,
-  "max_steps": 5005,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
-  "save_steps": 600,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 200,
+  "global_step": 6650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.3007518796992481,
+      "grad_norm": 23.491586685180664,
+      "learning_rate": 5.984962406015038e-06,
+      "loss": 2.8113,
+      "step": 200
     },
     {
+      "epoch": 0.3007518796992481,
+      "eval_train_loss": 2.0799365043640137,
+      "eval_train_runtime": 5.0075,
+      "eval_train_samples_per_second": 1070.204,
+      "eval_train_steps_per_second": 66.9,
       "step": 200
     },
     {
+      "epoch": 0.6015037593984962,
+      "grad_norm": 34.29732131958008,
+      "learning_rate": 1.2e-05,
+      "loss": 2.0877,
+      "step": 400
     },
     {
+      "epoch": 0.6015037593984962,
+      "eval_train_loss": 1.923947811126709,
+      "eval_train_runtime": 5.0362,
+      "eval_train_samples_per_second": 1064.098,
+      "eval_train_steps_per_second": 66.519,
       "step": 400
     },
     {
+      "epoch": 0.9022556390977443,
+      "grad_norm": 38.32964324951172,
+      "learning_rate": 1.8015037593984962e-05,
+      "loss": 1.9258,
+      "step": 600
     },
     {
+      "epoch": 0.9022556390977443,
+      "eval_train_loss": 1.888200283050537,
+      "eval_train_runtime": 4.9999,
+      "eval_train_samples_per_second": 1071.817,
+      "eval_train_steps_per_second": 67.001,
       "step": 600
     },
     {
+      "epoch": 1.2030075187969924,
+      "grad_norm": 15.528878211975098,
+      "learning_rate": 1.9552213868003343e-05,
+      "loss": 1.7382,
+      "step": 800
     },
     {
+      "epoch": 1.2030075187969924,
+      "eval_train_loss": 1.8683608770370483,
+      "eval_train_runtime": 5.0138,
+      "eval_train_samples_per_second": 1068.861,
+      "eval_train_steps_per_second": 66.816,
       "step": 800
     },
     {
+      "epoch": 1.5037593984962405,
+      "grad_norm": 13.27901554107666,
+      "learning_rate": 1.8883876357560568e-05,
+      "loss": 1.7232,
+      "step": 1000
     },
     {
+      "epoch": 1.5037593984962405,
+      "eval_train_loss": 1.8225561380386353,
+      "eval_train_runtime": 5.0119,
+      "eval_train_samples_per_second": 1069.261,
+      "eval_train_steps_per_second": 66.841,
       "step": 1000
     },
     {
+      "epoch": 1.8045112781954886,
+      "grad_norm": 11.53130054473877,
+      "learning_rate": 1.8215538847117796e-05,
+      "loss": 1.6814,
+      "step": 1200
     },
     {
+      "epoch": 1.8045112781954886,
+      "eval_train_loss": 1.8166730403900146,
+      "eval_train_runtime": 5.0134,
+      "eval_train_samples_per_second": 1068.945,
+      "eval_train_steps_per_second": 66.822,
       "step": 1200
     },
     {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 14.417011260986328,
+      "learning_rate": 1.754720133667502e-05,
+      "loss": 1.5764,
+      "step": 1400
     },
     {
+      "epoch": 2.1052631578947367,
+      "eval_train_loss": 1.8132838010787964,
+      "eval_train_runtime": 5.0144,
+      "eval_train_samples_per_second": 1068.73,
+      "eval_train_steps_per_second": 66.808,
       "step": 1400
     },
     {
+      "epoch": 2.406015037593985,
+      "grad_norm": 11.700883865356445,
+      "learning_rate": 1.6878863826232248e-05,
+      "loss": 1.5333,
+      "step": 1600
     },
     {
+      "epoch": 2.406015037593985,
+      "eval_train_loss": 1.7898207902908325,
+      "eval_train_runtime": 5.0228,
+      "eval_train_samples_per_second": 1066.927,
+      "eval_train_steps_per_second": 66.695,
       "step": 1600
     },
     {
+      "epoch": 2.706766917293233,
+      "grad_norm": 13.112250328063965,
+      "learning_rate": 1.6210526315789473e-05,
+      "loss": 1.5216,
+      "step": 1800
     },
     {
+      "epoch": 2.706766917293233,
+      "eval_train_loss": 1.7781648635864258,
+      "eval_train_runtime": 5.0052,
+      "eval_train_samples_per_second": 1070.687,
+      "eval_train_steps_per_second": 66.93,
       "step": 1800
     },
     {
+      "epoch": 3.007518796992481,
+      "grad_norm": 11.557127952575684,
+      "learning_rate": 1.55421888053467e-05,
+      "loss": 1.4966,
+      "step": 2000
     },
     {
+      "epoch": 3.007518796992481,
+      "eval_train_loss": 1.7662715911865234,
+      "eval_train_runtime": 5.0354,
+      "eval_train_samples_per_second": 1064.268,
+      "eval_train_steps_per_second": 66.529,
       "step": 2000
     },
     {
+      "epoch": 3.308270676691729,
+      "grad_norm": 10.65110969543457,
+      "learning_rate": 1.4873851294903927e-05,
+      "loss": 1.4325,
+      "step": 2200
     },
     {
+      "epoch": 3.308270676691729,
+      "eval_train_loss": 1.764186143875122,
+      "eval_train_runtime": 5.0269,
+      "eval_train_samples_per_second": 1066.066,
+      "eval_train_steps_per_second": 66.642,
       "step": 2200
     },
     {
+      "epoch": 3.6090225563909772,
+      "grad_norm": 11.466296195983887,
+      "learning_rate": 1.4205513784461153e-05,
+      "loss": 1.4043,
+      "step": 2400
     },
     {
+      "epoch": 3.6090225563909772,
+      "eval_train_loss": 1.7955785989761353,
+      "eval_train_runtime": 5.06,
+      "eval_train_samples_per_second": 1059.097,
+      "eval_train_steps_per_second": 66.206,
       "step": 2400
     },
     {
+      "epoch": 3.909774436090226,
+      "grad_norm": 9.564383506774902,
+      "learning_rate": 1.353717627401838e-05,
+      "loss": 1.4212,
+      "step": 2600
     },
     {
+      "epoch": 3.909774436090226,
+      "eval_train_loss": 1.7609018087387085,
+      "eval_train_runtime": 5.0402,
+      "eval_train_samples_per_second": 1063.247,
+      "eval_train_steps_per_second": 66.465,
       "step": 2600
     },
     {
+      "epoch": 4.2105263157894735,
+      "grad_norm": 12.078660011291504,
+      "learning_rate": 1.2868838763575606e-05,
+      "loss": 1.3808,
+      "step": 2800
     },
     {
+      "epoch": 4.2105263157894735,
+      "eval_train_loss": 1.7610782384872437,
+      "eval_train_runtime": 5.0859,
+      "eval_train_samples_per_second": 1053.692,
+      "eval_train_steps_per_second": 65.868,
       "step": 2800
     },
     {
+      "epoch": 4.511278195488722,
+      "grad_norm": 10.561222076416016,
+      "learning_rate": 1.2200501253132832e-05,
+      "loss": 1.35,
+      "step": 3000
     },
     {
+      "epoch": 4.511278195488722,
+      "eval_train_loss": 1.7670680284500122,
+      "eval_train_runtime": 5.0558,
+      "eval_train_samples_per_second": 1059.976,
+      "eval_train_steps_per_second": 66.261,
       "step": 3000
     },
     {
+      "epoch": 4.81203007518797,
+      "grad_norm": 14.785975456237793,
+      "learning_rate": 1.1532163742690059e-05,
+      "loss": 1.3644,
+      "step": 3200
     },
     {
+      "epoch": 4.81203007518797,
+      "eval_train_loss": 1.751652479171753,
+      "eval_train_runtime": 5.0835,
+      "eval_train_samples_per_second": 1054.196,
+      "eval_train_steps_per_second": 65.9,
       "step": 3200
     },
     {
+      "epoch": 5.112781954887218,
+      "grad_norm": 10.927189826965332,
+      "learning_rate": 1.0863826232247285e-05,
+      "loss": 1.304,
+      "step": 3400
     },
     {
+      "epoch": 5.112781954887218,
+      "eval_train_loss": 1.7712498903274536,
+      "eval_train_runtime": 5.0673,
+      "eval_train_samples_per_second": 1057.559,
+      "eval_train_steps_per_second": 66.11,
       "step": 3400
     },
     {
+      "epoch": 5.413533834586466,
+      "grad_norm": 14.33267879486084,
+      "learning_rate": 1.0195488721804511e-05,
+      "loss": 1.288,
+      "step": 3600
     },
     {
+      "epoch": 5.413533834586466,
+      "eval_train_loss": 1.7820113897323608,
+      "eval_train_runtime": 5.086,
+      "eval_train_samples_per_second": 1053.672,
+      "eval_train_steps_per_second": 65.867,
       "step": 3600
     },
     {
+      "epoch": 5.714285714285714,
+      "grad_norm": 11.89034366607666,
+      "learning_rate": 9.527151211361737e-06,
+      "loss": 1.3051,
+      "step": 3800
     },
     {
+      "epoch": 5.714285714285714,
+      "eval_train_loss": 1.7699248790740967,
+      "eval_train_runtime": 5.1253,
+      "eval_train_samples_per_second": 1045.605,
+      "eval_train_steps_per_second": 65.363,
       "step": 3800
     },
     {
+      "epoch": 6.015037593984962,
+      "grad_norm": 10.595609664916992,
+      "learning_rate": 8.858813700918964e-06,
+      "loss": 1.2803,
+      "step": 4000
     },
     {
+      "epoch": 6.015037593984962,
+      "eval_train_loss": 1.7678076028823853,
+      "eval_train_runtime": 5.1035,
+      "eval_train_samples_per_second": 1050.07,
+      "eval_train_steps_per_second": 65.642,
       "step": 4000
     },
     {
+      "epoch": 6.315789473684211,
+      "grad_norm": 14.781892776489258,
+      "learning_rate": 8.190476190476192e-06,
+      "loss": 1.2026,
+      "step": 4200
     },
     {
+      "epoch": 6.315789473684211,
+      "eval_train_loss": 1.7812011241912842,
+      "eval_train_runtime": 5.1217,
+      "eval_train_samples_per_second": 1046.331,
+      "eval_train_steps_per_second": 65.408,
       "step": 4200
     },
     {
+      "epoch": 6.616541353383458,
+      "grad_norm": 11.254812240600586,
+      "learning_rate": 7.522138680033417e-06,
+      "loss": 1.2602,
+      "step": 4400
     },
     {
+      "epoch": 6.616541353383458,
+      "eval_train_loss": 1.7846208810806274,
+      "eval_train_runtime": 5.1259,
+      "eval_train_samples_per_second": 1045.481,
+      "eval_train_steps_per_second": 65.355,
       "step": 4400
     },
     {
+      "epoch": 6.917293233082707,
+      "grad_norm": 9.643959999084473,
+      "learning_rate": 6.8538011695906435e-06,
+      "loss": 1.2392,
+      "step": 4600
     },
     {
+      "epoch": 6.917293233082707,
+      "eval_train_loss": 1.7733409404754639,
+      "eval_train_runtime": 5.1326,
+      "eval_train_samples_per_second": 1044.114,
+      "eval_train_steps_per_second": 65.269,
       "step": 4600
     },
     {
+      "epoch": 7.2180451127819545,
+      "grad_norm": 12.258922576904297,
+      "learning_rate": 6.18546365914787e-06,
+      "loss": 1.2088,
+      "step": 4800
     },
     {
+      "epoch": 7.2180451127819545,
+      "eval_train_loss": 1.7745392322540283,
+      "eval_train_runtime": 5.1493,
+      "eval_train_samples_per_second": 1040.714,
+      "eval_train_steps_per_second": 65.057,
       "step": 4800
     },
     {
+      "epoch": 7.518796992481203,
+      "grad_norm": 12.351716041564941,
+      "learning_rate": 5.517126148705096e-06,
+      "loss": 1.1791,
+      "step": 5000
     },
     {
+      "epoch": 7.518796992481203,
+      "eval_train_loss": 1.7866636514663696,
+      "eval_train_runtime": 5.144,
+      "eval_train_samples_per_second": 1041.787,
+      "eval_train_steps_per_second": 65.124,
       "step": 5000
+    },
+    {
+      "epoch": 7.819548872180452,
+      "grad_norm": 15.052789688110352,
+      "learning_rate": 4.8487886382623224e-06,
+      "loss": 1.1946,
+      "step": 5200
+    },
+    {
+      "epoch": 7.819548872180452,
+      "eval_train_loss": 1.7778518199920654,
+      "eval_train_runtime": 5.1357,
+      "eval_train_samples_per_second": 1043.481,
+      "eval_train_steps_per_second": 65.23,
+      "step": 5200
+    },
+    {
+      "epoch": 8.1203007518797,
+      "grad_norm": 8.957300186157227,
+      "learning_rate": 4.18045112781955e-06,
+      "loss": 1.1617,
+      "step": 5400
+    },
+    {
+      "epoch": 8.1203007518797,
+      "eval_train_loss": 1.7931042909622192,
+      "eval_train_runtime": 5.1877,
+      "eval_train_samples_per_second": 1033.016,
+      "eval_train_steps_per_second": 64.576,
+      "step": 5400
+    },
+    {
+      "epoch": 8.421052631578947,
+      "grad_norm": 13.89137077331543,
+      "learning_rate": 3.5121136173767755e-06,
+      "loss": 1.1495,
+      "step": 5600
+    },
+    {
+      "epoch": 8.421052631578947,
+      "eval_train_loss": 1.791070818901062,
+      "eval_train_runtime": 5.1363,
+      "eval_train_samples_per_second": 1043.352,
+      "eval_train_steps_per_second": 65.222,
+      "step": 5600
+    },
+    {
+      "epoch": 8.721804511278195,
+      "grad_norm": 11.32971477508545,
+      "learning_rate": 2.8437761069340018e-06,
+      "loss": 1.1635,
+      "step": 5800
+    },
+    {
+      "epoch": 8.721804511278195,
+      "eval_train_loss": 1.794918417930603,
+      "eval_train_runtime": 5.1728,
+      "eval_train_samples_per_second": 1035.991,
+      "eval_train_steps_per_second": 64.762,
+      "step": 5800
+    },
+    {
+      "epoch": 9.022556390977444,
+      "grad_norm": 13.075417518615723,
+      "learning_rate": 2.1754385964912285e-06,
+      "loss": 1.1324,
+      "step": 6000
+    },
+    {
+      "epoch": 9.022556390977444,
+      "eval_train_loss": 1.7962439060211182,
+      "eval_train_runtime": 5.1942,
+      "eval_train_samples_per_second": 1031.737,
+      "eval_train_steps_per_second": 64.496,
+      "step": 6000
+    },
+    {
+      "epoch": 9.323308270676693,
+      "grad_norm": 12.90481948852539,
+      "learning_rate": 1.5071010860484548e-06,
+      "loss": 1.1304,
+      "step": 6200
+    },
+    {
+      "epoch": 9.323308270676693,
+      "eval_train_loss": 1.8035305738449097,
+      "eval_train_runtime": 5.1397,
+      "eval_train_samples_per_second": 1042.671,
+      "eval_train_steps_per_second": 65.179,
+      "step": 6200
+    },
+    {
+      "epoch": 9.62406015037594,
+      "grad_norm": 12.501527786254883,
+      "learning_rate": 8.38763575605681e-07,
+      "loss": 1.1126,
+      "step": 6400
+    },
+    {
+      "epoch": 9.62406015037594,
+      "eval_train_loss": 1.8056447505950928,
+      "eval_train_runtime": 5.1771,
+      "eval_train_samples_per_second": 1035.144,
+      "eval_train_steps_per_second": 64.709,
+      "step": 6400
+    },
+    {
+      "epoch": 9.924812030075188,
+      "grad_norm": 10.318084716796875,
+      "learning_rate": 1.704260651629073e-07,
+      "loss": 1.0986,
+      "step": 6600
+    },
+    {
+      "epoch": 9.924812030075188,
+      "eval_train_loss": 1.806175947189331,
+      "eval_train_runtime": 5.1696,
+      "eval_train_samples_per_second": 1036.634,
+      "eval_train_steps_per_second": 64.802,
+      "step": 6600
     }
   ],
+  "logging_steps": 200,
+  "max_steps": 6650,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 3000,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8c6dda4ac3c61c8dee69d41b2109cadfdc72b31128ff1e478c7ceb7f8f8c760
-size 5969

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5426350813d7892767af2be085b90ee8f4228e448896c2b7304612735ddb7b6
+size 5496