Model save

Browse files

Files changed (5) hide show

README.md +73 -0
all_results.json +9 -0
generation_config.json +14 -0
train_results.json +9 -0
trainer_state.json +1209 -0

README.md ADDED Viewed

	@@ -0,0 +1,73 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: Qwen/Qwen2.5-7B-Instruct-1M
+tags:
+- trl
+- ndcg
+- generated_from_trainer
+model-index:
+- name: qwen2.5-7b-lipo
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# qwen2.5-7b-lipo
+This model is a fine-tuned version of [Qwen/Qwen2.5-7B-Instruct-1M](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct-1M) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0017
+- Logps: -662.0203
+- Logits: -0.6116
+- Rank Correct Batch: 16.5244
+- Rank Pair Batch: 28.0
+- Rank Accuracy Batch: 0.5902
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 128
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Logps     | Logits  | Rank Correct Batch | Rank Pair Batch | Rank Accuracy Batch |
+|:-------------:|:------:|:----:|:---------------:|:---------:|:-------:|:------------------:|:---------------:|:-------------------:|
+| 0.0021        | 0.2672 | 125  | 0.0021          | -582.2852 | -0.6831 | 15.8902            | 28.0            | 0.5675              |
+| 0.0019        | 0.5344 | 250  | 0.0018          | -642.7833 | -0.6304 | 16.4431            | 28.0            | 0.5873              |
+| 0.0017        | 0.8016 | 375  | 0.0017          | -662.0203 | -0.6116 | 16.5244            | 28.0            | 0.5902              |
+### Framework versions
+- Transformers 4.45.1
+- Pytorch 2.6.0+cu126
+- Datasets 2.19.1
+- Tokenizers 0.20.3

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9982631930527722,
+    "total_flos": 0.0,
+    "train_loss": 0.0024812357072425285,
+    "train_runtime": 43392.086,
+    "train_samples": 59880,
+    "train_samples_per_second": 1.38,
+    "train_steps_per_second": 0.011
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.45.1"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9982631930527722,
+    "total_flos": 0.0,
+    "train_loss": 0.0024812357072425285,
+    "train_runtime": 43392.086,
+    "train_samples": 59880,
+    "train_samples_per_second": 1.38,
+    "train_steps_per_second": 0.011
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1209 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9982631930527722,
+  "eval_steps": 125,
+  "global_step": 467,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0021376085504342017,
+      "grad_norm": 0.946260824126923,
+      "learning_rate": 1.0638297872340425e-08,
+      "logits": -0.8763603568077087,
+      "logps": -333.0801086425781,
+      "loss": 0.0135,
+      "rank_accuracy_batch": 0.5357142686843872,
+      "rank_correct_batch": 15.0,
+      "rank_pair_batch": 28.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.01068804275217101,
+      "grad_norm": 0.5832860071737439,
+      "learning_rate": 5.3191489361702123e-08,
+      "logits": -0.6306054592132568,
+      "logps": -445.8094177246094,
+      "loss": 0.0102,
+      "rank_accuracy_batch": 0.5094866156578064,
+      "rank_correct_batch": 14.265625,
+      "rank_pair_batch": 28.0,
+      "step": 5
+    },
+    {
+      "epoch": 0.02137608550434202,
+      "grad_norm": 0.5256642937190692,
+      "learning_rate": 1.0638297872340425e-07,
+      "logits": -0.6946691274642944,
+      "logps": -410.3299865722656,
+      "loss": 0.009,
+      "rank_accuracy_batch": 0.5151785612106323,
+      "rank_correct_batch": 14.425000190734863,
+      "rank_pair_batch": 28.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.03206412825651302,
+      "grad_norm": 0.5688879024259528,
+      "learning_rate": 1.5957446808510638e-07,
+      "logits": -0.7815518379211426,
+      "logps": -440.68719482421875,
+      "loss": 0.0088,
+      "rank_accuracy_batch": 0.4973214566707611,
+      "rank_correct_batch": 13.925000190734863,
+      "rank_pair_batch": 28.0,
+      "step": 15
+    },
+    {
+      "epoch": 0.04275217100868404,
+      "grad_norm": 0.5292008384625928,
+      "learning_rate": 2.127659574468085e-07,
+      "logits": -0.7508541941642761,
+      "logps": -403.905029296875,
+      "loss": 0.0082,
+      "rank_accuracy_batch": 0.5066964030265808,
+      "rank_correct_batch": 14.1875,
+      "rank_pair_batch": 28.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.053440213760855046,
+      "grad_norm": 0.44055358919363613,
+      "learning_rate": 2.659574468085106e-07,
+      "logits": -0.5607888102531433,
+      "logps": -490.1800842285156,
+      "loss": 0.0072,
+      "rank_accuracy_batch": 0.5267857313156128,
+      "rank_correct_batch": 14.75,
+      "rank_pair_batch": 28.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.06412825651302605,
+      "grad_norm": 0.3173930509724987,
+      "learning_rate": 3.1914893617021275e-07,
+      "logits": -0.6815467476844788,
+      "logps": -458.843505859375,
+      "loss": 0.0068,
+      "rank_accuracy_batch": 0.46741074323654175,
+      "rank_correct_batch": 13.087499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.07481629926519706,
+      "grad_norm": 0.19937438735024765,
+      "learning_rate": 3.7234042553191484e-07,
+      "logits": -0.6512653827667236,
+      "logps": -475.3102111816406,
+      "loss": 0.0053,
+      "rank_accuracy_batch": 0.5147321224212646,
+      "rank_correct_batch": 14.412500381469727,
+      "rank_pair_batch": 28.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.08550434201736808,
+      "grad_norm": 0.22400025328295686,
+      "learning_rate": 4.25531914893617e-07,
+      "logits": -0.6020452976226807,
+      "logps": -492.62725830078125,
+      "loss": 0.005,
+      "rank_accuracy_batch": 0.5165178179740906,
+      "rank_correct_batch": 14.462499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.09619238476953908,
+      "grad_norm": 0.3466345827980356,
+      "learning_rate": 4.787234042553192e-07,
+      "logits": -0.6586597561836243,
+      "logps": -489.76739501953125,
+      "loss": 0.0042,
+      "rank_accuracy_batch": 0.5674107074737549,
+      "rank_correct_batch": 15.887499809265137,
+      "rank_pair_batch": 28.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.10688042752171009,
+      "grad_norm": 0.19018104091113128,
+      "learning_rate": 4.999370587356267e-07,
+      "logits": -0.7162013053894043,
+      "logps": -518.6836547851562,
+      "loss": 0.0036,
+      "rank_accuracy_batch": 0.5191963911056519,
+      "rank_correct_batch": 14.537500381469727,
+      "rank_pair_batch": 28.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.11756847027388109,
+      "grad_norm": 0.0891015053073235,
+      "learning_rate": 4.995525324419337e-07,
+      "logits": -0.7136077880859375,
+      "logps": -543.9591064453125,
+      "loss": 0.0029,
+      "rank_accuracy_batch": 0.5294643640518188,
+      "rank_correct_batch": 14.824999809265137,
+      "rank_pair_batch": 28.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.1282565130260521,
+      "grad_norm": 0.10337269806484616,
+      "learning_rate": 4.988189843662815e-07,
+      "logits": -0.7633501291275024,
+      "logps": -507.84332275390625,
+      "loss": 0.0028,
+      "rank_accuracy_batch": 0.5477678179740906,
+      "rank_correct_batch": 15.337499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.13894455577822312,
+      "grad_norm": 0.08934007009145527,
+      "learning_rate": 4.977374404419837e-07,
+      "logits": -0.7554048299789429,
+      "logps": -541.6370849609375,
+      "loss": 0.0026,
+      "rank_accuracy_batch": 0.5352678894996643,
+      "rank_correct_batch": 14.987500190734863,
+      "rank_pair_batch": 28.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.14963259853039412,
+      "grad_norm": 0.07381765178572891,
+      "learning_rate": 4.963094133060148e-07,
+      "logits": -0.7326418161392212,
+      "logps": -548.10888671875,
+      "loss": 0.0027,
+      "rank_accuracy_batch": 0.5191963911056519,
+      "rank_correct_batch": 14.537500381469727,
+      "rank_pair_batch": 28.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.16032064128256512,
+      "grad_norm": 0.07900638364182098,
+      "learning_rate": 4.945369001834514e-07,
+      "logits": -0.5735518932342529,
+      "logps": -545.7005004882812,
+      "loss": 0.0026,
+      "rank_accuracy_batch": 0.5834820866584778,
+      "rank_correct_batch": 16.337499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.17100868403473615,
+      "grad_norm": 0.0754388382054278,
+      "learning_rate": 4.924223800941717e-07,
+      "logits": -0.6778115034103394,
+      "logps": -587.3670654296875,
+      "loss": 0.0028,
+      "rank_accuracy_batch": 0.5406249761581421,
+      "rank_correct_batch": 15.137499809265137,
+      "rank_pair_batch": 28.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.18169672678690715,
+      "grad_norm": 0.09079705752428875,
+      "learning_rate": 4.899688103857222e-07,
+      "logits": -0.6451147794723511,
+      "logps": -577.9484252929688,
+      "loss": 0.0025,
+      "rank_accuracy_batch": 0.543749988079071,
+      "rank_correct_batch": 15.225000381469727,
+      "rank_pair_batch": 28.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.19238476953907815,
+      "grad_norm": 0.08714142887549842,
+      "learning_rate": 4.871796225971999e-07,
+      "logits": -0.6205800771713257,
+      "logps": -557.2830810546875,
+      "loss": 0.0022,
+      "rank_accuracy_batch": 0.5968749523162842,
+      "rank_correct_batch": 16.712499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.20307281229124916,
+      "grad_norm": 0.07499434317114564,
+      "learning_rate": 4.840587176599343e-07,
+      "logits": -0.5821539759635925,
+      "logps": -567.4512939453125,
+      "loss": 0.0023,
+      "rank_accuracy_batch": 0.5758928060531616,
+      "rank_correct_batch": 16.125,
+      "rank_pair_batch": 28.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.21376085504342018,
+      "grad_norm": 0.06200004666951232,
+      "learning_rate": 4.806104604416823e-07,
+      "logits": -0.6915315389633179,
+      "logps": -548.736328125,
+      "loss": 0.0023,
+      "rank_accuracy_batch": 0.6272321939468384,
+      "rank_correct_batch": 17.5625,
+      "rank_pair_batch": 28.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.22444889779559118,
+      "grad_norm": 0.06860524649416584,
+      "learning_rate": 4.768396736419662e-07,
+      "logits": -0.5968545079231262,
+      "logps": -583.2061157226562,
+      "loss": 0.0023,
+      "rank_accuracy_batch": 0.5397320985794067,
+      "rank_correct_batch": 15.112500190734863,
+      "rank_pair_batch": 28.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.23513694054776219,
+      "grad_norm": 0.06818885545810188,
+      "learning_rate": 4.7275163104709194e-07,
+      "logits": -0.7068358063697815,
+      "logps": -567.2909545898438,
+      "loss": 0.0022,
+      "rank_accuracy_batch": 0.5625,
+      "rank_correct_batch": 15.75,
+      "rank_pair_batch": 28.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.2458249832999332,
+      "grad_norm": 0.11288632323265162,
+      "learning_rate": 4.683520501542824e-07,
+      "logits": -0.6993803977966309,
+      "logps": -578.380615234375,
+      "loss": 0.0029,
+      "rank_accuracy_batch": 0.5696429014205933,
+      "rank_correct_batch": 15.949999809265137,
+      "rank_pair_batch": 28.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.2565130260521042,
+      "grad_norm": 0.10115494872852501,
+      "learning_rate": 4.636470841752404e-07,
+      "logits": -0.6544754505157471,
+      "logps": -579.39794921875,
+      "loss": 0.0023,
+      "rank_accuracy_batch": 0.5513392090797424,
+      "rank_correct_batch": 15.4375,
+      "rank_pair_batch": 28.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.26720106880427524,
+      "grad_norm": 0.05669944797220972,
+      "learning_rate": 4.5864331343032565e-07,
+      "logits": -0.6703131794929504,
+      "logps": -584.9163818359375,
+      "loss": 0.0021,
+      "rank_accuracy_batch": 0.5651785731315613,
+      "rank_correct_batch": 15.824999809265137,
+      "rank_pair_batch": 28.0,
+      "step": 125
+    },
+    {
+      "epoch": 0.26720106880427524,
+      "eval_logits": -0.6831080317497253,
+      "eval_logps": -582.2852172851562,
+      "eval_loss": 0.002090274356305599,
+      "eval_rank_accuracy_batch": 0.5675087571144104,
+      "eval_rank_correct_batch": 15.890243530273438,
+      "eval_rank_pair_batch": 28.0,
+      "eval_runtime": 733.3311,
+      "eval_samples_per_second": 2.684,
+      "eval_steps_per_second": 0.335,
+      "step": 125
+    },
+    {
+      "epoch": 0.27788911155644624,
+      "grad_norm": 0.05664990070569458,
+      "learning_rate": 4.533477361453819e-07,
+      "logits": -0.6876681447029114,
+      "logps": -563.9698486328125,
+      "loss": 0.0023,
+      "rank_accuracy_batch": 0.5874999761581421,
+      "rank_correct_batch": 16.450000762939453,
+      "rank_pair_batch": 28.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.28857715430861725,
+      "grad_norm": 0.06709747272300577,
+      "learning_rate": 4.4776775866408533e-07,
+      "logits": -0.6728977560997009,
+      "logps": -567.8697509765625,
+      "loss": 0.0023,
+      "rank_accuracy_batch": 0.6303571462631226,
+      "rank_correct_batch": 17.649999618530273,
+      "rank_pair_batch": 28.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.29926519706078825,
+      "grad_norm": 0.06283846802681914,
+      "learning_rate": 4.4191118508950277e-07,
+      "logits": -0.6071655750274658,
+      "logps": -605.4354858398438,
+      "loss": 0.0021,
+      "rank_accuracy_batch": 0.6120535731315613,
+      "rank_correct_batch": 17.137500762939453,
+      "rank_pair_batch": 28.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.30995323981295925,
+      "grad_norm": 0.120942854394424,
+      "learning_rate": 4.357862063693485e-07,
+      "logits": -0.5925200581550598,
+      "logps": -602.9215087890625,
+      "loss": 0.0024,
+      "rank_accuracy_batch": 0.6044643521308899,
+      "rank_correct_batch": 16.924999237060547,
+      "rank_pair_batch": 28.0,
+      "step": 145
+    },
+    {
+      "epoch": 0.32064128256513025,
+      "grad_norm": 0.05765935553467444,
+      "learning_rate": 4.294013888402029e-07,
+      "logits": -0.582276463508606,
+      "logps": -627.7027587890625,
+      "loss": 0.0021,
+      "rank_accuracy_batch": 0.5727678537368774,
+      "rank_correct_batch": 16.037500381469727,
+      "rank_pair_batch": 28.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.33132932531730125,
+      "grad_norm": 0.05747505683203417,
+      "learning_rate": 4.227656622467162e-07,
+      "logits": -0.6392695903778076,
+      "logps": -602.9111938476562,
+      "loss": 0.0021,
+      "rank_accuracy_batch": 0.6191964149475098,
+      "rank_correct_batch": 17.337499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 155
+    },
+    {
+      "epoch": 0.3420173680694723,
+      "grad_norm": 0.053776462481106506,
+      "learning_rate": 4.158883072525528e-07,
+      "logits": -0.577269971370697,
+      "logps": -572.0589599609375,
+      "loss": 0.002,
+      "rank_accuracy_batch": 0.581250011920929,
+      "rank_correct_batch": 16.274999618530273,
+      "rank_pair_batch": 28.0,
+      "step": 160
+    },
+    {
+      "epoch": 0.3527054108216433,
+      "grad_norm": 0.068483282911774,
+      "learning_rate": 4.087789424605447e-07,
+      "logits": -0.628365159034729,
+      "logps": -625.1907958984375,
+      "loss": 0.002,
+      "rank_accuracy_batch": 0.6031249761581421,
+      "rank_correct_batch": 16.887500762939453,
+      "rank_pair_batch": 28.0,
+      "step": 165
+    },
+    {
+      "epoch": 0.3633934535738143,
+      "grad_norm": 0.05447449479619988,
+      "learning_rate": 4.0144751096020497e-07,
+      "logits": -0.6775780916213989,
+      "logps": -604.8009033203125,
+      "loss": 0.002,
+      "rank_accuracy_batch": 0.5937499403953552,
+      "rank_correct_batch": 16.625,
+      "rank_pair_batch": 28.0,
+      "step": 170
+    },
+    {
+      "epoch": 0.3740814963259853,
+      "grad_norm": 0.054725196545229296,
+      "learning_rate": 3.939042664214184e-07,
+      "logits": -0.6487151384353638,
+      "logps": -608.8302612304688,
+      "loss": 0.002,
+      "rank_accuracy_batch": 0.5821428894996643,
+      "rank_correct_batch": 16.299999237060547,
+      "rank_pair_batch": 28.0,
+      "step": 175
+    },
+    {
+      "epoch": 0.3847695390781563,
+      "grad_norm": 0.06150290350278254,
+      "learning_rate": 3.8615975875375676e-07,
+      "logits": -0.6963125467300415,
+      "logps": -614.14111328125,
+      "loss": 0.002,
+      "rank_accuracy_batch": 0.5928571820259094,
+      "rank_correct_batch": 16.600000381469727,
+      "rank_pair_batch": 28.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.3954575818303273,
+      "grad_norm": 0.04659758683281854,
+      "learning_rate": 3.7822481935147655e-07,
+      "logits": -0.7263899445533752,
+      "logps": -577.3916015625,
+      "loss": 0.0022,
+      "rank_accuracy_batch": 0.5816964507102966,
+      "rank_correct_batch": 16.287500381469727,
+      "rank_pair_batch": 28.0,
+      "step": 185
+    },
+    {
+      "epoch": 0.4061456245824983,
+      "grad_norm": 0.050337368452175985,
+      "learning_rate": 3.7011054594483443e-07,
+      "logits": -0.624728262424469,
+      "logps": -642.1470947265625,
+      "loss": 0.002,
+      "rank_accuracy_batch": 0.5633928179740906,
+      "rank_correct_batch": 15.774999618530273,
+      "rank_pair_batch": 28.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.4168336673346693,
+      "grad_norm": 0.04713598792833116,
+      "learning_rate": 3.618282870789081e-07,
+      "logits": -0.6701709032058716,
+      "logps": -639.9006958007812,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.5825892686843872,
+      "rank_correct_batch": 16.3125,
+      "rank_pair_batch": 28.0,
+      "step": 195
+    },
+    {
+      "epoch": 0.42752171008684037,
+      "grad_norm": 0.07879592696619511,
+      "learning_rate": 3.5338962624163016e-07,
+      "logits": -0.6116264462471008,
+      "logps": -617.0225219726562,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.6174107789993286,
+      "rank_correct_batch": 17.287500381469727,
+      "rank_pair_batch": 28.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.43820975283901137,
+      "grad_norm": 0.041090647303877605,
+      "learning_rate": 3.448063656632321e-07,
+      "logits": -0.6368564367294312,
+      "logps": -597.2711181640625,
+      "loss": 0.0019,
+      "rank_accuracy_batch": 0.6026785969734192,
+      "rank_correct_batch": 16.875,
+      "rank_pair_batch": 28.0,
+      "step": 205
+    },
+    {
+      "epoch": 0.44889779559118237,
+      "grad_norm": 0.05082964812925144,
+      "learning_rate": 3.360905098097587e-07,
+      "logits": -0.6129381060600281,
+      "logps": -628.8250732421875,
+      "loss": 0.002,
+      "rank_accuracy_batch": 0.579464316368103,
+      "rank_correct_batch": 16.225000381469727,
+      "rank_pair_batch": 28.0,
+      "step": 210
+    },
+    {
+      "epoch": 0.45958583834335337,
+      "grad_norm": 0.07641485533445969,
+      "learning_rate": 3.272542485937368e-07,
+      "logits": -0.5754351019859314,
+      "logps": -617.5399169921875,
+      "loss": 0.0016,
+      "rank_accuracy_batch": 0.6040178537368774,
+      "rank_correct_batch": 16.912500381469727,
+      "rank_pair_batch": 28.0,
+      "step": 215
+    },
+    {
+      "epoch": 0.47027388109552437,
+      "grad_norm": 0.07330919105386577,
+      "learning_rate": 3.1830994032548e-07,
+      "logits": -0.6116534471511841,
+      "logps": -615.790771484375,
+      "loss": 0.0019,
+      "rank_accuracy_batch": 0.5776785612106323,
+      "rank_correct_batch": 16.174999237060547,
+      "rank_pair_batch": 28.0,
+      "step": 220
+    },
+    {
+      "epoch": 0.48096192384769537,
+      "grad_norm": 0.06469864723171964,
+      "learning_rate": 3.0927009442887437e-07,
+      "logits": -0.7047996520996094,
+      "logps": -664.7101440429688,
+      "loss": 0.0019,
+      "rank_accuracy_batch": 0.5843750238418579,
+      "rank_correct_batch": 16.362499237060547,
+      "rank_pair_batch": 28.0,
+      "step": 225
+    },
+    {
+      "epoch": 0.4916499665998664,
+      "grad_norm": 0.04289842312835369,
+      "learning_rate": 3.001473539458182e-07,
+      "logits": -0.6492472290992737,
+      "logps": -664.0413208007812,
+      "loss": 0.0019,
+      "rank_accuracy_batch": 0.5455357432365417,
+      "rank_correct_batch": 15.274999618530273,
+      "rank_pair_batch": 28.0,
+      "step": 230
+    },
+    {
+      "epoch": 0.5023380093520374,
+      "grad_norm": 0.04591086518117152,
+      "learning_rate": 2.909544778537844e-07,
+      "logits": -0.5703697800636292,
+      "logps": -643.8348388671875,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.5745536088943481,
+      "rank_correct_batch": 16.087499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 235
+    },
+    {
+      "epoch": 0.5130260521042084,
+      "grad_norm": 0.05802670095800759,
+      "learning_rate": 2.817043232212371e-07,
+      "logits": -0.6384927034378052,
+      "logps": -650.6683349609375,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.5625,
+      "rank_correct_batch": 15.75,
+      "rank_pair_batch": 28.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.5237140948563794,
+      "grad_norm": 0.05993926521438956,
+      "learning_rate": 2.7240982722585837e-07,
+      "logits": -0.6757279634475708,
+      "logps": -668.7239990234375,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.6022320985794067,
+      "rank_correct_batch": 16.862499237060547,
+      "rank_pair_batch": 28.0,
+      "step": 245
+    },
+    {
+      "epoch": 0.5344021376085505,
+      "grad_norm": 0.06433940212096037,
+      "learning_rate": 2.63083989060736e-07,
+      "logits": -0.6638821959495544,
+      "logps": -635.4695434570312,
+      "loss": 0.0019,
+      "rank_accuracy_batch": 0.604910671710968,
+      "rank_correct_batch": 16.9375,
+      "rank_pair_batch": 28.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.5344021376085505,
+      "eval_logits": -0.6304262280464172,
+      "eval_logps": -642.7833251953125,
+      "eval_loss": 0.0018058380810543895,
+      "eval_rank_accuracy_batch": 0.5872531533241272,
+      "eval_rank_correct_batch": 16.44308853149414,
+      "eval_rank_pair_batch": 28.0,
+      "eval_runtime": 631.7704,
+      "eval_samples_per_second": 3.115,
+      "eval_steps_per_second": 0.389,
+      "step": 250
+    },
+    {
+      "epoch": 0.5450901803607214,
+      "grad_norm": 0.07400871579554123,
+      "learning_rate": 2.537398517538159e-07,
+      "logits": -0.5997278690338135,
+      "logps": -636.6998901367188,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.5732142925262451,
+      "rank_correct_batch": 16.049999237060547,
+      "rank_pair_batch": 28.0,
+      "step": 255
+    },
+    {
+      "epoch": 0.5557782231128925,
+      "grad_norm": 0.059296255308015175,
+      "learning_rate": 2.4439048392604877e-07,
+      "logits": -0.5596941709518433,
+      "logps": -648.1635131835938,
+      "loss": 0.002,
+      "rank_accuracy_batch": 0.5723214149475098,
+      "rank_correct_batch": 16.024999618530273,
+      "rank_pair_batch": 28.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.5664662658650634,
+      "grad_norm": 0.056990364840059676,
+      "learning_rate": 2.3504896151374144e-07,
+      "logits": -0.5953022837638855,
+      "logps": -648.7028198242188,
+      "loss": 0.0019,
+      "rank_accuracy_batch": 0.6004465222358704,
+      "rank_correct_batch": 16.8125,
+      "rank_pair_batch": 28.0,
+      "step": 265
+    },
+    {
+      "epoch": 0.5771543086172345,
+      "grad_norm": 0.06983836548087012,
+      "learning_rate": 2.2572834948067795e-07,
+      "logits": -0.5165086984634399,
+      "logps": -629.17138671875,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.6178570985794067,
+      "rank_correct_batch": 17.299999237060547,
+      "rank_pair_batch": 28.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.5878423513694054,
+      "grad_norm": 0.0908282752152867,
+      "learning_rate": 2.164416835455862e-07,
+      "logits": -0.6052151918411255,
+      "logps": -636.0174560546875,
+      "loss": 0.0022,
+      "rank_accuracy_batch": 0.6089285612106323,
+      "rank_correct_batch": 17.049999237060547,
+      "rank_pair_batch": 28.0,
+      "step": 275
+    },
+    {
+      "epoch": 0.5985303941215765,
+      "grad_norm": 0.07810449359022072,
+      "learning_rate": 2.072019519505062e-07,
+      "logits": -0.6738878488540649,
+      "logps": -674.0641479492188,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.6031249761581421,
+      "rank_correct_batch": 16.887500762939453,
+      "rank_pair_batch": 28.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.6092184368737475,
+      "grad_norm": 0.04424869680826283,
+      "learning_rate": 1.980220772955602e-07,
+      "logits": -0.6369552612304688,
+      "logps": -636.3786010742188,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.6178571581840515,
+      "rank_correct_batch": 17.299999237060547,
+      "rank_pair_batch": 28.0,
+      "step": 285
+    },
+    {
+      "epoch": 0.6199064796259185,
+      "grad_norm": 0.03976151746590099,
+      "learning_rate": 1.8891489846552644e-07,
+      "logits": -0.6333539485931396,
+      "logps": -659.5064086914062,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.5874999761581421,
+      "rank_correct_batch": 16.450000762939453,
+      "rank_pair_batch": 28.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.6305945223780896,
+      "grad_norm": 0.06288491191103909,
+      "learning_rate": 1.7989315267349933e-07,
+      "logits": -0.5686911344528198,
+      "logps": -644.9364013671875,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.5888393521308899,
+      "rank_correct_batch": 16.487499237060547,
+      "rank_pair_batch": 28.0,
+      "step": 295
+    },
+    {
+      "epoch": 0.6412825651302605,
+      "grad_norm": 0.08488837449955576,
+      "learning_rate": 1.7096945764674398e-07,
+      "logits": -0.4138154089450836,
+      "logps": -657.07421875,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.6241070628166199,
+      "rank_correct_batch": 17.475000381469727,
+      "rank_pair_batch": 28.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.6519706078824316,
+      "grad_norm": 0.050504774406439176,
+      "learning_rate": 1.621562939796643e-07,
+      "logits": -0.613270103931427,
+      "logps": -667.7855834960938,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.5459821224212646,
+      "rank_correct_batch": 15.287500381469727,
+      "rank_pair_batch": 28.0,
+      "step": 305
+    },
+    {
+      "epoch": 0.6626586506346025,
+      "grad_norm": 0.04829182476552713,
+      "learning_rate": 1.5346598767856345e-07,
+      "logits": -0.5592894554138184,
+      "logps": -657.7384033203125,
+      "loss": 0.0016,
+      "rank_accuracy_batch": 0.5892857313156128,
+      "rank_correct_batch": 16.5,
+      "rank_pair_batch": 28.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.6733466933867736,
+      "grad_norm": 0.052101161713427706,
+      "learning_rate": 1.4491069292260866e-07,
+      "logits": -0.6785243153572083,
+      "logps": -684.28955078125,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.563839316368103,
+      "rank_correct_batch": 15.787500381469727,
+      "rank_pair_batch": 28.0,
+      "step": 315
+    },
+    {
+      "epoch": 0.6840347361389446,
+      "grad_norm": 0.05260035842708517,
+      "learning_rate": 1.365023750651133e-07,
+      "logits": -0.559980034828186,
+      "logps": -647.8008422851562,
+      "loss": 0.0014,
+      "rank_accuracy_batch": 0.5607143044471741,
+      "rank_correct_batch": 15.699999809265137,
+      "rank_pair_batch": 28.0,
+      "step": 320
+    },
+    {
+      "epoch": 0.6947227788911156,
+      "grad_norm": 0.061113730390280376,
+      "learning_rate": 1.2825279389890818e-07,
+      "logits": -0.5641463398933411,
+      "logps": -687.2400512695312,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.5861607193946838,
+      "rank_correct_batch": 16.412500381469727,
+      "rank_pair_batch": 28.0,
+      "step": 325
+    },
+    {
+      "epoch": 0.7054108216432866,
+      "grad_norm": 0.05120488122611655,
+      "learning_rate": 1.201734872092077e-07,
+      "logits": -0.5746558308601379,
+      "logps": -658.9490356445312,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.5892857313156128,
+      "rank_correct_batch": 16.5,
+      "rank_pair_batch": 28.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.7160988643954576,
+      "grad_norm": 0.049974882977960114,
+      "learning_rate": 1.1227575463697439e-07,
+      "logits": -0.5673651099205017,
+      "logps": -685.9613647460938,
+      "loss": 0.0016,
+      "rank_accuracy_batch": 0.5714285373687744,
+      "rank_correct_batch": 16.0,
+      "rank_pair_batch": 28.0,
+      "step": 335
+    },
+    {
+      "epoch": 0.7267869071476286,
+      "grad_norm": 0.04159244816573028,
+      "learning_rate": 1.0457064187534861e-07,
+      "logits": -0.5426948666572571,
+      "logps": -656.2877197265625,
+      "loss": 0.0016,
+      "rank_accuracy_batch": 0.6299106478691101,
+      "rank_correct_batch": 17.637500762939453,
+      "rank_pair_batch": 28.0,
+      "step": 340
+    },
+    {
+      "epoch": 0.7374749498997996,
+      "grad_norm": 0.0377970499675676,
+      "learning_rate": 9.706892522124838e-08,
+      "logits": -0.6124971508979797,
+      "logps": -677.3993530273438,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.5669642686843872,
+      "rank_correct_batch": 15.875,
+      "rank_pair_batch": 28.0,
+      "step": 345
+    },
+    {
+      "epoch": 0.7481629926519706,
+      "grad_norm": 0.05057143601493517,
+      "learning_rate": 8.978109650374396e-08,
+      "logits": -0.594768226146698,
+      "logps": -667.6634521484375,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.5986607074737549,
+      "rank_correct_batch": 16.762500762939453,
+      "rank_pair_batch": 28.0,
+      "step": 350
+    },
+    {
+      "epoch": 0.7588510354041417,
+      "grad_norm": 0.040921399914796694,
+      "learning_rate": 8.271734841028552e-08,
+      "logits": -0.5947057604789734,
+      "logps": -662.2523193359375,
+      "loss": 0.0016,
+      "rank_accuracy_batch": 0.5982142686843872,
+      "rank_correct_batch": 16.75,
+      "rank_pair_batch": 28.0,
+      "step": 355
+    },
+    {
+      "epoch": 0.7695390781563126,
+      "grad_norm": 0.06268413493880642,
+      "learning_rate": 7.588756023130833e-08,
+      "logits": -0.5514832139015198,
+      "logps": -698.9403686523438,
+      "loss": 0.0016,
+      "rank_accuracy_batch": 0.5700892210006714,
+      "rank_correct_batch": 15.962499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 360
+    },
+    {
+      "epoch": 0.7802271209084837,
+      "grad_norm": 0.059066915713659185,
+      "learning_rate": 6.930128404315214e-08,
+      "logits": -0.5609195828437805,
+      "logps": -666.8607788085938,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.5544642806053162,
+      "rank_correct_batch": 15.524999618530273,
+      "rank_pair_batch": 28.0,
+      "step": 365
+    },
+    {
+      "epoch": 0.7909151636606546,
+      "grad_norm": 0.05124461244763767,
+      "learning_rate": 6.296773134861824e-08,
+      "logits": -0.6028842926025391,
+      "logps": -660.15185546875,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.5941964387893677,
+      "rank_correct_batch": 16.637500762939453,
+      "rank_pair_batch": 28.0,
+      "step": 370
+    },
+    {
+      "epoch": 0.8016032064128257,
+      "grad_norm": 0.04353661338852584,
+      "learning_rate": 5.6895760193850145e-08,
+      "logits": -0.5873713493347168,
+      "logps": -678.1385498046875,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.5718749761581421,
+      "rank_correct_batch": 16.012500762939453,
+      "rank_pair_batch": 28.0,
+      "step": 375
+    },
+    {
+      "epoch": 0.8016032064128257,
+      "eval_logits": -0.6115520000457764,
+      "eval_logps": -662.020263671875,
+      "eval_loss": 0.0017035834025591612,
+      "eval_rank_accuracy_batch": 0.5901567935943604,
+      "eval_rank_correct_batch": 16.524391174316406,
+      "eval_rank_pair_batch": 28.0,
+      "eval_runtime": 600.3842,
+      "eval_samples_per_second": 3.278,
+      "eval_steps_per_second": 0.41,
+      "step": 375
+    },
+    {
+      "epoch": 0.8122912491649966,
+      "grad_norm": 0.05889122643030273,
+      "learning_rate": 5.109386277955477e-08,
+      "logits": -0.5327494740486145,
+      "logps": -670.4705810546875,
+      "loss": 0.0016,
+      "rank_accuracy_batch": 0.6031249761581421,
+      "rank_correct_batch": 16.887500762939453,
+      "rank_pair_batch": 28.0,
+      "step": 380
+    },
+    {
+      "epoch": 0.8229792919171677,
+      "grad_norm": 0.061541748541570206,
+      "learning_rate": 4.557015358389216e-08,
+      "logits": -0.5657153725624084,
+      "logps": -643.9216918945312,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.5910714864730835,
+      "rank_correct_batch": 16.549999237060547,
+      "rank_pair_batch": 28.0,
+      "step": 385
+    },
+    {
+      "epoch": 0.8336673346693386,
+      "grad_norm": 0.044590523129162556,
+      "learning_rate": 4.0332358013644015e-08,
+      "logits": -0.611028254032135,
+      "logps": -663.544677734375,
+      "loss": 0.0015,
+      "rank_accuracy_batch": 0.5924107432365417,
+      "rank_correct_batch": 16.587499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 390
+    },
+    {
+      "epoch": 0.8443553774215097,
+      "grad_norm": 0.053630996492697786,
+      "learning_rate": 3.538780159953347e-08,
+      "logits": -0.5933468341827393,
+      "logps": -651.5979614257812,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.592410683631897,
+      "rank_correct_batch": 16.587499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 395
+    },
+    {
+      "epoch": 0.8550434201736807,
+      "grad_norm": 0.053367322510510094,
+      "learning_rate": 3.074339975080836e-08,
+      "logits": -0.5933715105056763,
+      "logps": -664.7044677734375,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.6183035373687744,
+      "rank_correct_batch": 17.3125,
+      "rank_pair_batch": 28.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.8657314629258517,
+      "grad_norm": 0.03849991688990423,
+      "learning_rate": 2.6405648083415833e-08,
+      "logits": -0.5992918610572815,
+      "logps": -686.837158203125,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.5808035731315613,
+      "rank_correct_batch": 16.262500762939453,
+      "rank_pair_batch": 28.0,
+      "step": 405
+    },
+    {
+      "epoch": 0.8764195056780227,
+      "grad_norm": 0.03299753297821205,
+      "learning_rate": 2.2380613335296033e-08,
+      "logits": -0.5921497344970703,
+      "logps": -658.4564819335938,
+      "loss": 0.0019,
+      "rank_accuracy_batch": 0.6089285612106323,
+      "rank_correct_batch": 17.049999237060547,
+      "rank_pair_batch": 28.0,
+      "step": 410
+    },
+    {
+      "epoch": 0.8871075484301937,
+      "grad_norm": 0.05993595081853875,
+      "learning_rate": 1.8673924881500823e-08,
+      "logits": -0.6167685985565186,
+      "logps": -657.6021118164062,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.621874988079071,
+      "rank_correct_batch": 17.412500381469727,
+      "rank_pair_batch": 28.0,
+      "step": 415
+    },
+    {
+      "epoch": 0.8977955911823647,
+      "grad_norm": 0.10580724292169638,
+      "learning_rate": 1.5290766861003475e-08,
+      "logits": -0.608423113822937,
+      "logps": -666.0797729492188,
+      "loss": 0.0021,
+      "rank_accuracy_batch": 0.6267857551574707,
+      "rank_correct_batch": 17.549999237060547,
+      "rank_pair_batch": 28.0,
+      "step": 420
+    },
+    {
+      "epoch": 0.9084836339345357,
+      "grad_norm": 0.05179962147512424,
+      "learning_rate": 1.2235870926211616e-08,
+      "logits": -0.5300483107566833,
+      "logps": -674.7176513671875,
+      "loss": 0.0016,
+      "rank_accuracy_batch": 0.5964285731315613,
+      "rank_correct_batch": 16.700000762939453,
+      "rank_pair_batch": 28.0,
+      "step": 425
+    },
+    {
+      "epoch": 0.9191716766867067,
+      "grad_norm": 0.05533039782642434,
+      "learning_rate": 9.513509625323518e-09,
+      "logits": -0.5916275978088379,
+      "logps": -654.2515869140625,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.6165178418159485,
+      "rank_correct_batch": 17.262500762939453,
+      "rank_pair_batch": 28.0,
+      "step": 430
+    },
+    {
+      "epoch": 0.9298597194388778,
+      "grad_norm": 0.045085582087942604,
+      "learning_rate": 7.127490426783123e-09,
+      "logits": -0.6653744578361511,
+      "logps": -658.5715942382812,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.5919642448425293,
+      "rank_correct_batch": 16.575000762939453,
+      "rank_pair_batch": 28.0,
+      "step": 435
+    },
+    {
+      "epoch": 0.9405477621910487,
+      "grad_norm": 0.07434339207451536,
+      "learning_rate": 5.08115039419113e-09,
+      "logits": -0.6592944264411926,
+      "logps": -648.865966796875,
+      "loss": 0.0016,
+      "rank_accuracy_batch": 0.6058035492897034,
+      "rank_correct_batch": 16.962499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 440
+    },
+    {
+      "epoch": 0.9512358049432198,
+      "grad_norm": 0.057951436930576285,
+      "learning_rate": 3.3773515191196646e-09,
+      "logits": -0.4745956361293793,
+      "logps": -659.5784912109375,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.6017856597900391,
+      "rank_correct_batch": 16.850000381469727,
+      "rank_pair_batch": 28.0,
+      "step": 445
+    },
+    {
+      "epoch": 0.9619238476953907,
+      "grad_norm": 0.10661448567775118,
+      "learning_rate": 2.0184767183584474e-09,
+      "logits": -0.5836338996887207,
+      "logps": -637.9088134765625,
+      "loss": 0.002,
+      "rank_accuracy_batch": 0.628125011920929,
+      "rank_correct_batch": 17.587499618530273,
+      "rank_pair_batch": 28.0,
+      "step": 450
+    },
+    {
+      "epoch": 0.9726118904475618,
+      "grad_norm": 0.043661597735003485,
+      "learning_rate": 1.0064265011902328e-09,
+      "logits": -0.5709097385406494,
+      "logps": -651.0455322265625,
+      "loss": 0.0018,
+      "rank_accuracy_batch": 0.6285714507102966,
+      "rank_correct_batch": 17.600000381469727,
+      "rank_pair_batch": 28.0,
+      "step": 455
+    },
+    {
+      "epoch": 0.9832999331997327,
+      "grad_norm": 0.04040440877903873,
+      "learning_rate": 3.4261631135654167e-10,
+      "logits": -0.5855480432510376,
+      "logps": -654.5772705078125,
+      "loss": 0.0017,
+      "rank_accuracy_batch": 0.6035714745521545,
+      "rank_correct_batch": 16.899999618530273,
+      "rank_pair_batch": 28.0,
+      "step": 460
+    },
+    {
+      "epoch": 0.9939879759519038,
+      "grad_norm": 0.0866710364530591,
+      "learning_rate": 2.797454743164174e-11,
+      "logits": -0.6281521916389465,
+      "logps": -675.218505859375,
+      "loss": 0.0019,
+      "rank_accuracy_batch": 0.6071428060531616,
+      "rank_correct_batch": 17.0,
+      "rank_pair_batch": 28.0,
+      "step": 465
+    },
+    {
+      "epoch": 0.9982631930527722,
+      "step": 467,
+      "total_flos": 0.0,
+      "train_loss": 0.0024812357072425285,
+      "train_runtime": 43392.086,
+      "train_samples_per_second": 1.38,
+      "train_steps_per_second": 0.011
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 467,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}