End of training

Browse files

Files changed (5) hide show

README.md +9 -9
all_results.json +11 -11
runs/Jun15_00-47-20_92b2e0e6fb20/events.out.tfevents.1749948709.92b2e0e6fb20.2194.11 +3 -0
test_results.json +12 -12
trainer_state.json +1059 -286

README.md CHANGED Viewed

@@ -16,15 +16,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [maximuspowers/bert-philosophy-adapted](https://huggingface.co/maximuspowers/bert-philosophy-adapted) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.8156
-- Exact Match Accuracy: 0.275
-- Macro Precision: 0.1574
-- Macro Recall: 0.1134
-- Macro F1: 0.1298
-- Micro Precision: 0.8421
-- Micro Recall: 0.2807
-- Micro F1: 0.4211
-- Hamming Loss: 0.0647
 ## Model description

 This model is a fine-tuned version of [maximuspowers/bert-philosophy-adapted](https://huggingface.co/maximuspowers/bert-philosophy-adapted) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5291
+- Exact Match Accuracy: 0.4
+- Macro Precision: 0.1658
+- Macro Recall: 0.1265
+- Macro F1: 0.1410
+- Micro Precision: 0.92
+- Micro Recall: 0.4035
+- Micro F1: 0.5610
+- Hamming Loss: 0.0529
 ## Model description

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
     "epoch": 45.0,
-    "eval_exact_match_accuracy": 0.375,
     "eval_hamming_loss": 0.052941176470588235,
-    "eval_loss": 0.5750908255577087,
-    "eval_macro_f1": 0.13746934180370715,
-    "eval_macro_precision": 0.17058823529411765,
-    "eval_macro_recall": 0.12058823529411763,
-    "eval_micro_f1": 0.55,
-    "eval_micro_precision": 0.9565217391304348,
-    "eval_micro_recall": 0.38596491228070173,
-    "eval_runtime": 0.2248,
-    "eval_samples_per_second": 177.928,
-    "eval_steps_per_second": 13.345,
     "total_flos": 0.0,
     "train_loss": 0.9705644819471572,
     "train_runtime": 232.6541,

 {
     "epoch": 45.0,
+    "eval_exact_match_accuracy": 0.4,
     "eval_hamming_loss": 0.052941176470588235,
+    "eval_loss": 0.5290737152099609,
+    "eval_macro_f1": 0.14097904608067482,
+    "eval_macro_precision": 0.1657754010695187,
+    "eval_macro_recall": 0.1264705882352941,
+    "eval_micro_f1": 0.5609756097560976,
+    "eval_micro_precision": 0.92,
+    "eval_micro_recall": 0.40350877192982454,
+    "eval_runtime": 0.2121,
+    "eval_samples_per_second": 188.615,
+    "eval_steps_per_second": 23.577,
     "total_flos": 0.0,
     "train_loss": 0.9705644819471572,
     "train_runtime": 232.6541,

runs/Jun15_00-47-20_92b2e0e6fb20/events.out.tfevents.1749948709.92b2e0e6fb20.2194.11 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3a7d599c58099528756c657a42cc2454d32e18e282d12c575b8ebcb6fe242d8
+size 5853

test_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 50.0,
-    "eval_exact_match_accuracy": 0.375,
     "eval_hamming_loss": 0.052941176470588235,
-    "eval_loss": 0.5750908255577087,
-    "eval_macro_f1": 0.13746934180370715,
-    "eval_macro_precision": 0.17058823529411765,
-    "eval_macro_recall": 0.12058823529411763,
-    "eval_micro_f1": 0.55,
-    "eval_micro_precision": 0.9565217391304348,
-    "eval_micro_recall": 0.38596491228070173,
-    "eval_runtime": 0.2248,
-    "eval_samples_per_second": 177.928,
-    "eval_steps_per_second": 13.345
 }

 {
+    "epoch": 45.0,
+    "eval_exact_match_accuracy": 0.4,
     "eval_hamming_loss": 0.052941176470588235,
+    "eval_loss": 0.5290737152099609,
+    "eval_macro_f1": 0.14097904608067482,
+    "eval_macro_precision": 0.1657754010695187,
+    "eval_macro_recall": 0.1264705882352941,
+    "eval_micro_f1": 0.5609756097560976,
+    "eval_micro_precision": 0.92,
+    "eval_micro_recall": 0.40350877192982454,
+    "eval_runtime": 0.2121,
+    "eval_samples_per_second": 188.615,
+    "eval_steps_per_second": 23.577
 }

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 500,
-  "best_metric": 0.3380281690140845,
-  "best_model_checkpoint": "./bert-philosophy-classifier/checkpoint-500",
-  "epoch": 50.0,
-  "eval_steps": 250,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12,406 +12,1179 @@
     {
       "epoch": 0,
       "step": 0,
-      "train/classification_loss": 0.679158627986908,
-      "train/contrastive_loss": 9.516982078552246,
-      "train/negative_loss": 9.516908645629883,
-      "train/num_negatives": 190,
-      "train/num_positives": 50,
-      "train/positive_loss": 7.310241926461458e-05,
-      "train/total_loss": 2.582555055618286
     },
     {
       "epoch": 0,
       "step": 0,
-      "train/classification_loss": 0.6693864464759827,
-      "train/contrastive_loss": 9.331222534179688,
-      "train/negative_loss": 9.331130981445312,
-      "train/num_negatives": 192,
-      "train/num_positives": 48,
-      "train/positive_loss": 9.195055463351309e-05,
-      "train/total_loss": 2.535630941390991
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 17.358003616333008,
       "learning_rate": 9.600000000000001e-06,
-      "loss": 3.6257,
       "step": 50
     },
     {
-      "epoch": 5.0,
       "step": 50,
-      "train/classification_loss": 0.6362661719322205,
-      "train/contrastive_loss": 1.4868279695510864,
-      "train/negative_loss": 1.3825407028198242,
-      "train/num_negatives": 170,
-      "train/num_positives": 66,
-      "train/positive_loss": 0.10428724437952042,
-      "train/total_loss": 0.9336317777633667
     },
     {
-      "epoch": 5.0,
       "step": 50,
-      "train/classification_loss": 0.6401901245117188,
-      "train/contrastive_loss": 1.6219159364700317,
-      "train/negative_loss": 1.440779447555542,
-      "train/num_negatives": 186,
-      "train/num_positives": 54,
-      "train/positive_loss": 0.18113651871681213,
-      "train/total_loss": 0.964573323726654
     },
     {
-      "epoch": 10.0,
-      "grad_norm": 20.2652645111084,
       "learning_rate": 1.9600000000000002e-05,
-      "loss": 1.6163,
       "step": 100
     },
     {
-      "epoch": 10.0,
       "step": 100,
-      "train/classification_loss": 0.44592994451522827,
-      "train/contrastive_loss": 0.9996287822723389,
-      "train/negative_loss": 0.8505972027778625,
-      "train/num_negatives": 190,
-      "train/num_positives": 50,
-      "train/positive_loss": 0.1490315943956375,
-      "train/total_loss": 0.645855724811554
     },
     {
-      "epoch": 10.0,
       "step": 100,
-      "train/classification_loss": 0.4469062089920044,
-      "train/contrastive_loss": 1.1934728622436523,
-      "train/negative_loss": 0.9309344291687012,
-      "train/num_negatives": 206,
-      "train/num_positives": 30,
-      "train/positive_loss": 0.26253849267959595,
-      "train/total_loss": 0.685600757598877
     },
     {
-      "epoch": 15.0,
-      "grad_norm": 8.280580520629883,
-      "learning_rate": 1.76e-05,
-      "loss": 1.1607,
       "step": 150
     },
     {
-      "epoch": 15.0,
       "step": 150,
-      "train/classification_loss": 0.32877856492996216,
-      "train/contrastive_loss": 1.1336479187011719,
-      "train/negative_loss": 0.9981224536895752,
-      "train/num_negatives": 170,
-      "train/num_positives": 66,
-      "train/positive_loss": 0.1355254054069519,
-      "train/total_loss": 0.5555081367492676
     },
     {
-      "epoch": 15.0,
       "step": 150,
-      "train/classification_loss": 0.3285317122936249,
-      "train/contrastive_loss": 0.8869010210037231,
-      "train/negative_loss": 0.591576099395752,
-      "train/num_negatives": 202,
-      "train/num_positives": 38,
-      "train/positive_loss": 0.2953248918056488,
-      "train/total_loss": 0.5059119462966919
     },
     {
-      "epoch": 20.0,
-      "grad_norm": 7.707197189331055,
-      "learning_rate": 1.5100000000000001e-05,
-      "loss": 0.9196,
       "step": 200
     },
     {
-      "epoch": 20.0,
       "step": 200,
-      "train/classification_loss": 0.293140172958374,
-      "train/contrastive_loss": 0.7223706245422363,
-      "train/negative_loss": 0.5778605937957764,
-      "train/num_negatives": 202,
-      "train/num_positives": 30,
-      "train/positive_loss": 0.14451001584529877,
-      "train/total_loss": 0.4376143217086792
     },
     {
-      "epoch": 20.0,
       "step": 200,
-      "train/classification_loss": 0.2644300162792206,
-      "train/contrastive_loss": 0.4585617780685425,
-      "train/negative_loss": 0.39372602105140686,
-      "train/num_negatives": 184,
-      "train/num_positives": 56,
-      "train/positive_loss": 0.06483575701713562,
-      "train/total_loss": 0.3561423718929291
     },
     {
-      "epoch": 25.0,
-      "grad_norm": 6.953479766845703,
-      "learning_rate": 1.2600000000000001e-05,
-      "loss": 0.811,
       "step": 250
     },
     {
-      "epoch": 25.0,
       "step": 250,
-      "train/classification_loss": 0.2595597505569458,
-      "train/contrastive_loss": 2.3272764682769775,
-      "train/negative_loss": 1.8330672979354858,
-      "train/num_negatives": 196,
-      "train/num_positives": 44,
-      "train/positive_loss": 0.4942092299461365,
-      "train/total_loss": 0.7250150442123413
     },
     {
-      "epoch": 25.0,
       "step": 250,
-      "train/classification_loss": 0.2660799026489258,
-      "train/contrastive_loss": 3.3698394298553467,
-      "train/negative_loss": 1.8154842853546143,
-      "train/num_negatives": 210,
-      "train/num_positives": 30,
-      "train/positive_loss": 1.5543551445007324,
-      "train/total_loss": 0.9400478005409241
     },
     {
-      "epoch": 25.0,
-      "step": 250,
-      "train/classification_loss": 0.2840481698513031,
-      "train/contrastive_loss": 1.1826257705688477,
-      "train/negative_loss": 1.1373339891433716,
       "train/num_negatives": 46,
       "train/num_positives": 8,
-      "train/positive_loss": 0.045291826128959656,
-      "train/total_loss": 0.5205733180046082
     },
     {
-      "epoch": 25.0,
       "eval_exact_match_accuracy": 0.1,
       "eval_hamming_loss": 0.075,
-      "eval_loss": 0.7701398134231567,
       "eval_macro_f1": 0.0784313725490196,
       "eval_macro_precision": 0.1092436974789916,
       "eval_macro_recall": 0.06149732620320855,
       "eval_micro_f1": 0.2153846153846154,
       "eval_micro_precision": 0.875,
       "eval_micro_recall": 0.12280701754385964,
-      "eval_runtime": 0.219,
-      "eval_samples_per_second": 182.685,
-      "eval_steps_per_second": 13.701,
-      "step": 250
     },
     {
       "epoch": 25.0,
-      "step": 250,
-      "train/classification_loss": 0.25078481435775757,
-      "train/contrastive_loss": 0.9467111825942993,
-      "train/negative_loss": 0.8433182835578918,
-      "train/num_negatives": 198,
-      "train/num_positives": 40,
-      "train/positive_loss": 0.10339287668466568,
-      "train/total_loss": 0.44012707471847534
     },
     {
       "epoch": 25.0,
-      "step": 250,
-      "train/classification_loss": 0.23322956264019012,
-      "train/contrastive_loss": 0.4987642168998718,
-      "train/negative_loss": 0.48307880759239197,
-      "train/num_negatives": 172,
-      "train/num_positives": 68,
-      "train/positive_loss": 0.015685414895415306,
-      "train/total_loss": 0.3329824209213257
     },
     {
       "epoch": 30.0,
-      "grad_norm": 11.7496976852417,
-      "learning_rate": 1.0100000000000002e-05,
-      "loss": 0.7395,
-      "step": 300
     },
     {
       "epoch": 30.0,
-      "step": 300,
-      "train/classification_loss": 0.22414086759090424,
-      "train/contrastive_loss": 0.9544009566307068,
-      "train/negative_loss": 0.6044885516166687,
-      "train/num_negatives": 186,
-      "train/num_positives": 54,
-      "train/positive_loss": 0.3499124050140381,
-      "train/total_loss": 0.41502106189727783
     },
     {
       "epoch": 30.0,
-      "step": 300,
-      "train/classification_loss": 0.21396367251873016,
-      "train/contrastive_loss": 0.4959838390350342,
-      "train/negative_loss": 0.4717627763748169,
-      "train/num_negatives": 198,
-      "train/num_positives": 42,
-      "train/positive_loss": 0.02422107383608818,
-      "train/total_loss": 0.3131604492664337
     },
     {
       "epoch": 35.0,
-      "grad_norm": 5.532268047332764,
-      "learning_rate": 7.600000000000001e-06,
-      "loss": 0.6737,
-      "step": 350
     },
     {
       "epoch": 35.0,
-      "step": 350,
-      "train/classification_loss": 0.21886315941810608,
-      "train/contrastive_loss": 0.5652549266815186,
-      "train/negative_loss": 0.4682881832122803,
-      "train/num_negatives": 172,
-      "train/num_positives": 68,
-      "train/positive_loss": 0.09696672856807709,
-      "train/total_loss": 0.33191415667533875
     },
     {
       "epoch": 35.0,
-      "step": 350,
-      "train/classification_loss": 0.1887310892343521,
-      "train/contrastive_loss": 0.18129800260066986,
-      "train/negative_loss": 0.17543496191501617,
-      "train/num_negatives": 152,
-      "train/num_positives": 88,
-      "train/positive_loss": 0.005863038823008537,
-      "train/total_loss": 0.22499069571495056
     },
     {
       "epoch": 40.0,
-      "grad_norm": 5.668190002441406,
-      "learning_rate": 5.1e-06,
-      "loss": 0.6269,
-      "step": 400
     },
     {
       "epoch": 40.0,
-      "step": 400,
-      "train/classification_loss": 0.18238115310668945,
-      "train/contrastive_loss": 0.33620232343673706,
-      "train/negative_loss": 0.2550373077392578,
-      "train/num_negatives": 156,
-      "train/num_positives": 84,
-      "train/positive_loss": 0.08116500079631805,
-      "train/total_loss": 0.24962162971496582
     },
     {
       "epoch": 40.0,
-      "step": 400,
-      "train/classification_loss": 0.22312195599079132,
-      "train/contrastive_loss": 0.6893786191940308,
-      "train/negative_loss": 0.6744635105133057,
-      "train/num_negatives": 206,
-      "train/num_positives": 34,
-      "train/positive_loss": 0.014915116131305695,
-      "train/total_loss": 0.36099767684936523
     },
     {
       "epoch": 45.0,
-      "grad_norm": 4.168755054473877,
-      "learning_rate": 2.6e-06,
-      "loss": 0.6025,
-      "step": 450
     },
     {
       "epoch": 45.0,
-      "step": 450,
-      "train/classification_loss": 0.1997791826725006,
-      "train/contrastive_loss": 0.606022834777832,
-      "train/negative_loss": 0.5423316955566406,
-      "train/num_negatives": 216,
-      "train/num_positives": 24,
-      "train/positive_loss": 0.0636911541223526,
-      "train/total_loss": 0.32098376750946045
     },
     {
       "epoch": 45.0,
-      "step": 450,
-      "train/classification_loss": 0.21638567745685577,
-      "train/contrastive_loss": 0.37323933839797974,
-      "train/negative_loss": 0.3397449851036072,
-      "train/num_negatives": 164,
-      "train/num_positives": 62,
-      "train/positive_loss": 0.03349434956908226,
-      "train/total_loss": 0.291033536195755
-    },
-    {
-      "epoch": 50.0,
-      "grad_norm": 5.069293022155762,
-      "learning_rate": 1.0000000000000001e-07,
-      "loss": 0.58,
-      "step": 500
     },
     {
-      "epoch": 50.0,
-      "step": 500,
-      "train/classification_loss": 0.22550146281719208,
-      "train/contrastive_loss": 2.474167823791504,
-      "train/negative_loss": 1.7999987602233887,
-      "train/num_negatives": 196,
-      "train/num_positives": 44,
-      "train/positive_loss": 0.6741690635681152,
-      "train/total_loss": 0.7203350067138672
     },
     {
-      "epoch": 50.0,
-      "step": 500,
-      "train/classification_loss": 0.23388545215129852,
-      "train/contrastive_loss": 3.272613763809204,
-      "train/negative_loss": 1.7668838500976562,
-      "train/num_negatives": 210,
-      "train/num_positives": 30,
-      "train/positive_loss": 1.5057299137115479,
-      "train/total_loss": 0.8884082436561584
     },
     {
-      "epoch": 50.0,
-      "step": 500,
-      "train/classification_loss": 0.2511661648750305,
-      "train/contrastive_loss": 0.6579197645187378,
-      "train/negative_loss": 0.537192702293396,
       "train/num_negatives": 46,
       "train/num_positives": 8,
-      "train/positive_loss": 0.12072707712650299,
-      "train/total_loss": 0.38275012373924255
-    },
-    {
-      "epoch": 50.0,
-      "eval_exact_match_accuracy": 0.2,
-      "eval_hamming_loss": 0.06911764705882353,
-      "eval_loss": 0.7200472950935364,
-      "eval_macro_f1": 0.11519607843137254,
-      "eval_macro_precision": 0.15826330532212887,
-      "eval_macro_recall": 0.09090909090909091,
-      "eval_micro_f1": 0.3380281690140845,
-      "eval_micro_precision": 0.8571428571428571,
-      "eval_micro_recall": 0.21052631578947367,
-      "eval_runtime": 0.219,
-      "eval_samples_per_second": 182.641,
-      "eval_steps_per_second": 13.698,
-      "step": 500
     },
     {
-      "epoch": 50.0,
-      "step": 500,
       "total_flos": 0.0,
-      "train_loss": 1.1355848159790038,
-      "train_runtime": 246.5817,
-      "train_samples_per_second": 64.076,
-      "train_steps_per_second": 2.028
     }
   ],
   "logging_steps": 50,
-  "max_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 50,
-  "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
@@ -427,14 +1200,14 @@
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_global_step": 600,
+  "best_metric": 0.42105263157894735,
+  "best_model_checkpoint": null,
+  "epoch": 45.0,
+  "eval_steps": 100,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0,
       "step": 0,
+      "train/classification_loss": 0.7007833123207092,
+      "train/contrastive_loss": 9.572936058044434,
+      "train/negative_loss": 9.572856903076172,
+      "train/num_negatives": 46,
+      "train/num_positives": 10,
+      "train/positive_loss": 7.908708357717842e-05,
+      "train/total_loss": 2.615370512008667
     },
     {
       "epoch": 0,
       "step": 0,
+      "train/classification_loss": 0.7040252089500427,
+      "train/contrastive_loss": 9.725648880004883,
+      "train/negative_loss": 9.725597381591797,
+      "train/num_negatives": 46,
+      "train/num_positives": 10,
+      "train/positive_loss": 5.152364246896468e-05,
+      "train/total_loss": 2.6491549015045166
     },
     {
+      "epoch": 2.5,
+      "grad_norm": 18.165754318237305,
       "learning_rate": 9.600000000000001e-06,
+      "loss": 3.7884,
       "step": 50
     },
     {
+      "epoch": 2.5,
       "step": 50,
+      "train/classification_loss": 0.6516271233558655,
+      "train/contrastive_loss": 1.8623473644256592,
+      "train/negative_loss": 1.4998806715011597,
+      "train/num_negatives": 38,
+      "train/num_positives": 18,
+      "train/positive_loss": 0.36246663331985474,
+      "train/total_loss": 1.0240966081619263
     },
     {
+      "epoch": 2.5,
       "step": 50,
+      "train/classification_loss": 0.6451266407966614,
+      "train/contrastive_loss": 1.7446768283843994,
+      "train/negative_loss": 1.668500304222107,
+      "train/num_negatives": 50,
+      "train/num_positives": 6,
+      "train/positive_loss": 0.07617650926113129,
+      "train/total_loss": 0.9940620064735413
     },
     {
+      "epoch": 5.0,
+      "grad_norm": 16.30499839782715,
       "learning_rate": 1.9600000000000002e-05,
+      "loss": 1.7889,
       "step": 100
     },
     {
+      "epoch": 5.0,
       "step": 100,
+      "train/classification_loss": 0.4927652180194855,
+      "train/contrastive_loss": 2.06559419631958,
+      "train/negative_loss": 1.8223981857299805,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.24319612979888916,
+      "train/total_loss": 0.9058840274810791
     },
     {
+      "epoch": 5.0,
       "step": 100,
+      "train/classification_loss": 0.5166366100311279,
+      "train/contrastive_loss": 3.1131491661071777,
+      "train/negative_loss": 3.112612724304199,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.0005365243996493518,
+      "train/total_loss": 1.1392664909362793
     },
     {
+      "epoch": 5.0,
+      "step": 100,
+      "train/classification_loss": 0.4922243058681488,
+      "train/contrastive_loss": 1.7773994207382202,
+      "train/negative_loss": 1.7757622003555298,
+      "train/num_negatives": 52,
+      "train/num_positives": 4,
+      "train/positive_loss": 0.0016372093232348561,
+      "train/total_loss": 0.8477041721343994
+    },
+    {
+      "epoch": 5.0,
+      "step": 100,
+      "train/classification_loss": 0.5021852850914001,
+      "train/contrastive_loss": 3.2608611583709717,
+      "train/negative_loss": 2.6507816314697266,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.6100795269012451,
+      "train/total_loss": 1.1543575525283813
+    },
+    {
+      "epoch": 5.0,
+      "step": 100,
+      "train/classification_loss": 0.4944652020931244,
+      "train/contrastive_loss": 2.343458652496338,
+      "train/negative_loss": 1.1261494159698486,
+      "train/num_negatives": 46,
+      "train/num_positives": 8,
+      "train/positive_loss": 1.2173092365264893,
+      "train/total_loss": 0.9631569385528564
+    },
+    {
+      "epoch": 5.0,
+      "eval_exact_match_accuracy": 0.0,
+      "eval_hamming_loss": 0.08529411764705883,
+      "eval_loss": 1.002073884010315,
+      "eval_macro_f1": 0.0,
+      "eval_macro_precision": 0.0,
+      "eval_macro_recall": 0.0,
+      "eval_micro_f1": 0.0,
+      "eval_micro_precision": 0.0,
+      "eval_micro_recall": 0.0,
+      "eval_runtime": 0.2122,
+      "eval_samples_per_second": 188.524,
+      "eval_steps_per_second": 23.566,
+      "step": 100
+    },
+    {
+      "epoch": 5.0,
+      "step": 100,
+      "train/classification_loss": 0.5136489272117615,
+      "train/contrastive_loss": 1.3931580781936646,
+      "train/negative_loss": 1.0857487916946411,
+      "train/num_negatives": 42,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.30740925669670105,
+      "train/total_loss": 0.7922805547714233
+    },
+    {
+      "epoch": 5.0,
+      "step": 100,
+      "train/classification_loss": 0.5019432902336121,
+      "train/contrastive_loss": 0.7777740955352783,
+      "train/negative_loss": 0.5738040804862976,
+      "train/num_negatives": 40,
+      "train/num_positives": 16,
+      "train/positive_loss": 0.20396998524665833,
+      "train/total_loss": 0.6574981212615967
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 12.862069129943848,
+      "learning_rate": 1.8933333333333334e-05,
+      "loss": 1.396,
       "step": 150
     },
     {
+      "epoch": 7.5,
       "step": 150,
+      "train/classification_loss": 0.3993939161300659,
+      "train/contrastive_loss": 1.1298128366470337,
+      "train/negative_loss": 0.8979541659355164,
+      "train/num_negatives": 44,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.23185870051383972,
+      "train/total_loss": 0.6253564953804016
     },
     {
+      "epoch": 7.5,
       "step": 150,
+      "train/classification_loss": 0.393746018409729,
+      "train/contrastive_loss": 1.2817302942276,
+      "train/negative_loss": 1.1390491724014282,
+      "train/num_negatives": 44,
+      "train/num_positives": 10,
+      "train/positive_loss": 0.14268112182617188,
+      "train/total_loss": 0.6500921249389648
     },
     {
+      "epoch": 10.0,
+      "grad_norm": 23.76511573791504,
+      "learning_rate": 1.782222222222222e-05,
+      "loss": 1.156,
       "step": 200
     },
     {
+      "epoch": 10.0,
       "step": 200,
+      "train/classification_loss": 0.30127307772636414,
+      "train/contrastive_loss": 1.8966163396835327,
+      "train/negative_loss": 1.7765212059020996,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.12009509652853012,
+      "train/total_loss": 0.6805963516235352
     },
     {
+      "epoch": 10.0,
       "step": 200,
+      "train/classification_loss": 0.3545684218406677,
+      "train/contrastive_loss": 3.0673155784606934,
+      "train/negative_loss": 3.067002058029175,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.0003136020968668163,
+      "train/total_loss": 0.9680315256118774
     },
     {
+      "epoch": 10.0,
+      "step": 200,
+      "train/classification_loss": 0.32993215322494507,
+      "train/contrastive_loss": 2.723947048187256,
+      "train/negative_loss": 2.7232000827789307,
+      "train/num_negatives": 52,
+      "train/num_positives": 4,
+      "train/positive_loss": 0.0007470683194696903,
+      "train/total_loss": 0.8747215867042542
+    },
+    {
+      "epoch": 10.0,
+      "step": 200,
+      "train/classification_loss": 0.32662659883499146,
+      "train/contrastive_loss": 3.6181204319000244,
+      "train/negative_loss": 3.4868171215057373,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.1313033103942871,
+      "train/total_loss": 1.050250768661499
+    },
+    {
+      "epoch": 10.0,
+      "step": 200,
+      "train/classification_loss": 0.33877384662628174,
+      "train/contrastive_loss": 2.0167577266693115,
+      "train/negative_loss": 1.4009835720062256,
+      "train/num_negatives": 46,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.6157740950584412,
+      "train/total_loss": 0.742125391960144
+    },
+    {
+      "epoch": 10.0,
+      "eval_exact_match_accuracy": 0.0,
+      "eval_hamming_loss": 0.0838235294117647,
+      "eval_loss": 0.8631451725959778,
+      "eval_macro_f1": 0.0,
+      "eval_macro_precision": 0.0,
+      "eval_macro_recall": 0.0,
+      "eval_micro_f1": 0.0,
+      "eval_micro_precision": 0.0,
+      "eval_micro_recall": 0.0,
+      "eval_runtime": 0.202,
+      "eval_samples_per_second": 198.018,
+      "eval_steps_per_second": 24.752,
+      "step": 200
+    },
+    {
+      "epoch": 10.0,
+      "step": 200,
+      "train/classification_loss": 0.34425634145736694,
+      "train/contrastive_loss": 1.217971682548523,
+      "train/negative_loss": 0.8478565216064453,
+      "train/num_negatives": 42,
+      "train/num_positives": 14,
+      "train/positive_loss": 0.37011516094207764,
+      "train/total_loss": 0.5878506898880005
+    },
+    {
+      "epoch": 10.0,
+      "step": 200,
+      "train/classification_loss": 0.3122542202472687,
+      "train/contrastive_loss": 0.6875693798065186,
+      "train/negative_loss": 0.686568558216095,
+      "train/num_negatives": 42,
+      "train/num_positives": 14,
+      "train/positive_loss": 0.0010008324170485139,
+      "train/total_loss": 0.4497680962085724
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 7.754025459289551,
+      "learning_rate": 1.6711111111111112e-05,
+      "loss": 1.0042,
       "step": 250
     },
     {
+      "epoch": 12.5,
       "step": 250,
+      "train/classification_loss": 0.24464763700962067,
+      "train/contrastive_loss": 0.6364108920097351,
+      "train/negative_loss": 0.4732590615749359,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.163151815533638,
+      "train/total_loss": 0.3719298243522644
     },
     {
+      "epoch": 12.5,
       "step": 250,
+      "train/classification_loss": 0.3077278137207031,
+      "train/contrastive_loss": 0.4854884147644043,
+      "train/negative_loss": 0.33287519216537476,
+      "train/num_negatives": 42,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.15261322259902954,
+      "train/total_loss": 0.40482550859451294
     },
     {
+      "epoch": 15.0,
+      "grad_norm": 16.385419845581055,
+      "learning_rate": 1.5600000000000003e-05,
+      "loss": 0.8775,
+      "step": 300
+    },
+    {
+      "epoch": 15.0,
+      "step": 300,
+      "train/classification_loss": 0.23176752030849457,
+      "train/contrastive_loss": 3.0300073623657227,
+      "train/negative_loss": 2.5657095909118652,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.4642978310585022,
+      "train/total_loss": 0.8377690315246582
+    },
+    {
+      "epoch": 15.0,
+      "step": 300,
+      "train/classification_loss": 0.3002067804336548,
+      "train/contrastive_loss": 3.911193609237671,
+      "train/negative_loss": 3.911159038543701,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 3.4572090953588486e-05,
+      "train/total_loss": 1.082445502281189
+    },
+    {
+      "epoch": 15.0,
+      "step": 300,
+      "train/classification_loss": 0.2759508788585663,
+      "train/contrastive_loss": 2.758004665374756,
+      "train/negative_loss": 2.7472095489501953,
+      "train/num_negatives": 52,
+      "train/num_positives": 4,
+      "train/positive_loss": 0.010795066133141518,
+      "train/total_loss": 0.8275518417358398
+    },
+    {
+      "epoch": 15.0,
+      "step": 300,
+      "train/classification_loss": 0.27436333894729614,
+      "train/contrastive_loss": 4.6799540519714355,
+      "train/negative_loss": 4.251977920532227,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.4279760420322418,
+      "train/total_loss": 1.2103540897369385
+    },
+    {
+      "epoch": 15.0,
+      "step": 300,
+      "train/classification_loss": 0.2907729744911194,
+      "train/contrastive_loss": 2.066659927368164,
+      "train/negative_loss": 1.4751646518707275,
       "train/num_negatives": 46,
       "train/num_positives": 8,
+      "train/positive_loss": 0.5914952754974365,
+      "train/total_loss": 0.7041049599647522
     },
     {
+      "epoch": 15.0,
+      "eval_exact_match_accuracy": 0.05,
+      "eval_hamming_loss": 0.07647058823529412,
+      "eval_loss": 0.9324451684951782,
+      "eval_macro_f1": 0.03676470588235294,
+      "eval_macro_precision": 0.058823529411764705,
+      "eval_macro_recall": 0.026737967914438502,
+      "eval_micro_f1": 0.16129032258064516,
+      "eval_micro_precision": 1.0,
+      "eval_micro_recall": 0.08771929824561403,
+      "eval_runtime": 0.207,
+      "eval_samples_per_second": 193.242,
+      "eval_steps_per_second": 24.155,
+      "step": 300
+    },
+    {
+      "epoch": 15.0,
+      "step": 300,
+      "train/classification_loss": 0.26088976860046387,
+      "train/contrastive_loss": 0.5876651406288147,
+      "train/negative_loss": 0.5801823139190674,
+      "train/num_negatives": 32,
+      "train/num_positives": 20,
+      "train/positive_loss": 0.007482839282602072,
+      "train/total_loss": 0.3784227967262268
+    },
+    {
+      "epoch": 15.0,
+      "step": 300,
+      "train/classification_loss": 0.2548993229866028,
+      "train/contrastive_loss": 1.50383722782135,
+      "train/negative_loss": 1.4029262065887451,
+      "train/num_negatives": 46,
+      "train/num_positives": 10,
+      "train/positive_loss": 0.10091102123260498,
+      "train/total_loss": 0.5556668043136597
+    },
+    {
+      "epoch": 17.5,
+      "grad_norm": 16.8145809173584,
+      "learning_rate": 1.448888888888889e-05,
+      "loss": 0.827,
+      "step": 350
+    },
+    {
+      "epoch": 17.5,
+      "step": 350,
+      "train/classification_loss": 0.24073848128318787,
+      "train/contrastive_loss": 0.6602705717086792,
+      "train/negative_loss": 0.4261236786842346,
+      "train/num_negatives": 42,
+      "train/num_positives": 14,
+      "train/positive_loss": 0.23414692282676697,
+      "train/total_loss": 0.3727926015853882
+    },
+    {
+      "epoch": 17.5,
+      "step": 350,
+      "train/classification_loss": 0.2786425054073334,
+      "train/contrastive_loss": 0.29787567257881165,
+      "train/negative_loss": 0.2970171868801117,
+      "train/num_negatives": 44,
+      "train/num_positives": 6,
+      "train/positive_loss": 0.0008584868628531694,
+      "train/total_loss": 0.3382176458835602
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 18.7548828125,
+      "learning_rate": 1.3377777777777778e-05,
+      "loss": 0.7747,
+      "step": 400
+    },
+    {
+      "epoch": 20.0,
+      "step": 400,
+      "train/classification_loss": 0.20234902203083038,
+      "train/contrastive_loss": 1.7551348209381104,
+      "train/negative_loss": 1.1972665786743164,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.557868242263794,
+      "train/total_loss": 0.5533760190010071
+    },
+    {
+      "epoch": 20.0,
+      "step": 400,
+      "train/classification_loss": 0.27940884232521057,
+      "train/contrastive_loss": 3.1547234058380127,
+      "train/negative_loss": 3.1508476734161377,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.0038756858557462692,
+      "train/total_loss": 0.9103535413742065
+    },
+    {
+      "epoch": 20.0,
+      "step": 400,
+      "train/classification_loss": 0.2563062608242035,
+      "train/contrastive_loss": 3.433103084564209,
+      "train/negative_loss": 3.146430253982544,
+      "train/num_negatives": 52,
+      "train/num_positives": 4,
+      "train/positive_loss": 0.2866727411746979,
+      "train/total_loss": 0.9429268836975098
+    },
+    {
+      "epoch": 20.0,
+      "step": 400,
+      "train/classification_loss": 0.24611052870750427,
+      "train/contrastive_loss": 3.2940289974212646,
+      "train/negative_loss": 2.822859525680542,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.47116944193840027,
+      "train/total_loss": 0.9049162864685059
+    },
+    {
+      "epoch": 20.0,
+      "step": 400,
+      "train/classification_loss": 0.26658472418785095,
+      "train/contrastive_loss": 0.9518164992332458,
+      "train/negative_loss": 0.90028977394104,
+      "train/num_negatives": 46,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.051526736468076706,
+      "train/total_loss": 0.45694804191589355
+    },
+    {
+      "epoch": 20.0,
       "eval_exact_match_accuracy": 0.1,
       "eval_hamming_loss": 0.075,
+      "eval_loss": 0.7537041902542114,
       "eval_macro_f1": 0.0784313725490196,
       "eval_macro_precision": 0.1092436974789916,
       "eval_macro_recall": 0.06149732620320855,
       "eval_micro_f1": 0.2153846153846154,
       "eval_micro_precision": 0.875,
       "eval_micro_recall": 0.12280701754385964,
+      "eval_runtime": 0.2075,
+      "eval_samples_per_second": 192.749,
+      "eval_steps_per_second": 24.094,
+      "step": 400
+    },
+    {
+      "epoch": 20.0,
+      "step": 400,
+      "train/classification_loss": 0.24341967701911926,
+      "train/contrastive_loss": 0.7751690149307251,
+      "train/negative_loss": 0.517412543296814,
+      "train/num_negatives": 42,
+      "train/num_positives": 10,
+      "train/positive_loss": 0.25775647163391113,
+      "train/total_loss": 0.3984534740447998
+    },
+    {
+      "epoch": 20.0,
+      "step": 400,
+      "train/classification_loss": 0.2490834891796112,
+      "train/contrastive_loss": 0.44699349999427795,
+      "train/negative_loss": 0.4466739594936371,
+      "train/num_negatives": 52,
+      "train/num_positives": 4,
+      "train/positive_loss": 0.0003195433528162539,
+      "train/total_loss": 0.33848220109939575
+    },
+    {
+      "epoch": 22.5,
+      "grad_norm": 3.832901954650879,
+      "learning_rate": 1.2266666666666667e-05,
+      "loss": 0.6929,
+      "step": 450
+    },
+    {
+      "epoch": 22.5,
+      "step": 450,
+      "train/classification_loss": 0.23125219345092773,
+      "train/contrastive_loss": 0.7171761393547058,
+      "train/negative_loss": 0.7147800922393799,
+      "train/num_negatives": 50,
+      "train/num_positives": 4,
+      "train/positive_loss": 0.0023960734251886606,
+      "train/total_loss": 0.37468743324279785
+    },
+    {
+      "epoch": 22.5,
+      "step": 450,
+      "train/classification_loss": 0.20611771941184998,
+      "train/contrastive_loss": 0.7421404123306274,
+      "train/negative_loss": 0.4822021722793579,
+      "train/num_negatives": 50,
+      "train/num_positives": 6,
+      "train/positive_loss": 0.2599382698535919,
+      "train/total_loss": 0.35454580187797546
     },
     {
       "epoch": 25.0,
+      "grad_norm": 11.741353988647461,
+      "learning_rate": 1.1155555555555556e-05,
+      "loss": 0.7074,
+      "step": 500
     },
     {
       "epoch": 25.0,
+      "step": 500,
+      "train/classification_loss": 0.1859707236289978,
+      "train/contrastive_loss": 2.448401689529419,
+      "train/negative_loss": 1.6338316202163696,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.8145700693130493,
+      "train/total_loss": 0.6756510734558105
+    },
+    {
+      "epoch": 25.0,
+      "step": 500,
+      "train/classification_loss": 0.2645534574985504,
+      "train/contrastive_loss": 2.718876838684082,
+      "train/negative_loss": 2.718696355819702,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.00018060117145068944,
+      "train/total_loss": 0.8083288669586182
+    },
+    {
+      "epoch": 25.0,
+      "step": 500,
+      "train/classification_loss": 0.244839608669281,
+      "train/contrastive_loss": 4.527173042297363,
+      "train/negative_loss": 2.9302120208740234,
+      "train/num_negatives": 52,
+      "train/num_positives": 4,
+      "train/positive_loss": 1.5969611406326294,
+      "train/total_loss": 1.1502742767333984
+    },
+    {
+      "epoch": 25.0,
+      "step": 500,
+      "train/classification_loss": 0.22313973307609558,
+      "train/contrastive_loss": 3.153029203414917,
+      "train/negative_loss": 2.193068504333496,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.9599607586860657,
+      "train/total_loss": 0.8537455797195435
+    },
+    {
+      "epoch": 25.0,
+      "step": 500,
+      "train/classification_loss": 0.25405386090278625,
+      "train/contrastive_loss": 1.7682042121887207,
+      "train/negative_loss": 0.7665292620658875,
+      "train/num_negatives": 46,
+      "train/num_positives": 8,
+      "train/positive_loss": 1.001675009727478,
+      "train/total_loss": 0.6076947450637817
+    },
+    {
+      "epoch": 25.0,
+      "eval_exact_match_accuracy": 0.175,
+      "eval_hamming_loss": 0.07205882352941176,
+      "eval_loss": 0.8191388845443726,
+      "eval_macro_f1": 0.10560224089635854,
+      "eval_macro_precision": 0.14869281045751634,
+      "eval_macro_recall": 0.08449197860962566,
+      "eval_micro_f1": 0.30985915492957744,
+      "eval_micro_precision": 0.7857142857142857,
+      "eval_micro_recall": 0.19298245614035087,
+      "eval_runtime": 0.2062,
+      "eval_samples_per_second": 193.983,
+      "eval_steps_per_second": 24.248,
+      "step": 500
+    },
+    {
+      "epoch": 25.0,
+      "step": 500,
+      "train/classification_loss": 0.16842614114284515,
+      "train/contrastive_loss": 0.2924913763999939,
+      "train/negative_loss": 0.28081196546554565,
+      "train/num_negatives": 42,
+      "train/num_positives": 14,
+      "train/positive_loss": 0.011679417453706264,
+      "train/total_loss": 0.22692441940307617
+    },
+    {
+      "epoch": 25.0,
+      "step": 500,
+      "train/classification_loss": 0.24865391850471497,
+      "train/contrastive_loss": 1.3489311933517456,
+      "train/negative_loss": 0.7319411635398865,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.6169900298118591,
+      "train/total_loss": 0.5184401273727417
+    },
+    {
+      "epoch": 27.5,
+      "grad_norm": 6.354713439941406,
+      "learning_rate": 1.0044444444444446e-05,
+      "loss": 0.6366,
+      "step": 550
+    },
+    {
+      "epoch": 27.5,
+      "step": 550,
+      "train/classification_loss": 0.23189660906791687,
+      "train/contrastive_loss": 0.8256056308746338,
+      "train/negative_loss": 0.8255752325057983,
+      "train/num_negatives": 54,
+      "train/num_positives": 2,
+      "train/positive_loss": 3.039883085875772e-05,
+      "train/total_loss": 0.3970177173614502
+    },
+    {
+      "epoch": 27.5,
+      "step": 550,
+      "train/classification_loss": 0.2541985809803009,
+      "train/contrastive_loss": 1.3727329969406128,
+      "train/negative_loss": 1.0316259860992432,
+      "train/num_negatives": 40,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.34110698103904724,
+      "train/total_loss": 0.528745174407959
     },
     {
       "epoch": 30.0,
+      "grad_norm": 12.662666320800781,
+      "learning_rate": 8.933333333333333e-06,
+      "loss": 0.6281,
+      "step": 600
     },
     {
       "epoch": 30.0,
+      "step": 600,
+      "train/classification_loss": 0.17969225347042084,
+      "train/contrastive_loss": 2.1998844146728516,
+      "train/negative_loss": 1.262956976890564,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.9369274973869324,
+      "train/total_loss": 0.6196691393852234
     },
     {
       "epoch": 30.0,
+      "step": 600,
+      "train/classification_loss": 0.2561105787754059,
+      "train/contrastive_loss": 3.2061843872070312,
+      "train/negative_loss": 3.2013988494873047,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.00478551909327507,
+      "train/total_loss": 0.8973474502563477
+    },
+    {
+      "epoch": 30.0,
+      "step": 600,
+      "train/classification_loss": 0.24141749739646912,
+      "train/contrastive_loss": 4.734986305236816,
+      "train/negative_loss": 3.0736501216888428,
+      "train/num_negatives": 52,
+      "train/num_positives": 4,
+      "train/positive_loss": 1.6613364219665527,
+      "train/total_loss": 1.1884148120880127
+    },
+    {
+      "epoch": 30.0,
+      "step": 600,
+      "train/classification_loss": 0.22462235391139984,
+      "train/contrastive_loss": 4.2080254554748535,
+      "train/negative_loss": 3.6183528900146484,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.5896727442741394,
+      "train/total_loss": 1.0662274360656738
+    },
+    {
+      "epoch": 30.0,
+      "step": 600,
+      "train/classification_loss": 0.24234618246555328,
+      "train/contrastive_loss": 1.1968506574630737,
+      "train/negative_loss": 0.8532204031944275,
+      "train/num_negatives": 46,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.34363028407096863,
+      "train/total_loss": 0.4817163348197937
+    },
+    {
+      "epoch": 30.0,
+      "eval_exact_match_accuracy": 0.275,
+      "eval_hamming_loss": 0.06470588235294118,
+      "eval_loss": 0.8506749868392944,
+      "eval_macro_f1": 0.12978524743230624,
+      "eval_macro_precision": 0.15735294117647058,
+      "eval_macro_recall": 0.11336898395721925,
+      "eval_micro_f1": 0.42105263157894735,
+      "eval_micro_precision": 0.8421052631578947,
+      "eval_micro_recall": 0.2807017543859649,
+      "eval_runtime": 0.2062,
+      "eval_samples_per_second": 193.977,
+      "eval_steps_per_second": 24.247,
+      "step": 600
+    },
+    {
+      "epoch": 30.0,
+      "step": 600,
+      "train/classification_loss": 0.16461151838302612,
+      "train/contrastive_loss": 0.5128712058067322,
+      "train/negative_loss": 0.23724108934402466,
+      "train/num_negatives": 38,
+      "train/num_positives": 18,
+      "train/positive_loss": 0.2756301164627075,
+      "train/total_loss": 0.2671857476234436
+    },
+    {
+      "epoch": 30.0,
+      "step": 600,
+      "train/classification_loss": 0.2038976103067398,
+      "train/contrastive_loss": 1.0636850595474243,
+      "train/negative_loss": 0.5897871255874634,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.47389790415763855,
+      "train/total_loss": 0.41663461923599243
+    },
+    {
+      "epoch": 32.5,
+      "grad_norm": 11.408817291259766,
+      "learning_rate": 7.822222222222224e-06,
+      "loss": 0.5854,
+      "step": 650
+    },
+    {
+      "epoch": 32.5,
+      "step": 650,
+      "train/classification_loss": 0.1786508709192276,
+      "train/contrastive_loss": 0.5145746469497681,
+      "train/negative_loss": 0.14455223083496094,
+      "train/num_negatives": 36,
+      "train/num_positives": 18,
+      "train/positive_loss": 0.3700224459171295,
+      "train/total_loss": 0.28156578540802
+    },
+    {
+      "epoch": 32.5,
+      "step": 650,
+      "train/classification_loss": 0.2088967263698578,
+      "train/contrastive_loss": 1.686006784439087,
+      "train/negative_loss": 1.5359704494476318,
+      "train/num_negatives": 50,
+      "train/num_positives": 6,
+      "train/positive_loss": 0.1500363051891327,
+      "train/total_loss": 0.5460981130599976
     },
     {
       "epoch": 35.0,
+      "grad_norm": 5.847558975219727,
+      "learning_rate": 6.711111111111111e-06,
+      "loss": 0.5506,
+      "step": 700
     },
     {
       "epoch": 35.0,
+      "step": 700,
+      "train/classification_loss": 0.17107558250427246,
+      "train/contrastive_loss": 2.287914276123047,
+      "train/negative_loss": 1.0503000020980835,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 1.237614393234253,
+      "train/total_loss": 0.6286584138870239
     },
     {
       "epoch": 35.0,
+      "step": 700,
+      "train/classification_loss": 0.2500559389591217,
+      "train/contrastive_loss": 2.9361915588378906,
+      "train/negative_loss": 2.824162721633911,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.1120288297533989,
+      "train/total_loss": 0.8372942209243774
+    },
+    {
+      "epoch": 35.0,
+      "step": 700,
+      "train/classification_loss": 0.23473431169986725,
+      "train/contrastive_loss": 4.627296447753906,
+      "train/negative_loss": 3.135880708694458,
+      "train/num_negatives": 52,
+      "train/num_positives": 4,
+      "train/positive_loss": 1.4914155006408691,
+      "train/total_loss": 1.160193681716919
+    },
+    {
+      "epoch": 35.0,
+      "step": 700,
+      "train/classification_loss": 0.20871424674987793,
+      "train/contrastive_loss": 2.308566093444824,
+      "train/negative_loss": 1.4599714279174805,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.8485947251319885,
+      "train/total_loss": 0.6704274415969849
+    },
+    {
+      "epoch": 35.0,
+      "step": 700,
+      "train/classification_loss": 0.23494853079319,
+      "train/contrastive_loss": 0.9399895071983337,
+      "train/negative_loss": 0.4285624623298645,
+      "train/num_negatives": 46,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.5114270448684692,
+      "train/total_loss": 0.4229464530944824
+    },
+    {
+      "epoch": 35.0,
+      "eval_exact_match_accuracy": 0.25,
+      "eval_hamming_loss": 0.0661764705882353,
+      "eval_loss": 0.7439039945602417,
+      "eval_macro_f1": 0.12555610479485912,
+      "eval_macro_precision": 0.15630252100840336,
+      "eval_macro_recall": 0.10748663101604278,
+      "eval_micro_f1": 0.4,
+      "eval_micro_precision": 0.8333333333333334,
+      "eval_micro_recall": 0.2631578947368421,
+      "eval_runtime": 0.2043,
+      "eval_samples_per_second": 195.76,
+      "eval_steps_per_second": 24.47,
+      "step": 700
+    },
+    {
+      "epoch": 35.0,
+      "step": 700,
+      "train/classification_loss": 0.18580235540866852,
+      "train/contrastive_loss": 0.5447431802749634,
+      "train/negative_loss": 0.26964136958122253,
+      "train/num_negatives": 40,
+      "train/num_positives": 16,
+      "train/positive_loss": 0.27510178089141846,
+      "train/total_loss": 0.29475098848342896
+    },
+    {
+      "epoch": 35.0,
+      "step": 700,
+      "train/classification_loss": 0.19202794134616852,
+      "train/contrastive_loss": 1.1511749029159546,
+      "train/negative_loss": 0.8905836343765259,
+      "train/num_negatives": 40,
+      "train/num_positives": 16,
+      "train/positive_loss": 0.2605912685394287,
+      "train/total_loss": 0.42226290702819824
+    },
+    {
+      "epoch": 37.5,
+      "grad_norm": 5.041801452636719,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.5486,
+      "step": 750
+    },
+    {
+      "epoch": 37.5,
+      "step": 750,
+      "train/classification_loss": 0.18688128888607025,
+      "train/contrastive_loss": 0.7704952955245972,
+      "train/negative_loss": 0.7704557180404663,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 3.9578346331836656e-05,
+      "train/total_loss": 0.3409803509712219
+    },
+    {
+      "epoch": 37.5,
+      "step": 750,
+      "train/classification_loss": 0.19349302351474762,
+      "train/contrastive_loss": 0.4310402274131775,
+      "train/negative_loss": 0.4191313683986664,
+      "train/num_negatives": 46,
+      "train/num_positives": 10,
+      "train/positive_loss": 0.011908866465091705,
+      "train/total_loss": 0.2797010540962219
     },
     {
       "epoch": 40.0,
+      "grad_norm": 8.75462532043457,
+      "learning_rate": 4.488888888888889e-06,
+      "loss": 0.5091,
+      "step": 800
     },
     {
       "epoch": 40.0,
+      "step": 800,
+      "train/classification_loss": 0.1726197898387909,
+      "train/contrastive_loss": 1.8750531673431396,
+      "train/negative_loss": 0.9292571544647217,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.9457959532737732,
+      "train/total_loss": 0.5476304292678833
     },
     {
       "epoch": 40.0,
+      "step": 800,
+      "train/classification_loss": 0.24574041366577148,
+      "train/contrastive_loss": 3.074068784713745,
+      "train/negative_loss": 3.055785894393921,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.018282821401953697,
+      "train/total_loss": 0.8605541586875916
+    },
+    {
+      "epoch": 40.0,
+      "step": 800,
+      "train/classification_loss": 0.2323407232761383,
+      "train/contrastive_loss": 4.7350592613220215,
+      "train/negative_loss": 2.995204210281372,
+      "train/num_negatives": 52,
+      "train/num_positives": 4,
+      "train/positive_loss": 1.739855170249939,
+      "train/total_loss": 1.1793526411056519
+    },
+    {
+      "epoch": 40.0,
+      "step": 800,
+      "train/classification_loss": 0.20833879709243774,
+      "train/contrastive_loss": 3.4109816551208496,
+      "train/negative_loss": 2.4856531620025635,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.9253284931182861,
+      "train/total_loss": 0.8905351161956787
+    },
+    {
+      "epoch": 40.0,
+      "step": 800,
+      "train/classification_loss": 0.23090128600597382,
+      "train/contrastive_loss": 1.3861477375030518,
+      "train/negative_loss": 0.5846720933914185,
+      "train/num_negatives": 46,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.8014755845069885,
+      "train/total_loss": 0.5081308484077454
+    },
+    {
+      "epoch": 40.0,
+      "eval_exact_match_accuracy": 0.275,
+      "eval_hamming_loss": 0.06470588235294118,
+      "eval_loss": 0.7972406148910522,
+      "eval_macro_f1": 0.12978524743230624,
+      "eval_macro_precision": 0.15735294117647058,
+      "eval_macro_recall": 0.11336898395721925,
+      "eval_micro_f1": 0.42105263157894735,
+      "eval_micro_precision": 0.8421052631578947,
+      "eval_micro_recall": 0.2807017543859649,
+      "eval_runtime": 0.2048,
+      "eval_samples_per_second": 195.328,
+      "eval_steps_per_second": 24.416,
+      "step": 800
+    },
+    {
+      "epoch": 40.0,
+      "step": 800,
+      "train/classification_loss": 0.16540196537971497,
+      "train/contrastive_loss": 0.28263404965400696,
+      "train/negative_loss": 0.28260505199432373,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 2.9008200726821087e-05,
+      "train/total_loss": 0.22192877531051636
+    },
+    {
+      "epoch": 40.0,
+      "step": 800,
+      "train/classification_loss": 0.12730641663074493,
+      "train/contrastive_loss": 0.2957398295402527,
+      "train/negative_loss": 0.29565563797950745,
+      "train/num_negatives": 30,
+      "train/num_positives": 26,
+      "train/positive_loss": 8.41914297780022e-05,
+      "train/total_loss": 0.1864543855190277
+    },
+    {
+      "epoch": 42.5,
+      "grad_norm": 6.981760501861572,
+      "learning_rate": 3.377777777777778e-06,
+      "loss": 0.4948,
+      "step": 850
+    },
+    {
+      "epoch": 42.5,
+      "step": 850,
+      "train/classification_loss": 0.14926917850971222,
+      "train/contrastive_loss": 0.2675209641456604,
+      "train/negative_loss": 0.22713389992713928,
+      "train/num_negatives": 40,
+      "train/num_positives": 16,
+      "train/positive_loss": 0.04038705304265022,
+      "train/total_loss": 0.20277337729930878
+    },
+    {
+      "epoch": 42.5,
+      "step": 850,
+      "train/classification_loss": 0.17404112219810486,
+      "train/contrastive_loss": 0.08631884306669235,
+      "train/negative_loss": 0.08508215099573135,
+      "train/num_negatives": 40,
+      "train/num_positives": 16,
+      "train/positive_loss": 0.0012366925366222858,
+      "train/total_loss": 0.19130489230155945
     },
     {
       "epoch": 45.0,
+      "grad_norm": 3.230358839035034,
+      "learning_rate": 2.266666666666667e-06,
+      "loss": 0.5038,
+      "step": 900
     },
     {
       "epoch": 45.0,
+      "step": 900,
+      "train/classification_loss": 0.17026303708553314,
+      "train/contrastive_loss": 2.131587266921997,
+      "train/negative_loss": 0.9242226481437683,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 1.207364559173584,
+      "train/total_loss": 0.5965805053710938
     },
     {
       "epoch": 45.0,
+      "step": 900,
+      "train/classification_loss": 0.24070139229297638,
+      "train/contrastive_loss": 3.244175910949707,
+      "train/negative_loss": 3.2388288974761963,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.005346930585801601,
+      "train/total_loss": 0.8895365595817566
     },
     {
+      "epoch": 45.0,
+      "step": 900,
+      "train/classification_loss": 0.2271755486726761,
+      "train/contrastive_loss": 4.544618129730225,
+      "train/negative_loss": 2.900235891342163,
+      "train/num_negatives": 52,
+      "train/num_positives": 4,
+      "train/positive_loss": 1.6443822383880615,
+      "train/total_loss": 1.1360992193222046
     },
     {
+      "epoch": 45.0,
+      "step": 900,
+      "train/classification_loss": 0.20477482676506042,
+      "train/contrastive_loss": 3.36401104927063,
+      "train/negative_loss": 2.652341365814209,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.7116697430610657,
+      "train/total_loss": 0.8775770664215088
     },
     {
+      "epoch": 45.0,
+      "step": 900,
+      "train/classification_loss": 0.22650422155857086,
+      "train/contrastive_loss": 1.7576167583465576,
+      "train/negative_loss": 0.546459436416626,
       "train/num_negatives": 46,
       "train/num_positives": 8,
+      "train/positive_loss": 1.2111573219299316,
+      "train/total_loss": 0.578027606010437
     },
     {
+      "epoch": 45.0,
+      "eval_exact_match_accuracy": 0.275,
+      "eval_hamming_loss": 0.06470588235294118,
+      "eval_loss": 0.8155641555786133,
+      "eval_macro_f1": 0.12978524743230624,
+      "eval_macro_precision": 0.15735294117647058,
+      "eval_macro_recall": 0.11336898395721925,
+      "eval_micro_f1": 0.42105263157894735,
+      "eval_micro_precision": 0.8421052631578947,
+      "eval_micro_recall": 0.2807017543859649,
+      "eval_runtime": 0.2057,
+      "eval_samples_per_second": 194.486,
+      "eval_steps_per_second": 24.311,
+      "step": 900
+    },
+    {
+      "epoch": 45.0,
+      "step": 900,
       "total_flos": 0.0,
+      "train_loss": 0.9705644819471572,
+      "train_runtime": 232.6541,
+      "train_samples_per_second": 67.912,
+      "train_steps_per_second": 4.298
     }
   ],
   "logging_steps": 50,
+  "max_steps": 1000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 50,
+  "save_steps": 50000,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }