Model save

Browse files

Files changed (7) hide show

README.md +66 -36
all_results.json +8 -0
logs/events.out.tfevents.1743190156.4d701d7b0712.5422.1 +3 -0
train_results.json +8 -0
trainer_state.json +522 -0
training_args.bin +1 -1
training_metrics.xlsx +0 -0

README.md CHANGED Viewed

@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [apple/mobilevit-small](https://huggingface.co/apple/mobilevit-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2911
-- Accuracy: 0.9228
 ## Model description
@@ -45,43 +45,73 @@ The following hyperparameters were used during training:
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine_with_restarts
 - lr_scheduler_warmup_steps: 256
-- num_epochs: 15
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 2.0561        | 0.5   | 64   | 2.0213          | 0.2886   |
-| 1.9819        | 1.0   | 128  | 1.8788          | 0.5503   |
-| 1.771         | 1.5   | 192  | 1.5291          | 0.6107   |
-| 1.3911        | 2.0   | 256  | 1.0706          | 0.7349   |
-| 1.0026        | 2.5   | 320  | 0.7560          | 0.8054   |
-| 0.7657        | 3.0   | 384  | 0.6180          | 0.8356   |
-| 0.6082        | 3.5   | 448  | 0.5422          | 0.8389   |
-| 0.5313        | 4.0   | 512  | 0.4946          | 0.8523   |
-| 0.4623        | 4.5   | 576  | 0.4512          | 0.8758   |
-| 0.4212        | 5.0   | 640  | 0.4322          | 0.8792   |
-| 0.4025        | 5.5   | 704  | 0.4259          | 0.8893   |
-| 0.3892        | 6.0   | 768  | 0.4238          | 0.8859   |
-| 0.3959        | 6.5   | 832  | 0.4083          | 0.8859   |
-| 0.3279        | 7.0   | 896  | 0.3750          | 0.8826   |
-| 0.2793        | 7.5   | 960  | 0.3350          | 0.8993   |
-| 0.222         | 8.0   | 1024 | 0.3208          | 0.8960   |
-| 0.1862        | 8.5   | 1088 | 0.3128          | 0.8993   |
-| 0.1717        | 9.0   | 1152 | 0.3049          | 0.9027   |
-| 0.1408        | 9.5   | 1216 | 0.3010          | 0.9027   |
-| 0.1507        | 10.0  | 1280 | 0.3240          | 0.9161   |
-| 0.1369        | 10.5  | 1344 | 0.3063          | 0.9060   |
-| 0.1389        | 11.0  | 1408 | 0.3045          | 0.9060   |
-| 0.1199        | 11.5  | 1472 | 0.3062          | 0.9094   |
-| 0.1003        | 12.0  | 1536 | 0.3131          | 0.9128   |
-| 0.0756        | 12.5  | 1600 | 0.3002          | 0.9228   |
-| 0.0636        | 13.0  | 1664 | 0.3177          | 0.9128   |
-| 0.058         | 13.5  | 1728 | 0.3143          | 0.9228   |
-| 0.0566        | 14.0  | 1792 | 0.3136          | 0.9195   |
-| 0.0516        | 14.5  | 1856 | 0.3447          | 0.9161   |
-| 0.0426        | 15.0  | 1920 | 0.2911          | 0.9228   |
 ### Framework versions
@@ -89,4 +119,4 @@ The following hyperparameters were used during training:
 - Transformers 4.48.3
 - Pytorch 2.5.1+cu124
 - Datasets 3.3.2
-- Tokenizers 0.21.0

 This model is a fine-tuned version of [apple/mobilevit-small](https://huggingface.co/apple/mobilevit-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4089
+- Accuracy: 0.9295
 ## Model description
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine_with_restarts
 - lr_scheduler_warmup_steps: 256
+- num_epochs: 30
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch | Step | Accuracy | Validation Loss |
+|:-------------:|:-----:|:----:|:--------:|:---------------:|
+| 2.0561        | 0.5   | 64   | 0.2886   | 2.0213          |
+| 1.9819        | 1.0   | 128  | 0.5503   | 1.8788          |
+| 1.771         | 1.5   | 192  | 0.6107   | 1.5291          |
+| 1.3911        | 2.0   | 256  | 0.7349   | 1.0706          |
+| 1.0026        | 2.5   | 320  | 0.8054   | 0.7560          |
+| 0.7657        | 3.0   | 384  | 0.8356   | 0.6180          |
+| 0.6082        | 3.5   | 448  | 0.8389   | 0.5422          |
+| 0.5313        | 4.0   | 512  | 0.8523   | 0.4946          |
+| 0.4623        | 4.5   | 576  | 0.8758   | 0.4512          |
+| 0.4212        | 5.0   | 640  | 0.8792   | 0.4322          |
+| 0.4025        | 5.5   | 704  | 0.8893   | 0.4259          |
+| 0.3892        | 6.0   | 768  | 0.8859   | 0.4238          |
+| 0.3959        | 6.5   | 832  | 0.8859   | 0.4083          |
+| 0.3279        | 7.0   | 896  | 0.8826   | 0.3750          |
+| 0.2793        | 7.5   | 960  | 0.8993   | 0.3350          |
+| 0.222         | 8.0   | 1024 | 0.8960   | 0.3208          |
+| 0.1862        | 8.5   | 1088 | 0.8993   | 0.3128          |
+| 0.1717        | 9.0   | 1152 | 0.9027   | 0.3049          |
+| 0.1408        | 9.5   | 1216 | 0.9027   | 0.3010          |
+| 0.1507        | 10.0  | 1280 | 0.9161   | 0.3240          |
+| 0.1369        | 10.5  | 1344 | 0.9060   | 0.3063          |
+| 0.1389        | 11.0  | 1408 | 0.9060   | 0.3045          |
+| 0.1199        | 11.5  | 1472 | 0.9094   | 0.3062          |
+| 0.1003        | 12.0  | 1536 | 0.9128   | 0.3131          |
+| 0.0756        | 12.5  | 1600 | 0.9228   | 0.3002          |
+| 0.0636        | 13.0  | 1664 | 0.9128   | 0.3177          |
+| 0.058         | 13.5  | 1728 | 0.9228   | 0.3143          |
+| 0.0566        | 14.0  | 1792 | 0.9195   | 0.3136          |
+| 0.0516        | 14.5  | 1856 | 0.9161   | 0.3447          |
+| 0.0426        | 15.0  | 1920 | 0.9228   | 0.2911          |
+| 0.0513        | 15.5  | 1984 | 0.3028   | 0.9228          |
+| 0.0447        | 16.0  | 2048 | 0.3328   | 0.9195          |
+| 0.0332        | 16.5  | 2112 | 0.3193   | 0.9262          |
+| 0.0358        | 17.0  | 2176 | 0.3385   | 0.9161          |
+| 0.0343        | 17.5  | 2240 | 0.3297   | 0.9295          |
+| 0.0291        | 18.0  | 2304 | 0.3518   | 0.9161          |
+| 0.0287        | 18.5  | 2368 | 0.3224   | 0.9195          |
+| 0.0197        | 19.0  | 2432 | 0.3099   | 0.9228          |
+| 0.0223        | 19.5  | 2496 | 0.3305   | 0.9295          |
+| 0.0282        | 20.0  | 2560 | 0.3378   | 0.9161          |
+| 0.0231        | 20.5  | 2624 | 0.3077   | 0.9228          |
+| 0.0251        | 21.0  | 2688 | 0.3520   | 0.9161          |
+| 0.021         | 21.5  | 2752 | 0.3506   | 0.9228          |
+| 0.0222        | 22.0  | 2816 | 0.3561   | 0.9128          |
+| 0.016         | 22.5  | 2880 | 0.3482   | 0.9195          |
+| 0.0163        | 23.0  | 2944 | 0.3429   | 0.9228          |
+| 0.0114        | 23.5  | 3008 | 0.3839   | 0.9329          |
+| 0.0106        | 24.0  | 3072 | 0.4066   | 0.9262          |
+| 0.0111        | 24.5  | 3136 | 0.4003   | 0.9329          |
+| 0.009         | 25.0  | 3200 | 0.4000   | 0.9262          |
+| 0.0088        | 25.5  | 3264 | 0.3667   | 0.9228          |
+| 0.0057        | 26.0  | 3328 | 0.3587   | 0.9195          |
+| 0.0073        | 26.5  | 3392 | 0.3686   | 0.9329          |
+| 0.0085        | 27.0  | 3456 | 0.3676   | 0.9195          |
+| 0.0087        | 27.5  | 3520 | 0.4251   | 0.9262          |
+| 0.0061        | 28.0  | 3584 | 0.3879   | 0.9195          |
+| 0.0062        | 28.5  | 3648 | 0.3865   | 0.9195          |
+| 0.0068        | 29.0  | 3712 | 0.3943   | 0.9262          |
+| 0.0092        | 29.5  | 3776 | 0.4064   | 0.9228          |
+| 0.0078        | 30.0  | 3840 | 0.4089   | 0.9295          |
 ### Framework versions
 - Transformers 4.48.3
 - Pytorch 2.5.1+cu124
 - Datasets 3.3.2
+- Tokenizers 0.21.1

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 15.0,
+    "total_flos": 7.164784986292224e+17,
+    "train_loss": 0.48338687382638457,
+    "train_runtime": 5148.0361,
+    "train_samples_per_second": 23.869,
+    "train_steps_per_second": 0.373
+}

logs/events.out.tfevents.1743190156.4d701d7b0712.5422.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70b2c8d08479bc0fe7360f0f7efbaf4230964f41739d5218dbe876fc335fb782
+size 22373

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 15.0,
+    "total_flos": 7.164784986292224e+17,
+    "train_loss": 0.48338687382638457,
+    "train_runtime": 5148.0361,
+    "train_samples_per_second": 23.869,
+    "train_steps_per_second": 0.373
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,522 @@

+{
+  "best_metric": 0.2911371886730194,
+  "best_model_checkpoint": "./drive/Shareddrives/CS198-Drones/[v4] Training Output/mobilevit-small_rice-leaf-disease-augmented-v4_fft/checkpoint-1920",
+  "epoch": 15.0,
+  "eval_steps": 64,
+  "global_step": 1920,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.8390832543373108,
+      "learning_rate": 7.5e-06,
+      "loss": 2.0561,
+      "step": 64
+    },
+    {
+      "epoch": 0.5,
+      "eval_accuracy": 0.28859060402684567,
+      "eval_loss": 2.0213236808776855,
+      "eval_runtime": 9.1133,
+      "eval_samples_per_second": 32.7,
+      "eval_steps_per_second": 0.549,
+      "step": 64
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.9097115397453308,
+      "learning_rate": 1.5e-05,
+      "loss": 1.9819,
+      "step": 128
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5503355704697986,
+      "eval_loss": 1.8788046836853027,
+      "eval_runtime": 9.5999,
+      "eval_samples_per_second": 31.042,
+      "eval_steps_per_second": 0.521,
+      "step": 128
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 1.2205861806869507,
+      "learning_rate": 2.25e-05,
+      "loss": 1.771,
+      "step": 192
+    },
+    {
+      "epoch": 1.5,
+      "eval_accuracy": 0.610738255033557,
+      "eval_loss": 1.5290961265563965,
+      "eval_runtime": 9.5293,
+      "eval_samples_per_second": 31.272,
+      "eval_steps_per_second": 0.525,
+      "step": 192
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.496865153312683,
+      "learning_rate": 3e-05,
+      "loss": 1.3911,
+      "step": 256
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7348993288590604,
+      "eval_loss": 1.0706205368041992,
+      "eval_runtime": 9.6229,
+      "eval_samples_per_second": 30.968,
+      "eval_steps_per_second": 0.52,
+      "step": 256
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.845400333404541,
+      "learning_rate": 2.9025243640281226e-05,
+      "loss": 1.0026,
+      "step": 320
+    },
+    {
+      "epoch": 2.5,
+      "eval_accuracy": 0.8053691275167785,
+      "eval_loss": 0.756048321723938,
+      "eval_runtime": 9.6895,
+      "eval_samples_per_second": 30.755,
+      "eval_steps_per_second": 0.516,
+      "step": 320
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.1688945293426514,
+      "learning_rate": 2.6227661222566516e-05,
+      "loss": 0.7657,
+      "step": 384
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8355704697986577,
+      "eval_loss": 0.6180014610290527,
+      "eval_runtime": 9.5752,
+      "eval_samples_per_second": 31.122,
+      "eval_steps_per_second": 0.522,
+      "step": 384
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 1.9307341575622559,
+      "learning_rate": 2.197084758065653e-05,
+      "loss": 0.6082,
+      "step": 448
+    },
+    {
+      "epoch": 3.5,
+      "eval_accuracy": 0.8389261744966443,
+      "eval_loss": 0.542212188243866,
+      "eval_runtime": 9.8282,
+      "eval_samples_per_second": 30.321,
+      "eval_steps_per_second": 0.509,
+      "step": 448
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 2.4017300605773926,
+      "learning_rate": 1.6892360241408803e-05,
+      "loss": 0.5313,
+      "step": 512
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8523489932885906,
+      "eval_loss": 0.494586706161499,
+      "eval_runtime": 9.5005,
+      "eval_samples_per_second": 31.367,
+      "eval_steps_per_second": 0.526,
+      "step": 512
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 1.9675699472427368,
+      "learning_rate": 1.149281235767183e-05,
+      "loss": 0.4623,
+      "step": 576
+    },
+    {
+      "epoch": 4.5,
+      "eval_accuracy": 0.8758389261744967,
+      "eval_loss": 0.4512217044830322,
+      "eval_runtime": 9.6531,
+      "eval_samples_per_second": 30.871,
+      "eval_steps_per_second": 0.518,
+      "step": 576
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.900230884552002,
+      "learning_rate": 6.549084935146384e-06,
+      "loss": 0.4212,
+      "step": 640
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8791946308724832,
+      "eval_loss": 0.4321761131286621,
+      "eval_runtime": 9.537,
+      "eval_samples_per_second": 31.247,
+      "eval_steps_per_second": 0.524,
+      "step": 640
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 2.782975196838379,
+      "learning_rate": 2.7037019399421785e-06,
+      "loss": 0.4025,
+      "step": 704
+    },
+    {
+      "epoch": 5.5,
+      "eval_accuracy": 0.889261744966443,
+      "eval_loss": 0.42589595913887024,
+      "eval_runtime": 9.6007,
+      "eval_samples_per_second": 31.039,
+      "eval_steps_per_second": 0.521,
+      "step": 704
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 2.2286922931671143,
+      "learning_rate": 4.564382427431779e-07,
+      "loss": 0.3892,
+      "step": 768
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8859060402684564,
+      "eval_loss": 0.4237956702709198,
+      "eval_runtime": 9.608,
+      "eval_samples_per_second": 31.016,
+      "eval_steps_per_second": 0.52,
+      "step": 768
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 2.1533002853393555,
+      "learning_rate": 2.9900634879009304e-05,
+      "loss": 0.3959,
+      "step": 832
+    },
+    {
+      "epoch": 6.5,
+      "eval_accuracy": 0.8859060402684564,
+      "eval_loss": 0.40830349922180176,
+      "eval_runtime": 9.7273,
+      "eval_samples_per_second": 30.635,
+      "eval_steps_per_second": 0.514,
+      "step": 832
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 3.03064227104187,
+      "learning_rate": 2.8321109519140222e-05,
+      "loss": 0.3279,
+      "step": 896
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8825503355704698,
+      "eval_loss": 0.37496834993362427,
+      "eval_runtime": 9.1243,
+      "eval_samples_per_second": 32.66,
+      "eval_steps_per_second": 0.548,
+      "step": 896
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 2.8390941619873047,
+      "learning_rate": 2.50102726629655e-05,
+      "loss": 0.2793,
+      "step": 960
+    },
+    {
+      "epoch": 7.5,
+      "eval_accuracy": 0.8993288590604027,
+      "eval_loss": 0.335045725107193,
+      "eval_runtime": 8.9197,
+      "eval_samples_per_second": 33.409,
+      "eval_steps_per_second": 0.561,
+      "step": 960
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 2.106311321258545,
+      "learning_rate": 2.0398425548024824e-05,
+      "loss": 0.222,
+      "step": 1024
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8959731543624161,
+      "eval_loss": 0.3207705318927765,
+      "eval_runtime": 8.4413,
+      "eval_samples_per_second": 35.303,
+      "eval_steps_per_second": 0.592,
+      "step": 1024
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 2.5288846492767334,
+      "learning_rate": 1.5084958481696745e-05,
+      "loss": 0.1862,
+      "step": 1088
+    },
+    {
+      "epoch": 8.5,
+      "eval_accuracy": 0.8993288590604027,
+      "eval_loss": 0.31276702880859375,
+      "eval_runtime": 8.8019,
+      "eval_samples_per_second": 33.856,
+      "eval_steps_per_second": 0.568,
+      "step": 1088
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 2.468576431274414,
+      "learning_rate": 9.76044957265588e-06,
+      "loss": 0.1717,
+      "step": 1152
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9026845637583892,
+      "eval_loss": 0.3048604130744934,
+      "eval_runtime": 9.6883,
+      "eval_samples_per_second": 30.759,
+      "eval_steps_per_second": 0.516,
+      "step": 1152
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 4.155700206756592,
+      "learning_rate": 5.116912010431121e-06,
+      "loss": 0.1408,
+      "step": 1216
+    },
+    {
+      "epoch": 9.5,
+      "eval_accuracy": 0.9026845637583892,
+      "eval_loss": 0.3009721338748932,
+      "eval_runtime": 9.5695,
+      "eval_samples_per_second": 31.141,
+      "eval_steps_per_second": 0.522,
+      "step": 1216
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 2.336121082305908,
+      "learning_rate": 1.757854831072046e-06,
+      "loss": 0.1507,
+      "step": 1280
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9161073825503355,
+      "eval_loss": 0.32400238513946533,
+      "eval_runtime": 9.2278,
+      "eval_samples_per_second": 32.294,
+      "eval_steps_per_second": 0.542,
+      "step": 1280
+    },
+    {
+      "epoch": 10.5,
+      "grad_norm": 2.2721362113952637,
+      "learning_rate": 1.198463476772116e-07,
+      "loss": 0.1369,
+      "step": 1344
+    },
+    {
+      "epoch": 10.5,
+      "eval_accuracy": 0.9060402684563759,
+      "eval_loss": 0.3062884509563446,
+      "eval_runtime": 8.635,
+      "eval_samples_per_second": 34.511,
+      "eval_steps_per_second": 0.579,
+      "step": 1344
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 2.3275115489959717,
+      "learning_rate": 2.9584225548225062e-05,
+      "loss": 0.1389,
+      "step": 1408
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9060402684563759,
+      "eval_loss": 0.3044714033603668,
+      "eval_runtime": 8.4938,
+      "eval_samples_per_second": 35.084,
+      "eval_steps_per_second": 0.589,
+      "step": 1408
+    },
+    {
+      "epoch": 11.5,
+      "grad_norm": 2.064596652984619,
+      "learning_rate": 2.7392821896833267e-05,
+      "loss": 0.1199,
+      "step": 1472
+    },
+    {
+      "epoch": 11.5,
+      "eval_accuracy": 0.9093959731543624,
+      "eval_loss": 0.30615922808647156,
+      "eval_runtime": 9.5329,
+      "eval_samples_per_second": 31.26,
+      "eval_steps_per_second": 0.524,
+      "step": 1472
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 2.055306911468506,
+      "learning_rate": 2.359075398426809e-05,
+      "loss": 0.1003,
+      "step": 1536
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.912751677852349,
+      "eval_loss": 0.3130672872066498,
+      "eval_runtime": 8.6515,
+      "eval_samples_per_second": 34.445,
+      "eval_steps_per_second": 0.578,
+      "step": 1536
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 3.542067289352417,
+      "learning_rate": 1.867216712757697e-05,
+      "loss": 0.0756,
+      "step": 1600
+    },
+    {
+      "epoch": 12.5,
+      "eval_accuracy": 0.9228187919463087,
+      "eval_loss": 0.3002491891384125,
+      "eval_runtime": 8.8978,
+      "eval_samples_per_second": 33.491,
+      "eval_steps_per_second": 0.562,
+      "step": 1600
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 1.0521228313446045,
+      "learning_rate": 1.3276317836011714e-05,
+      "loss": 0.0636,
+      "step": 1664
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.912751677852349,
+      "eval_loss": 0.3176516890525818,
+      "eval_runtime": 9.2104,
+      "eval_samples_per_second": 32.355,
+      "eval_steps_per_second": 0.543,
+      "step": 1664
+    },
+    {
+      "epoch": 13.5,
+      "grad_norm": 1.8493869304656982,
+      "learning_rate": 8.104491231310648e-06,
+      "loss": 0.058,
+      "step": 1728
+    },
+    {
+      "epoch": 13.5,
+      "eval_accuracy": 0.9228187919463087,
+      "eval_loss": 0.3142910599708557,
+      "eval_runtime": 9.7948,
+      "eval_samples_per_second": 30.424,
+      "eval_steps_per_second": 0.51,
+      "step": 1728
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.3355131149291992,
+      "learning_rate": 3.828856763379785e-06,
+      "loss": 0.0566,
+      "step": 1792
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9194630872483222,
+      "eval_loss": 0.3135838806629181,
+      "eval_runtime": 9.833,
+      "eval_samples_per_second": 30.306,
+      "eval_steps_per_second": 0.508,
+      "step": 1792
+    },
+    {
+      "epoch": 14.5,
+      "grad_norm": 2.9695112705230713,
+      "learning_rate": 1.0051080174789174e-06,
+      "loss": 0.0516,
+      "step": 1856
+    },
+    {
+      "epoch": 14.5,
+      "eval_accuracy": 0.9161073825503355,
+      "eval_loss": 0.34468716382980347,
+      "eval_runtime": 9.6587,
+      "eval_samples_per_second": 30.853,
+      "eval_steps_per_second": 0.518,
+      "step": 1856
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.7186270952224731,
+      "learning_rate": 2.4060005001991235e-10,
+      "loss": 0.0426,
+      "step": 1920
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.9228187919463087,
+      "eval_loss": 0.2911371886730194,
+      "eval_runtime": 9.7016,
+      "eval_samples_per_second": 30.717,
+      "eval_steps_per_second": 0.515,
+      "step": 1920
+    },
+    {
+      "epoch": 15.0,
+      "step": 1920,
+      "total_flos": 7.164784986292224e+17,
+      "train_loss": 0.48338687382638457,
+      "train_runtime": 5148.0361,
+      "train_samples_per_second": 23.869,
+      "train_steps_per_second": 0.373
+    }
+  ],
+  "logging_steps": 64,
+  "max_steps": 1920,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 64,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.164784986292224e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46df04962540106071084ba7459a16300b3186544bf3cbb04bce688583d183d4
 size 5496

 version https://git-lfs.github.com/spec/v1
+oid sha256:a65bff28c03c6c9e01c24d73c794599da24b606df0220c01aac2771132c075ec
 size 5496

training_metrics.xlsx CHANGED Viewed

Binary files a/training_metrics.xlsx and b/training_metrics.xlsx differ