train_sst2_1744902624

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the sst2 dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0613
  • Num Input Tokens Seen: 35754976

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.0775 0.0528 200 0.1082 178464
0.065 0.1056 400 0.0971 357184
0.033 0.1584 600 0.0912 535488
0.0425 0.2112 800 0.0878 714592
0.0765 0.2640 1000 0.0852 893216
0.0447 0.3167 1200 0.0837 1072832
0.0318 0.3695 1400 0.0800 1250688
0.134 0.4223 1600 0.0782 1429824
0.0528 0.4751 1800 0.0767 1608736
0.1034 0.5279 2000 0.0772 1787552
0.0663 0.5807 2200 0.0754 1968064
0.0915 0.6335 2400 0.0740 2145056
0.0779 0.6863 2600 0.0729 2323552
0.1393 0.7391 2800 0.0728 2501632
0.1044 0.7919 3000 0.0727 2681600
0.0699 0.8447 3200 0.0711 2859456
0.0595 0.8975 3400 0.0704 3039712
0.1122 0.9502 3600 0.0720 3218400
0.0552 1.0029 3800 0.0693 3395632
0.1083 1.0557 4000 0.0714 3575248
0.0519 1.1085 4200 0.0679 3754960
0.0884 1.1613 4400 0.0678 3932752
0.0529 1.2141 4600 0.0671 4112272
0.0492 1.2669 4800 0.0692 4291792
0.0652 1.3197 5000 0.0675 4472784
0.0462 1.3724 5200 0.0671 4651696
0.091 1.4252 5400 0.0664 4829360
0.0725 1.4780 5600 0.0663 5007920
0.0503 1.5308 5800 0.0676 5188208
0.0377 1.5836 6000 0.0663 5366384
0.1499 1.6364 6200 0.0648 5544176
0.0437 1.6892 6400 0.0658 5723216
0.0847 1.7420 6600 0.0644 5902896
0.0463 1.7948 6800 0.0644 6081040
0.0795 1.8476 7000 0.0649 6259056
0.0273 1.9004 7200 0.0660 6437904
0.0974 1.9531 7400 0.0644 6616176
0.068 2.0058 7600 0.0645 6793648
0.0664 2.0586 7800 0.0666 6973744
0.0575 2.1114 8000 0.0644 7150896
0.0454 2.1642 8200 0.0644 7330032
0.0931 2.2170 8400 0.0656 7508816
0.0328 2.2698 8600 0.0634 7686352
0.0572 2.3226 8800 0.0640 7864080
0.0508 2.3753 9000 0.0628 8042928
0.0496 2.4281 9200 0.0655 8223824
0.0311 2.4809 9400 0.0646 8402448
0.0569 2.5337 9600 0.0635 8581936
0.049 2.5865 9800 0.0637 8762128
0.1127 2.6393 10000 0.0647 8939600
0.077 2.6921 10200 0.0644 9117424
0.0508 2.7449 10400 0.0627 9299120
0.0363 2.7977 10600 0.0624 9477968
0.0585 2.8505 10800 0.0676 9658192
0.0482 2.9033 11000 0.0627 9837392
0.0398 2.9561 11200 0.0621 10014320
0.0601 3.0087 11400 0.0623 10191904
0.0354 3.0615 11600 0.0630 10369824
0.0301 3.1143 11800 0.0640 10547296
0.0607 3.1671 12000 0.0642 10726592
0.0082 3.2199 12200 0.0630 10905760
0.0487 3.2727 12400 0.0629 11086528
0.0815 3.3255 12600 0.0626 11266208
0.0259 3.3782 12800 0.0643 11445184
0.0265 3.4310 13000 0.0621 11623936
0.0142 3.4838 13200 0.0632 11801312
0.0517 3.5366 13400 0.0626 11979552
0.0517 3.5894 13600 0.0625 12158496
0.0224 3.6422 13800 0.0620 12336928
0.0834 3.6950 14000 0.0617 12516800
0.032 3.7478 14200 0.0623 12695648
0.1212 3.8006 14400 0.0619 12874656
0.0331 3.8534 14600 0.0619 13053184
0.0227 3.9062 14800 0.0619 13232576
0.0309 3.9590 15000 0.0620 13410176
0.0569 4.0116 15200 0.0624 13588176
0.0439 4.0644 15400 0.0615 13766160
0.0455 4.1172 15600 0.0628 13945776
0.0598 4.1700 15800 0.0625 14123120
0.0311 4.2228 16000 0.0621 14300816
0.0436 4.2756 16200 0.0626 14479248
0.0221 4.3284 16400 0.0618 14660976
0.0472 4.3812 16600 0.0614 14839056
0.0608 4.4339 16800 0.0628 15016048
0.0142 4.4867 17000 0.0643 15196432
0.021 4.5395 17200 0.0628 15374128
0.0775 4.5923 17400 0.0619 15553776
0.0554 4.6451 17600 0.0627 15733520
0.0908 4.6979 17800 0.0618 15911728
0.0275 4.7507 18000 0.0629 16091728
0.0601 4.8035 18200 0.0619 16268208
0.0926 4.8563 18400 0.0613 16446704
0.0452 4.9091 18600 0.0625 16627152
0.0507 4.9619 18800 0.0623 16806032
0.0439 5.0145 19000 0.0619 16986160
0.0301 5.0673 19200 0.0629 17164848
0.0263 5.1201 19400 0.0624 17342800
0.0691 5.1729 19600 0.0619 17520144
0.0683 5.2257 19800 0.0619 17697936
0.0435 5.2785 20000 0.0628 17876496
0.0127 5.3313 20200 0.0634 18054800
0.0486 5.3841 20400 0.0622 18232176
0.024 5.4368 20600 0.0625 18411760
0.0372 5.4896 20800 0.0622 18590672
0.0228 5.5424 21000 0.0634 18770000
0.0268 5.5952 21200 0.0625 18947664
0.0281 5.6480 21400 0.0636 19127344
0.0189 5.7008 21600 0.0620 19306864
0.0744 5.7536 21800 0.0628 19485200
0.0487 5.8064 22000 0.0625 19664112
0.0766 5.8592 22200 0.0625 19843216
0.0197 5.9120 22400 0.0619 20022672
0.0408 5.9648 22600 0.0613 20201808
0.0351 6.0174 22800 0.0621 20380512
0.0804 6.0702 23000 0.0636 20560608
0.0683 6.1230 23200 0.0634 20739200
0.0608 6.1758 23400 0.0632 20917728
0.0146 6.2286 23600 0.0629 21097088
0.0409 6.2814 23800 0.0618 21275360
0.0583 6.3342 24000 0.0621 21454048
0.0397 6.3870 24200 0.0614 21631232
0.0789 6.4398 24400 0.0619 21809632
0.0344 6.4925 24600 0.0616 21988192
0.0641 6.5453 24800 0.0624 22168864
0.0701 6.5981 25000 0.0627 22347392
0.032 6.6509 25200 0.0627 22526048
0.086 6.7037 25400 0.0627 22704800
0.0612 6.7565 25600 0.0624 22883200
0.0317 6.8093 25800 0.0631 23063104
0.0592 6.8621 26000 0.0623 23242080
0.0119 6.9149 26200 0.0626 23421312
0.0425 6.9677 26400 0.0627 23599008
0.0758 7.0203 26600 0.0625 23777520
0.0404 7.0731 26800 0.0620 23954320
0.0253 7.1259 27000 0.0616 24134608
0.048 7.1787 27200 0.0623 24312464
0.0363 7.2315 27400 0.0626 24491696
0.0313 7.2843 27600 0.0623 24670160
0.0235 7.3371 27800 0.0626 24848976
0.0085 7.3899 28000 0.0625 25027536
0.0206 7.4427 28200 0.0626 25205648
0.0438 7.4954 28400 0.0638 25384496
0.0745 7.5482 28600 0.0645 25563856
0.0266 7.6010 28800 0.0629 25743536
0.02 7.6538 29000 0.0630 25921616
0.0755 7.7066 29200 0.0620 26103376
0.0071 7.7594 29400 0.0625 26283664
0.0383 7.8122 29600 0.0622 26463440
0.0409 7.8650 29800 0.0634 26642352
0.0113 7.9178 30000 0.0635 26822096
0.042 7.9706 30200 0.0641 27000688
0.032 8.0232 30400 0.0633 27178304
0.0215 8.0760 30600 0.0630 27356864
0.0241 8.1288 30800 0.0627 27536640
0.034 8.1816 31000 0.0629 27714496
0.0317 8.2344 31200 0.0632 27893536
0.0711 8.2872 31400 0.0629 28071808
0.0658 8.3400 31600 0.0624 28250112
0.0212 8.3928 31800 0.0625 28428832
0.0212 8.4456 32000 0.0628 28607296
0.0331 8.4984 32200 0.0622 28787040
0.0249 8.5511 32400 0.0623 28966560
0.0328 8.6039 32600 0.0629 29144544
0.1233 8.6567 32800 0.0627 29323040
0.0444 8.7095 33000 0.0627 29502176
0.0091 8.7623 33200 0.0627 29682560
0.0042 8.8151 33400 0.0631 29860768
0.0568 8.8679 33600 0.0632 30038624
0.0251 8.9207 33800 0.0632 30216384
0.0349 8.9735 34000 0.0632 30395872
0.0202 9.0261 34200 0.0634 30573920
0.0469 9.0789 34400 0.0633 30753536
0.0714 9.1317 34600 0.0633 30931776
0.0271 9.1845 34800 0.0631 31110592
0.1088 9.2373 35000 0.0632 31288160
0.0193 9.2901 35200 0.0629 31465760
0.0059 9.3429 35400 0.0632 31643168
0.0442 9.3957 35600 0.0630 31821856
0.0485 9.4485 35800 0.0629 31998368
0.0366 9.5013 36000 0.0633 32178176
0.0406 9.5540 36200 0.0630 32356768
0.1017 9.6068 36400 0.0629 32537792
0.008 9.6596 36600 0.0627 32714880
0.0413 9.7124 36800 0.0628 32893312
0.0096 9.7652 37000 0.0630 33071840
0.0542 9.8180 37200 0.0630 33251936
0.0094 9.8708 37400 0.0630 33431008
0.0232 9.9236 37600 0.0630 33610816
0.0451 9.9764 37800 0.0630 33790528
0.0678 10.0290 38000 0.0632 33967520
0.0554 10.0818 38200 0.0630 34145280
0.0812 10.1346 38400 0.0629 34324448
0.0064 10.1874 38600 0.0629 34503808
0.0356 10.2402 38800 0.0631 34683552
0.0308 10.2930 39000 0.0630 34860896
0.0346 10.3458 39200 0.0629 35039424
0.0218 10.3986 39400 0.0629 35217792
0.0105 10.4514 39600 0.0630 35396000
0.0536 10.5042 39800 0.0631 35575872
0.0618 10.5569 40000 0.0629 35754976

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_sst2_1744902624

Adapter
(971)
this model