train_sst2_1744902621

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the sst2 dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0666
  • Num Input Tokens Seen: 35754976

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.0985 0.0528 200 0.1294 178464
0.0784 0.1056 400 0.1201 357184
0.0533 0.1584 600 0.1138 535488
0.0606 0.2112 800 0.1093 714592
0.0847 0.2640 1000 0.1067 893216
0.1027 0.3167 1200 0.1029 1072832
0.0438 0.3695 1400 0.1000 1250688
0.1518 0.4223 1600 0.0978 1429824
0.0699 0.4751 1800 0.0963 1608736
0.1294 0.5279 2000 0.0943 1787552
0.0825 0.5807 2200 0.0927 1968064
0.1149 0.6335 2400 0.0917 2145056
0.0759 0.6863 2600 0.0909 2323552
0.1633 0.7391 2800 0.0894 2501632
0.1118 0.7919 3000 0.0883 2681600
0.0884 0.8447 3200 0.0867 2859456
0.0661 0.8975 3400 0.0854 3039712
0.1093 0.9502 3600 0.0854 3218400
0.0835 1.0029 3800 0.0842 3395632
0.1081 1.0557 4000 0.0839 3575248
0.0535 1.1085 4200 0.0825 3754960
0.1007 1.1613 4400 0.0823 3932752
0.0769 1.2141 4600 0.0813 4112272
0.0649 1.2669 4800 0.0816 4291792
0.0851 1.3197 5000 0.0804 4472784
0.0771 1.3724 5200 0.0796 4651696
0.1098 1.4252 5400 0.0789 4829360
0.0919 1.4780 5600 0.0785 5007920
0.082 1.5308 5800 0.0789 5188208
0.0603 1.5836 6000 0.0782 5366384
0.1797 1.6364 6200 0.0774 5544176
0.0652 1.6892 6400 0.0776 5723216
0.1077 1.7420 6600 0.0767 5902896
0.0641 1.7948 6800 0.0765 6081040
0.0756 1.8476 7000 0.0763 6259056
0.0357 1.9004 7200 0.0760 6437904
0.1075 1.9531 7400 0.0756 6616176
0.0756 2.0058 7600 0.0751 6793648
0.0988 2.0586 7800 0.0754 6973744
0.0776 2.1114 8000 0.0749 7150896
0.0671 2.1642 8200 0.0747 7330032
0.1147 2.2170 8400 0.0756 7508816
0.0355 2.2698 8600 0.0742 7686352
0.0903 2.3226 8800 0.0738 7864080
0.0498 2.3753 9000 0.0737 8042928
0.0614 2.4281 9200 0.0739 8223824
0.0712 2.4809 9400 0.0744 8402448
0.081 2.5337 9600 0.0734 8581936
0.0724 2.5865 9800 0.0731 8762128
0.1073 2.6393 10000 0.0731 8939600
0.0992 2.6921 10200 0.0730 9117424
0.0661 2.7449 10400 0.0725 9299120
0.0533 2.7977 10600 0.0726 9477968
0.0602 2.8505 10800 0.0736 9658192
0.0609 2.9033 11000 0.0722 9837392
0.0602 2.9561 11200 0.0723 10014320
0.078 3.0087 11400 0.0715 10191904
0.0541 3.0615 11600 0.0714 10369824
0.0574 3.1143 11800 0.0715 10547296
0.0681 3.1671 12000 0.0713 10726592
0.0118 3.2199 12200 0.0713 10905760
0.0654 3.2727 12400 0.0712 11086528
0.0981 3.3255 12600 0.0711 11266208
0.043 3.3782 12800 0.0711 11445184
0.0349 3.4310 13000 0.0707 11623936
0.0351 3.4838 13200 0.0712 11801312
0.0612 3.5366 13400 0.0716 11979552
0.058 3.5894 13600 0.0705 12158496
0.0441 3.6422 13800 0.0702 12336928
0.1011 3.6950 14000 0.0701 12516800
0.0558 3.7478 14200 0.0701 12695648
0.1227 3.8006 14400 0.0702 12874656
0.0549 3.8534 14600 0.0700 13053184
0.035 3.9062 14800 0.0701 13232576
0.038 3.9590 15000 0.0700 13410176
0.0795 4.0116 15200 0.0697 13588176
0.0595 4.0644 15400 0.0694 13766160
0.0552 4.1172 15600 0.0698 13945776
0.0544 4.1700 15800 0.0695 14123120
0.0521 4.2228 16000 0.0694 14300816
0.0532 4.2756 16200 0.0693 14479248
0.0322 4.3284 16400 0.0693 14660976
0.0679 4.3812 16600 0.0689 14839056
0.0803 4.4339 16800 0.0690 15016048
0.0332 4.4867 17000 0.0697 15196432
0.0381 4.5395 17200 0.0690 15374128
0.0947 4.5923 17400 0.0688 15553776
0.0702 4.6451 17600 0.0689 15733520
0.0904 4.6979 17800 0.0686 15911728
0.0531 4.7507 18000 0.0690 16091728
0.0737 4.8035 18200 0.0685 16268208
0.12 4.8563 18400 0.0685 16446704
0.0508 4.9091 18600 0.0686 16627152
0.0784 4.9619 18800 0.0686 16806032
0.057 5.0145 19000 0.0685 16986160
0.0367 5.0673 19200 0.0687 17164848
0.0418 5.1201 19400 0.0686 17342800
0.0873 5.1729 19600 0.0684 17520144
0.0997 5.2257 19800 0.0682 17697936
0.0607 5.2785 20000 0.0681 17876496
0.0185 5.3313 20200 0.0687 18054800
0.064 5.3841 20400 0.0684 18232176
0.0329 5.4368 20600 0.0678 18411760
0.0557 5.4896 20800 0.0682 18590672
0.0487 5.5424 21000 0.0689 18770000
0.0486 5.5952 21200 0.0682 18947664
0.0357 5.6480 21400 0.0685 19127344
0.03 5.7008 21600 0.0678 19306864
0.0772 5.7536 21800 0.0680 19485200
0.061 5.8064 22000 0.0679 19664112
0.0942 5.8592 22200 0.0679 19843216
0.031 5.9120 22400 0.0678 20022672
0.0648 5.9648 22600 0.0678 20201808
0.0647 6.0174 22800 0.0677 20380512
0.0986 6.0702 23000 0.0680 20560608
0.1126 6.1230 23200 0.0679 20739200
0.0812 6.1758 23400 0.0679 20917728
0.0304 6.2286 23600 0.0677 21097088
0.0544 6.2814 23800 0.0674 21275360
0.0673 6.3342 24000 0.0676 21454048
0.0503 6.3870 24200 0.0673 21631232
0.0772 6.4398 24400 0.0674 21809632
0.0463 6.4925 24600 0.0674 21988192
0.0817 6.5453 24800 0.0672 22168864
0.09 6.5981 25000 0.0676 22347392
0.0447 6.6509 25200 0.0674 22526048
0.1004 6.7037 25400 0.0673 22704800
0.0837 6.7565 25600 0.0674 22883200
0.0482 6.8093 25800 0.0674 23063104
0.0759 6.8621 26000 0.0671 23242080
0.0229 6.9149 26200 0.0674 23421312
0.0648 6.9677 26400 0.0675 23599008
0.0823 7.0203 26600 0.0674 23777520
0.0555 7.0731 26800 0.0672 23954320
0.0412 7.1259 27000 0.0672 24134608
0.0743 7.1787 27200 0.0672 24312464
0.0658 7.2315 27400 0.0673 24491696
0.0596 7.2843 27600 0.0670 24670160
0.0333 7.3371 27800 0.0673 24848976
0.0169 7.3899 28000 0.0673 25027536
0.0395 7.4427 28200 0.0672 25205648
0.0467 7.4954 28400 0.0672 25384496
0.0817 7.5482 28600 0.0674 25563856
0.0346 7.6010 28800 0.0671 25743536
0.0321 7.6538 29000 0.0671 25921616
0.091 7.7066 29200 0.0672 26103376
0.0146 7.7594 29400 0.0672 26283664
0.0524 7.8122 29600 0.0668 26463440
0.0428 7.8650 29800 0.0671 26642352
0.0454 7.9178 30000 0.0672 26822096
0.0417 7.9706 30200 0.0673 27000688
0.0414 8.0232 30400 0.0670 27178304
0.0434 8.0760 30600 0.0671 27356864
0.0436 8.1288 30800 0.0670 27536640
0.0449 8.1816 31000 0.0669 27714496
0.0607 8.2344 31200 0.0672 27893536
0.0881 8.2872 31400 0.0671 28071808
0.0963 8.3400 31600 0.0669 28250112
0.0301 8.3928 31800 0.0670 28428832
0.0454 8.4456 32000 0.0670 28607296
0.0416 8.4984 32200 0.0668 28787040
0.0382 8.5511 32400 0.0667 28966560
0.0619 8.6039 32600 0.0669 29144544
0.1309 8.6567 32800 0.0669 29323040
0.0829 8.7095 33000 0.0670 29502176
0.0213 8.7623 33200 0.0668 29682560
0.0122 8.8151 33400 0.0666 29860768
0.0547 8.8679 33600 0.0669 30038624
0.0384 8.9207 33800 0.0667 30216384
0.0605 8.9735 34000 0.0668 30395872
0.029 9.0261 34200 0.0668 30573920
0.0564 9.0789 34400 0.0669 30753536
0.1248 9.1317 34600 0.0669 30931776
0.0469 9.1845 34800 0.0668 31110592
0.1252 9.2373 35000 0.0668 31288160
0.0335 9.2901 35200 0.0668 31465760
0.0174 9.3429 35400 0.0667 31643168
0.0852 9.3957 35600 0.0669 31821856
0.0511 9.4485 35800 0.0670 31998368
0.0541 9.5013 36000 0.0669 32178176
0.0533 9.5540 36200 0.0670 32356768
0.1163 9.6068 36400 0.0668 32537792
0.0261 9.6596 36600 0.0667 32714880
0.0462 9.7124 36800 0.0669 32893312
0.0218 9.7652 37000 0.0668 33071840
0.0752 9.8180 37200 0.0669 33251936
0.019 9.8708 37400 0.0667 33431008
0.0513 9.9236 37600 0.0667 33610816
0.0667 9.9764 37800 0.0668 33790528
0.0793 10.0290 38000 0.0668 33967520
0.0775 10.0818 38200 0.0666 34145280
0.0978 10.1346 38400 0.0668 34324448
0.0125 10.1874 38600 0.0667 34503808
0.0467 10.2402 38800 0.0668 34683552
0.0458 10.2930 39000 0.0668 34860896
0.0469 10.3458 39200 0.0667 35039424
0.0359 10.3986 39400 0.0669 35217792
0.0202 10.4514 39600 0.0669 35396000
0.0659 10.5042 39800 0.0669 35575872
0.0661 10.5569 40000 0.0669 35754976

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_sst2_1744902621

Adapter
(971)
this model