train_sst2_1744902628

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the sst2 dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0728
  • Num Input Tokens Seen: 33458560

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.1539 0.0528 200 0.1842 166688
0.1944 0.1056 400 0.1516 334048
0.0708 0.1584 600 0.1392 500448
0.098 0.2112 800 0.1304 667872
0.1267 0.2640 1000 0.1269 834848
0.1179 0.3167 1200 0.1228 1002816
0.0794 0.3695 1400 0.1210 1169088
0.2142 0.4223 1600 0.1180 1337088
0.1079 0.4751 1800 0.1159 1505536
0.1278 0.5279 2000 0.1137 1673024
0.1395 0.5807 2200 0.1122 1842304
0.1163 0.6335 2400 0.1105 2007328
0.0823 0.6863 2600 0.1093 2174880
0.1669 0.7391 2800 0.1076 2341280
0.1197 0.7919 3000 0.1067 2509440
0.1089 0.8447 3200 0.1046 2674784
0.088 0.8975 3400 0.1030 2843680
0.1537 0.9502 3600 0.1062 3011904
0.0942 1.0029 3800 0.1014 3178064
0.1005 1.0557 4000 0.1001 3345904
0.0968 1.1085 4200 0.0992 3514608
0.0908 1.1613 4400 0.0987 3680560
0.0681 1.2141 4600 0.0979 3849328
0.1266 1.2669 4800 0.0978 4017200
0.08 1.3197 5000 0.0961 4187184
0.0749 1.3724 5200 0.0955 4354416
0.1066 1.4252 5400 0.0947 4519856
0.1032 1.4780 5600 0.0941 4687280
0.0682 1.5308 5800 0.0934 4856112
0.05 1.5836 6000 0.0938 5022736
0.1597 1.6364 6200 0.0919 5188656
0.0547 1.6892 6400 0.0913 5356208
0.1362 1.7420 6600 0.0909 5523952
0.1347 1.7948 6800 0.0901 5690672
0.0949 1.8476 7000 0.0896 5857072
0.0551 1.9004 7200 0.0889 6024976
0.0835 1.9531 7400 0.0890 6191664
0.0984 2.0058 7600 0.0882 6357472
0.1026 2.0586 7800 0.0882 6525984
0.0955 2.1114 8000 0.0871 6692320
0.0731 2.1642 8200 0.0870 6860064
0.1487 2.2170 8400 0.0870 7026528
0.0494 2.2698 8600 0.0868 7192384
0.1057 2.3226 8800 0.0859 7358816
0.0801 2.3753 9000 0.0857 7526496
0.0757 2.4281 9200 0.0852 7696064
0.0889 2.4809 9400 0.0851 7863456
0.1005 2.5337 9600 0.0845 8031776
0.0785 2.5865 9800 0.0843 8199584
0.0925 2.6393 10000 0.0836 8366016
0.0698 2.6921 10200 0.0839 8531808
0.0657 2.7449 10400 0.0830 8702976
0.0471 2.7977 10600 0.0829 8870944
0.0946 2.8505 10800 0.0830 9039680
0.1393 2.9033 11000 0.0829 9206880
0.0655 2.9561 11200 0.0823 9372128
0.0833 3.0087 11400 0.0818 9538768
0.0782 3.0615 11600 0.0815 9705232
0.0579 3.1143 11800 0.0814 9871632
0.0707 3.1671 12000 0.0814 10039472
0.0276 3.2199 12200 0.0809 10206320
0.0665 3.2727 12400 0.0807 10376240
0.0816 3.3255 12600 0.0807 10544464
0.0344 3.3782 12800 0.0801 10712240
0.044 3.4310 13000 0.0801 10879120
0.0479 3.4838 13200 0.0800 11045072
0.0631 3.5366 13400 0.0800 11211312
0.0876 3.5894 13600 0.0795 11378128
0.0434 3.6422 13800 0.0800 11544592
0.1373 3.6950 14000 0.0790 11713040
0.1293 3.7478 14200 0.0794 11880432
0.115 3.8006 14400 0.0788 12048176
0.0573 3.8534 14600 0.0790 12215792
0.0487 3.9062 14800 0.0789 12383792
0.0535 3.9590 15000 0.0786 12549680
0.0956 4.0116 15200 0.0782 12716448
0.0484 4.0644 15400 0.0781 12882752
0.0618 4.1172 15600 0.0780 13051200
0.0581 4.1700 15800 0.0777 13217024
0.0639 4.2228 16000 0.0776 13382784
0.0619 4.2756 16200 0.0781 13549216
0.0358 4.3284 16400 0.0772 13719072
0.1304 4.3812 16600 0.0771 13884928
0.0876 4.4339 16800 0.0768 14051584
0.0492 4.4867 17000 0.0781 14220704
0.045 4.5395 17200 0.0766 14387008
0.1129 4.5923 17400 0.0768 14555808
0.0602 4.6451 17600 0.0766 14723456
0.1302 4.6979 17800 0.0764 14890880
0.0634 4.7507 18000 0.0769 15059744
0.0675 4.8035 18200 0.0763 15224512
0.12 4.8563 18400 0.0761 15392960
0.0468 4.9091 18600 0.0759 15561696
0.0968 4.9619 18800 0.0763 15728800
0.0793 5.0145 19000 0.0758 15897552
0.0726 5.0673 19200 0.0757 16064688
0.0647 5.1201 19400 0.0754 16231120
0.0802 5.1729 19600 0.0755 16397744
0.1297 5.2257 19800 0.0753 16564176
0.0624 5.2785 20000 0.0752 16731600
0.0329 5.3313 20200 0.0756 16898064
0.0914 5.3841 20400 0.0753 17064080
0.0583 5.4368 20600 0.0751 17231888
0.0622 5.4896 20800 0.0750 17399184
0.0676 5.5424 21000 0.0758 17566160
0.0667 5.5952 21200 0.0748 17732304
0.0507 5.6480 21400 0.0750 17900880
0.0453 5.7008 21600 0.0747 18070192
0.0833 5.7536 21800 0.0748 18237168
0.0535 5.8064 22000 0.0748 18403856
0.1257 5.8592 22200 0.0745 18571248
0.0289 5.9120 22400 0.0747 18738672
0.0504 5.9648 22600 0.0747 18905744
0.0855 6.0174 22800 0.0744 19073440
0.0699 6.0702 23000 0.0744 19241920
0.1241 6.1230 23200 0.0745 19409408
0.077 6.1758 23400 0.0751 19577024
0.0498 6.2286 23600 0.0741 19744608
0.0814 6.2814 23800 0.0742 19911488
0.0741 6.3342 24000 0.0741 20078944
0.0561 6.3870 24200 0.0740 20244928
0.0998 6.4398 24400 0.0741 20411232
0.0599 6.4925 24600 0.0740 20578080
0.0745 6.5453 24800 0.0737 20746592
0.1089 6.5981 25000 0.0741 20913344
0.0357 6.6509 25200 0.0738 21081952
0.0983 6.7037 25400 0.0739 21248384
0.0928 6.7565 25600 0.0738 21415872
0.0561 6.8093 25800 0.0740 21584000
0.1221 6.8621 26000 0.0736 21751168
0.0501 6.9149 26200 0.0737 21918816
0.0735 6.9677 26400 0.0735 22084384
0.073 7.0203 26600 0.0737 22251776
0.0831 7.0731 26800 0.0736 22418080
0.0576 7.1259 27000 0.0735 22587392
0.0622 7.1787 27200 0.0736 22753056
0.0731 7.2315 27400 0.0738 22920768
0.0822 7.2843 27600 0.0734 23087296
0.0392 7.3371 27800 0.0735 23254400
0.0331 7.3899 28000 0.0733 23422752
0.0444 7.4427 28200 0.0734 23588352
0.0614 7.4954 28400 0.0737 23755840
0.0677 7.5482 28600 0.0734 23923680
0.0489 7.6010 28800 0.0734 24091168
0.0393 7.6538 29000 0.0735 24258016
0.0912 7.7066 29200 0.0733 24427808
0.0217 7.7594 29400 0.0734 24596288
0.0513 7.8122 29600 0.0730 24764192
0.0658 7.8650 29800 0.0732 24932000
0.0394 7.9178 30000 0.0731 25100224
0.0558 7.9706 30200 0.0735 25267808
0.0496 8.0232 30400 0.0733 25433440
0.0734 8.0760 30600 0.0733 25600672
0.0612 8.1288 30800 0.0731 25769408
0.0413 8.1816 31000 0.0728 25936160
0.0626 8.2344 31200 0.0731 26103744
0.0785 8.2872 31400 0.0731 26270560
0.0716 8.3400 31600 0.0732 26437536
0.0325 8.3928 31800 0.0732 26604480
0.0484 8.4456 32000 0.0732 26771680
0.1124 8.4984 32200 0.0730 26940256
0.0738 8.5511 32400 0.0730 27107680
0.0793 8.6039 32600 0.0731 27274048
0.1138 8.6567 32800 0.0731 27440544
0.1 8.7095 33000 0.0731 27608000
0.03 8.7623 33200 0.0732 27776704
0.0178 8.8151 33400 0.0728 27942752
0.0735 8.8679 33600 0.0729 28108864
0.032 8.9207 33800 0.0728 28275296
0.0549 8.9735 34000 0.0730 28443520
0.0322 9.0261 34200 0.0730 28609776
0.0633 9.0789 34400 0.0729 28777712
0.1346 9.1317 34600 0.0729 28944144
0.0417 9.1845 34800 0.0732 29111152
0.0991 9.2373 35000 0.0731 29278000
0.043 9.2901 35200 0.0729 29443792
0.0353 9.3429 35400 0.0729 29609072
0.1 9.3957 35600 0.0730 29776592
0.0774 9.4485 35800 0.0730 29941616
0.0649 9.5013 36000 0.0729 30110160
0.0702 9.5540 36200 0.0730 30277744
0.1259 9.6068 36400 0.0729 30447152
0.0281 9.6596 36600 0.0729 30612976
0.0457 9.7124 36800 0.0730 30780240
0.0235 9.7652 37000 0.0728 30948048
0.0478 9.8180 37200 0.0730 31116368
0.0338 9.8708 37400 0.0729 31283888
0.0387 9.9236 37600 0.0730 31452560
0.0603 9.9764 37800 0.0728 31620720
0.1036 10.0290 38000 0.0730 31786016
0.0954 10.0818 38200 0.0728 31952768
0.0774 10.1346 38400 0.0728 32120320
0.0159 10.1874 38600 0.0728 32287584
0.0459 10.2402 38800 0.0730 32455072
0.0525 10.2930 39000 0.0729 32621184
0.0389 10.3458 39200 0.0730 32788960
0.0456 10.3986 39400 0.0729 32955776
0.0359 10.4514 39600 0.0728 33122816
0.0964 10.5042 39800 0.0729 33291072
0.0656 10.5569 40000 0.0728 33458560

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_sst2_1744902628

Adapter
(426)
this model