train_mnli_1744902584

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the mnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1080
  • Num Input Tokens Seen: 62984280

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.2105 0.0091 200 0.2717 312896
0.1518 0.0181 400 0.2279 625472
0.1719 0.0272 600 0.2134 942656
0.2367 0.0362 800 0.2053 1256992
0.2013 0.0453 1000 0.1990 1572864
0.1937 0.0543 1200 0.1934 1889696
0.1691 0.0634 1400 0.1880 2203360
0.1498 0.0724 1600 0.1832 2524096
0.1577 0.0815 1800 0.1792 2837312
0.194 0.0905 2000 0.1759 3152992
0.1566 0.0996 2200 0.1729 3466976
0.1684 0.1086 2400 0.1694 3784000
0.126 0.1177 2600 0.1687 4100288
0.1528 0.1268 2800 0.1645 4417024
0.1738 0.1358 3000 0.1619 4730880
0.1447 0.1449 3200 0.1601 5046976
0.1815 0.1539 3400 0.1579 5361952
0.1791 0.1630 3600 0.1564 5680768
0.2125 0.1720 3800 0.1543 5996256
0.1028 0.1811 4000 0.1527 6311552
0.1242 0.1901 4200 0.1514 6627776
0.1014 0.1992 4400 0.1501 6946240
0.1053 0.2082 4600 0.1485 7260672
0.1295 0.2173 4800 0.1473 7574432
0.148 0.2264 5000 0.1450 7890496
0.1413 0.2354 5200 0.1438 8202528
0.1666 0.2445 5400 0.1426 8516928
0.1305 0.2535 5600 0.1420 8828000
0.1394 0.2626 5800 0.1402 9143776
0.1284 0.2716 6000 0.1393 9456800
0.1132 0.2807 6200 0.1384 9770496
0.1393 0.2897 6400 0.1371 10084544
0.0896 0.2988 6600 0.1365 10400832
0.1286 0.3078 6800 0.1359 10713664
0.1408 0.3169 7000 0.1352 11028672
0.0779 0.3259 7200 0.1338 11347104
0.1499 0.3350 7400 0.1327 11658304
0.1035 0.3441 7600 0.1322 11969312
0.095 0.3531 7800 0.1314 12283264
0.1394 0.3622 8000 0.1313 12595776
0.1353 0.3712 8200 0.1300 12911104
0.0963 0.3803 8400 0.1349 13225632
0.0721 0.3893 8600 0.1290 13544096
0.1187 0.3984 8800 0.1301 13857600
0.094 0.4074 9000 0.1292 14172800
0.1426 0.4165 9200 0.1270 14487680
0.1407 0.4255 9400 0.1266 14807520
0.0914 0.4346 9600 0.1261 15117696
0.1336 0.4436 9800 0.1256 15433344
0.1184 0.4527 10000 0.1251 15748576
0.1475 0.4618 10200 0.1246 16064864
0.1271 0.4708 10400 0.1252 16386496
0.1561 0.4799 10600 0.1238 16700128
0.0965 0.4889 10800 0.1234 17015072
0.1276 0.4980 11000 0.1227 17334080
0.1408 0.5070 11200 0.1227 17650336
0.1291 0.5161 11400 0.1224 17964032
0.1337 0.5251 11600 0.1221 18280704
0.1357 0.5342 11800 0.1215 18595744
0.1191 0.5432 12000 0.1207 18906592
0.1058 0.5523 12200 0.1204 19223392
0.0989 0.5614 12400 0.1204 19535520
0.0904 0.5704 12600 0.1197 19848032
0.0864 0.5795 12800 0.1202 20163616
0.0897 0.5885 13000 0.1190 20479520
0.116 0.5976 13200 0.1188 20792320
0.1085 0.6066 13400 0.1184 21105472
0.1267 0.6157 13600 0.1180 21418912
0.0845 0.6247 13800 0.1204 21740320
0.1124 0.6338 14000 0.1174 22051936
0.1114 0.6428 14200 0.1177 22365376
0.1139 0.6519 14400 0.1177 22680000
0.1079 0.6609 14600 0.1178 22995520
0.1258 0.6700 14800 0.1166 23311072
0.108 0.6791 15000 0.1165 23626112
0.0921 0.6881 15200 0.1162 23937568
0.091 0.6972 15400 0.1167 24253504
0.109 0.7062 15600 0.1162 24568160
0.0589 0.7153 15800 0.1171 24882112
0.1191 0.7243 16000 0.1161 25201792
0.1015 0.7334 16200 0.1158 25518176
0.1419 0.7424 16400 0.1154 25832000
0.1467 0.7515 16600 0.1152 26142144
0.134 0.7605 16800 0.1148 26458432
0.0955 0.7696 17000 0.1153 26771360
0.1161 0.7787 17200 0.1147 27085568
0.119 0.7877 17400 0.1141 27401344
0.1095 0.7968 17600 0.1139 27721120
0.0908 0.8058 17800 0.1137 28035200
0.127 0.8149 18000 0.1142 28351968
0.1037 0.8239 18200 0.1134 28668224
0.0826 0.8330 18400 0.1137 28981824
0.1196 0.8420 18600 0.1132 29293792
0.0943 0.8511 18800 0.1133 29608320
0.1026 0.8601 19000 0.1132 29922016
0.0765 0.8692 19200 0.1129 30237280
0.0808 0.8782 19400 0.1128 30550560
0.1308 0.8873 19600 0.1122 30861952
0.1218 0.8964 19800 0.1125 31176736
0.1261 0.9054 20000 0.1121 31490688
0.126 0.9145 20200 0.1118 31805440
0.1066 0.9235 20400 0.1118 32120672
0.0921 0.9326 20600 0.1115 32434592
0.1235 0.9416 20800 0.1116 32746528
0.0878 0.9507 21000 0.1121 33062880
0.1128 0.9597 21200 0.1114 33380032
0.1051 0.9688 21400 0.1112 33698368
0.1357 0.9778 21600 0.1110 34015424
0.1283 0.9869 21800 0.1108 34331520
0.0756 0.9959 22000 0.1107 34642688
0.0706 1.0050 22200 0.1106 34959928
0.0833 1.0140 22400 0.1114 35273880
0.1042 1.0231 22600 0.1104 35587832
0.1339 1.0321 22800 0.1103 35899672
0.085 1.0412 23000 0.1106 36212824
0.0709 1.0503 23200 0.1102 36528792
0.1002 1.0593 23400 0.1104 36844024
0.1087 1.0684 23600 0.1107 37157784
0.1252 1.0774 23800 0.1100 37469272
0.1039 1.0865 24000 0.1099 37785112
0.129 1.0955 24200 0.1100 38101496
0.1444 1.1046 24400 0.1102 38418456
0.1099 1.1136 24600 0.1098 38735256
0.0687 1.1227 24800 0.1101 39051640
0.1048 1.1317 25000 0.1098 39365176
0.1305 1.1408 25200 0.1099 39684408
0.0782 1.1498 25400 0.1097 40000056
0.1183 1.1589 25600 0.1094 40316632
0.0755 1.1680 25800 0.1094 40629528
0.0957 1.1770 26000 0.1093 40944536
0.0718 1.1861 26200 0.1093 41261208
0.1338 1.1951 26400 0.1096 41575992
0.0923 1.2042 26600 0.1095 41888504
0.1411 1.2132 26800 0.1093 42202072
0.1086 1.2223 27000 0.1093 42518168
0.0895 1.2313 27200 0.1093 42833560
0.1084 1.2404 27400 0.1090 43144152
0.1299 1.2494 27600 0.1089 43457272
0.0571 1.2585 27800 0.1094 43774104
0.0927 1.2675 28000 0.1089 44088120
0.0857 1.2766 28200 0.1088 44401112
0.1609 1.2857 28400 0.1088 44718232
0.1182 1.2947 28600 0.1091 45031416
0.1792 1.3038 28800 0.1089 45340984
0.0748 1.3128 29000 0.1085 45659256
0.1393 1.3219 29200 0.1086 45975384
0.129 1.3309 29400 0.1085 46290296
0.1239 1.3400 29600 0.1085 46604312
0.1004 1.3490 29800 0.1088 46919192
0.1587 1.3581 30000 0.1085 47236440
0.1039 1.3671 30200 0.1085 47550744
0.1177 1.3762 30400 0.1084 47865912
0.0966 1.3853 30600 0.1084 48183992
0.1054 1.3943 30800 0.1087 48495160
0.1098 1.4034 31000 0.1084 48813176
0.1127 1.4124 31200 0.1084 49129080
0.0572 1.4215 31400 0.1086 49444664
0.077 1.4305 31600 0.1084 49756312
0.0615 1.4396 31800 0.1087 50068088
0.0855 1.4486 32000 0.1083 50382136
0.0994 1.4577 32200 0.1087 50700344
0.0676 1.4667 32400 0.1083 51012696
0.0937 1.4758 32600 0.1084 51328696
0.1016 1.4848 32800 0.1084 51641752
0.1092 1.4939 33000 0.1082 51954840
0.1233 1.5030 33200 0.1083 52269720
0.1019 1.5120 33400 0.1084 52585784
0.0958 1.5211 33600 0.1084 52898904
0.1163 1.5301 33800 0.1083 53217208
0.0726 1.5392 34000 0.1082 53532408
0.1149 1.5482 34200 0.1081 53849208
0.0721 1.5573 34400 0.1083 54166040
0.1108 1.5663 34600 0.1081 54482232
0.0598 1.5754 34800 0.1081 54797880
0.0674 1.5844 35000 0.1083 55112536
0.105 1.5935 35200 0.1081 55427928
0.129 1.6025 35400 0.1081 55741912
0.147 1.6116 35600 0.1083 56057048
0.1122 1.6207 35800 0.1081 56371640
0.1149 1.6297 36000 0.1082 56683896
0.1168 1.6388 36200 0.1081 57003192
0.1172 1.6478 36400 0.1082 57318104
0.102 1.6569 36600 0.1080 57632152
0.1064 1.6659 36800 0.1081 57948856
0.1413 1.6750 37000 0.1081 58266232
0.0678 1.6840 37200 0.1082 58583544
0.0736 1.6931 37400 0.1082 58903288
0.1132 1.7021 37600 0.1082 59218296
0.0787 1.7112 37800 0.1081 59533240
0.1055 1.7203 38000 0.1082 59848664
0.113 1.7293 38200 0.1083 60164984
0.0958 1.7384 38400 0.1082 60478328
0.148 1.7474 38600 0.1081 60787576
0.0912 1.7565 38800 0.1082 61097848
0.0776 1.7655 39000 0.1082 61413432
0.1253 1.7746 39200 0.1083 61727320
0.1114 1.7836 39400 0.1081 62041848
0.0558 1.7927 39600 0.1081 62358168
0.0594 1.8017 39800 0.1081 62670392
0.0913 1.8108 40000 0.1081 62984280

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
4
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_mnli_1744902584

Adapter
(971)
this model