train_mnli_1744902591

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the mnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1303
  • Num Input Tokens Seen: 65325648

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.4145 0.0091 200 0.4523 324448
0.2628 0.0181 400 0.2951 648960
0.2493 0.0272 600 0.2617 978272
0.294 0.0362 800 0.2466 1304544
0.2603 0.0453 1000 0.2361 1632320
0.3001 0.0543 1200 0.2289 1960640
0.2088 0.0634 1400 0.2218 2285632
0.1544 0.0724 1600 0.2157 2618496
0.1971 0.0815 1800 0.2113 2944032
0.2107 0.0905 2000 0.2081 3272000
0.1892 0.0996 2200 0.2054 3597472
0.1734 0.1086 2400 0.2009 3927168
0.1279 0.1177 2600 0.2000 4255584
0.1719 0.1268 2800 0.1946 4584288
0.164 0.1358 3000 0.1929 4909888
0.1633 0.1449 3200 0.1893 5238176
0.199 0.1539 3400 0.1878 5565344
0.21 0.1630 3600 0.1852 5894816
0.247 0.1720 3800 0.1833 6221824
0.1394 0.1811 4000 0.1811 6549344
0.1495 0.1901 4200 0.1803 6877728
0.1367 0.1992 4400 0.1795 7208416
0.1348 0.2082 4600 0.1771 7534752
0.1623 0.2173 4800 0.1765 7860736
0.1805 0.2264 5000 0.1737 8188256
0.1835 0.2354 5200 0.1718 8511680
0.1607 0.2445 5400 0.1711 8837568
0.1878 0.2535 5600 0.1694 9160064
0.1716 0.2626 5800 0.1676 9487296
0.1565 0.2716 6000 0.1663 9811712
0.1443 0.2807 6200 0.1657 10136992
0.1849 0.2897 6400 0.1643 10462272
0.1062 0.2988 6600 0.1635 10789600
0.1518 0.3078 6800 0.1639 11113952
0.1625 0.3169 7000 0.1621 11441248
0.0829 0.3259 7200 0.1606 11771744
0.1759 0.3350 7400 0.1594 12094400
0.12 0.3441 7600 0.1584 12416992
0.1156 0.3531 7800 0.1584 12743488
0.1757 0.3622 8000 0.1581 13067648
0.1847 0.3712 8200 0.1565 13394336
0.1525 0.3803 8400 0.1580 13721024
0.0847 0.3893 8600 0.1549 14051424
0.1694 0.3984 8800 0.1550 14376864
0.0929 0.4074 9000 0.1543 14703264
0.1758 0.4165 9200 0.1541 15029760
0.1379 0.4255 9400 0.1521 15361920
0.1116 0.4346 9600 0.1520 15682912
0.1569 0.4436 9800 0.1510 16010208
0.1187 0.4527 10000 0.1512 16337472
0.1345 0.4618 10200 0.1506 16665216
0.1546 0.4708 10400 0.1511 16998848
0.1776 0.4799 10600 0.1496 17323904
0.1561 0.4889 10800 0.1489 17650528
0.1393 0.4980 11000 0.1484 17980544
0.1543 0.5070 11200 0.1488 18309024
0.1436 0.5161 11400 0.1478 18634272
0.1676 0.5251 11600 0.1467 18963136
0.1966 0.5342 11800 0.1471 19290912
0.1373 0.5432 12000 0.1458 19612800
0.1329 0.5523 12200 0.1451 19941216
0.1228 0.5614 12400 0.1448 20264608
0.1308 0.5704 12600 0.1445 20589280
0.1011 0.5795 12800 0.1448 20916288
0.113 0.5885 13000 0.1452 21243456
0.1417 0.5976 13200 0.1437 21567008
0.1107 0.6066 13400 0.1429 21891776
0.1828 0.6157 13600 0.1424 22216544
0.1105 0.6247 13800 0.1451 22549952
0.1112 0.6338 14000 0.1420 22873376
0.1291 0.6428 14200 0.1426 23198016
0.1582 0.6519 14400 0.1422 23524256
0.1277 0.6609 14600 0.1426 23851808
0.1423 0.6700 14800 0.1411 24178976
0.144 0.6791 15000 0.1405 24506336
0.1091 0.6881 15200 0.1405 24829472
0.0937 0.6972 15400 0.1414 25157504
0.147 0.7062 15600 0.1399 25483232
0.1085 0.7153 15800 0.1399 25808352
0.1424 0.7243 16000 0.1398 26140320
0.1167 0.7334 16200 0.1403 26468320
0.1894 0.7424 16400 0.1397 26792800
0.1389 0.7515 16600 0.1390 27113248
0.1522 0.7605 16800 0.1385 27442048
0.0939 0.7696 17000 0.1393 27766816
0.122 0.7787 17200 0.1389 28092576
0.1363 0.7877 17400 0.1384 28420128
0.1581 0.7968 17600 0.1375 28753152
0.1019 0.8058 17800 0.1378 29079392
0.1393 0.8149 18000 0.1383 29407776
0.1119 0.8239 18200 0.1369 29735104
0.11 0.8330 18400 0.1369 30059584
0.1458 0.8420 18600 0.1365 30382752
0.1303 0.8511 18800 0.1370 30709120
0.1187 0.8601 19000 0.1370 31033824
0.1256 0.8692 19200 0.1361 31360256
0.1351 0.8782 19400 0.1365 31685120
0.158 0.8873 19600 0.1357 32008192
0.1833 0.8964 19800 0.1365 32334784
0.1755 0.9054 20000 0.1352 32660640
0.1568 0.9145 20200 0.1351 32987392
0.1039 0.9235 20400 0.1351 33314592
0.1544 0.9326 20600 0.1349 33640256
0.1247 0.9416 20800 0.1352 33963328
0.1105 0.9507 21000 0.1349 34291328
0.128 0.9597 21200 0.1345 34621536
0.1362 0.9688 21400 0.1342 34952416
0.1559 0.9778 21600 0.1346 35281184
0.1573 0.9869 21800 0.1340 35609536
0.1324 0.9959 22000 0.1346 35932000
0.1047 1.0050 22200 0.1339 36261328
0.1107 1.0140 22400 0.1347 36586768
0.141 1.0231 22600 0.1335 36912400
0.1461 1.0321 22800 0.1337 37234576
0.1001 1.0412 23000 0.1333 37558256
0.0918 1.0503 23200 0.1335 37885552
0.1098 1.0593 23400 0.1337 38212304
0.107 1.0684 23600 0.1344 38537360
0.154 1.0774 23800 0.1329 38859952
0.1128 1.0865 24000 0.1328 39187024
0.1711 1.0955 24200 0.1332 39514800
0.1821 1.1046 24400 0.1326 39844432
0.1116 1.1136 24600 0.1328 40173104
0.096 1.1227 24800 0.1330 40501584
0.123 1.1317 25000 0.1330 40826064
0.1732 1.1408 25200 0.1327 41157808
0.1436 1.1498 25400 0.1326 41484464
0.1809 1.1589 25600 0.1323 41813008
0.1034 1.1680 25800 0.1322 42137552
0.1266 1.1770 26000 0.1322 42463856
0.096 1.1861 26200 0.1321 42792816
0.1774 1.1951 26400 0.1321 43119408
0.1174 1.2042 26600 0.1323 43443728
0.1631 1.2132 26800 0.1321 43768400
0.1054 1.2223 27000 0.1318 44097456
0.0931 1.2313 27200 0.1317 44424592
0.1347 1.2404 27400 0.1315 44745968
0.1421 1.2494 27600 0.1316 45070992
0.092 1.2585 27800 0.1322 45399120
0.1178 1.2675 28000 0.1320 45724560
0.1061 1.2766 28200 0.1315 46049424
0.188 1.2857 28400 0.1312 46378736
0.1555 1.2947 28600 0.1314 46704368
0.1948 1.3038 28800 0.1318 47024752
0.1068 1.3128 29000 0.1312 47354768
0.1756 1.3219 29200 0.1313 47683536
0.1202 1.3309 29400 0.1314 48009456
0.1555 1.3400 29600 0.1311 48335280
0.1173 1.3490 29800 0.1311 48661616
0.1874 1.3581 30000 0.1311 48990960
0.1157 1.3671 30200 0.1309 49316656
0.1244 1.3762 30400 0.1310 49642704
0.1296 1.3853 30600 0.1309 49973200
0.1229 1.3943 30800 0.1316 50295952
0.154 1.4034 31000 0.1312 50626416
0.127 1.4124 31200 0.1310 50955696
0.0796 1.4215 31400 0.1311 51283248
0.0873 1.4305 31600 0.1309 51605616
0.0751 1.4396 31800 0.1309 51928880
0.093 1.4486 32000 0.1311 52254448
0.1243 1.4577 32200 0.1311 52584816
0.0757 1.4667 32400 0.1307 52909264
0.1119 1.4758 32600 0.1308 53237136
0.1524 1.4848 32800 0.1306 53561232
0.1509 1.4939 33000 0.1306 53886096
0.1365 1.5030 33200 0.1306 54213552
0.1405 1.5120 33400 0.1309 54541744
0.1237 1.5211 33600 0.1307 54866672
0.1553 1.5301 33800 0.1310 55196400
0.1186 1.5392 34000 0.1306 55522928
0.1145 1.5482 34200 0.1306 55851984
0.1092 1.5573 34400 0.1306 56180080
0.1481 1.5663 34600 0.1306 56508016
0.0898 1.5754 34800 0.1306 56834992
0.109 1.5844 35000 0.1305 57161136
0.1346 1.5935 35200 0.1305 57489264
0.1143 1.6025 35400 0.1306 57815440
0.1571 1.6116 35600 0.1306 58142864
0.1161 1.6207 35800 0.1303 58469616
0.1627 1.6297 36000 0.1306 58792656
0.1694 1.6388 36200 0.1305 59123504
0.1044 1.6478 36400 0.1305 59449936
0.0917 1.6569 36600 0.1304 59776048
0.117 1.6659 36800 0.1304 60104592
0.1579 1.6750 37000 0.1304 60434192
0.0958 1.6840 37200 0.1304 60762128
0.0895 1.6931 37400 0.1306 61094320
0.1372 1.7021 37600 0.1305 61421040
0.116 1.7112 37800 0.1305 61747120
0.1225 1.7203 38000 0.1306 62073424
0.1226 1.7293 38200 0.1305 62401776
0.1156 1.7384 38400 0.1304 62726928
0.1676 1.7474 38600 0.1303 63048080
0.1316 1.7565 38800 0.1304 63369712
0.1026 1.7655 39000 0.1304 63696112
0.13 1.7746 39200 0.1305 64022416
0.119 1.7836 39400 0.1305 64348304
0.0711 1.7927 39600 0.1305 64675472
0.0873 1.8017 39800 0.1309 64999728
0.1141 1.8108 40000 0.1307 65325648

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_mnli_1744902591

Adapter
(426)
this model