train_mnli_1753094137

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the mnli dataset. It achieves the following results on the evaluation set:

Loss: 0.0840
Num Input Tokens Seen: 347859920

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-05
train_batch_size: 4
eval_batch_size: 4
seed: 123
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 10.0

Training results

Training Loss	Epoch	Step	Validation Loss	Input Tokens Seen
0.1325	0.5	44179	0.1159	17403808
0.2224	1.0	88358	0.1005	34786008
0.0567	1.5	132537	0.0950	52165240
0.0714	2.0	176716	0.0865	69564424
0.0084	2.5	220895	0.0859	86951080
0.1314	3.0	265074	0.0840	104352808
0.1477	3.5	309253	0.0885	121746504
0.1411	4.0	353432	0.0866	139123792
0.1248	4.5	397611	0.0906	156526672
0.0541	5.0	441790	0.0915	173916408
0.0391	5.5	485969	0.0968	191309592
0.0724	6.0	530148	0.0937	208701328
0.0786	6.5	574327	0.1023	226098768
0.0044	7.0	618506	0.1021	243493272
0.0159	7.5	662685	0.1069	260881240
0.0493	8.0	706864	0.1084	278276232
0.0722	8.5	751043	0.1088	295687496
0.0371	9.0	795222	0.1112	313062872
0.0916	9.5	839401	0.1120	330444056
0.0018	10.0	883580	0.1116	347859920

Framework versions

PEFT 0.15.2
Transformers 4.51.3
Pytorch 2.7.1+cu126
Datasets 3.6.0
Tokenizers 0.21.1

rbelanec
/

train_mnli_1753094137

train_mnli_1753094137

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for rbelanec/train_mnli_1753094137

Evaluation results