train_qnli_1753107733

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the qnli dataset. It achieves the following results on the evaluation set:

Loss: 0.0000
Num Input Tokens Seen: 113142752

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 2e-06
train_batch_size: 8
eval_batch_size: 8
seed: 123
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 10.0

Training results

Training Loss	Epoch	Step	Validation Loss	Input Tokens Seen
0.1514	0.5	5892	0.1618	5673856
0.0024	1.0	11784	0.0059	11317280
0.0	1.5	17676	0.0011	16971552
0.0	2.0	23568	0.0007	22625664
0.0	2.5	29460	0.0014	28254528
0.0	3.0	35352	0.0003	33940768
0.0	3.5	41244	0.0006	39609952
0.0	4.0	47136	0.0006	45253536
0.0	4.5	53028	0.0005	50900192
0.0	5.0	58920	0.0004	56571744
0.0	5.5	64812	0.0000	62226464
0.0	6.0	70704	0.0000	67887200
0.0	6.5	76596	0.0000	73552544
0.0	7.0	82488	0.0000	79199008
0.0	7.5	88380	0.0000	84860640
0.0	8.0	94272	0.0000	90509760
0.0	8.5	100164	0.0000	96165632
0.0	9.0	106056	0.0000	101826528
0.0	9.5	111948	0.0000	107486624
0.0	10.0	117840	0.0000	113142752

Framework versions

Transformers 4.51.3
Pytorch 2.7.1+cu126
Datasets 3.6.0
Tokenizers 0.21.1

rbelanec
/

train_qnli_1753107733

train_qnli_1753107733

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for rbelanec/train_qnli_1753107733

Evaluation results