MentaLLaMA-chat-7B-PsyCourse-fold6

This model is a fine-tuned version of klyang/MentaLLaMA-chat-7B-hf on the course-train-fold6 dataset. It achieves the following results on the evaluation set:

Loss: 0.0319

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 1
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 16
total_train_batch_size: 16
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 5.0

Training results

Training Loss	Epoch	Step	Validation Loss
0.8292	0.0751	50	0.6473
0.1595	0.1502	100	0.1169
0.0933	0.2254	150	0.0727
0.0512	0.3005	200	0.0581
0.0619	0.3756	250	0.0474
0.0395	0.4507	300	0.0460
0.0476	0.5258	350	0.0454
0.0444	0.6009	400	0.0407
0.0543	0.6761	450	0.0425
0.0454	0.7512	500	0.0372
0.0562	0.8263	550	0.0377
0.0336	0.9014	600	0.0361
0.0494	0.9765	650	0.0368
0.0354	1.0516	700	0.0386
0.029	1.1268	750	0.0376
0.0301	1.2019	800	0.0352
0.0321	1.2770	850	0.0341
0.0271	1.3521	900	0.0343
0.0351	1.4272	950	0.0330
0.0244	1.5023	1000	0.0330
0.0277	1.5775	1050	0.0341
0.0231	1.6526	1100	0.0340
0.0261	1.7277	1150	0.0327
0.0297	1.8028	1200	0.0348
0.027	1.8779	1250	0.0334
0.0417	1.9531	1300	0.0348
0.0173	2.0282	1350	0.0328
0.0207	2.1033	1400	0.0323
0.0223	2.1784	1450	0.0325
0.0107	2.2535	1500	0.0359
0.0182	2.3286	1550	0.0332
0.0187	2.4038	1600	0.0323
0.018	2.4789	1650	0.0327
0.0205	2.5540	1700	0.0350
0.0182	2.6291	1750	0.0323
0.0202	2.7042	1800	0.0325
0.0218	2.7793	1850	0.0323
0.0179	2.8545	1900	0.0319
0.0213	2.9296	1950	0.0330
0.0104	3.0047	2000	0.0328
0.0097	3.0798	2050	0.0359
0.0103	3.1549	2100	0.0363
0.0131	3.2300	2150	0.0359
0.0149	3.3052	2200	0.0362
0.0083	3.3803	2250	0.0365
0.0115	3.4554	2300	0.0359
0.0111	3.5305	2350	0.0387
0.0094	3.6056	2400	0.0376
0.0051	3.6808	2450	0.0376
0.0053	3.7559	2500	0.0375
0.0078	3.8310	2550	0.0377
0.0105	3.9061	2600	0.0372
0.0105	3.9812	2650	0.0371
0.0064	4.0563	2700	0.0382
0.0048	4.1315	2750	0.0398
0.0065	4.2066	2800	0.0407
0.0031	4.2817	2850	0.0417
0.0028	4.3568	2900	0.0420
0.0043	4.4319	2950	0.0421
0.0048	4.5070	3000	0.0424
0.0038	4.5822	3050	0.0428
0.0041	4.6573	3100	0.0430
0.0066	4.7324	3150	0.0431
0.003	4.8075	3200	0.0430
0.0031	4.8826	3250	0.0429
0.0046	4.9577	3300	0.0430

Framework versions

PEFT 0.12.0
Transformers 4.46.1
Pytorch 2.5.1+cu124
Datasets 3.1.0
Tokenizers 0.20.3

chchen
/

MentaLLaMA-chat-7B-PsyCourse-fold6

MentaLLaMA-chat-7B-PsyCourse-fold6

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for chchen/MentaLLaMA-chat-7B-PsyCourse-fold6

Evaluation results