MentaLLaMA-chat-7B-PsyCourse-fold7

This model is a fine-tuned version of klyang/MentaLLaMA-chat-7B-hf on the course-train-fold7 dataset. It achieves the following results on the evaluation set:

Loss: 0.0272

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 1
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 16
total_train_batch_size: 16
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 5.0

Training results

Training Loss	Epoch	Step	Validation Loss
0.8412	0.0764	50	0.6190
0.1455	0.1528	100	0.1069
0.0861	0.2292	150	0.0647
0.0575	0.3056	200	0.0518
0.0643	0.3820	250	0.0469
0.0341	0.4584	300	0.0435
0.0641	0.5348	350	0.0413
0.0405	0.6112	400	0.0419
0.0531	0.6875	450	0.0385
0.041	0.7639	500	0.0372
0.0283	0.8403	550	0.0353
0.041	0.9167	600	0.0330
0.0553	0.9931	650	0.0363
0.0314	1.0695	700	0.0310
0.0211	1.1459	750	0.0312
0.0314	1.2223	800	0.0320
0.0325	1.2987	850	0.0315
0.0351	1.3751	900	0.0305
0.0402	1.4515	950	0.0314
0.0262	1.5279	1000	0.0299
0.026	1.6043	1050	0.0302
0.024	1.6807	1100	0.0314
0.0487	1.7571	1150	0.0302
0.0251	1.8335	1200	0.0300
0.028	1.9099	1250	0.0320
0.0244	1.9862	1300	0.0299
0.0211	2.0626	1350	0.0282
0.019	2.1390	1400	0.0285
0.012	2.2154	1450	0.0302
0.0181	2.2918	1500	0.0283
0.0176	2.3682	1550	0.0288
0.0136	2.4446	1600	0.0277
0.0217	2.5210	1650	0.0286
0.0156	2.5974	1700	0.0294
0.0191	2.6738	1750	0.0286
0.0249	2.7502	1800	0.0272
0.0237	2.8266	1850	0.0290
0.021	2.9030	1900	0.0278
0.0174	2.9794	1950	0.0283
0.0122	3.0558	2000	0.0290
0.0137	3.1322	2050	0.0301
0.0086	3.2086	2100	0.0309
0.0136	3.2850	2150	0.0306
0.0111	3.3613	2200	0.0310
0.0142	3.4377	2250	0.0327
0.0114	3.5141	2300	0.0312
0.015	3.5905	2350	0.0319
0.0088	3.6669	2400	0.0300
0.0068	3.7433	2450	0.0310
0.0098	3.8197	2500	0.0300
0.0088	3.8961	2550	0.0298
0.0081	3.9725	2600	0.0306
0.0052	4.0489	2650	0.0314
0.0076	4.1253	2700	0.0326
0.0091	4.2017	2750	0.0331
0.0045	4.2781	2800	0.0342
0.0047	4.3545	2850	0.0347
0.0047	4.4309	2900	0.0358
0.005	4.5073	2950	0.0359
0.0049	4.5837	3000	0.0363
0.0039	4.6600	3050	0.0363
0.0062	4.7364	3100	0.0366
0.0054	4.8128	3150	0.0366
0.0041	4.8892	3200	0.0366
0.0047	4.9656	3250	0.0366

Framework versions

PEFT 0.12.0
Transformers 4.46.1
Pytorch 2.5.1+cu124
Datasets 3.1.0
Tokenizers 0.20.3

chchen
/

MentaLLaMA-chat-7B-PsyCourse-fold7

MentaLLaMA-chat-7B-PsyCourse-fold7

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for chchen/MentaLLaMA-chat-7B-PsyCourse-fold7

Evaluation results