MentaLLaMA-chat-7B-PsyCourse-fold9

This model is a fine-tuned version of klyang/MentaLLaMA-chat-7B-hf on the course-train-fold9 dataset. It achieves the following results on the evaluation set:

Loss: 0.0305

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 1
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 16
total_train_batch_size: 16
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 5.0

Training results

Training Loss	Epoch	Step	Validation Loss
0.8389	0.0768	50	0.6107
0.1391	0.1535	100	0.1064
0.0757	0.2303	150	0.0694
0.0639	0.3070	200	0.0581
0.0739	0.3838	250	0.0467
0.0558	0.4606	300	0.0439
0.0394	0.5373	350	0.0425
0.0477	0.6141	400	0.0419
0.047	0.6908	450	0.0432
0.0416	0.7676	500	0.0376
0.0637	0.8444	550	0.0395
0.0377	0.9211	600	0.0357
0.0315	0.9979	650	0.0361
0.0332	1.0746	700	0.0360
0.0322	1.1514	750	0.0352
0.0321	1.2282	800	0.0333
0.0299	1.3049	850	0.0323
0.0286	1.3817	900	0.0340
0.0266	1.4585	950	0.0332
0.0296	1.5352	1000	0.0320
0.022	1.6120	1050	0.0307
0.0292	1.6887	1100	0.0312
0.0269	1.7655	1150	0.0330
0.0204	1.8423	1200	0.0306
0.0306	1.9190	1250	0.0309
0.0364	1.9958	1300	0.0314
0.0194	2.0725	1350	0.0319
0.0148	2.1493	1400	0.0318
0.0161	2.2261	1450	0.0305
0.0293	2.3028	1500	0.0323
0.0203	2.3796	1550	0.0329
0.0235	2.4563	1600	0.0327
0.0234	2.5331	1650	0.0311
0.0227	2.6099	1700	0.0307
0.0147	2.6866	1750	0.0313
0.0202	2.7634	1800	0.0322
0.0203	2.8401	1850	0.0313
0.0199	2.9169	1900	0.0310
0.0152	2.9937	1950	0.0315
0.0065	3.0704	2000	0.0347
0.0155	3.1472	2050	0.0345
0.0087	3.2239	2100	0.0367
0.0107	3.3007	2150	0.0353
0.0113	3.3775	2200	0.0377
0.0115	3.4542	2250	0.0358
0.0087	3.5310	2300	0.0377
0.0099	3.6078	2350	0.0374
0.0075	3.6845	2400	0.0381
0.0064	3.7613	2450	0.0384
0.0111	3.8380	2500	0.0382
0.0154	3.9148	2550	0.0380
0.0087	3.9916	2600	0.0379
0.0042	4.0683	2650	0.0392
0.0029	4.1451	2700	0.0411
0.0044	4.2218	2750	0.0422
0.0035	4.2986	2800	0.0430
0.0031	4.3754	2850	0.0441
0.004	4.4521	2900	0.0445
0.0035	4.5289	2950	0.0446
0.0021	4.6056	3000	0.0454
0.0041	4.6824	3050	0.0459
0.006	4.7592	3100	0.0456
0.0043	4.8359	3150	0.0455
0.0031	4.9127	3200	0.0456
0.0073	4.9894	3250	0.0456

Framework versions

PEFT 0.12.0
Transformers 4.46.1
Pytorch 2.5.1+cu124
Datasets 3.1.0
Tokenizers 0.20.3

chchen
/

MentaLLaMA-chat-7B-PsyCourse-fold9

MentaLLaMA-chat-7B-PsyCourse-fold9

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for chchen/MentaLLaMA-chat-7B-PsyCourse-fold9

Evaluation results