ajagota71
/

llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-60

Reinforcement Learning

text-generation

text-generation-inference

Model card Files Files and versions Community

llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-60

Commit History

Checkpoint after epoch 60

86fa252
verified

ajagota71 commited on 13 days ago

initial commit

a2387c1
verified

ajagota71 commited on 13 days ago