ajagota71
/

llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6

Reinforcement Learning

text-generation

text-generation-inference

Model card Files Files and versions Community

llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6

Ctrl+K

Ctrl+K

1 contributor

History: 2 commits

ajagota71's picture

Final model after RLHF training

417d23e verified 13 days ago