RegularizedSelfPlay
/

Llama-3-8B-Instruct-SPPO-Iter3-gp-8b-gpm-reg0.05-sppo-reversekl-table

Text Generation

text-generation-inference

Model card Files Files and versions

Llama-3-8B-Instruct-SPPO-Iter3-gp-8b-gpm-reg0.05-sppo-reversekl-table

Commit History

Upload tokenizer

dc4ce3d
verified

timxiaohangt commited on Jul 30

Upload LlamaForCausalLM

86963ec
verified

timxiaohangt commited on Jul 30

initial commit

6d9a5ce
verified

timxiaohangt commited on Jul 30