hdong0
/

deepseek-Llama-8B-baseline-Open-R1-GRPO_deepscaler_acc_mu_8_constant_lr_warmed_no_kl

Model card Files Files and versions Community

No model card

Downloads last month: 17

Safetensors

Model size

8.3B params

Tensor type

BF16

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support