kz919
/

DeepSeek-R1-Distill-Qwen-1.5B-GRPO-Cautious-TRL-0.18.0.dev

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions Community

DeepSeek-R1-Distill-Qwen-1.5B-GRPO-Cautious-TRL-0.18.0.dev

Commit History

End of training

0445c92
verified

kz919 commited on 5 days ago

Model save

37a04ea
verified

kz919 commited on 5 days ago

Training in progress, epoch 0

8711a84
verified

kz919 commited on 5 days ago

End of training

b036ead
verified

kz919 commited on 5 days ago

Model save

52862d0
verified

kz919 commited on 5 days ago

End of training

93f6892
verified

kz919 commited on 5 days ago

Model save

2e7679f
verified

kz919 commited on 5 days ago

Training in progress, epoch 0

a0e1213
verified

kz919 commited on 5 days ago

initial commit

f230baf
verified

kz919 commited on 19 days ago