Ctrl+K
- 7B_10_5ppl
- 7B_11_5ppl
- 7B_11_loose_len_reward
- 7B_2
- 7B_3
- 7B_4
- 7B_5_4ppl
- 7B_6_5ppl
- 7B_7_5ppl
- 7B_8_5ppl
- 7B_9_5ppl
- 7B_epoch1
- grpo_1_5ppl
- grpo_2_5ppl
- grpo_3_5ppl
- grpo_format_3ppl
- log
- log_files
- ppo_1_5ppl
- ppo_1_lambd1_5ppl
- ppo_format_3ppl
- reinforce_1_5ppl
- reinforce_1_5ppl_no_clip
- reinforce_1_5ppl_no_kl
- reinforce_1_5ppl_no_kl_no_clip
- reinforce_2_5ppl
- reinforce_2_len_raward_5ppl
- reinforce_3_5ppl
- reinforce_3_len_raward_5ppl
- reinforce_4_len_reward_5ppl
- reinforce_4_rollout64_bs128_5ppl
- reinforce_5_len_reward_5ppl
- test_data
-
9.77 kB
-
4 Bytes