Project of MoE reward model

Activity Feed Request to join this org

AI & ML interests

None defined yet.

Recent Activity

shengyi-qian updated a model about 2 months ago

MoeReward/rl_checkpoints

shengyi-qian updated a model about 2 months ago

MoeReward/rl_checkpoints

zyhang1998 updated a dataset 4 months ago

MoeReward/combined_rlhf_dataset_grpo_imdb_main_2K

View all activity

models 6

MoeReward/rl_checkpoints

MoeReward/lora_checkpoint

MoeReward/reward_lora_qwen_1_5_base

Updated Mar 21 • 1

MoeReward/reward_qwen_1_5

14B • Updated Mar 17 • 1

MoeReward/reward_lora_qwen_1_5

Updated Mar 17 • 1

MoeReward/sft_full_param_qwen_1_5

14B • Updated Mar 16 • 2

datasets 54

MoeReward/combined_rlhf_dataset_grpo_imdb_main_2K

Viewer • Updated May 6 • 2k • 3

MoeReward/combined_rlhf_dataset_grpo_metamath_main_2K

Viewer • Updated May 6 • 2k • 3

MoeReward/combined_rlhf_dataset_grpo_arc_main_2K

Viewer • Updated May 6 • 2k • 2

MoeReward/combined_rlhf_dataset_grpo_nq_main_2K

Viewer • Updated May 6 • 2k • 5

MoeReward/combined_rlhf_dataset_grpo_equal_dist_2K

Viewer • Updated May 6 • 2k • 5

MoeReward/combined_rlhf_dataset_grpo_imdb_main

Viewer • Updated Apr 1 • 4k • 4

MoeReward/combined_rlhf_dataset_grpo_metamath_main

Viewer • Updated Apr 1 • 4k • 4

MoeReward/combined_rlhf_dataset_grpo_arc_main

Viewer • Updated Apr 1 • 4k • 3

MoeReward/combined_rlhf_dataset_grpo_nq_main

Viewer • Updated Apr 1 • 4k • 2

MoeReward/combined_rlhf_dataset_grpo_equal_dist

Viewer • Updated Apr 1 • 4k • 4

View 54 datasets