TLDR-Mistral - a RLHF-And-Friends Collection

RLHF-And-Friends 's Collections

TLDR-Qwen2-0.5B

TLDR-Llama-3.2-1B

Wiki-Lingua-Llama-3.2-3B

TLDR-Llama-3.2-3B

TLDR-Llama-3.1-8B

TLDR-Mistral

updated Apr 7

RLHF-And-Friends/TLDR-Mistral-7B-SmallSFT

Text Generation • 7B • Updated Feb 28 • 14
RLHF-And-Friends/TLDR-Mistral-7B-SFT

Text Generation • 7B • Updated Feb 24 • 13
RLHF-And-Friends/TLDR-Mistral-7B-RM

Text Classification • 7B • Updated Feb 20 • 15
RLHF-And-Friends/TLDR-Mistral-7B-SmallSFT-RM

Text Classification • 7B • Updated Mar 3 • 44
RLHF-And-Friends/TLDR-Mistral-7B-SFT-RM

Text Classification • 7B • Updated Feb 24 • 7
RLHF-And-Friends/TLDR-Mistral-7B-Base-PPO

7B • Updated Feb 28 • 9
RLHF-And-Friends/TLDR-Mistral-7B-SmallSFT-PPO

Text Generation • 7B • Updated Mar 3 • 12
RLHF-And-Friends/TLDR-Mistral-7B-SFT-PPO

Text Generation • 7B • Updated Feb 24 • 13
RLHF-And-Friends/TLDR-Mistral-7B-Base-CoPPO

7B • Updated Feb 28 • 9
RLHF-And-Friends/TLDR-Mistral-7B-SmallSFT-CoPPO

Text Generation • 7B • Updated Feb 28 • 12
RLHF-And-Friends/TLDR-Mistral-7B-Base-GRPO

7B • Updated Mar 20 • 9