Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

51

Full-text search

Active filters: PPO

fb700/chatglm-fitness-RLHF

Updated Mar 6, 2024 • 268

fb700/Bofan-chatglm-Best-lora

Updated Aug 24, 2023 • 5 • 11

sehyun66/Tiny-lama-1.3B-chat-ppo

Question Answering • Updated Jan 13, 2024

Lichang-Chen/ODIN-ppo-L230-best

Text Generation • Updated Feb 14, 2024

vibhorg/rl4llm_uofm_nlpo_super_t5_arxiv

Updated Mar 20, 2024 • 1

vibhorg/rl4llm_uofm_nlpo_unsuper_t5_arxiv

Updated Mar 20, 2024

Fizzarolli/sapphia-410m-RM

Updated Apr 2, 2024

pt-sk/GPT2-IMDB-Sentiment-FineTuned-with-PPO

Text Generation • 0.1B • Updated Jun 25, 2024 • 1

pt-sk/GPT2_NonToxic

Text Generation • 0.1B • Updated Jul 15, 2024

Kwaai/GPT2_NonToxic

Text Generation • 0.1B • Updated Jul 20, 2024

Nagi-ovo/Llama-3-8B-PPO

Text Generation • 8B • Updated Jan 21, 2025 • 1

sthenno/tempesthenno-ppo-ckpt40

15B • Updated Feb 19, 2025 • 5 • 4

xi0v/tempesthenno-ppo-ckpt40-archive

15B • Updated Mar 4, 2025

Teen-Different/RxRovers_Roaming_for_Rapid_Relief

Reinforcement Learning • Updated Mar 30, 2025

estnafinema0/smolLM-variation-ppo

Text Generation • 0.1B • Updated Mar 30, 2025 • 3

FlameF0X/CanoPy

Reinforcement Learning • Updated Sep 5, 2025

AntonDergunov/LunarLander_PPO

Reinforcement Learning • Updated Oct 5, 2025

Tanaybh/lunar-lander-ppo

Reinforcement Learning • Updated Sep 21, 2025 • 6

Tanaybh/bipedal-walker-ppo

Reinforcement Learning • Updated Sep 21, 2025 • 7

HYDARIM7/SmolLM2_RLHF_PPO_HY

Reinforcement Learning • 0.1B • Updated Sep 21, 2025

ahan2000/Qwen2.5-FT-Deploy

Text Generation • 8B • Updated Sep 26, 2025 • 1

Vibudhbh/lander-ppo_rl

Reinforcement Learning • Updated Oct 2, 2025

Vibudhbh/bipedal-walker-ppo

Reinforcement Learning • Updated Oct 2, 2025

jhanschoo/ppo-LunarLander-v3

Reinforcement Learning • Updated Oct 29, 2025 • 6

ketencrypt10n/ppo-lunar-lander

Reinforcement Learning • Updated Dec 31, 2025

hamzasheedi/humanoid-robotics

Reinforcement Learning • Updated Jan 4 • 1

hamzasheedi/humanoid

Reinforcement Learning • Updated Jan 4 • 1

hamzasheedi/humanoid1

Reinforcement Learning • Updated Jan 4 • 3

hamzasheedi/humanoid2

Reinforcement Learning • Updated Jan 5

hamzasheedi/humanoid3

Reinforcement Learning • Updated Jan 5