Yifan's PPO Models - a lblaoke Collection

Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

lblaoke 's Collections

Preference Data

Yifan's PPO Models

Yifan's PPO Models

updated Mar 19

lblaoke/llama2-7b-ppo-human

Updated Feb 3 • 9
lblaoke/llama2-7b-ppo-self

Updated Feb 3 • 9
lblaoke/llama2-7b-ppo-self-human

Updated Feb 3 • 7
lblaoke/mistral-v0.1-7b-ppo-human

Updated Feb 4 • 9
lblaoke/mistral-v0.1-7b-ppo-self

Updated Feb 4 • 9
lblaoke/mistral-v0.1-7b-ppo-self-human

Updated Feb 4 • 9
lblaoke/llama-3.1-8b-ppo-human

Updated Feb 21 • 58
lblaoke/llama-3.1-8b-ppo-self

Updated Feb 22 • 29
lblaoke/llama-3.1-8b-ppo-self-human

Updated Feb 24 • 9
lblaoke/qwen2.5-7b-ppo-human

Updated Feb 26 • 8
lblaoke/qwen2.5-7b-ppo-self-human

Updated Feb 27 • 8
lblaoke/qwen2.5-7b-ppo-self

Updated Feb 27 • 8
lblaoke/mistral-v0.3-7b-ppo-human

Updated Feb 28 • 9
lblaoke/mistral-v0.3-7b-ppo-self

Updated Feb 28 • 10
lblaoke/mistral-v0.3-7b-ppo-self-human

Updated Mar 1 • 9

Collection guide
Browse collections

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs