Edit Models filters

Apps

Docker Model Runner

Inference Providers

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

96,682

Full-text search

Active filters: trl

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-3

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-2-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-3-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-a-batch-size-8-epoch-4

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-3

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-4

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-4-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-4

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-3-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 2

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-4-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 2

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-4

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-4-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

SummerSigh/T5-Base-Rule-Of-Thumb-RM2

Reinforcement Learning • 0.2B • Updated Mar 21, 2023 • 5

dshin/flan-t5-ppo-user-h-batch-size-64

Reinforcement Learning • Updated Mar 14, 2023 • 1

dshin/flan-t5-ppo-user-f-batch-size-64

Reinforcement Learning • Updated Mar 14, 2023 • 1

dshin/flan-t5-ppo-user-f-batch-size-64-use-violation

Reinforcement Learning • Updated Mar 14, 2023 • 1

dshin/flan-t5-ppo-user-h-batch-size-64-use-violation

Reinforcement Learning • Updated Mar 14, 2023 • 2

dshin/flan-t5-ppo-user-e-batch-size-64-use-violation

Reinforcement Learning • Updated Mar 14, 2023 • 1

dshin/flan-t5-ppo-user-e-batch-size-64

Reinforcement Learning • Updated Mar 14, 2023 • 1

trl-lib/llama-7b-se-peft

Updated Apr 6, 2023 • 4

Bearnardd/gpt2-imdb

Reinforcement Learning • Updated Apr 3, 2023 • 15

trl-lib/llama-7b-se-rl-peft

Updated Apr 14, 2023 • 103

Bearnardd/test_bearnard

Reinforcement Learning • Updated Apr 5, 2023 • 16

Bearnardd/test_beard

Reinforcement Learning • Updated Apr 4, 2023 • 15

trl-lib/llama-7b-se-rm-peft

Updated Apr 6, 2023 • 8

vincentmin/opt-125m-eli5-rl-finetune-128-8-8-1.4e-5_ada

Reinforcement Learning • Updated Apr 10, 2023

dshin/flan-t5-ppo-user-a-allenai-prosocial-dialog-testing-upload

Reinforcement Learning • Updated Apr 12, 2023 • 3

dshin/flan-t5-ppo-user-a-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 1

dshin/flan-t5-ppo-user-f-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 1

dshin/flan-t5-ppo-user-h-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 1