Edit Models filters

Apps

Docker Model Runner

Inference Providers

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

96,697

Full-text search

Active filters: trl

dshin/flan-t5-ppo-user-e-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 1

wengnews/tuning_llama_rl_checkpointsstep_9

Reinforcement Learning • Updated May 11, 2023

eurus7/working

Reinforcement Learning • Updated May 12, 2023

eurus7/ppo_trainer

Reinforcement Learning • Updated May 12, 2023

eurus7/gpt2-imdb-pos-v2

Reinforcement Learning • Updated May 12, 2023

zou00080/llama_PPO_pos_formal

Reinforcement Learning • Updated May 19, 2023 • 3

zou00080/llama_PPO_pos_informal

Reinforcement Learning • Updated May 19, 2023 • 1

zou00080/llama_PPO_neg_formal

Reinforcement Learning • Updated May 19, 2023 • 1

zou00080/llama_PPO_neg_informal

Reinforcement Learning • Updated May 19, 2023 • 1

aleph-null/thesis

Updated Jun 2, 2024 • 2

rajpabari/gflownets-rlhf

Reinforcement Learning • Updated Jun 6, 2023

mariosirt/EleutherAI-gpt-neo-125m-detoxified

Reinforcement Learning • Updated Jun 6, 2023 • 1

mariosirt/EleutherAI-gpt-neo-125m-detoxified-perspective

Reinforcement Learning • Updated Jun 11, 2023 • 2

mariosirt/gpt2-detoxified

Reinforcement Learning • Updated Jun 11, 2023 • 14

merve/peft-copy-test

Text Generation • Updated Jun 14, 2023 • 3

renyulin/gptneo125m-detoxify-ppo-0.05

Reinforcement Learning • Updated Jun 26, 2023 • 1

renyulin/llama-7b-es-ppo-adpater

Reinforcement Learning • Updated Jul 3, 2023

renyulin/gpt-neo-1.3b-es-rlhf-step2500-peft

Reinforcement Learning • Updated Jul 3, 2023

Evan-Lin/Bart-RL-little

Reinforcement Learning • Updated Jul 6, 2023 • 13

linlinlin/ppo_model

Reinforcement Learning • Updated Jul 7, 2023

Evan-Lin/Bart-RL-little-entailment

Reinforcement Learning • Updated Jul 7, 2023 • 13

Evan-Lin/Bart-RL-many-entailment-attractive-keywordmax

Reinforcement Learning • Updated Jul 13, 2023 • 12

nlp-lab-2023-seq2seq/R-best-fine-tuned-bart-base-full-ft-reward_short_sentences_and_words-2023-07-13T06-49-08

Reinforcement Learning • Updated Aug 20, 2023 • 15 • 1

Evan-Lin/Bart-RL-many-entailment-attractive-epoch1

Reinforcement Learning • Updated Jul 14, 2023 • 14

amirabdullah19852020/pythia_70m_ppo_imdb_sentiment

Reinforcement Learning • Updated Jul 15, 2023 • 14

Evan-Lin/Bart-RL-many-keywordmax-entailment-attractive-reward1

Reinforcement Learning • Updated Jul 15, 2023 • 12

Evan-Lin/Bart-RL-many-keywordmax-entailment-attractive-reward2

Reinforcement Learning • Updated Jul 15, 2023 • 13

amirabdullah19852020/pythia_70m_ppo_imdb_sentiment_v2

Reinforcement Learning • Updated Jul 15, 2023 • 13

Evan-Lin/Bart-RL-many-keywordmax-entailment-attractive-reward5

Reinforcement Learning • Updated Jul 16, 2023 • 13

amirabdullah19852020/pythia_70m_ppo_imdb_sentiment_v3

Reinforcement Learning • Updated Jul 16, 2023 • 10