Edit Models filters

Apps

Docker Model Runner

Inference Providers

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

96,770

Full-text search

Active filters: trl

Evan-Lin/yelp-attractive-1

Reinforcement Learning • Updated Sep 17, 2023 • 5

Evan-Lin/yelp-attractive-3

Reinforcement Learning • Updated Sep 17, 2023 • 5

Evan-Lin/yelp-attractive-2

Reinforcement Learning • Updated Sep 17, 2023 • 5

Evan-Lin/yelp-attractive-4

Reinforcement Learning • Updated Sep 17, 2023 • 5

Evan-Lin/yelp-attractive-keyword-1

Reinforcement Learning • Updated Sep 18, 2023 • 5

Evan-Lin/yelp-attractive-large-1

Reinforcement Learning • Updated Sep 18, 2023 • 5

amirabdullah19852020/pythia-160m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 6

amirabdullah19852020/pythia-70m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 6

amirabdullah19852020/pythia-410m_sentiment_reward

Reinforcement Learning • Updated Sep 19, 2023 • 5

amirabdullah19852020/pythia-70m_utility_reward

Reinforcement Learning • 0.1B • Updated Feb 10, 2024 • 20

amirabdullah19852020/pythia-160m_utility_reward

Reinforcement Learning • Updated Feb 10, 2024 • 8

amirabdullah19852020/pythia-410m_utility_reward

Reinforcement Learning • Updated Sep 21, 2023 • 5

amirabdullah19852020/gpt-neo-125m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 1

amirabdullah19852020/gpt-neo-125m_utility_reward

Reinforcement Learning • Updated Feb 10, 2024 • 2

amirabdullah19852020/gpt-j-6b-sharded-bf16_sentiment_reward

Reinforcement Learning • Updated Sep 23, 2023

thanhduc1180/llama2chatbot

Text Generation • 4B • Updated Apr 4, 2024 • 7

EddyGiusepe/zephyr-support-chatbot

Updated Jan 12, 2024 • 2

zahid0/flan-t5-base-ppo

Reinforcement Learning • Updated Nov 6, 2023

ARahul2003/lamini_flan_t5_detoxify_rlaif

Text Generation • 0.2B • Updated Nov 8, 2023 • 2 • 2

alignment-handbook/zephyr-7b-sft-full

Text Generation • 7B • Updated Jan 10, 2024 • 4.4k • • 26

alignment-handbook/zephyr-7b-sft-qlora

Updated Jan 9, 2024 • 103 • 8

lewtun/zephyr-7b-dpo-full

Text Generation • 7B • Updated Jan 5, 2024 • 7

alignment-handbook/zephyr-7b-dpo-full

Text Generation • 7B • Updated Jan 10, 2024 • 77 • 3

alignment-handbook/zephyr-7b-dpo-qlora

Updated Jan 9, 2024 • 33 • 9

neerajsp23/mistral-finetuned-samsum

Updated Jan 15, 2024 • 4

llm-wizard/llama2_instruct_generation

Updated Jan 18, 2024 • 1

worde-byte/finetunemistral

Updated May 24, 2024 • 16

stuser2023/Llama2-7b-finetuned

Text Generation • 7B • Updated Sep 26, 2024 • 3 • 1

Lichang-Chen/zephyr-7b-sft-full

Text Generation • 7B • Updated Mar 14, 2024 • 5

llm-wizard/sft_zephyr

Updated Jan 30, 2024 • 1