Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

983

Full-text search

Active filters: reinforcement-learning, transformers

ryusangwon/ko_en_qe_ppo_0.99_1e-6

Reinforcement Learning • Updated Jan 21 • 31

ryusangwon/ko_en_qe_ppo_0.99_5e-6

Reinforcement Learning • Updated Jan 21 • 6

ryusangwon/ko_en_qe_ppo_0.99_5e-5

Reinforcement Learning • Updated Jan 21 • 9

ryusangwon/ko_en_qe_ppo_0.9_1e-6

Reinforcement Learning • Updated Jan 21 • 9

SriramSohan/Cheetah-v4

Reinforcement Learning • Updated Jan 21

Mithilhf01/mistral-ppo

Reinforcement Learning • Updated Feb 3 • 26

ValueFX9507/Tifa-Deepsex-14b-CoT

Reinforcement Learning • Updated Feb 13 • 921 • 214

mradermacher/prem-1B-grpo-GGUF

Reinforcement Learning • Updated Feb 5 • 75

mradermacher/Tifa-Deepsex-14b-CoT-GGUF

Reinforcement Learning • Updated Feb 13 • 456 • 20

mradermacher/Tifa-Deepsex-14b-CoT-i1-GGUF

Reinforcement Learning • Updated Feb 13 • 1.38k • 13

tensorblock/Tifa-Deepsex-14b-CoT-GGUF

Reinforcement Learning • Updated 8 days ago • 520 • 6

Poro7/Tifa-Deepsex-14b-CoT-Chat-Q4_K_M-gguf

Reinforcement Learning • Updated Feb 12 • 149 • 4

ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4

Reinforcement Learning • Updated Mar 26 • 1.09k • 217

tensorblock/Tifa-DeepsexV2-7b-MGRPO-GGUF-F16-GGUF

Reinforcement Learning • Updated 8 days ago • 451 • 1

xwm/SciWorld-MPO

Reinforcement Learning • Updated Mar 9 • 26 • 2

DARJYO/persadian_14B-GRPO

Reinforcement Learning • Updated Feb 18 • 8

Open-Reasoner-Zero/Open-Reasoner-Zero-7B

Reinforcement Learning • Updated Apr 7 • 9.24k • 29

Open-Reasoner-Zero/Open-Reasoner-Zero-32B

Reinforcement Learning • Updated Apr 7 • 7.18k • 31

Heaplax/ARMAP-RM-LoRA

Reinforcement Learning • Updated Feb 26

persadian/CropSeek-LLM

Reinforcement Learning • Updated Mar 7 • 67 • 1

Jennny/llama3_samsum_rl_marshal

Reinforcement Learning • Updated Feb 26 • 16

Jennny/llama3_dialogsum_rl_marshal

Reinforcement Learning • Updated Feb 26 • 9

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_test

Reinforcement Learning • Updated Feb 28 • 7

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_2nd

Reinforcement Learning • Updated Feb 28 • 9

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_offline_nav

Reinforcement Learning • Updated Mar 1 • 9

Jennny/llama3_samsum_marl_wo_comm

Reinforcement Learning • Updated Mar 2 • 13

Jennny/llama3_dialogsum_marl_wo_comm

Reinforcement Learning • Updated Mar 1 • 10

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_offline_nav_2nd

Reinforcement Learning • Updated Mar 1 • 9

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_3rd

Reinforcement Learning • Updated Mar 2 • 17

btaskel/Tifa-DeepsexV2-7b-MGRPO-safetensors

Reinforcement Learning • Updated Mar 3 • 22 • 1