Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

983

Full-text search

Active filters: reinforcement-learning, transformers

mradermacher/Tifa-DeepsexV2-7b-MGRPO-safetensors-GGUF

Reinforcement Learning • Updated Mar 2 • 340 • 1

mradermacher/Tifa-DeepsexV2-7b-MGRPO-safetensors-i1-GGUF

Reinforcement Learning • Updated Mar 2 • 266

tensorblock/DeepSeek-R1-Medical-COT-GGUF

Reinforcement Learning • Updated 8 days ago • 618 • 2

DARJYO/Croptimize

Reinforcement Learning • Updated 4 days ago

persadian/Croptimize

Reinforcement Learning • Updated Apr 28

KYUNGYONG/Tifa-DeepsexV2-7b-MGRPO-safetensors-4bit

Reinforcement Learning • Updated Mar 8 • 52

pdimas/helpfulpharmacyllm_js-rlhf-01

Reinforcement Learning • Updated Mar 11 • 13

pdimas/helpfulpharmacyllm_mb-rlhf-01

Reinforcement Learning • Updated Mar 11 • 13

koolkarni-Atharva10/Nano_R1

Reinforcement Learning • Updated Mar 17

abaryan/GRPO_GSM8K_Qwen2.5-1.5B_NoQuantisation

Reinforcement Learning • Updated Mar 18 • 11

Open-Reasoner-Zero/Open-Reasoner-Zero-0.5B

Reinforcement Learning • Updated Apr 7 • 37

Open-Reasoner-Zero/Open-Reasoner-Zero-1.5B

Reinforcement Learning • Updated Apr 6 • 123

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-0.5B

Reinforcement Learning • Updated Apr 7 • 26

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-1.5B

Reinforcement Learning • Updated Apr 6 • 15 • 1

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-7B

Reinforcement Learning • Updated Apr 7 • 33 • 1

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-32B

Reinforcement Learning • Updated Apr 7 • 32 • 5

tzwilliam0/maxmin-dpo-init-kl-coef-0.1-rebuttal-dongnan

Reinforcement Learning • Updated Mar 27 • 9

tzwilliam0/maxmin-dpo-init-kl-coef-0.5-rebuttal-dongnan

Reinforcement Learning • Updated Mar 27 • 7

mradermacher/R-PRM-7B-DPO-GGUF

Reinforcement Learning • Updated Mar 28 • 100

mradermacher/R-PRM-7B-DPO-i1-GGUF

Reinforcement Learning • Updated Mar 28 • 416

mradermacher/beaver-7b-v2.0-GGUF

Reinforcement Learning • Updated Mar 31 • 168

mradermacher/beaver-7b-v3.0-GGUF

Reinforcement Learning • Updated Apr 1 • 159 • 1

NousResearch/DeepHermes-Egregore-v1-RLAIF-8b-Atropos

Reinforcement Learning • Updated Apr 29 • 31 • 2

NousResearch/DeepHermes-Egregore-v2-RLAIF-8b-Atropos

Reinforcement Learning • Updated Apr 29 • 40 • 4

mradermacher/beaver-7b-v1.0-GGUF

Reinforcement Learning • Updated Apr 5 • 124

Downtown-Case/Tifa-Deepsex-14b-CoT-Chat-HF

Reinforcement Learning • Updated Apr 13 • 18 • 2

Downtown-Case/Tifa-Deepsex-14b-CoT-Crazy-HF

Reinforcement Learning • Updated Apr 13 • 11 • 1

malifnasrulloh/PPO-IndoNanoT5-base-Liputan6-Canonical

Reinforcement Learning • Updated Apr 15 • 9

ikerm11/gemma1b_humanizer_lora

Reinforcement Learning • Updated Apr 27 • 7

NousResearch/DeepHermes-Egregore-v2-RLAIF-8b-Atropos-GGUF

Reinforcement Learning • Updated May 5 • 7 • 1