Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

982

Full-text search

Active filters: reinforcement-learning, transformers

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-120

Reinforcement Learning • Updated May 16 • 58

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-140

Reinforcement Learning • Updated May 16 • 7

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-160

Reinforcement Learning • Updated May 16 • 17

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-180

Reinforcement Learning • Updated May 16 • 39

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-200

Reinforcement Learning • Updated May 16 • 7

ajagota71/pythia-70m-fb-detox

Reinforcement Learning • Updated May 16 • 7

ajagota71/pythia-160m-fb-detox-checkpoint-epoch-20

Reinforcement Learning • Updated May 16 • 6

ajagota71/pythia-160m-fb-detox-checkpoint-epoch-60

Reinforcement Learning • Updated May 16 • 7

ajagota71/pythia-160m-fb-detox-checkpoint-epoch-100

Reinforcement Learning • Updated May 16 • 6

ajagota71/pythia-410m-fb-detox-checkpoint-epoch-20

Reinforcement Learning • Updated May 16 • 9

ajagota71/pythia-410m-fb-detox-checkpoint-epoch-40

Reinforcement Learning • Updated May 16 • 47

ajagota71/pythia-410m-fb-detox-checkpoint-epoch-60

Reinforcement Learning • Updated May 16 • 7

ajagota71/pythia-410m-fb-detox-checkpoint-epoch-80

Reinforcement Learning • Updated May 16 • 7

ajagota71/pythia-410m-fb-detox-checkpoint-epoch-100

Reinforcement Learning • Updated May 16 • 8

ajagota71/pythia-410m-fb-detox-checkpoint-epoch-120

Reinforcement Learning • Updated May 16 • 7

ajagota71/pythia-410m-fb-detox-checkpoint-epoch-140

Reinforcement Learning • Updated May 16 • 6

ajagota71/pythia-410m-fb-detox-checkpoint-epoch-160

Reinforcement Learning • Updated May 16 • 10

ajagota71/pythia-410m-fb-detox-checkpoint-epoch-180

Reinforcement Learning • Updated May 16 • 9

ajagota71/pythia-410m-fb-detox-checkpoint-epoch-200

Reinforcement Learning • Updated May 16 • 23

ajagota71/pythia-410m-fb-detox

Reinforcement Learning • Updated May 16 • 8

mradermacher/VeriReason-Qwen2.5-7b-SFT-Reasoning-GGUF

Reinforcement Learning • Updated May 22 • 308 • 1

mradermacher/VeriReason-Qwen2.5-1.5B-grpo-small-GGUF

Reinforcement Learning • Updated May 20 • 94 • 1

mradermacher/VeriReason-Qwen2.5-3B-Verilog-RTL-GRPO-reasoning-tb-GGUF

Reinforcement Learning • Updated May 21 • 116

mradermacher/VeriReason-Qwen2.5-7b-SFT-Reasoning-i1-GGUF

Reinforcement Learning • Updated May 22 • 639 • 1

mradermacher/VeriReason-Qwen2.5-1.5b-RTLCoder-Verilog-GRPO-reasoning-tb-GGUF

Reinforcement Learning • Updated May 21 • 85

mradermacher/VeriReason-Qwen2.5-3b-RTLCoder-Verilog-GRPO-reasoning-tb-GGUF

Reinforcement Learning • Updated May 21 • 102

mradermacher/VeriReason-Qwen2.5-7b-RTLCoder-Verilog-GRPO-reasoning-tb-GGUF

Reinforcement Learning • Updated May 21 • 300 • 1

mradermacher/Orsta-7B-GGUF

Reinforcement Learning • Updated 23 days ago • 513

mradermacher/Orsta-7B-i1-GGUF

Reinforcement Learning • Updated 23 days ago • 628

il-pugin/hse-prog-task-transformer-reward-model

Reinforcement Learning • Updated about 1 month ago • 110