Edit Models filters

Apps

Docker Model Runner

Inference Providers

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

239

Full-text search

Active filters: openai/gsm8k

nasos10/MuToR-llama3-8B-GSM8K-dmax_4_a_03

Text Generation • 8B • Updated 29 days ago • 9

ermiaazarkhalili/qwen-2.5-3b-instruct_grpo-GSM8K

Text Generation • 3B • Updated 24 days ago • 21

ermiaazarkhalili/qwen-3-4b_grpo-GSM8K

Text Generation • 4B • Updated 24 days ago • 12

ermiaazarkhalili/qwen-3-14b_grpo-GSM8K

Text Generation • 15B • Updated 24 days ago • 15

ermiaazarkhalili/qwen-2.5-0.5b-instruct_grpo-GSM8K

Text Generation • 0.5B • Updated 24 days ago • 10

ermiaazarkhalili/qwen-2.5-1.5b-instruct_grpo-GSM8K

Text Generation • 2B • Updated 24 days ago • 9

ermiaazarkhalili/qwen-2.5-7b-instruct_grpo-GSM8K

Text Generation • 8B • Updated 24 days ago • 14

ermiaazarkhalili/qwen-2.5-14b-instruct_grpo-GSM8K

Text Generation • 15B • Updated 24 days ago • 14

whysue/simple_GRPO

Question Answering • 8B • Updated 15 days ago • 54

alfiwillianz/SemiQwenn-0.5b

0.5B • Updated 26 days ago • 11

alfiwillianz/SemiQwenn-1.5b

2B • Updated 26 days ago • 10

alfiwillianz/SemiQwenn-7b

8B • Updated 26 days ago • 10

xfey/Qwen2.5-7B-Whitebox-GSM8k-Exp005

Text Generation • 8B • Updated 20 days ago • 10

ermiaazarkhalili/qwen-2.5-72b-instruct_grpo-GSM8K

Text Generation • 73B • Updated 24 days ago • 40

mradermacher/SemiQwenn-0.5b-GGUF

0.5B • Updated 26 days ago • 184

mradermacher/SemiQwenn-1.5b-GGUF

2B • Updated 26 days ago • 205

mradermacher/SemiQwenn-7b-GGUF

8B • Updated 17 days ago • 2.35k

mradermacher/SemiQwenn-7b-i1-GGUF

8B • Updated 17 days ago • 4.64k

ermiaazarkhalili/qwen-2.5-32b-instruct_grpo-GSM8K

Text Generation • 33B • Updated 24 days ago • 24

sematemur/openai_gsm8k_finetune_mistral7b_

7B • Updated 19 days ago • 1.82k • 1

xfey/Qwen2.5-7B-Whitebox-GSM8k-Exp

Text Generation • 8B • Updated 17 days ago • 19

ugriffo/Qwen2.5-3B-Instruct-Math-Reasoning-GGUF

3B • Updated 20 days ago • 217

ermiaazarkhalili/mistral-7b-instruct-v0.2-grpo-GSM8K

Text Generation • 7B • Updated 23 days ago • 9

ermiaazarkhalili/llama-3.1-8b-instruct_grpo-GSM8K

Text Generation • 8B • Updated 23 days ago • 9

Makrrr/Qwen3-1.7B-GSM8K-GRPO-verl

Reinforcement Learning • 2B • Updated 23 days ago • 39 • 2

purbeshmitra/vanillaGRPO

Text Generation • Updated 20 days ago • 11

Ashed00/SmolMath-135M

Text Generation • 0.1B • Updated 12 days ago • 123 • 2

DheyoAI/DeepSeek-R1-Distill-Qwen-1.5B-GGUF

Text Generation • 2B • Updated 11 days ago • 1.04k • 4

ChangyuLiu/DeepSeek-R1-Distill-Qwen-1.5B-GPTQ_W8A8_G128

2B • Updated about 6 hours ago