TimaeusWorld
/

Qwen2-0.5B-GRPO-test

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

TimaeusWorld commited on Apr 5

Commit

9215fed

·

verified ·

1 Parent(s): ca56961

Model save

Files changed (2) hide show

README.md +2 -3
adapter_model.safetensors +1 -1

README.md CHANGED Viewed

@@ -1,6 +1,5 @@
 ---
 base_model: Qwen/Qwen2-0.5B-Instruct
-datasets: AI-MO/NuminaMath-TIR
 library_name: transformers
 model_name: Qwen2-0.5B-GRPO-test
 tags:
@@ -12,7 +11,7 @@ licence: license
 # Model Card for Qwen2-0.5B-GRPO-test
-This model is a fine-tuned version of [Qwen/Qwen2-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2-0.5B-Instruct) on the [AI-MO/NuminaMath-TIR](https://huggingface.co/datasets/AI-MO/NuminaMath-TIR) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -38,7 +37,7 @@ This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing
 - TRL: 0.16.1
 - Transformers: 4.50.3
 - Pytorch: 2.6.0+cu124
-- Datasets: 3.2.0
 - Tokenizers: 0.21.1
 ## Citations

 ---
 base_model: Qwen/Qwen2-0.5B-Instruct
 library_name: transformers
 model_name: Qwen2-0.5B-GRPO-test
 tags:
 # Model Card for Qwen2-0.5B-GRPO-test
+This model is a fine-tuned version of [Qwen/Qwen2-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2-0.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 - TRL: 0.16.1
 - Transformers: 4.50.3
 - Pytorch: 2.6.0+cu124
+- Datasets: 3.5.0
 - Tokenizers: 0.21.1
 ## Citations

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:666393da668cd8b735497c5a6115440c232d28c07f58c6d2975777e1376c3ee9
 size 2175168

 version https://git-lfs.github.com/spec/v1
+oid sha256:97b2b229b3752045f48353615d006966d8f755b8c85dd9a52b02a3923fed6360
 size 2175168