vkasera
/

v2_qwen-2.5-3b-r1-countdown-phil

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.0535218224234672,
-    "train_runtime": 8287.7289,
     "train_samples": 45000,
-    "train_samples_per_second": 1.738,
-    "train_steps_per_second": 0.054
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.00019274518191153618,
+    "train_runtime": 48.1888,
     "train_samples": 45000,
+    "train_samples_per_second": 132.811,
+    "train_steps_per_second": 4.15
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.0535218224234672,
-    "train_runtime": 8287.7289,
     "train_samples": 45000,
-    "train_samples_per_second": 1.738,
-    "train_steps_per_second": 0.054
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.00019274518191153618,
+    "train_runtime": 48.1888,
     "train_samples": 45000,
+    "train_samples_per_second": 132.811,
+    "train_steps_per_second": 4.15
 }

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04,
   "eval_steps": 500,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7660,18 +7660,45 @@
       "step": 450
     },
     {
-      "epoch": 0.04,
-      "step": 450,
       "total_flos": 0.0,
-      "train_loss": 0.0535218224234672,
-      "train_runtime": 8287.7289,
-      "train_samples_per_second": 1.738,
-      "train_steps_per_second": 0.054
     }
   ],
   "logging_steps": 2,
-  "max_steps": 450,
-  "num_input_tokens_seen": 7418212,
   "num_train_epochs": 1,
   "save_steps": 20,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04008888888888889,
   "eval_steps": 500,
+  "global_step": 451,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 450
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 1024.0,
+      "completions/max_terminated_length": 738.0,
+      "completions/mean_length": 384.4375,
+      "completions/mean_terminated_length": 363.8064270019531,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "entropy": 0.9260082840919495,
+      "epoch": 0.04008888888888889,
+      "frac_reward_zero_std": 0.75,
+      "kl": 0.04489966729306616,
+      "num_tokens": 7435458.0,
+      "reward": 0.9375,
+      "reward_std": 0.1157275140285492,
+      "rewards/equation_reward_func/mean": 0.0,
+      "rewards/equation_reward_func/std": 0.0,
+      "rewards/format_reward_func/mean": 0.9375,
+      "rewards/format_reward_func/std": 0.24593468010425568,
+      "sampling/importance_sampling_ratio/max": 2.0,
+      "sampling/importance_sampling_ratio/mean": 0.9999629259109497,
+      "sampling/importance_sampling_ratio/min": 0.6872801184654236,
+      "sampling/sampling_logp_difference/max": 0.7735042572021484,
+      "sampling/sampling_logp_difference/mean": 0.017714163288474083,
+      "step": 451,
       "total_flos": 0.0,
+      "train_loss": 0.00019274518191153618,
+      "train_runtime": 48.1888,
+      "train_samples_per_second": 132.811,
+      "train_steps_per_second": 4.15
     }
   ],
   "logging_steps": 2,
+  "max_steps": 200,
+  "num_input_tokens_seen": 7435458,
   "num_train_epochs": 1,
   "save_steps": 20,
   "stateful_callbacks": {