Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

.gitattributes +1 -0
artifacts/hyperparam_control/hyperparameters.json +1 -1
artifacts/logs/training_20250816_230005_ppo_CartPole-v1.log +897 -0
artifacts/videos/eval/episodes/best_checkpoint.mp4 +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+artifacts/videos/eval/episodes/best_checkpoint.mp4 filter=lfs diff=lfs merge=lfs -text

artifacts/hyperparam_control/hyperparameters.json CHANGED Viewed

@@ -12,5 +12,5 @@
     "clip_range - PPO clipping range (PPO only)",
     "vf_coef - Value function coefficient (PPO only)"
   ],
-  "last_modified": 1755378648.2642398
 }

     "clip_range - PPO clipping range (PPO only)",
     "vf_coef - Value function coefficient (PPO only)"
   ],
+  "last_modified": 1755381605.2407584
 }

artifacts/logs/training_20250816_230005_ppo_CartPole-v1.log ADDED Viewed

	@@ -0,0 +1,897 @@

+=== Training Session Started ===
+Timestamp: 2025-08-16 23:00:05
+Log file: runs/cvb5lyfw/logs/training_20250816_230005_ppo_CartPole-v1.log
+Algorithm: ppo
+Environment: CartPole-v1
+Seed: 42
+==================================================
+Configuration saved to: runs/cvb5lyfw/configs/config.json
+/home/tsilva/repos/tsilva/gymnasium-solver/.venv/lib/python3.10/site-packages/pytorch_lightning/trainer/setup.py:177: GPU available but not used. You can set it by doing `Trainer(accelerator='gpu')`.
+🎛️  Hyperparameter manual control enabled!
+   Control directory: runs/cvb5lyfw/hyperparam_control
+   Control file: hyperparameters.json
+   Edit this file to adjust hyperparameters during training.
+/home/tsilva/repos/tsilva/gymnasium-solver/.venv/lib/python3.10/site-packages/pytorch_lightning/trainer/connectors/data_connector.py:425: The 'train_dataloader' does not have many workers which may be a bottleneck. Consider increasing the value of the `num_workers` argument` to `num_workers=11` in the `DataLoader` to improve performance.
+/home/tsilva/repos/tsilva/gymnasium-solver/.venv/lib/python3.10/site-packages/pytorch_lightning/loops/fit_loop.py:310: The number of training batches (20) is smaller than the logging interval Trainer(log_every_n_steps=50). Set a lower value for log_every_n_steps if you want to see logs for the training epoch.
+--------------------------------------------
+| train/                 |                 |
+|     ep_rew_mean        |           23.52 |
+|     ep_len_mean        |           23.00 |
+|     epoch              |               8 |
+|     total_timesteps    |            2560 |
+|     total_episodes     |             107 |
+|     total_rollouts     |           10.00 |
+|     rollout_timesteps  |             256 |
+|     rollout_episodes   |           11.00 |
+|     fps_instant        |            4492 |
+|     rollout_fps        |        21420.19 |
+|     loss               |            9.12 |
+|     policy_loss        |         -0.0078 |
+|     value_loss         |         18.2623 |
+|     entropy_loss       |         -0.6738 |
+|     action_mean        |            0.51 |
+|     action_std         |            0.50 |
+|     approx_kl          |          0.0059 |
+|     baseline_mean      |            0.00 |
+|     baseline_std       |            0.00 |
+|     clip_fraction      |           0.093 |
+|     clip_range         |          0.1954 |
+|     entropy            |          0.6738 |
+|     explained_variance |           0.258 |
+|     fps                |            1080 |
+|     kl_div             |          0.0031 |
+|     learning_rate      |        0.000977 |
+|     obs_mean           |           -0.02 |
+|     obs_std            |            0.45 |
+|     reward_mean        |            1.00 |
+|     reward_std         |            0.00 |
+|     time_elapsed       |            2.37 |
+--------------------------------------------
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |        30.24 ↑6.72 |
+|     ep_len_mean        |        30.00 ↑7.00 |
+|     epoch              |             18 ↑10 |
+|     total_timesteps    |      5120 ↑2560.00 |
+|     total_episodes     |            178 ↑71 |
+|     total_rollouts     |       20.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         5.00 ↓6.00 |
+|     fps_instant        |          4248 ↓244 |
+|     rollout_fps        |   21941.32 ↑521.13 |
+|     loss               |         7.85 ↓1.27 |
+|     policy_loss        |     0.0070 ↑0.0148 |
+|     value_loss         |    15.6912 ↓2.5711 |
+|     entropy_loss       |    -0.6368 ↑0.0370 |
+|     action_mean        |         0.50 ↓0.01 |
+|     action_std         |       0.50 ↑0.0001 |
+|     approx_kl          |     0.0109 ↑0.0050 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.078 ↓0.015 |
+|     clip_range         |     0.1903 ↓0.0051 |
+|     entropy            |     0.6368 ↓0.0370 |
+|     explained_variance |       0.459 ↑0.201 |
+|     fps                |          1723 ↑643 |
+|     kl_div             |     0.0298 ↑0.0266 |
+|     learning_rate      | 0.000951 ↓0.000026 |
+|     obs_mean           |        -0.00 ↑0.02 |
+|     obs_std            |         0.43 ↓0.01 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |         2.97 ↑0.60 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: Very negative explained variance (-0.423) indicates value function is performing poorly. Check value function architecture or learning rate.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |       45.78 ↑15.54 |
+|     ep_len_mean        |       45.00 ↑15.00 |
+|     epoch              |             28 ↑10 |
+|     total_timesteps    |      7680 ↑2560.00 |
+|     total_episodes     |            217 ↑39 |
+|     total_rollouts     |       30.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         1.00 ↓4.00 |
+|     fps_instant        |          5165 ↑917 |
+|     rollout_fps        |   22601.49 ↑660.17 |
+|     loss               |         6.52 ↓1.33 |
+|     policy_loss        |     0.0055 ↓0.0015 |
+|     value_loss         |    13.0365 ↓2.6547 |
+|     entropy_loss       |    -0.6026 ↑0.0342 |
+|     action_mean        |       0.50 ↑0.0040 |
+|     action_std         |     0.50 ↑2.62e-06 |
+|     approx_kl          |     0.0046 ↓0.0063 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.055 ↓0.023 |
+|     clip_range         |     0.1852 ↓0.0051 |
+|     entropy            |     0.6026 ↓0.0342 |
+|     explained_variance |      -0.423 ↓0.882 |
+|     fps                |          2161 ↑438 |
+|     kl_div             |     0.0101 ↓0.0197 |
+|     learning_rate      | 0.000926 ↓0.000026 |
+|     obs_mean           |         0.02 ↑0.02 |
+|     obs_std            |         0.46 ↑0.03 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |         3.55 ↑0.58 |
+-----------------------------------------------
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |       63.52 ↑17.74 |
+|     ep_len_mean        |       63.00 ↑18.00 |
+|     epoch              |             38 ↑10 |
+|     total_timesteps    |     10240 ↑2560.00 |
+|     total_episodes     |            241 ↑24 |
+|     total_rollouts     |       40.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         2.00 ↑1.00 |
+|     fps_instant        |          4253 ↓913 |
+|     rollout_fps        |    22551.70 ↓49.80 |
+|     loss               |         1.34 ↓5.19 |
+|     policy_loss        |     0.0110 ↑0.0055 |
+|     value_loss         |    2.6502 ↓10.3863 |
+|     entropy_loss       |    -0.6145 ↓0.0118 |
+|     action_mean        |       0.50 ↑0.0025 |
+|     action_std         |     0.50 ↓1.48e-05 |
+|     approx_kl          |     0.0034 ↓0.0012 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.042 ↓0.012 |
+|     clip_range         |     0.1800 ↓0.0051 |
+|     entropy            |     0.6145 ↑0.0118 |
+|     explained_variance |       0.962 ↑1.385 |
+|     fps                |          2449 ↑288 |
+|     kl_div             |     0.0083 ↓0.0018 |
+|     learning_rate      | 0.000900 ↓0.000026 |
+|     obs_mean           |         0.06 ↑0.04 |
+|     obs_std            |         0.51 ↑0.04 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |         4.18 ↑0.63 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip fraction (0.144) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |       80.62 ↑17.10 |
+|     ep_len_mean        |       80.00 ↑17.00 |
+|     epoch              |             48 ↑10 |
+|     total_timesteps    |     12800 ↑2560.00 |
+|     total_episodes     |            265 ↑24 |
+|     total_rollouts     |       50.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |            2.00 →0 |
+|     fps_instant        |          4129 ↓123 |
+|     rollout_fps        |    22596.84 ↑45.14 |
+|     loss               |         1.53 ↑0.19 |
+|     policy_loss        |     0.0126 ↑0.0015 |
+|     value_loss         |     3.0301 ↑0.3799 |
+|     entropy_loss       |    -0.5850 ↑0.0294 |
+|     action_mean        |       0.51 ↑0.0027 |
+|     action_std         |     0.50 ↓2.96e-05 |
+|     approx_kl          |     0.0081 ↑0.0047 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.144 ↑0.102 |
+|     clip_range         |     0.1749 ↓0.0051 |
+|     entropy            |     0.5850 ↓0.0294 |
+|     explained_variance |       0.963 ↑0.001 |
+|     fps                |          2669 ↑220 |
+|     kl_div             |     0.0067 ↓0.0016 |
+|     learning_rate      | 0.000875 ↓0.000026 |
+|     obs_mean           |         0.09 ↑0.03 |
+|     obs_std            |         0.54 ↑0.04 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |         4.80 ↑0.61 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip fraction (0.186) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |       95.26 ↑14.64 |
+|     ep_len_mean        |       95.00 ↑15.00 |
+|     epoch              |             58 ↑10 |
+|     total_timesteps    |     15360 ↑2560.00 |
+|     total_episodes     |            293 ↑28 |
+|     total_rollouts     |       60.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         6.00 ↑4.00 |
+|     fps_instant        |           4169 ↑40 |
+|     rollout_fps        |   22267.97 ↓328.87 |
+|     loss               |       18.56 ↑17.03 |
+|     policy_loss        |     0.0049 ↓0.0077 |
+|     value_loss         |   37.1057 ↑34.0756 |
+|     entropy_loss       |    -0.5526 ↑0.0325 |
+|     action_mean        |       0.51 ↑0.0018 |
+|     action_std         |     0.50 ↓2.88e-05 |
+|     approx_kl          |     0.0188 ↑0.0106 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.186 ↑0.042 |
+|     clip_range         |     0.1698 ↓0.0051 |
+|     entropy            |     0.5526 ↓0.0325 |
+|     explained_variance |       0.649 ↓0.313 |
+|     fps                |          2828 ↑159 |
+|     kl_div             |     0.0115 ↑0.0048 |
+|     learning_rate      | 0.000849 ↓0.000026 |
+|     obs_mean           |         0.12 ↑0.03 |
+|     obs_std            |         0.56 ↑0.01 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |         5.43 ↑0.64 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip fraction (0.340) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |       104.72 ↑9.46 |
+|     ep_len_mean        |       104.00 ↑9.00 |
+|     epoch              |             68 ↑10 |
+|     total_timesteps    |     17920 ↑2560.00 |
+|     total_episodes     |            314 ↑21 |
+|     total_rollouts     |       70.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         2.00 ↓4.00 |
+|     fps_instant        |          3896 ↓273 |
+|     rollout_fps        |   22153.08 ↓114.89 |
+|     loss               |        4.85 ↓13.70 |
+|     policy_loss        |     0.0009 ↓0.0040 |
+|     value_loss         |    9.7081 ↓27.3976 |
+|     entropy_loss       |    -0.5655 ↓0.0129 |
+|     action_mean        |       0.51 ↑0.0024 |
+|     action_std         |     0.50 ↓4.85e-05 |
+|     approx_kl          |     0.0190 ↑0.0002 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.340 ↑0.154 |
+|     clip_range         |     0.1647 ↓0.0051 |
+|     entropy            |     0.5655 ↑0.0129 |
+|     explained_variance |       0.775 ↑0.126 |
+|     fps                |          2954 ↑125 |
+|     kl_div             |     0.0135 ↑0.0020 |
+|     learning_rate      | 0.000823 ↓0.000026 |
+|     obs_mean           |         0.13 ↑0.01 |
+|     obs_std            |         0.57 ↑0.02 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |         6.07 ↑0.64 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High approximate KL divergence (0.1479) indicates large policy changes. Consider reducing learning rate.
+⚠️  ALGORITHM WARNING: High KL divergence (0.1581) indicates large policy changes. Consider reducing learning rate.
+⚠️  ALGORITHM WARNING: High clip fraction (0.492) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |        97.52 ↓7.20 |
+|     ep_len_mean        |        97.00 ↓7.00 |
+|     epoch              |             78 ↑10 |
+|     total_timesteps    |     20480 ↑2560.00 |
+|     total_episodes     |            347 ↑33 |
+|     total_rollouts     |       80.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         7.00 ↑5.00 |
+|     fps_instant        |      6218 ↑2322.00 |
+|     rollout_fps        |   22400.17 ↑247.09 |
+|     loss               |       30.81 ↑25.95 |
+|     policy_loss        |     0.0083 ↑0.0074 |
+|     value_loss         |   61.5977 ↑51.8896 |
+|     entropy_loss       |    -0.3653 ↑0.2001 |
+|     action_mean        |       0.51 ↑0.0016 |
+|     action_std         |     0.50 ↓3.78e-05 |
+|     approx_kl          |     0.1479 ↑0.1289 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.492 ↑0.152 |
+|     clip_range         |     0.1596 ↓0.0051 |
+|     entropy            |     0.3653 ↓0.2001 |
+|     explained_variance |       0.198 ↓0.578 |
+|     fps                |          3065 ↑111 |
+|     kl_div             |     0.1581 ↑0.1446 |
+|     learning_rate      | 0.000798 ↓0.000026 |
+|     obs_mean           |         0.14 ↑0.01 |
+|     obs_std            |         0.59 ↑0.02 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |         6.68 ↑0.62 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip fraction (0.182) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |        96.61 ↓0.91 |
+|     ep_len_mean        |        96.00 ↓1.00 |
+|     epoch              |             88 ↑10 |
+|     total_timesteps    |     23040 ↑2560.00 |
+|     total_episodes     |            365 ↑18 |
+|     total_rollouts     |       90.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         1.00 ↓6.00 |
+|     fps_instant        |      4889 ↓1329.00 |
+|     rollout_fps        |   22974.76 ↑574.60 |
+|     loss               |        3.98 ↓26.83 |
+|     policy_loss        |     0.0053 ↓0.0030 |
+|     value_loss         |    7.9501 ↓53.6476 |
+|     entropy_loss       |    -0.5333 ↓0.1680 |
+|     action_mean        |       0.51 ↑0.0010 |
+|     action_std         |     0.50 ↓2.69e-05 |
+|     approx_kl          |     0.0189 ↓0.1289 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.182 ↓0.310 |
+|     clip_range         |     0.1544 ↓0.0051 |
+|     entropy            |     0.5333 ↑0.1680 |
+|     explained_variance |       0.924 ↑0.726 |
+|     fps                |          3186 ↑121 |
+|     kl_div             |     0.0245 ↓0.1336 |
+|     learning_rate      | 0.000772 ↓0.000026 |
+|     obs_mean           |       0.13 ↓0.0021 |
+|     obs_std            |         0.60 ↑0.01 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |         7.23 ↑0.55 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip fraction (0.183) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |      111.95 ↑15.34 |
+|     ep_len_mean        |      111.00 ↑15.00 |
+|     epoch              |             98 ↑10 |
+|     total_timesteps    |     25600 ↑2560.00 |
+|     total_episodes     |            382 ↑17 |
+|     total_rollouts     |      100.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         2.00 ↑1.00 |
+|     fps_instant        |          4399 ↓490 |
+|     rollout_fps        |    23067.73 ↑92.96 |
+|     loss               |         4.33 ↑0.35 |
+|     policy_loss        |    -0.0061 ↓0.0114 |
+|     value_loss         |     8.6635 ↑0.7134 |
+|     entropy_loss       |    -0.5509 ↓0.0177 |
+|     action_mean        |       0.51 ↑0.0007 |
+|     action_std         |     0.50 ↓1.96e-05 |
+|     approx_kl          |     0.0123 ↓0.0066 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.183 ↑0.001 |
+|     clip_range         |     0.1493 ↓0.0051 |
+|     entropy            |     0.5509 ↑0.0177 |
+|     explained_variance |       0.936 ↑0.012 |
+|     fps                |           3268 ↑83 |
+|     kl_div             |     0.0209 ↓0.0036 |
+|     learning_rate      | 0.000747 ↓0.000026 |
+|     obs_mean           |         0.12 ↓0.01 |
+|     obs_std            |         0.62 ↑0.02 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |         7.83 ↑0.60 |
+-----------------------------------------------
+/home/tsilva/repos/tsilva/gymnasium-solver/.venv/lib/python3.10/site-packages/pytorch_lightning/trainer/connectors/data_connector.py:425: The 'val_dataloader' does not have many workers which may be a bottleneck. Consider increasing the value of the `num_workers` argument` to `num_workers=11` in the `DataLoader` to improve performance.
+⚠️  ALGORITHM WARNING: High clip fraction (0.282) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |          111.95 →0 |
+|     ep_len_mean        |          111.00 →0 |
+|     epoch              |              98 →0 |
+|     total_timesteps    |           25600 →0 |
+|     total_episodes     |             382 →0 |
+|     total_rollouts     |          100.00 →0 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |            2.00 →0 |
+|     fps_instant        |            4399 →0 |
+|     rollout_fps        |        23067.73 →0 |
+|     loss               |         0.28 ↓4.05 |
+|     policy_loss        |     0.0020 ↑0.0081 |
+|     value_loss         |     0.5542 ↓8.1094 |
+|     entropy_loss       |    -0.5920 ↓0.0410 |
+|     action_mean        |            0.51 →0 |
+|     action_std         |            0.50 →0 |
+|     approx_kl          |     0.0096 ↓0.0027 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.282 ↑0.099 |
+|     clip_range         |     0.1488 ↓0.0005 |
+|     entropy            |     0.5920 ↑0.0410 |
+|     explained_variance |       0.990 ↑0.054 |
+|     fps                |            3268 →0 |
+|     kl_div             |     0.0158 ↓0.0050 |
+|     learning_rate      | 0.000744 ↓0.000003 |
+|     obs_mean           |            0.12 →0 |
+|     obs_std            |            0.62 →0 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |            7.83 →0 |
+| eval/                  |                    |
+|     ep_rew_mean        |             272.40 |
+|     ep_len_mean        |             272.40 |
+|     epoch              |                 99 |
+|     total_timesteps    |               6040 |
+|     total_episodes     |                 10 |
+|     epoch_fps          |            3127.00 |
+-----------------------------------------------
+New best model saved with eval/ep_rew_mean=272.4000
+  Timestamped: runs/cvb5lyfw/checkpoints/epoch=99-step=2000.ckpt
+  Best: runs/cvb5lyfw/checkpoints/best_checkpoint.ckpt
+Using environment spec reward_threshold: 475.0
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |       113.88 ↑1.93 |
+|     ep_len_mean        |       113.00 ↑2.00 |
+|     epoch              |            108 ↑10 |
+|     total_timesteps    |     28160 ↑2560.00 |
+|     total_episodes     |            403 ↑21 |
+|     total_rollouts     |      110.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         1.00 ↓1.00 |
+|     fps_instant        |           4467 ↑69 |
+|     rollout_fps        |   23455.68 ↑387.96 |
+|     loss               |         0.71 ↑0.43 |
+|     policy_loss        |     0.0094 ↑0.0074 |
+|     value_loss         |     1.3914 ↑0.8372 |
+|     entropy_loss       |    -0.5770 ↑0.0149 |
+|     action_mean        |       0.52 ↑0.0020 |
+|     action_std         |       0.50 ↓0.0001 |
+|     approx_kl          |     0.0038 ↓0.0057 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.088 ↓0.195 |
+|     clip_range         |     0.1442 ↓0.0046 |
+|     entropy            |     0.5770 ↓0.0149 |
+|     explained_variance |       0.985 ↓0.005 |
+|     fps                |          2721 ↓548 |
+|     kl_div             |     0.0016 ↓0.0142 |
+|     learning_rate      | 0.000721 ↓0.000023 |
+|     obs_mean           |         0.14 ↑0.02 |
+|     obs_std            |       0.62 ↑0.0041 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |        10.35 ↑2.52 |
+| eval/                  |                    |
+|     ep_rew_mean        |          272.40 →0 |
+|     ep_len_mean        |          272.40 →0 |
+|     epoch              |              99 →0 |
+|     total_timesteps    |            6040 →0 |
+|     total_episodes     |              10 →0 |
+|     epoch_fps          |         3127.00 →0 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip fraction (0.343) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |       121.08 ↑7.20 |
+|     ep_len_mean        |       121.00 ↑8.00 |
+|     epoch              |            118 ↑10 |
+|     total_timesteps    |     30720 ↑2560.00 |
+|     total_episodes     |            415 ↑12 |
+|     total_rollouts     |      120.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         0.00 ↓1.00 |
+|     fps_instant        |          5078 ↑611 |
+|     rollout_fps        |   23675.15 ↑219.47 |
+|     loss               |         0.17 ↓0.53 |
+|     policy_loss        |    -0.0080 ↓0.0173 |
+|     value_loss         |     0.3605 ↓1.0309 |
+|     entropy_loss       |    -0.5659 ↑0.0111 |
+|     action_mean        |       0.52 ↑0.0002 |
+|     action_std         |     0.50 ↓6.38e-06 |
+|     approx_kl          |     0.0105 ↑0.0067 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.343 ↑0.255 |
+|     clip_range         |     0.1391 ↓0.0051 |
+|     entropy            |     0.5659 ↓0.0111 |
+|     explained_variance |       0.995 ↑0.011 |
+|     fps                |           2805 ↑84 |
+|     kl_div             |     0.0180 ↑0.0164 |
+|     learning_rate      | 0.000695 ↓0.000026 |
+|     obs_mean           |       0.14 ↑0.0037 |
+|     obs_std            |       0.62 ↓0.0022 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |        10.95 ↑0.60 |
+| eval/                  |                    |
+|     ep_rew_mean        |          272.40 →0 |
+|     ep_len_mean        |          272.40 →0 |
+|     epoch              |              99 →0 |
+|     total_timesteps    |            6040 →0 |
+|     total_episodes     |              10 →0 |
+|     epoch_fps          |         3127.00 →0 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip fraction (0.119) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |      131.68 ↑10.60 |
+|     ep_len_mean        |      131.00 ↑10.00 |
+|     epoch              |            128 ↑10 |
+|     total_timesteps    |     33280 ↑2560.00 |
+|     total_episodes     |            430 ↑15 |
+|     total_rollouts     |      130.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         3.00 ↑3.00 |
+|     fps_instant        |          4648 ↓431 |
+|     rollout_fps        |    23648.98 ↓26.17 |
+|     loss               |       24.81 ↑24.64 |
+|     policy_loss        |     0.0002 ↑0.0082 |
+|     value_loss         |   49.6250 ↑49.2645 |
+|     entropy_loss       |    -0.5436 ↑0.0223 |
+|     action_mean        |       0.52 ↓0.0006 |
+|     action_std         |     0.50 ↑1.93e-05 |
+|     approx_kl          |     0.0064 ↓0.0041 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.119 ↓0.224 |
+|     clip_range         |     0.1340 ↓0.0051 |
+|     entropy            |     0.5436 ↓0.0223 |
+|     explained_variance |       0.438 ↓0.557 |
+|     fps                |           2889 ↑85 |
+|     kl_div             |     0.0107 ↓0.0073 |
+|     learning_rate      | 0.000670 ↓0.000026 |
+|     obs_mean           |         0.14 ↓0.01 |
+|     obs_std            |       0.62 ↓0.0026 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |        11.52 ↑0.56 |
+| eval/                  |                    |
+|     ep_rew_mean        |          272.40 →0 |
+|     ep_len_mean        |          272.40 →0 |
+|     epoch              |              99 →0 |
+|     total_timesteps    |            6040 →0 |
+|     total_episodes     |              10 →0 |
+|     epoch_fps          |         3127.00 →0 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip fraction (0.524) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |       139.29 ↑7.61 |
+|     ep_len_mean        |       139.00 ↑8.00 |
+|     epoch              |            138 ↑10 |
+|     total_timesteps    |     35840 ↑2560.00 |
+|     total_episodes     |             435 ↑5 |
+|     total_rollouts     |      140.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         0.00 ↓3.00 |
+|     fps_instant        |          4137 ↓510 |
+|     rollout_fps        |   23805.51 ↑156.53 |
+|     loss               |       -0.01 ↓24.82 |
+|     policy_loss        |    -0.0318 ↓0.0320 |
+|     value_loss         |    0.0524 ↓49.5726 |
+|     entropy_loss       |    -0.5789 ↓0.0353 |
+|     action_mean        |       0.52 ↓0.0007 |
+|     action_std         |     0.50 ↑2.20e-05 |
+|     approx_kl          |     0.0180 ↑0.0116 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.524 ↑0.405 |
+|     clip_range         |     0.1288 ↓0.0051 |
+|     entropy            |     0.5789 ↑0.0353 |
+|     explained_variance |       0.138 ↓0.300 |
+|     fps                |           2957 ↑67 |
+|     kl_div             |     0.0276 ↑0.0169 |
+|     learning_rate      | 0.000644 ↓0.000026 |
+|     obs_mean           |         0.12 ↓0.01 |
+|     obs_std            |       0.62 ↓0.0024 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |        12.12 ↑0.60 |
+| eval/                  |                    |
+|     ep_rew_mean        |          272.40 →0 |
+|     ep_len_mean        |          272.40 →0 |
+|     epoch              |              99 →0 |
+|     total_timesteps    |            6040 →0 |
+|     total_episodes     |              10 →0 |
+|     epoch_fps          |         3127.00 →0 |
+-----------------------------------------------
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |      162.72 ↑23.43 |
+|     ep_len_mean        |      162.00 ↑23.00 |
+|     epoch              |            148 ↑10 |
+|     total_timesteps    |     38400 ↑2560.00 |
+|     total_episodes     |             440 ↑5 |
+|     total_rollouts     |      150.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |            0.00 →0 |
+|     fps_instant        |          4708 ↑570 |
+|     rollout_fps        |   24173.95 ↑368.44 |
+|     loss               |         0.01 ↑0.01 |
+|     policy_loss        |    -0.0012 ↑0.0306 |
+|     value_loss         |     0.0134 ↓0.0390 |
+|     entropy_loss       |    -0.5216 ↑0.0573 |
+|     action_mean        |       0.51 ↓0.0010 |
+|     action_std         |     0.50 ↑2.89e-05 |
+|     approx_kl          |     0.0011 ↓0.0170 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.029 ↓0.494 |
+|     clip_range         |     0.1237 ↓0.0051 |
+|     entropy            |     0.5216 ↓0.0573 |
+|     explained_variance |       0.937 ↑0.800 |
+|     fps                |           3026 ↑70 |
+|     kl_div             |     0.0038 ↓0.0238 |
+|     learning_rate      | 0.000619 ↓0.000026 |
+|     obs_mean           |         0.09 ↓0.03 |
+|     obs_std            |         0.63 ↑0.02 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |        12.69 ↑0.57 |
+| eval/                  |                    |
+|     ep_rew_mean        |          272.40 →0 |
+|     ep_len_mean        |          272.40 →0 |
+|     epoch              |              99 →0 |
+|     total_timesteps    |            6040 →0 |
+|     total_episodes     |              10 →0 |
+|     epoch_fps          |         3127.00 →0 |
+-----------------------------------------------
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |      186.74 ↑24.02 |
+|     ep_len_mean        |      186.00 ↑24.00 |
+|     epoch              |            158 ↑10 |
+|     total_timesteps    |     40960 ↑2560.00 |
+|     total_episodes     |             445 ↑5 |
+|     total_rollouts     |      160.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |            0.00 →0 |
+|     fps_instant        |          5483 ↑775 |
+|     rollout_fps        |   24476.36 ↑302.41 |
+|     loss               |        -0.00 ↓0.01 |
+|     policy_loss        |    -0.0021 ↓0.0009 |
+|     value_loss         |     0.0021 ↓0.0113 |
+|     entropy_loss       |    -0.5528 ↓0.0311 |
+|     action_mean        |       0.51 ↓0.0007 |
+|     action_std         |     0.50 ↑1.97e-05 |
+|     approx_kl          |     0.0013 ↑0.0002 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.041 ↑0.012 |
+|     clip_range         |     0.1186 ↓0.0051 |
+|     entropy            |     0.5528 ↑0.0311 |
+|     explained_variance |       0.832 ↓0.106 |
+|     fps                |           3082 ↑55 |
+|     kl_div             |    -0.0002 ↓0.0040 |
+|     learning_rate      | 0.000593 ↓0.000026 |
+|     obs_mean           |         0.07 ↓0.03 |
+|     obs_std            |         0.64 ↑0.01 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |        13.29 ↑0.60 |
+| eval/                  |                    |
+|     ep_rew_mean        |          272.40 →0 |
+|     ep_len_mean        |          272.40 →0 |
+|     epoch              |              99 →0 |
+|     total_timesteps    |            6040 →0 |
+|     total_episodes     |              10 →0 |
+|     epoch_fps          |         3127.00 →0 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip fraction (0.130) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |      209.88 ↑23.14 |
+|     ep_len_mean        |      209.00 ↑23.00 |
+|     epoch              |            168 ↑10 |
+|     total_timesteps    |     43520 ↑2560.00 |
+|     total_episodes     |             451 ↑6 |
+|     total_rollouts     |      170.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         1.00 ↑1.00 |
+|     fps_instant        |          4587 ↓896 |
+|     rollout_fps        |    24439.38 ↓36.98 |
+|     loss               |        -0.01 ↓0.01 |
+|     policy_loss        |    -0.0078 ↓0.0056 |
+|     value_loss         |     0.0027 ↑0.0007 |
+|     entropy_loss       |    -0.5290 ↑0.0237 |
+|     action_mean        |       0.51 ↓0.0009 |
+|     action_std         |     0.50 ↑2.43e-05 |
+|     approx_kl          |     0.0028 ↑0.0015 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.130 ↑0.089 |
+|     clip_range         |     0.1135 ↓0.0051 |
+|     entropy            |     0.5290 ↓0.0237 |
+|     explained_variance |       0.399 ↓0.433 |
+|     fps                |           3112 ↑31 |
+|     kl_div             |     0.0016 ↑0.0018 |
+|     learning_rate      | 0.000567 ↓0.000026 |
+|     obs_mean           |         0.05 ↓0.02 |
+|     obs_std            |       0.64 ↓0.0049 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |        13.98 ↑0.69 |
+| eval/                  |                    |
+|     ep_rew_mean        |          272.40 →0 |
+|     ep_len_mean        |          272.40 →0 |
+|     epoch              |              99 →0 |
+|     total_timesteps    |            6040 →0 |
+|     total_episodes     |              10 →0 |
+|     epoch_fps          |         3127.00 →0 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip fraction (0.164) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+⚠️  ALGORITHM WARNING: Very negative explained variance (-0.106) indicates value function is performing poorly. Check value function architecture or learning rate.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |      230.88 ↑21.00 |
+|     ep_len_mean        |      230.00 ↑21.00 |
+|     epoch              |            178 ↑10 |
+|     total_timesteps    |     46080 ↑2560.00 |
+|     total_episodes     |             456 ↑5 |
+|     total_rollouts     |      180.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |         0.00 ↓1.00 |
+|     fps_instant        |          4984 ↑397 |
+|     rollout_fps        |   24308.83 ↓130.55 |
+|     loss               |      -0.01 ↓0.0013 |
+|     policy_loss        |    -0.0101 ↓0.0023 |
+|     value_loss         |     0.0048 ↑0.0020 |
+|     entropy_loss       |    -0.4638 ↑0.0653 |
+|     action_mean        |       0.51 ↓0.0007 |
+|     action_std         |     0.50 ↑1.76e-05 |
+|     approx_kl          |     0.0037 ↑0.0009 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.164 ↑0.034 |
+|     clip_range         |     0.1084 ↓0.0051 |
+|     entropy            |     0.4638 ↓0.0653 |
+|     explained_variance |      -0.106 ↓0.505 |
+|     fps                |           3154 ↑42 |
+|     kl_div             |     0.0033 ↑0.0017 |
+|     learning_rate      | 0.000542 ↓0.000026 |
+|     obs_mean           |         0.04 ↓0.01 |
+|     obs_std            |         0.62 ↓0.01 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |        14.61 ↑0.63 |
+| eval/                  |                    |
+|     ep_rew_mean        |          272.40 →0 |
+|     ep_len_mean        |          272.40 →0 |
+|     epoch              |              99 →0 |
+|     total_timesteps    |            6040 →0 |
+|     total_episodes     |              10 →0 |
+|     epoch_fps          |         3127.00 →0 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip fraction (0.142) indicates policy is changing too rapidly. Consider reducing learning rate or clip_range.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |      252.27 ↑21.39 |
+|     ep_len_mean        |      252.00 ↑22.00 |
+|     epoch              |            188 ↑10 |
+|     total_timesteps    |     48640 ↑2560.00 |
+|     total_episodes     |             461 ↑5 |
+|     total_rollouts     |      190.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |            0.00 →0 |
+|     fps_instant        |          4553 ↓432 |
+|     rollout_fps        |   23721.97 ↓586.86 |
+|     loss               |      -0.00 ↑0.0042 |
+|     policy_loss        |    -0.0045 ↑0.0056 |
+|     value_loss         |     0.0021 ↓0.0027 |
+|     entropy_loss       |    -0.3854 ↑0.0783 |
+|     action_mean        |       0.51 ↓0.0007 |
+|     action_std         |     0.50 ↑1.58e-05 |
+|     approx_kl          |     0.0022 ↓0.0015 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.142 ↓0.022 |
+|     clip_range         |     0.1032 ↓0.0051 |
+|     entropy            |     0.3854 ↓0.0783 |
+|     explained_variance |       0.883 ↑0.989 |
+|     fps                |           3194 ↑40 |
+|     kl_div             |    -0.0016 ↓0.0049 |
+|     learning_rate      | 0.000516 ↓0.000026 |
+|     obs_mean           |         0.03 ↓0.01 |
+|     obs_std            |         0.61 ↓0.01 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |        15.23 ↑0.62 |
+| eval/                  |                    |
+|     ep_rew_mean        |          272.40 →0 |
+|     ep_len_mean        |          272.40 →0 |
+|     epoch              |              99 →0 |
+|     total_timesteps    |            6040 →0 |
+|     total_episodes     |              10 →0 |
+|     epoch_fps          |         3127.00 →0 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip range (0.0981) may lead to unstable training. Consider reducing.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |      271.25 ↑18.98 |
+|     ep_len_mean        |      271.00 ↑19.00 |
+|     epoch              |            198 ↑10 |
+|     total_timesteps    |     51200 ↑2560.00 |
+|     total_episodes     |             466 ↑5 |
+|     total_rollouts     |      200.00 ↑10.00 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |            0.00 →0 |
+|     fps_instant        |          4227 ↓326 |
+|     rollout_fps        |   23444.23 ↓277.74 |
+|     loss               |       0.00 ↑0.0045 |
+|     policy_loss        |    -0.0024 ↑0.0022 |
+|     value_loss         |     0.0068 ↑0.0047 |
+|     entropy_loss       |    -0.4011 ↓0.0157 |
+|     action_mean        |       0.51 ↓0.0005 |
+|     action_std         |     0.50 ↑1.22e-05 |
+|     approx_kl          |     0.0010 ↓0.0012 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.059 ↓0.084 |
+|     clip_range         |     0.0981 ↓0.0051 |
+|     entropy            |     0.4011 ↑0.0157 |
+|     explained_variance |       0.706 ↓0.177 |
+|     fps                |           3224 ↑30 |
+|     kl_div             |    -0.0002 ↑0.0014 |
+|     learning_rate      | 0.000491 ↓0.000026 |
+|     obs_mean           |         0.02 ↓0.01 |
+|     obs_std            |         0.60 ↓0.01 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |        15.88 ↑0.65 |
+| eval/                  |                    |
+|     ep_rew_mean        |          272.40 →0 |
+|     ep_len_mean        |          272.40 →0 |
+|     epoch              |              99 →0 |
+|     total_timesteps    |            6040 →0 |
+|     total_episodes     |              10 →0 |
+|     epoch_fps          |         3127.00 →0 |
+-----------------------------------------------
+⚠️  ALGORITHM WARNING: High clip range (0.0976) may lead to unstable training. Consider reducing.
+-----------------------------------------------
+| train/                 |                    |
+|     ep_rew_mean        |          271.25 →0 |
+|     ep_len_mean        |          271.00 →0 |
+|     epoch              |             198 →0 |
+|     total_timesteps    |           51200 →0 |
+|     total_episodes     |             466 →0 |
+|     total_rollouts     |          200.00 →0 |
+|     rollout_timesteps  |             256 →0 |
+|     rollout_episodes   |            0.00 →0 |
+|     fps_instant        |            4227 →0 |
+|     rollout_fps        |        23444.23 →0 |
+|     loss               |      -0.00 ↓0.0030 |
+|     policy_loss        |    -0.0030 ↓0.0006 |
+|     value_loss         |     0.0021 ↓0.0047 |
+|     entropy_loss       |    -0.4021 ↓0.0009 |
+|     action_mean        |            0.51 →0 |
+|     action_std         |            0.50 →0 |
+|     approx_kl          |     0.0011 ↑0.0001 |
+|     baseline_mean      |            0.00 →0 |
+|     baseline_std       |            0.00 →0 |
+|     clip_fraction      |       0.080 ↑0.021 |
+|     clip_range         |     0.0976 ↓0.0005 |
+|     entropy            |     0.4021 ↑0.0009 |
+|     explained_variance |       0.865 ↑0.160 |
+|     fps                |            3224 →0 |
+|     kl_div             |    -0.0027 ↓0.0025 |
+|     learning_rate      | 0.000488 ↓0.000003 |
+|     obs_mean           |            0.02 →0 |
+|     obs_std            |            0.60 →0 |
+|     reward_mean        |            1.00 →0 |
+|     reward_std         |            0.00 →0 |
+|     time_elapsed       |           15.88 →0 |
+| eval/                  |                    |
+|     ep_rew_mean        |     500.00 ↑227.60 |
+|     ep_len_mean        |     500.00 ↑227.60 |
+|     epoch              |           199 ↑100 |
+|     total_timesteps    |      8000 ↑1960.00 |
+|     total_episodes     |              10 →0 |
+|     epoch_fps          |   4822.00 ↑1695.00 |
+-----------------------------------------------
+New best model saved with eval/ep_rew_mean=500.0000
+  Timestamped: runs/cvb5lyfw/checkpoints/epoch=199-step=4000.ckpt
+  Best: runs/cvb5lyfw/checkpoints/best_checkpoint.ckpt
+Threshold reached! Saved model with eval/ep_rew_mean=500.0000 (threshold=475.0) at runs/cvb5lyfw/checkpoints/threshold-epoch=199-step=4000.ckpt
+Early stopping at epoch 199 with eval mean reward 500.00 >= threshold 475.0
+Using environment spec reward_threshold: 475.0
+Best model saved at runs/cvb5lyfw/checkpoints/best_checkpoint.ckpt with eval reward 500.00
+Loading checkpoint from runs/cvb5lyfw/checkpoints/best_checkpoint.ckpt
+Checkpoint loaded:
+  Epoch: 199
+  Total timesteps: 0
+  Best eval reward: 272.3999938964844
+  Current eval reward: 500.0
+  Is best: True
+  Is threshold: False
+Saved final evaluation video to: runs/cvb5lyfw/videos/eval/episodes/best_checkpoint.mp4
+📊 Final hyperparameters:
+   Learning rate: 1.00e-03
+   Entropy coef: 0.000
+   Max grad norm: 0.500
+   Clip range: 0.200
+   Value function coef: 0.500
+Training completed in 24.45 seconds (0.41 minutes)

artifacts/videos/eval/episodes/best_checkpoint.mp4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a12461a39db591a152b968f8a0f976630bb100f6aae6540412a9ab19322a9621
+size 152489