Upload . with huggingface_hub

5d3ec1e over 2 years ago

114 kB

	[2023-03-25 18:43:42,858][00179] Saving configuration to /content/train_dir/default_experiment/config.json...
	[2023-03-25 18:43:42,861][00179] Rollout worker 0 uses device cpu
	[2023-03-25 18:43:42,863][00179] Rollout worker 1 uses device cpu
	[2023-03-25 18:43:42,865][00179] Rollout worker 2 uses device cpu
	[2023-03-25 18:43:42,868][00179] Rollout worker 3 uses device cpu
	[2023-03-25 18:43:42,871][00179] Rollout worker 4 uses device cpu
	[2023-03-25 18:43:42,876][00179] Rollout worker 5 uses device cpu
	[2023-03-25 18:43:42,878][00179] Rollout worker 6 uses device cpu
	[2023-03-25 18:43:42,883][00179] Rollout worker 7 uses device cpu
	[2023-03-25 18:43:43,176][00179] Using GPUs [0] for process 0 (actually maps to GPUs [0])
	[2023-03-25 18:43:43,182][00179] InferenceWorker_p0-w0: min num requests: 2
	[2023-03-25 18:43:43,253][00179] Starting all processes...
	[2023-03-25 18:43:43,259][00179] Starting process learner_proc0
	[2023-03-25 18:43:43,343][00179] Starting all processes...
	[2023-03-25 18:43:43,447][00179] Starting process inference_proc0-0
	[2023-03-25 18:43:43,448][00179] Starting process rollout_proc0
	[2023-03-25 18:43:43,448][00179] Starting process rollout_proc1
	[2023-03-25 18:43:43,448][00179] Starting process rollout_proc2
	[2023-03-25 18:43:43,449][00179] Starting process rollout_proc3
	[2023-03-25 18:43:43,450][00179] Starting process rollout_proc4
	[2023-03-25 18:43:43,450][00179] Starting process rollout_proc5
	[2023-03-25 18:43:43,450][00179] Starting process rollout_proc6
	[2023-03-25 18:43:43,457][00179] Starting process rollout_proc7
	[2023-03-25 18:43:56,101][11351] Worker 3 uses CPU cores [1]
	[2023-03-25 18:43:56,160][11340] Using GPUs [0] for process 0 (actually maps to GPUs [0])
	[2023-03-25 18:43:56,160][11340] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for inference process 0
	[2023-03-25 18:43:56,221][11327] Using GPUs [0] for process 0 (actually maps to GPUs [0])
	[2023-03-25 18:43:56,223][11327] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for learning process 0
	[2023-03-25 18:43:56,226][11340] Num visible devices: 1
	[2023-03-25 18:43:56,261][11327] Num visible devices: 1
	[2023-03-25 18:43:56,307][11327] Starting seed is not provided
	[2023-03-25 18:43:56,308][11327] Using GPUs [0] for process 0 (actually maps to GPUs [0])
	[2023-03-25 18:43:56,308][11327] Initializing actor-critic model on device cuda:0
	[2023-03-25 18:43:56,309][11327] RunningMeanStd input shape: (3, 72, 128)
	[2023-03-25 18:43:56,312][11327] RunningMeanStd input shape: (1,)
	[2023-03-25 18:43:56,393][11327] ConvEncoder: input_channels=3
	[2023-03-25 18:43:56,585][11347] Worker 4 uses CPU cores [0]
	[2023-03-25 18:43:56,850][11349] Worker 5 uses CPU cores [1]
	[2023-03-25 18:43:56,908][11348] Worker 6 uses CPU cores [0]
	[2023-03-25 18:43:57,088][11344] Worker 2 uses CPU cores [0]
	[2023-03-25 18:43:57,105][11350] Worker 7 uses CPU cores [1]
	[2023-03-25 18:43:57,111][11327] Conv encoder output size: 512
	[2023-03-25 18:43:57,111][11327] Policy head output size: 512
	[2023-03-25 18:43:57,169][11327] Created Actor Critic model with architecture:
	[2023-03-25 18:43:57,169][11327] ActorCriticSharedWeights(
	(obs_normalizer): ObservationNormalizer(
	(running_mean_std): RunningMeanStdDictInPlace(
	(running_mean_std): ModuleDict(
	(obs): RunningMeanStdInPlace()
	)
	)
	)
	(returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
	(encoder): VizdoomEncoder(
	(basic_encoder): ConvEncoder(
	(enc): RecursiveScriptModule(
	original_name=ConvEncoderImpl
	(conv_head): RecursiveScriptModule(
	original_name=Sequential
	(0): RecursiveScriptModule(original_name=Conv2d)
	(1): RecursiveScriptModule(original_name=ELU)
	(2): RecursiveScriptModule(original_name=Conv2d)
	(3): RecursiveScriptModule(original_name=ELU)
	(4): RecursiveScriptModule(original_name=Conv2d)
	(5): RecursiveScriptModule(original_name=ELU)
	)
	(mlp_layers): RecursiveScriptModule(
	original_name=Sequential
	(0): RecursiveScriptModule(original_name=Linear)
	(1): RecursiveScriptModule(original_name=ELU)
	)
	)
	)
	)
	(core): ModelCoreRNN(
	(core): GRU(512, 512)
	)
	(decoder): MlpDecoder(
	(mlp): Identity()
	)
	(critic_linear): Linear(in_features=512, out_features=1, bias=True)
	(action_parameterization): ActionParameterizationDefault(
	(distribution_linear): Linear(in_features=512, out_features=5, bias=True)
	)
	)
	[2023-03-25 18:43:57,197][11341] Worker 1 uses CPU cores [1]
	[2023-03-25 18:43:57,228][11345] Worker 0 uses CPU cores [0]
	[2023-03-25 18:44:03,160][00179] Heartbeat connected on Batcher_0
	[2023-03-25 18:44:03,177][00179] Heartbeat connected on InferenceWorker_p0-w0
	[2023-03-25 18:44:03,213][00179] Heartbeat connected on RolloutWorker_w0
	[2023-03-25 18:44:03,220][00179] Heartbeat connected on RolloutWorker_w1
	[2023-03-25 18:44:03,225][00179] Heartbeat connected on RolloutWorker_w2
	[2023-03-25 18:44:03,229][00179] Heartbeat connected on RolloutWorker_w3
	[2023-03-25 18:44:03,233][00179] Heartbeat connected on RolloutWorker_w4
	[2023-03-25 18:44:03,238][00179] Heartbeat connected on RolloutWorker_w5
	[2023-03-25 18:44:03,242][00179] Heartbeat connected on RolloutWorker_w6
	[2023-03-25 18:44:03,253][00179] Heartbeat connected on RolloutWorker_w7
	[2023-03-25 18:44:05,505][11327] Using optimizer <class 'torch.optim.adam.Adam'>
	[2023-03-25 18:44:05,506][11327] No checkpoints found
	[2023-03-25 18:44:05,507][11327] Did not load from checkpoint, starting from scratch!
	[2023-03-25 18:44:05,507][11327] Initialized policy 0 weights for model version 0
	[2023-03-25 18:44:05,518][11327] Using GPUs [0] for process 0 (actually maps to GPUs [0])
	[2023-03-25 18:44:05,525][11327] LearnerWorker_p0 finished initialization!
	[2023-03-25 18:44:05,526][00179] Heartbeat connected on LearnerWorker_p0
	[2023-03-25 18:44:05,697][11340] RunningMeanStd input shape: (3, 72, 128)
	[2023-03-25 18:44:05,699][11340] RunningMeanStd input shape: (1,)
	[2023-03-25 18:44:05,718][11340] ConvEncoder: input_channels=3
	[2023-03-25 18:44:05,885][11340] Conv encoder output size: 512
	[2023-03-25 18:44:05,886][11340] Policy head output size: 512
	[2023-03-25 18:44:08,818][00179] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 0. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
	[2023-03-25 18:44:09,132][00179] Inference worker 0-0 is ready!
	[2023-03-25 18:44:09,139][00179] All inference workers are ready! Signal rollout workers to start!
	[2023-03-25 18:44:09,267][11349] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-03-25 18:44:09,277][11350] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-03-25 18:44:09,274][11351] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-03-25 18:44:09,316][11341] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-03-25 18:44:09,329][11348] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-03-25 18:44:09,335][11347] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-03-25 18:44:09,342][11345] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-03-25 18:44:09,358][11344] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-03-25 18:44:10,204][11345] Decorrelating experience for 0 frames...
	[2023-03-25 18:44:10,206][11344] Decorrelating experience for 0 frames...
	[2023-03-25 18:44:10,584][11347] Decorrelating experience for 0 frames...
	[2023-03-25 18:44:10,782][11350] Decorrelating experience for 0 frames...
	[2023-03-25 18:44:10,785][11351] Decorrelating experience for 0 frames...
	[2023-03-25 18:44:10,789][11341] Decorrelating experience for 0 frames...
	[2023-03-25 18:44:10,794][11349] Decorrelating experience for 0 frames...
	[2023-03-25 18:44:11,746][11347] Decorrelating experience for 32 frames...
	[2023-03-25 18:44:11,902][11344] Decorrelating experience for 32 frames...
	[2023-03-25 18:44:12,169][11341] Decorrelating experience for 32 frames...
	[2023-03-25 18:44:12,173][11349] Decorrelating experience for 32 frames...
	[2023-03-25 18:44:12,208][11348] Decorrelating experience for 0 frames...
	[2023-03-25 18:44:12,228][11345] Decorrelating experience for 32 frames...
	[2023-03-25 18:44:12,311][11351] Decorrelating experience for 32 frames...
	[2023-03-25 18:44:12,327][11350] Decorrelating experience for 32 frames...
	[2023-03-25 18:44:12,958][11347] Decorrelating experience for 64 frames...
	[2023-03-25 18:44:13,072][11348] Decorrelating experience for 32 frames...
	[2023-03-25 18:44:13,687][11349] Decorrelating experience for 64 frames...
	[2023-03-25 18:44:13,718][11341] Decorrelating experience for 64 frames...
	[2023-03-25 18:44:13,819][00179] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
	[2023-03-25 18:44:13,853][11351] Decorrelating experience for 64 frames...
	[2023-03-25 18:44:13,861][11344] Decorrelating experience for 64 frames...
	[2023-03-25 18:44:14,039][11348] Decorrelating experience for 64 frames...
	[2023-03-25 18:44:14,315][11350] Decorrelating experience for 64 frames...
	[2023-03-25 18:44:14,767][11347] Decorrelating experience for 96 frames...
	[2023-03-25 18:44:14,997][11349] Decorrelating experience for 96 frames...
	[2023-03-25 18:44:15,078][11344] Decorrelating experience for 96 frames...
	[2023-03-25 18:44:15,136][11351] Decorrelating experience for 96 frames...
	[2023-03-25 18:44:15,372][11348] Decorrelating experience for 96 frames...
	[2023-03-25 18:44:15,516][11350] Decorrelating experience for 96 frames...
	[2023-03-25 18:44:15,820][11341] Decorrelating experience for 96 frames...
	[2023-03-25 18:44:16,144][11345] Decorrelating experience for 64 frames...
	[2023-03-25 18:44:16,515][11345] Decorrelating experience for 96 frames...
	[2023-03-25 18:44:18,818][00179] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 4.8. Samples: 48. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
	[2023-03-25 18:44:23,337][11327] Signal inference workers to stop experience collection...
	[2023-03-25 18:44:23,367][11340] InferenceWorker_p0-w0: stopping experience collection
	[2023-03-25 18:44:23,819][00179] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 96.7. Samples: 1450. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
	[2023-03-25 18:44:23,821][00179] Avg episode reward: [(0, '1.749')]
	[2023-03-25 18:44:25,899][11327] Signal inference workers to resume experience collection...
	[2023-03-25 18:44:25,901][11340] InferenceWorker_p0-w0: resuming experience collection
	[2023-03-25 18:44:28,819][00179] Fps is (10 sec: 1228.8, 60 sec: 614.4, 300 sec: 614.4). Total num frames: 12288. Throughput: 0: 136.7. Samples: 2734. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
	[2023-03-25 18:44:28,827][00179] Avg episode reward: [(0, '2.903')]
	[2023-03-25 18:44:33,818][00179] Fps is (10 sec: 3276.8, 60 sec: 1310.7, 300 sec: 1310.7). Total num frames: 32768. Throughput: 0: 327.0. Samples: 8176. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:44:33,826][00179] Avg episode reward: [(0, '3.942')]
	[2023-03-25 18:44:35,594][11340] Updated weights for policy 0, policy_version 10 (0.0034)
	[2023-03-25 18:44:38,819][00179] Fps is (10 sec: 4096.0, 60 sec: 1774.9, 300 sec: 1774.9). Total num frames: 53248. Throughput: 0: 374.9. Samples: 11248. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
	[2023-03-25 18:44:38,821][00179] Avg episode reward: [(0, '4.501')]
	[2023-03-25 18:44:43,824][00179] Fps is (10 sec: 3274.9, 60 sec: 1872.2, 300 sec: 1872.2). Total num frames: 65536. Throughput: 0: 452.9. Samples: 15854. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:44:43,829][00179] Avg episode reward: [(0, '4.530')]
	[2023-03-25 18:44:48,819][00179] Fps is (10 sec: 2457.6, 60 sec: 1945.6, 300 sec: 1945.6). Total num frames: 77824. Throughput: 0: 493.3. Samples: 19732. Policy #0 lag: (min: 0.0, avg: 0.2, max: 1.0)
	[2023-03-25 18:44:48,825][00179] Avg episode reward: [(0, '4.428')]
	[2023-03-25 18:44:49,693][11340] Updated weights for policy 0, policy_version 20 (0.0014)
	[2023-03-25 18:44:53,818][00179] Fps is (10 sec: 3278.7, 60 sec: 2184.5, 300 sec: 2184.5). Total num frames: 98304. Throughput: 0: 501.8. Samples: 22580. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:44:53,826][00179] Avg episode reward: [(0, '4.321')]
	[2023-03-25 18:44:58,819][00179] Fps is (10 sec: 4095.9, 60 sec: 2375.7, 300 sec: 2375.7). Total num frames: 118784. Throughput: 0: 638.0. Samples: 28708. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
	[2023-03-25 18:44:58,826][00179] Avg episode reward: [(0, '4.368')]
	[2023-03-25 18:44:58,838][11327] Saving new best policy, reward=4.368!
	[2023-03-25 18:44:59,924][11340] Updated weights for policy 0, policy_version 30 (0.0018)
	[2023-03-25 18:45:03,822][00179] Fps is (10 sec: 3275.7, 60 sec: 2383.0, 300 sec: 2383.0). Total num frames: 131072. Throughput: 0: 737.2. Samples: 33224. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:45:03,826][00179] Avg episode reward: [(0, '4.602')]
	[2023-03-25 18:45:03,833][11327] Saving new best policy, reward=4.602!
	[2023-03-25 18:45:08,819][00179] Fps is (10 sec: 2457.6, 60 sec: 2389.3, 300 sec: 2389.3). Total num frames: 143360. Throughput: 0: 748.4. Samples: 35128. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:45:08,826][00179] Avg episode reward: [(0, '4.399')]
	[2023-03-25 18:45:13,581][11340] Updated weights for policy 0, policy_version 40 (0.0049)
	[2023-03-25 18:45:13,818][00179] Fps is (10 sec: 3277.9, 60 sec: 2730.7, 300 sec: 2520.6). Total num frames: 163840. Throughput: 0: 829.1. Samples: 40044. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:45:13,823][00179] Avg episode reward: [(0, '4.442')]
	[2023-03-25 18:45:18,820][00179] Fps is (10 sec: 4095.6, 60 sec: 3071.9, 300 sec: 2633.1). Total num frames: 184320. Throughput: 0: 847.0. Samples: 46294. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:45:18,822][00179] Avg episode reward: [(0, '4.437')]
	[2023-03-25 18:45:23,819][00179] Fps is (10 sec: 3276.5, 60 sec: 3276.8, 300 sec: 2621.4). Total num frames: 196608. Throughput: 0: 835.0. Samples: 48822. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:45:23,824][00179] Avg episode reward: [(0, '4.380')]
	[2023-03-25 18:45:25,351][11340] Updated weights for policy 0, policy_version 50 (0.0020)
	[2023-03-25 18:45:28,819][00179] Fps is (10 sec: 2867.5, 60 sec: 3345.1, 300 sec: 2662.4). Total num frames: 212992. Throughput: 0: 821.0. Samples: 52794. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:45:28,823][00179] Avg episode reward: [(0, '4.402')]
	[2023-03-25 18:45:33,818][00179] Fps is (10 sec: 3277.1, 60 sec: 3276.8, 300 sec: 2698.5). Total num frames: 229376. Throughput: 0: 848.7. Samples: 57922. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:45:33,824][00179] Avg episode reward: [(0, '4.458')]
	[2023-03-25 18:45:37,013][11340] Updated weights for policy 0, policy_version 60 (0.0023)
	[2023-03-25 18:45:38,823][00179] Fps is (10 sec: 3684.8, 60 sec: 3276.6, 300 sec: 2776.0). Total num frames: 249856. Throughput: 0: 856.7. Samples: 61136. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:45:38,832][00179] Avg episode reward: [(0, '4.530')]
	[2023-03-25 18:45:38,854][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000061_249856.pth...
	[2023-03-25 18:45:43,819][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.4, 300 sec: 2802.5). Total num frames: 266240. Throughput: 0: 832.9. Samples: 66188. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:45:43,824][00179] Avg episode reward: [(0, '4.598')]
	[2023-03-25 18:45:48,818][00179] Fps is (10 sec: 2868.6, 60 sec: 3345.1, 300 sec: 2785.3). Total num frames: 278528. Throughput: 0: 820.6. Samples: 70146. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:45:48,824][00179] Avg episode reward: [(0, '4.456')]
	[2023-03-25 18:45:51,031][11340] Updated weights for policy 0, policy_version 70 (0.0019)
	[2023-03-25 18:45:53,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 2808.7). Total num frames: 294912. Throughput: 0: 822.3. Samples: 72132. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:45:53,821][00179] Avg episode reward: [(0, '4.489')]
	[2023-03-25 18:45:58,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3276.8, 300 sec: 2867.2). Total num frames: 315392. Throughput: 0: 849.3. Samples: 78264. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:45:58,821][00179] Avg episode reward: [(0, '4.580')]
	[2023-03-25 18:46:00,983][11340] Updated weights for policy 0, policy_version 80 (0.0024)
	[2023-03-25 18:46:03,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.3, 300 sec: 2885.0). Total num frames: 331776. Throughput: 0: 835.1. Samples: 83872. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:46:03,821][00179] Avg episode reward: [(0, '4.590')]
	[2023-03-25 18:46:08,822][00179] Fps is (10 sec: 3275.7, 60 sec: 3413.2, 300 sec: 2901.3). Total num frames: 348160. Throughput: 0: 822.7. Samples: 85844. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:46:08,824][00179] Avg episode reward: [(0, '4.615')]
	[2023-03-25 18:46:08,835][11327] Saving new best policy, reward=4.615!
	[2023-03-25 18:46:13,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 2883.6). Total num frames: 360448. Throughput: 0: 824.3. Samples: 89886. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 18:46:13,823][00179] Avg episode reward: [(0, '4.533')]
	[2023-03-25 18:46:14,901][11340] Updated weights for policy 0, policy_version 90 (0.0014)
	[2023-03-25 18:46:18,818][00179] Fps is (10 sec: 3277.9, 60 sec: 3276.9, 300 sec: 2930.2). Total num frames: 380928. Throughput: 0: 847.2. Samples: 96044. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:46:18,822][00179] Avg episode reward: [(0, '4.774')]
	[2023-03-25 18:46:18,852][11327] Saving new best policy, reward=4.774!
	[2023-03-25 18:46:23,818][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.4, 300 sec: 2973.4). Total num frames: 401408. Throughput: 0: 843.4. Samples: 99086. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:46:23,827][00179] Avg episode reward: [(0, '4.874')]
	[2023-03-25 18:46:23,832][11327] Saving new best policy, reward=4.874!
	[2023-03-25 18:46:26,549][11340] Updated weights for policy 0, policy_version 100 (0.0019)
	[2023-03-25 18:46:28,822][00179] Fps is (10 sec: 3275.6, 60 sec: 3344.9, 300 sec: 2954.9). Total num frames: 413696. Throughput: 0: 825.2. Samples: 103326. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:46:28,826][00179] Avg episode reward: [(0, '4.710')]
	[2023-03-25 18:46:33,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 2966.1). Total num frames: 430080. Throughput: 0: 830.6. Samples: 107524. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:46:33,820][00179] Avg episode reward: [(0, '4.706')]
	[2023-03-25 18:46:38,547][11340] Updated weights for policy 0, policy_version 110 (0.0029)
	[2023-03-25 18:46:38,818][00179] Fps is (10 sec: 3687.7, 60 sec: 3345.3, 300 sec: 3003.7). Total num frames: 450560. Throughput: 0: 857.4. Samples: 110716. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:46:38,824][00179] Avg episode reward: [(0, '4.683')]
	[2023-03-25 18:46:43,820][00179] Fps is (10 sec: 4095.3, 60 sec: 3413.2, 300 sec: 3038.9). Total num frames: 471040. Throughput: 0: 866.0. Samples: 117236. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:46:43,825][00179] Avg episode reward: [(0, '4.723')]
	[2023-03-25 18:46:48,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3020.8). Total num frames: 483328. Throughput: 0: 834.5. Samples: 121426. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:46:48,823][00179] Avg episode reward: [(0, '4.879')]
	[2023-03-25 18:46:48,837][11327] Saving new best policy, reward=4.879!
	[2023-03-25 18:46:51,401][11340] Updated weights for policy 0, policy_version 120 (0.0014)
	[2023-03-25 18:46:53,818][00179] Fps is (10 sec: 2458.0, 60 sec: 3345.1, 300 sec: 3003.7). Total num frames: 495616. Throughput: 0: 832.1. Samples: 123284. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:46:53,825][00179] Avg episode reward: [(0, '4.722')]
	[2023-03-25 18:46:58,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3035.9). Total num frames: 516096. Throughput: 0: 858.3. Samples: 128508. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:46:58,820][00179] Avg episode reward: [(0, '4.717')]
	[2023-03-25 18:47:02,039][11340] Updated weights for policy 0, policy_version 130 (0.0018)
	[2023-03-25 18:47:03,818][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3066.1). Total num frames: 536576. Throughput: 0: 861.5. Samples: 134812. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:47:03,822][00179] Avg episode reward: [(0, '4.829')]
	[2023-03-25 18:47:08,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3413.5, 300 sec: 3072.0). Total num frames: 552960. Throughput: 0: 842.5. Samples: 137000. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:47:08,826][00179] Avg episode reward: [(0, '4.907')]
	[2023-03-25 18:47:08,840][11327] Saving new best policy, reward=4.907!
	[2023-03-25 18:47:13,819][00179] Fps is (10 sec: 2867.1, 60 sec: 3413.3, 300 sec: 3055.4). Total num frames: 565248. Throughput: 0: 837.2. Samples: 140996. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:47:13,825][00179] Avg episode reward: [(0, '4.745')]
	[2023-03-25 18:47:15,738][11340] Updated weights for policy 0, policy_version 140 (0.0051)
	[2023-03-25 18:47:18,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3082.8). Total num frames: 585728. Throughput: 0: 865.7. Samples: 146480. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:47:18,826][00179] Avg episode reward: [(0, '4.831')]
	[2023-03-25 18:47:23,819][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3108.8). Total num frames: 606208. Throughput: 0: 865.8. Samples: 149676. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:47:23,822][00179] Avg episode reward: [(0, '4.802')]
	[2023-03-25 18:47:26,383][11340] Updated weights for policy 0, policy_version 150 (0.0023)
	[2023-03-25 18:47:28,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.5, 300 sec: 3092.5). Total num frames: 618496. Throughput: 0: 834.1. Samples: 154770. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:47:28,825][00179] Avg episode reward: [(0, '4.695')]
	[2023-03-25 18:47:33,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3097.0). Total num frames: 634880. Throughput: 0: 832.3. Samples: 158880. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:47:33,826][00179] Avg episode reward: [(0, '4.699')]
	[2023-03-25 18:47:38,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3101.3). Total num frames: 651264. Throughput: 0: 842.0. Samples: 161172. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:47:38,826][00179] Avg episode reward: [(0, '4.945')]
	[2023-03-25 18:47:38,838][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000159_651264.pth...
	[2023-03-25 18:47:38,973][11327] Saving new best policy, reward=4.945!
	[2023-03-25 18:47:39,470][11340] Updated weights for policy 0, policy_version 160 (0.0017)
	[2023-03-25 18:47:43,818][00179] Fps is (10 sec: 3686.5, 60 sec: 3345.2, 300 sec: 3124.4). Total num frames: 671744. Throughput: 0: 861.0. Samples: 167254. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:47:43,828][00179] Avg episode reward: [(0, '4.962')]
	[2023-03-25 18:47:43,832][11327] Saving new best policy, reward=4.962!
	[2023-03-25 18:47:48,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3127.9). Total num frames: 688128. Throughput: 0: 835.6. Samples: 172412. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:47:48,821][00179] Avg episode reward: [(0, '5.015')]
	[2023-03-25 18:47:48,833][11327] Saving new best policy, reward=5.015!
	[2023-03-25 18:47:51,583][11340] Updated weights for policy 0, policy_version 170 (0.0012)
	[2023-03-25 18:47:53,820][00179] Fps is (10 sec: 2866.8, 60 sec: 3413.3, 300 sec: 3112.9). Total num frames: 700416. Throughput: 0: 830.2. Samples: 174358. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:47:53,825][00179] Avg episode reward: [(0, '5.006')]
	[2023-03-25 18:47:58,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3116.5). Total num frames: 716800. Throughput: 0: 835.6. Samples: 178600. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:47:58,821][00179] Avg episode reward: [(0, '5.306')]
	[2023-03-25 18:47:58,834][11327] Saving new best policy, reward=5.306!
	[2023-03-25 18:48:03,117][11340] Updated weights for policy 0, policy_version 180 (0.0022)
	[2023-03-25 18:48:03,819][00179] Fps is (10 sec: 3686.8, 60 sec: 3345.0, 300 sec: 3137.4). Total num frames: 737280. Throughput: 0: 852.1. Samples: 184826. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:48:03,821][00179] Avg episode reward: [(0, '5.396')]
	[2023-03-25 18:48:03,823][11327] Saving new best policy, reward=5.396!
	[2023-03-25 18:48:08,819][00179] Fps is (10 sec: 3686.3, 60 sec: 3345.1, 300 sec: 3140.3). Total num frames: 753664. Throughput: 0: 848.7. Samples: 187866. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:48:08,821][00179] Avg episode reward: [(0, '5.192')]
	[2023-03-25 18:48:13,818][00179] Fps is (10 sec: 3276.9, 60 sec: 3413.3, 300 sec: 3143.1). Total num frames: 770048. Throughput: 0: 827.0. Samples: 191984. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:48:13,822][00179] Avg episode reward: [(0, '5.404')]
	[2023-03-25 18:48:13,830][11327] Saving new best policy, reward=5.404!
	[2023-03-25 18:48:16,783][11340] Updated weights for policy 0, policy_version 190 (0.0021)
	[2023-03-25 18:48:18,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3129.3). Total num frames: 782336. Throughput: 0: 832.9. Samples: 196362. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:48:18,824][00179] Avg episode reward: [(0, '5.704')]
	[2023-03-25 18:48:18,931][11327] Saving new best policy, reward=5.704!
	[2023-03-25 18:48:23,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3276.8, 300 sec: 3148.3). Total num frames: 802816. Throughput: 0: 849.9. Samples: 199418. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:48:23,826][00179] Avg episode reward: [(0, '6.023')]
	[2023-03-25 18:48:23,829][11327] Saving new best policy, reward=6.023!
	[2023-03-25 18:48:27,019][11340] Updated weights for policy 0, policy_version 200 (0.0015)
	[2023-03-25 18:48:28,819][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3166.5). Total num frames: 823296. Throughput: 0: 848.8. Samples: 205450. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:48:28,823][00179] Avg episode reward: [(0, '5.866')]
	[2023-03-25 18:48:33,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3153.1). Total num frames: 835584. Throughput: 0: 824.3. Samples: 209504. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:48:33,827][00179] Avg episode reward: [(0, '6.102')]
	[2023-03-25 18:48:33,830][11327] Saving new best policy, reward=6.102!
	[2023-03-25 18:48:38,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3155.4). Total num frames: 851968. Throughput: 0: 825.4. Samples: 211498. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:48:38,826][00179] Avg episode reward: [(0, '6.258')]
	[2023-03-25 18:48:38,840][11327] Saving new best policy, reward=6.258!
	[2023-03-25 18:48:40,644][11340] Updated weights for policy 0, policy_version 210 (0.0020)
	[2023-03-25 18:48:43,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3172.5). Total num frames: 872448. Throughput: 0: 859.2. Samples: 217266. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 18:48:43,820][00179] Avg episode reward: [(0, '6.716')]
	[2023-03-25 18:48:43,823][11327] Saving new best policy, reward=6.716!
	[2023-03-25 18:48:48,820][00179] Fps is (10 sec: 4095.3, 60 sec: 3413.2, 300 sec: 3189.0). Total num frames: 892928. Throughput: 0: 859.3. Samples: 223496. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:48:48,824][00179] Avg episode reward: [(0, '6.988')]
	[2023-03-25 18:48:48,850][11327] Saving new best policy, reward=6.988!
	[2023-03-25 18:48:51,957][11340] Updated weights for policy 0, policy_version 220 (0.0021)
	[2023-03-25 18:48:53,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.4, 300 sec: 3176.2). Total num frames: 905216. Throughput: 0: 836.0. Samples: 225484. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:48:53,826][00179] Avg episode reward: [(0, '7.411')]
	[2023-03-25 18:48:53,829][11327] Saving new best policy, reward=7.411!
	[2023-03-25 18:48:58,819][00179] Fps is (10 sec: 2458.0, 60 sec: 3345.1, 300 sec: 3163.8). Total num frames: 917504. Throughput: 0: 831.2. Samples: 229386. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:48:58,825][00179] Avg episode reward: [(0, '7.611')]
	[2023-03-25 18:48:58,842][11327] Saving new best policy, reward=7.611!
	[2023-03-25 18:49:03,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3179.6). Total num frames: 937984. Throughput: 0: 860.6. Samples: 235090. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:49:03,821][00179] Avg episode reward: [(0, '8.341')]
	[2023-03-25 18:49:03,824][11327] Saving new best policy, reward=8.341!
	[2023-03-25 18:49:04,341][11340] Updated weights for policy 0, policy_version 230 (0.0015)
	[2023-03-25 18:49:08,818][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3249.0). Total num frames: 958464. Throughput: 0: 858.8. Samples: 238064. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:49:08,821][00179] Avg episode reward: [(0, '7.725')]
	[2023-03-25 18:49:13,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3290.7). Total num frames: 970752. Throughput: 0: 836.4. Samples: 243088. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:49:13,821][00179] Avg episode reward: [(0, '7.542')]
	[2023-03-25 18:49:17,225][11340] Updated weights for policy 0, policy_version 240 (0.0037)
	[2023-03-25 18:49:18,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 987136. Throughput: 0: 837.1. Samples: 247172. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:49:18,821][00179] Avg episode reward: [(0, '7.329')]
	[2023-03-25 18:49:23,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1003520. Throughput: 0: 847.0. Samples: 249614. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:49:23,821][00179] Avg episode reward: [(0, '7.916')]
	[2023-03-25 18:49:28,059][11340] Updated weights for policy 0, policy_version 250 (0.0017)
	[2023-03-25 18:49:28,819][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1024000. Throughput: 0: 857.6. Samples: 255860. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:49:28,828][00179] Avg episode reward: [(0, '7.828')]
	[2023-03-25 18:49:33,819][00179] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 1040384. Throughput: 0: 828.1. Samples: 260758. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:49:33,822][00179] Avg episode reward: [(0, '8.169')]
	[2023-03-25 18:49:38,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3346.3). Total num frames: 1052672. Throughput: 0: 828.5. Samples: 262766. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
	[2023-03-25 18:49:38,822][00179] Avg episode reward: [(0, '8.004')]
	[2023-03-25 18:49:38,844][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000257_1052672.pth...
	[2023-03-25 18:49:39,043][11327] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000061_249856.pth
	[2023-03-25 18:49:41,882][11340] Updated weights for policy 0, policy_version 260 (0.0017)
	[2023-03-25 18:49:43,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1073152. Throughput: 0: 839.1. Samples: 267146. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:49:43,825][00179] Avg episode reward: [(0, '7.967')]
	[2023-03-25 18:49:48,818][00179] Fps is (10 sec: 4096.1, 60 sec: 3345.2, 300 sec: 3374.0). Total num frames: 1093632. Throughput: 0: 848.8. Samples: 273288. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:49:48,820][00179] Avg episode reward: [(0, '9.457')]
	[2023-03-25 18:49:48,834][11327] Saving new best policy, reward=9.457!
	[2023-03-25 18:49:52,130][11340] Updated weights for policy 0, policy_version 270 (0.0018)
	[2023-03-25 18:49:53,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1110016. Throughput: 0: 847.3. Samples: 276192. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:49:53,823][00179] Avg episode reward: [(0, '9.678')]
	[2023-03-25 18:49:53,830][11327] Saving new best policy, reward=9.678!
	[2023-03-25 18:49:58,819][00179] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3346.3). Total num frames: 1118208. Throughput: 0: 823.5. Samples: 280144. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:49:58,821][00179] Avg episode reward: [(0, '10.547')]
	[2023-03-25 18:49:58,839][11327] Saving new best policy, reward=10.547!
	[2023-03-25 18:50:03,819][00179] Fps is (10 sec: 2457.6, 60 sec: 3276.8, 300 sec: 3360.1). Total num frames: 1134592. Throughput: 0: 833.9. Samples: 284696. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:50:03,821][00179] Avg episode reward: [(0, '11.057')]
	[2023-03-25 18:50:03,852][11327] Saving new best policy, reward=11.057!
	[2023-03-25 18:50:05,913][11340] Updated weights for policy 0, policy_version 280 (0.0025)
	[2023-03-25 18:50:08,819][00179] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1159168. Throughput: 0: 846.1. Samples: 287688. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:50:08,821][00179] Avg episode reward: [(0, '10.490')]
	[2023-03-25 18:50:13,818][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1175552. Throughput: 0: 842.7. Samples: 293782. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:50:13,824][00179] Avg episode reward: [(0, '10.813')]
	[2023-03-25 18:50:17,861][11340] Updated weights for policy 0, policy_version 290 (0.0013)
	[2023-03-25 18:50:18,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1187840. Throughput: 0: 823.4. Samples: 297810. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:50:18,825][00179] Avg episode reward: [(0, '10.686')]
	[2023-03-25 18:50:23,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1204224. Throughput: 0: 823.4. Samples: 299820. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:50:23,821][00179] Avg episode reward: [(0, '10.540')]
	[2023-03-25 18:50:28,819][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1224704. Throughput: 0: 853.0. Samples: 305530. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:50:28,827][00179] Avg episode reward: [(0, '11.373')]
	[2023-03-25 18:50:28,839][11327] Saving new best policy, reward=11.373!
	[2023-03-25 18:50:29,581][11340] Updated weights for policy 0, policy_version 300 (0.0044)
	[2023-03-25 18:50:33,820][00179] Fps is (10 sec: 4095.4, 60 sec: 3413.2, 300 sec: 3374.0). Total num frames: 1245184. Throughput: 0: 852.6. Samples: 311656. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:50:33,822][00179] Avg episode reward: [(0, '11.100')]
	[2023-03-25 18:50:38,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1257472. Throughput: 0: 832.6. Samples: 313658. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:50:38,821][00179] Avg episode reward: [(0, '11.099')]
	[2023-03-25 18:50:42,688][11340] Updated weights for policy 0, policy_version 310 (0.0018)
	[2023-03-25 18:50:43,818][00179] Fps is (10 sec: 2458.0, 60 sec: 3276.8, 300 sec: 3360.1). Total num frames: 1269760. Throughput: 0: 833.4. Samples: 317648. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:50:43,821][00179] Avg episode reward: [(0, '12.425')]
	[2023-03-25 18:50:43,826][11327] Saving new best policy, reward=12.425!
	[2023-03-25 18:50:48,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 1290240. Throughput: 0: 854.5. Samples: 323150. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:50:48,821][00179] Avg episode reward: [(0, '12.589')]
	[2023-03-25 18:50:48,833][11327] Saving new best policy, reward=12.589!
	[2023-03-25 18:50:52,999][11340] Updated weights for policy 0, policy_version 320 (0.0013)
	[2023-03-25 18:50:53,818][00179] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1310720. Throughput: 0: 858.6. Samples: 326324. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:50:53,824][00179] Avg episode reward: [(0, '12.848')]
	[2023-03-25 18:50:53,827][11327] Saving new best policy, reward=12.848!
	[2023-03-25 18:50:58,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1323008. Throughput: 0: 831.2. Samples: 331186. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:50:58,821][00179] Avg episode reward: [(0, '12.230')]
	[2023-03-25 18:51:03,819][00179] Fps is (10 sec: 2867.1, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1339392. Throughput: 0: 830.8. Samples: 335198. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:51:03,821][00179] Avg episode reward: [(0, '11.772')]
	[2023-03-25 18:51:06,786][11340] Updated weights for policy 0, policy_version 330 (0.0043)
	[2023-03-25 18:51:08,819][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 1359872. Throughput: 0: 841.6. Samples: 337694. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:51:08,821][00179] Avg episode reward: [(0, '12.049')]
	[2023-03-25 18:51:13,819][00179] Fps is (10 sec: 3686.1, 60 sec: 3345.0, 300 sec: 3374.0). Total num frames: 1376256. Throughput: 0: 851.9. Samples: 343864. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:51:13,822][00179] Avg episode reward: [(0, '12.790')]
	[2023-03-25 18:51:17,964][11340] Updated weights for policy 0, policy_version 340 (0.0022)
	[2023-03-25 18:51:18,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1392640. Throughput: 0: 826.6. Samples: 348852. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:51:18,822][00179] Avg episode reward: [(0, '13.630')]
	[2023-03-25 18:51:18,840][11327] Saving new best policy, reward=13.630!
	[2023-03-25 18:51:23,818][00179] Fps is (10 sec: 2867.4, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1404928. Throughput: 0: 826.5. Samples: 350850. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:51:23,828][00179] Avg episode reward: [(0, '13.063')]
	[2023-03-25 18:51:28,819][00179] Fps is (10 sec: 3276.7, 60 sec: 3345.0, 300 sec: 3374.0). Total num frames: 1425408. Throughput: 0: 837.0. Samples: 355314. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:51:28,820][00179] Avg episode reward: [(0, '13.079')]
	[2023-03-25 18:51:30,725][11340] Updated weights for policy 0, policy_version 350 (0.0023)
	[2023-03-25 18:51:33,819][00179] Fps is (10 sec: 4095.9, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1445888. Throughput: 0: 853.2. Samples: 361544. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:51:33,821][00179] Avg episode reward: [(0, '12.897')]
	[2023-03-25 18:51:38,819][00179] Fps is (10 sec: 3686.5, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1462272. Throughput: 0: 847.4. Samples: 364458. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:51:38,821][00179] Avg episode reward: [(0, '13.070')]
	[2023-03-25 18:51:38,840][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000357_1462272.pth...
	[2023-03-25 18:51:39,021][11327] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000159_651264.pth
	[2023-03-25 18:51:43,417][11340] Updated weights for policy 0, policy_version 360 (0.0018)
	[2023-03-25 18:51:43,819][00179] Fps is (10 sec: 2867.3, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1474560. Throughput: 0: 825.5. Samples: 368334. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 18:51:43,821][00179] Avg episode reward: [(0, '13.753')]
	[2023-03-25 18:51:43,823][11327] Saving new best policy, reward=13.753!
	[2023-03-25 18:51:48,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1490944. Throughput: 0: 838.5. Samples: 372930. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:51:48,824][00179] Avg episode reward: [(0, '14.528')]
	[2023-03-25 18:51:48,834][11327] Saving new best policy, reward=14.528!
	[2023-03-25 18:51:53,818][00179] Fps is (10 sec: 3686.5, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1511424. Throughput: 0: 852.6. Samples: 376060. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:51:53,824][00179] Avg episode reward: [(0, '14.525')]
	[2023-03-25 18:51:54,209][11340] Updated weights for policy 0, policy_version 370 (0.0018)
	[2023-03-25 18:51:58,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1527808. Throughput: 0: 849.9. Samples: 382108. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:51:58,823][00179] Avg episode reward: [(0, '15.876')]
	[2023-03-25 18:51:58,838][11327] Saving new best policy, reward=15.876!
	[2023-03-25 18:52:03,826][00179] Fps is (10 sec: 2865.1, 60 sec: 3344.7, 300 sec: 3346.1). Total num frames: 1540096. Throughput: 0: 827.5. Samples: 386096. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:52:03,831][00179] Avg episode reward: [(0, '16.213')]
	[2023-03-25 18:52:03,854][11327] Saving new best policy, reward=16.213!
	[2023-03-25 18:52:08,058][11340] Updated weights for policy 0, policy_version 380 (0.0018)
	[2023-03-25 18:52:08,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3360.1). Total num frames: 1556480. Throughput: 0: 827.3. Samples: 388078. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:52:08,827][00179] Avg episode reward: [(0, '17.074')]
	[2023-03-25 18:52:08,839][11327] Saving new best policy, reward=17.074!
	[2023-03-25 18:52:13,818][00179] Fps is (10 sec: 3689.1, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1576960. Throughput: 0: 857.7. Samples: 393912. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:52:13,828][00179] Avg episode reward: [(0, '17.261')]
	[2023-03-25 18:52:13,860][11327] Saving new best policy, reward=17.261!
	[2023-03-25 18:52:17,865][11340] Updated weights for policy 0, policy_version 390 (0.0027)
	[2023-03-25 18:52:18,819][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1597440. Throughput: 0: 854.4. Samples: 399992. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:52:18,821][00179] Avg episode reward: [(0, '17.148')]
	[2023-03-25 18:52:23,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1609728. Throughput: 0: 834.1. Samples: 401992. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:52:23,825][00179] Avg episode reward: [(0, '16.963')]
	[2023-03-25 18:52:28,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1626112. Throughput: 0: 836.2. Samples: 405964. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:52:28,825][00179] Avg episode reward: [(0, '16.868')]
	[2023-03-25 18:52:31,448][11340] Updated weights for policy 0, policy_version 400 (0.0015)
	[2023-03-25 18:52:33,819][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1646592. Throughput: 0: 865.8. Samples: 411892. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:52:33,826][00179] Avg episode reward: [(0, '16.499')]
	[2023-03-25 18:52:38,818][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 1667072. Throughput: 0: 865.2. Samples: 414996. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:52:38,821][00179] Avg episode reward: [(0, '16.851')]
	[2023-03-25 18:52:43,083][11340] Updated weights for policy 0, policy_version 410 (0.0014)
	[2023-03-25 18:52:43,820][00179] Fps is (10 sec: 3276.5, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1679360. Throughput: 0: 836.4. Samples: 419746. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:52:43,825][00179] Avg episode reward: [(0, '17.200')]
	[2023-03-25 18:52:48,819][00179] Fps is (10 sec: 2457.5, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1691648. Throughput: 0: 837.9. Samples: 423796. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:52:48,822][00179] Avg episode reward: [(0, '16.216')]
	[2023-03-25 18:52:53,818][00179] Fps is (10 sec: 3277.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1712128. Throughput: 0: 851.3. Samples: 426388. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:52:53,820][00179] Avg episode reward: [(0, '16.882')]
	[2023-03-25 18:52:55,223][11340] Updated weights for policy 0, policy_version 420 (0.0024)
	[2023-03-25 18:52:58,818][00179] Fps is (10 sec: 4096.1, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 1732608. Throughput: 0: 862.0. Samples: 432704. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:52:58,821][00179] Avg episode reward: [(0, '16.368')]
	[2023-03-25 18:53:03,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3482.0, 300 sec: 3374.0). Total num frames: 1748992. Throughput: 0: 838.5. Samples: 437726. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:53:03,821][00179] Avg episode reward: [(0, '15.848')]
	[2023-03-25 18:53:08,038][11340] Updated weights for policy 0, policy_version 430 (0.0015)
	[2023-03-25 18:53:08,819][00179] Fps is (10 sec: 2867.1, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1761280. Throughput: 0: 837.9. Samples: 439700. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:53:08,826][00179] Avg episode reward: [(0, '15.569')]
	[2023-03-25 18:53:13,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 1781760. Throughput: 0: 850.8. Samples: 444252. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:53:13,820][00179] Avg episode reward: [(0, '15.267')]
	[2023-03-25 18:53:18,704][11340] Updated weights for policy 0, policy_version 440 (0.0024)
	[2023-03-25 18:53:18,818][00179] Fps is (10 sec: 4096.1, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 1802240. Throughput: 0: 859.2. Samples: 450556. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:53:18,824][00179] Avg episode reward: [(0, '15.494')]
	[2023-03-25 18:53:23,819][00179] Fps is (10 sec: 3686.4, 60 sec: 3481.6, 300 sec: 3374.0). Total num frames: 1818624. Throughput: 0: 859.0. Samples: 453650. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:53:23,825][00179] Avg episode reward: [(0, '15.114')]
	[2023-03-25 18:53:28,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 1830912. Throughput: 0: 843.2. Samples: 457690. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:53:28,822][00179] Avg episode reward: [(0, '15.212')]
	[2023-03-25 18:53:32,379][11340] Updated weights for policy 0, policy_version 450 (0.0043)
	[2023-03-25 18:53:33,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1847296. Throughput: 0: 853.5. Samples: 462202. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:53:33,826][00179] Avg episode reward: [(0, '16.139')]
	[2023-03-25 18:53:38,819][00179] Fps is (10 sec: 3686.3, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1867776. Throughput: 0: 864.4. Samples: 465288. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:53:38,824][00179] Avg episode reward: [(0, '16.590')]
	[2023-03-25 18:53:38,834][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000456_1867776.pth...
	[2023-03-25 18:53:38,972][11327] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000257_1052672.pth
	[2023-03-25 18:53:42,331][11340] Updated weights for policy 0, policy_version 460 (0.0020)
	[2023-03-25 18:53:43,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3413.4, 300 sec: 3360.1). Total num frames: 1884160. Throughput: 0: 858.8. Samples: 471352. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:53:43,825][00179] Avg episode reward: [(0, '16.217')]
	[2023-03-25 18:53:48,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3481.6, 300 sec: 3374.0). Total num frames: 1900544. Throughput: 0: 836.0. Samples: 475346. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:53:48,826][00179] Avg episode reward: [(0, '16.645')]
	[2023-03-25 18:53:53,819][00179] Fps is (10 sec: 2867.1, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1912832. Throughput: 0: 837.1. Samples: 477370. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:53:53,827][00179] Avg episode reward: [(0, '16.869')]
	[2023-03-25 18:53:55,967][11340] Updated weights for policy 0, policy_version 470 (0.0030)
	[2023-03-25 18:53:58,819][00179] Fps is (10 sec: 3276.7, 60 sec: 3345.0, 300 sec: 3374.0). Total num frames: 1933312. Throughput: 0: 864.3. Samples: 483144. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:53:58,822][00179] Avg episode reward: [(0, '15.778')]
	[2023-03-25 18:54:03,818][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 1953792. Throughput: 0: 856.0. Samples: 489078. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:54:03,824][00179] Avg episode reward: [(0, '16.557')]
	[2023-03-25 18:54:07,634][11340] Updated weights for policy 0, policy_version 480 (0.0026)
	[2023-03-25 18:54:08,820][00179] Fps is (10 sec: 3276.3, 60 sec: 3413.2, 300 sec: 3374.0). Total num frames: 1966080. Throughput: 0: 832.3. Samples: 491104. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:54:08,823][00179] Avg episode reward: [(0, '17.760')]
	[2023-03-25 18:54:08,838][11327] Saving new best policy, reward=17.760!
	[2023-03-25 18:54:13,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1982464. Throughput: 0: 831.9. Samples: 495126. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:54:13,827][00179] Avg episode reward: [(0, '18.390')]
	[2023-03-25 18:54:13,830][11327] Saving new best policy, reward=18.390!
	[2023-03-25 18:54:18,819][00179] Fps is (10 sec: 3687.0, 60 sec: 3345.0, 300 sec: 3387.9). Total num frames: 2002944. Throughput: 0: 862.1. Samples: 500998. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:54:18,822][00179] Avg episode reward: [(0, '18.438')]
	[2023-03-25 18:54:18,835][11327] Saving new best policy, reward=18.438!
	[2023-03-25 18:54:19,487][11340] Updated weights for policy 0, policy_version 490 (0.0015)
	[2023-03-25 18:54:23,819][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 2023424. Throughput: 0: 865.1. Samples: 504216. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:54:23,823][00179] Avg episode reward: [(0, '18.969')]
	[2023-03-25 18:54:23,828][11327] Saving new best policy, reward=18.969!
	[2023-03-25 18:54:28,819][00179] Fps is (10 sec: 3276.9, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 2035712. Throughput: 0: 834.6. Samples: 508910. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:54:28,821][00179] Avg episode reward: [(0, '19.089')]
	[2023-03-25 18:54:28,837][11327] Saving new best policy, reward=19.089!
	[2023-03-25 18:54:32,792][11340] Updated weights for policy 0, policy_version 500 (0.0018)
	[2023-03-25 18:54:33,818][00179] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 2048000. Throughput: 0: 833.6. Samples: 512860. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:54:33,823][00179] Avg episode reward: [(0, '18.965')]
	[2023-03-25 18:54:38,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 2068480. Throughput: 0: 848.3. Samples: 515544. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:54:38,821][00179] Avg episode reward: [(0, '19.951')]
	[2023-03-25 18:54:38,833][11327] Saving new best policy, reward=19.951!
	[2023-03-25 18:54:43,207][11340] Updated weights for policy 0, policy_version 510 (0.0013)
	[2023-03-25 18:54:43,819][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 2088960. Throughput: 0: 857.6. Samples: 521734. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:54:43,823][00179] Avg episode reward: [(0, '19.736')]
	[2023-03-25 18:54:48,820][00179] Fps is (10 sec: 3685.9, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 2105344. Throughput: 0: 830.6. Samples: 526454. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:54:48,823][00179] Avg episode reward: [(0, '19.687')]
	[2023-03-25 18:54:53,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 2117632. Throughput: 0: 829.3. Samples: 528422. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:54:53,823][00179] Avg episode reward: [(0, '19.093')]
	[2023-03-25 18:54:57,033][11340] Updated weights for policy 0, policy_version 520 (0.0017)
	[2023-03-25 18:54:58,818][00179] Fps is (10 sec: 2867.6, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 2134016. Throughput: 0: 843.4. Samples: 533078. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:54:58,825][00179] Avg episode reward: [(0, '19.181')]
	[2023-03-25 18:55:03,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 2154496. Throughput: 0: 846.0. Samples: 539066. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:55:03,825][00179] Avg episode reward: [(0, '17.128')]
	[2023-03-25 18:55:08,557][11340] Updated weights for policy 0, policy_version 530 (0.0025)
	[2023-03-25 18:55:08,819][00179] Fps is (10 sec: 3686.3, 60 sec: 3413.4, 300 sec: 3374.0). Total num frames: 2170880. Throughput: 0: 835.7. Samples: 541824. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:55:08,821][00179] Avg episode reward: [(0, '16.911')]
	[2023-03-25 18:55:13,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 2183168. Throughput: 0: 815.2. Samples: 545596. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 18:55:13,826][00179] Avg episode reward: [(0, '16.365')]
	[2023-03-25 18:55:18,819][00179] Fps is (10 sec: 2867.3, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 2199552. Throughput: 0: 827.3. Samples: 550088. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
	[2023-03-25 18:55:18,821][00179] Avg episode reward: [(0, '17.215')]
	[2023-03-25 18:55:21,542][11340] Updated weights for policy 0, policy_version 540 (0.0015)
	[2023-03-25 18:55:23,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 2220032. Throughput: 0: 834.8. Samples: 553108. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:55:23,827][00179] Avg episode reward: [(0, '18.334')]
	[2023-03-25 18:55:28,823][00179] Fps is (10 sec: 3684.8, 60 sec: 3344.8, 300 sec: 3360.1). Total num frames: 2236416. Throughput: 0: 825.7. Samples: 558892. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:55:28,825][00179] Avg episode reward: [(0, '18.300')]
	[2023-03-25 18:55:33,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 2248704. Throughput: 0: 805.2. Samples: 562686. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:55:33,825][00179] Avg episode reward: [(0, '18.241')]
	[2023-03-25 18:55:35,092][11340] Updated weights for policy 0, policy_version 550 (0.0017)
	[2023-03-25 18:55:38,819][00179] Fps is (10 sec: 2458.7, 60 sec: 3208.5, 300 sec: 3360.1). Total num frames: 2260992. Throughput: 0: 801.6. Samples: 564492. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:55:38,826][00179] Avg episode reward: [(0, '18.502')]
	[2023-03-25 18:55:38,838][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000552_2260992.pth...
	[2023-03-25 18:55:38,976][11327] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000357_1462272.pth
	[2023-03-25 18:55:43,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3208.5, 300 sec: 3360.1). Total num frames: 2281472. Throughput: 0: 816.4. Samples: 569816. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 18:55:43,821][00179] Avg episode reward: [(0, '18.024')]
	[2023-03-25 18:55:46,251][11340] Updated weights for policy 0, policy_version 560 (0.0017)
	[2023-03-25 18:55:48,819][00179] Fps is (10 sec: 4096.0, 60 sec: 3276.9, 300 sec: 3360.1). Total num frames: 2301952. Throughput: 0: 816.6. Samples: 575812. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 18:55:48,822][00179] Avg episode reward: [(0, '17.842')]
	[2023-03-25 18:55:53,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3276.8, 300 sec: 3360.1). Total num frames: 2314240. Throughput: 0: 798.7. Samples: 577766. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:55:53,825][00179] Avg episode reward: [(0, '17.839')]
	[2023-03-25 18:55:58,818][00179] Fps is (10 sec: 2457.6, 60 sec: 3208.5, 300 sec: 3346.2). Total num frames: 2326528. Throughput: 0: 803.2. Samples: 581738. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:55:58,821][00179] Avg episode reward: [(0, '17.112')]
	[2023-03-25 18:56:00,103][11340] Updated weights for policy 0, policy_version 570 (0.0023)
	[2023-03-25 18:56:03,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3208.5, 300 sec: 3346.2). Total num frames: 2347008. Throughput: 0: 831.5. Samples: 587506. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:56:03,822][00179] Avg episode reward: [(0, '18.243')]
	[2023-03-25 18:56:08,818][00179] Fps is (10 sec: 4096.0, 60 sec: 3276.8, 300 sec: 3360.1). Total num frames: 2367488. Throughput: 0: 830.8. Samples: 590492. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:56:08,821][00179] Avg episode reward: [(0, '17.991')]
	[2023-03-25 18:56:11,238][11340] Updated weights for policy 0, policy_version 580 (0.0025)
	[2023-03-25 18:56:13,820][00179] Fps is (10 sec: 3276.4, 60 sec: 3276.7, 300 sec: 3346.2). Total num frames: 2379776. Throughput: 0: 808.8. Samples: 595284. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:56:13,825][00179] Avg episode reward: [(0, '17.831')]
	[2023-03-25 18:56:18,819][00179] Fps is (10 sec: 2457.6, 60 sec: 3208.5, 300 sec: 3346.2). Total num frames: 2392064. Throughput: 0: 812.3. Samples: 599238. Policy #0 lag: (min: 0.0, avg: 0.8, max: 2.0)
	[2023-03-25 18:56:18,825][00179] Avg episode reward: [(0, '17.688')]
	[2023-03-25 18:56:23,727][11340] Updated weights for policy 0, policy_version 590 (0.0032)
	[2023-03-25 18:56:23,819][00179] Fps is (10 sec: 3686.8, 60 sec: 3276.8, 300 sec: 3360.1). Total num frames: 2416640. Throughput: 0: 832.9. Samples: 601972. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:56:23,821][00179] Avg episode reward: [(0, '18.537')]
	[2023-03-25 18:56:28,823][00179] Fps is (10 sec: 4094.3, 60 sec: 3276.8, 300 sec: 3346.2). Total num frames: 2433024. Throughput: 0: 852.5. Samples: 608180. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
	[2023-03-25 18:56:28,830][00179] Avg episode reward: [(0, '19.110')]
	[2023-03-25 18:56:33,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 2449408. Throughput: 0: 823.5. Samples: 612868. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
	[2023-03-25 18:56:33,824][00179] Avg episode reward: [(0, '19.060')]
	[2023-03-25 18:56:36,434][11340] Updated weights for policy 0, policy_version 600 (0.0012)
	[2023-03-25 18:56:38,819][00179] Fps is (10 sec: 2868.2, 60 sec: 3345.0, 300 sec: 3346.2). Total num frames: 2461696. Throughput: 0: 824.4. Samples: 614864. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 18:56:38,821][00179] Avg episode reward: [(0, '18.883')]
	[2023-03-25 18:56:43,819][00179] Fps is (10 sec: 3276.9, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 2482176. Throughput: 0: 841.6. Samples: 619612. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:56:43,824][00179] Avg episode reward: [(0, '19.605')]
	[2023-03-25 18:56:47,499][11340] Updated weights for policy 0, policy_version 610 (0.0022)
	[2023-03-25 18:56:48,819][00179] Fps is (10 sec: 4096.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 2502656. Throughput: 0: 852.0. Samples: 625846. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:56:48,825][00179] Avg episode reward: [(0, '19.330')]
	[2023-03-25 18:56:53,819][00179] Fps is (10 sec: 3686.3, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 2519040. Throughput: 0: 848.1. Samples: 628656. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 18:56:53,826][00179] Avg episode reward: [(0, '19.495')]
	[2023-03-25 18:56:58,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3360.2). Total num frames: 2531328. Throughput: 0: 828.7. Samples: 632576. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
	[2023-03-25 18:56:58,825][00179] Avg episode reward: [(0, '19.004')]
	[2023-03-25 18:57:01,398][11340] Updated weights for policy 0, policy_version 620 (0.0013)
	[2023-03-25 18:57:03,819][00179] Fps is (10 sec: 2867.3, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 2547712. Throughput: 0: 847.6. Samples: 637382. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:57:03,821][00179] Avg episode reward: [(0, '19.538')]
	[2023-03-25 18:57:08,819][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 2568192. Throughput: 0: 856.1. Samples: 640496. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 18:57:08,821][00179] Avg episode reward: [(0, '19.692')]
	[2023-03-25 18:57:11,122][11340] Updated weights for policy 0, policy_version 630 (0.0018)
	[2023-03-25 18:57:13,820][00179] Fps is (10 sec: 3685.9, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 2584576. Throughput: 0: 847.6. Samples: 646320. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:57:13,823][00179] Avg episode reward: [(0, '18.252')]
	[2023-03-25 18:57:18,821][00179] Fps is (10 sec: 2866.5, 60 sec: 3413.2, 300 sec: 3346.2). Total num frames: 2596864. Throughput: 0: 831.3. Samples: 650276. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:57:18,827][00179] Avg episode reward: [(0, '18.763')]
	[2023-03-25 18:57:23,820][00179] Fps is (10 sec: 2867.2, 60 sec: 3276.7, 300 sec: 3346.2). Total num frames: 2613248. Throughput: 0: 833.1. Samples: 652352. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:57:23,829][00179] Avg episode reward: [(0, '19.918')]
	[2023-03-25 18:57:24,991][11340] Updated weights for policy 0, policy_version 640 (0.0021)
	[2023-03-25 18:57:28,819][00179] Fps is (10 sec: 4096.9, 60 sec: 3413.6, 300 sec: 3360.1). Total num frames: 2637824. Throughput: 0: 860.2. Samples: 658322. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:57:28,820][00179] Avg episode reward: [(0, '20.403')]
	[2023-03-25 18:57:28,829][11327] Saving new best policy, reward=20.403!
	[2023-03-25 18:57:33,821][00179] Fps is (10 sec: 4095.7, 60 sec: 3413.2, 300 sec: 3346.2). Total num frames: 2654208. Throughput: 0: 853.5. Samples: 664254. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:57:33,823][00179] Avg episode reward: [(0, '20.523')]
	[2023-03-25 18:57:33,826][11327] Saving new best policy, reward=20.523!
	[2023-03-25 18:57:36,070][11340] Updated weights for policy 0, policy_version 650 (0.0019)
	[2023-03-25 18:57:38,824][00179] Fps is (10 sec: 2865.7, 60 sec: 3413.1, 300 sec: 3346.2). Total num frames: 2666496. Throughput: 0: 833.8. Samples: 666182. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:57:38,826][00179] Avg episode reward: [(0, '20.417')]
	[2023-03-25 18:57:38,846][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000651_2666496.pth...
	[2023-03-25 18:57:39,033][11327] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000456_1867776.pth
	[2023-03-25 18:57:43,822][00179] Fps is (10 sec: 2866.8, 60 sec: 3344.9, 300 sec: 3360.1). Total num frames: 2682880. Throughput: 0: 837.5. Samples: 670266. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:57:43,837][00179] Avg episode reward: [(0, '21.485')]
	[2023-03-25 18:57:43,846][11327] Saving new best policy, reward=21.485!
	[2023-03-25 18:57:48,481][11340] Updated weights for policy 0, policy_version 660 (0.0029)
	[2023-03-25 18:57:48,818][00179] Fps is (10 sec: 3688.4, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 2703360. Throughput: 0: 860.1. Samples: 676086. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:57:48,828][00179] Avg episode reward: [(0, '22.379')]
	[2023-03-25 18:57:48,837][11327] Saving new best policy, reward=22.379!
	[2023-03-25 18:57:53,819][00179] Fps is (10 sec: 4097.5, 60 sec: 3413.4, 300 sec: 3360.1). Total num frames: 2723840. Throughput: 0: 859.7. Samples: 679182. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:57:53,822][00179] Avg episode reward: [(0, '21.651')]
	[2023-03-25 18:57:58,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 2736128. Throughput: 0: 839.8. Samples: 684108. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:57:58,825][00179] Avg episode reward: [(0, '21.432')]
	[2023-03-25 18:58:00,930][11340] Updated weights for policy 0, policy_version 670 (0.0019)
	[2023-03-25 18:58:03,818][00179] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 2748416. Throughput: 0: 837.8. Samples: 687976. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:58:03,829][00179] Avg episode reward: [(0, '21.550')]
	[2023-03-25 18:58:08,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 2768896. Throughput: 0: 847.8. Samples: 690504. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:58:08,826][00179] Avg episode reward: [(0, '21.578')]
	[2023-03-25 18:58:12,415][11340] Updated weights for policy 0, policy_version 680 (0.0017)
	[2023-03-25 18:58:13,819][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.4, 300 sec: 3346.2). Total num frames: 2789376. Throughput: 0: 851.0. Samples: 696618. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:58:13,821][00179] Avg episode reward: [(0, '19.975')]
	[2023-03-25 18:58:18,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.5, 300 sec: 3332.3). Total num frames: 2801664. Throughput: 0: 827.2. Samples: 701476. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 18:58:18,828][00179] Avg episode reward: [(0, '19.691')]
	[2023-03-25 18:58:23,819][00179] Fps is (10 sec: 2867.1, 60 sec: 3413.4, 300 sec: 3346.2). Total num frames: 2818048. Throughput: 0: 829.3. Samples: 703494. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:58:23,826][00179] Avg episode reward: [(0, '19.588')]
	[2023-03-25 18:58:26,214][11340] Updated weights for policy 0, policy_version 690 (0.0017)
	[2023-03-25 18:58:28,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3276.8, 300 sec: 3346.2). Total num frames: 2834432. Throughput: 0: 840.4. Samples: 708080. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:58:28,826][00179] Avg episode reward: [(0, '19.461')]
	[2023-03-25 18:58:33,819][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.2, 300 sec: 3346.2). Total num frames: 2854912. Throughput: 0: 853.1. Samples: 714474. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:58:33,821][00179] Avg episode reward: [(0, '19.745')]
	[2023-03-25 18:58:36,344][11340] Updated weights for policy 0, policy_version 700 (0.0023)
	[2023-03-25 18:58:38,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3413.6, 300 sec: 3346.2). Total num frames: 2871296. Throughput: 0: 847.9. Samples: 717338. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:58:38,825][00179] Avg episode reward: [(0, '20.196')]
	[2023-03-25 18:58:43,822][00179] Fps is (10 sec: 2866.2, 60 sec: 3345.1, 300 sec: 3332.3). Total num frames: 2883584. Throughput: 0: 827.4. Samples: 721344. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:58:43,830][00179] Avg episode reward: [(0, '19.877')]
	[2023-03-25 18:58:48,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3346.2). Total num frames: 2899968. Throughput: 0: 844.3. Samples: 725970. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 18:58:48,822][00179] Avg episode reward: [(0, '21.200')]
	[2023-03-25 18:58:49,661][11340] Updated weights for policy 0, policy_version 710 (0.0035)
	[2023-03-25 18:58:53,818][00179] Fps is (10 sec: 4097.5, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 2924544. Throughput: 0: 860.6. Samples: 729230. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:58:53,821][00179] Avg episode reward: [(0, '19.387')]
	[2023-03-25 18:58:58,819][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 2940928. Throughput: 0: 859.6. Samples: 735302. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 18:58:58,821][00179] Avg episode reward: [(0, '20.006')]
	[2023-03-25 18:59:01,044][11340] Updated weights for policy 0, policy_version 720 (0.0020)
	[2023-03-25 18:59:03,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 2953216. Throughput: 0: 839.6. Samples: 739256. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:59:03,825][00179] Avg episode reward: [(0, '20.630')]
	[2023-03-25 18:59:08,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 2969600. Throughput: 0: 838.9. Samples: 741246. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 18:59:08,821][00179] Avg episode reward: [(0, '21.432')]
	[2023-03-25 18:59:13,029][11340] Updated weights for policy 0, policy_version 730 (0.0034)
	[2023-03-25 18:59:13,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 2990080. Throughput: 0: 866.1. Samples: 747056. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:59:13,821][00179] Avg episode reward: [(0, '22.359')]
	[2023-03-25 18:59:18,818][00179] Fps is (10 sec: 4096.0, 60 sec: 3481.6, 300 sec: 3346.2). Total num frames: 3010560. Throughput: 0: 859.3. Samples: 753144. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:59:18,823][00179] Avg episode reward: [(0, '22.418')]
	[2023-03-25 18:59:18,836][11327] Saving new best policy, reward=22.418!
	[2023-03-25 18:59:23,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 3022848. Throughput: 0: 839.4. Samples: 755112. Policy #0 lag: (min: 0.0, avg: 0.3, max: 2.0)
	[2023-03-25 18:59:23,823][00179] Avg episode reward: [(0, '22.794')]
	[2023-03-25 18:59:23,827][11327] Saving new best policy, reward=22.794!
	[2023-03-25 18:59:26,007][11340] Updated weights for policy 0, policy_version 740 (0.0024)
	[2023-03-25 18:59:28,819][00179] Fps is (10 sec: 2457.5, 60 sec: 3345.0, 300 sec: 3346.2). Total num frames: 3035136. Throughput: 0: 836.7. Samples: 758994. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:59:28,824][00179] Avg episode reward: [(0, '24.079')]
	[2023-03-25 18:59:28,840][11327] Saving new best policy, reward=24.079!
	[2023-03-25 18:59:33,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 3055616. Throughput: 0: 862.1. Samples: 764766. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:59:33,827][00179] Avg episode reward: [(0, '24.795')]
	[2023-03-25 18:59:33,844][11327] Saving new best policy, reward=24.795!
	[2023-03-25 18:59:36,848][11340] Updated weights for policy 0, policy_version 750 (0.0021)
	[2023-03-25 18:59:38,822][00179] Fps is (10 sec: 4504.3, 60 sec: 3481.4, 300 sec: 3360.1). Total num frames: 3080192. Throughput: 0: 857.4. Samples: 767816. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:59:38,825][00179] Avg episode reward: [(0, '23.665')]
	[2023-03-25 18:59:38,838][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000752_3080192.pth...
	[2023-03-25 18:59:39,037][11327] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000552_2260992.pth
	[2023-03-25 18:59:43,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3481.8, 300 sec: 3346.2). Total num frames: 3092480. Throughput: 0: 829.7. Samples: 772638. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 18:59:43,828][00179] Avg episode reward: [(0, '23.224')]
	[2023-03-25 18:59:48,818][00179] Fps is (10 sec: 2458.4, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 3104768. Throughput: 0: 828.6. Samples: 776542. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 18:59:48,822][00179] Avg episode reward: [(0, '23.217')]
	[2023-03-25 18:59:50,719][11340] Updated weights for policy 0, policy_version 760 (0.0015)
	[2023-03-25 18:59:53,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 3125248. Throughput: 0: 843.0. Samples: 779182. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:59:53,826][00179] Avg episode reward: [(0, '22.145')]
	[2023-03-25 18:59:58,819][00179] Fps is (10 sec: 4095.9, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 3145728. Throughput: 0: 857.5. Samples: 785642. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 18:59:58,821][00179] Avg episode reward: [(0, '20.448')]
	[2023-03-25 19:00:00,936][11340] Updated weights for policy 0, policy_version 770 (0.0016)
	[2023-03-25 19:00:03,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 3158016. Throughput: 0: 829.1. Samples: 790452. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 19:00:03,826][00179] Avg episode reward: [(0, '20.159')]
	[2023-03-25 19:00:08,819][00179] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 3170304. Throughput: 0: 825.7. Samples: 792268. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:00:08,825][00179] Avg episode reward: [(0, '20.992')]
	[2023-03-25 19:00:13,819][00179] Fps is (10 sec: 3276.6, 60 sec: 3345.0, 300 sec: 3360.1). Total num frames: 3190784. Throughput: 0: 839.4. Samples: 796768. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:00:13,826][00179] Avg episode reward: [(0, '21.165')]
	[2023-03-25 19:00:14,602][11340] Updated weights for policy 0, policy_version 780 (0.0014)
	[2023-03-25 19:00:18,819][00179] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 3211264. Throughput: 0: 847.6. Samples: 802906. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:00:18,830][00179] Avg episode reward: [(0, '21.150')]
	[2023-03-25 19:00:23,818][00179] Fps is (10 sec: 3686.6, 60 sec: 3413.3, 300 sec: 3360.2). Total num frames: 3227648. Throughput: 0: 846.0. Samples: 805884. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 19:00:23,828][00179] Avg episode reward: [(0, '22.187')]
	[2023-03-25 19:00:27,002][11340] Updated weights for policy 0, policy_version 790 (0.0022)
	[2023-03-25 19:00:28,820][00179] Fps is (10 sec: 2866.9, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 3239936. Throughput: 0: 822.9. Samples: 809670. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 19:00:28,827][00179] Avg episode reward: [(0, '21.674')]
	[2023-03-25 19:00:33,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 3256320. Throughput: 0: 834.6. Samples: 814100. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:00:33,822][00179] Avg episode reward: [(0, '21.792')]
	[2023-03-25 19:00:38,692][11340] Updated weights for policy 0, policy_version 800 (0.0020)
	[2023-03-25 19:00:38,819][00179] Fps is (10 sec: 3686.8, 60 sec: 3277.0, 300 sec: 3374.0). Total num frames: 3276800. Throughput: 0: 841.7. Samples: 817060. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:00:38,826][00179] Avg episode reward: [(0, '21.395')]
	[2023-03-25 19:00:43,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 3293184. Throughput: 0: 833.4. Samples: 823146. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 19:00:43,824][00179] Avg episode reward: [(0, '20.932')]
	[2023-03-25 19:00:48,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 3305472. Throughput: 0: 813.0. Samples: 827036. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:00:48,822][00179] Avg episode reward: [(0, '20.565')]
	[2023-03-25 19:00:52,688][11340] Updated weights for policy 0, policy_version 810 (0.0023)
	[2023-03-25 19:00:53,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 3321856. Throughput: 0: 815.7. Samples: 828974. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:00:53,824][00179] Avg episode reward: [(0, '20.164')]
	[2023-03-25 19:00:58,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 3342336. Throughput: 0: 838.0. Samples: 834478. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:00:58,821][00179] Avg episode reward: [(0, '21.794')]
	[2023-03-25 19:01:02,681][11340] Updated weights for policy 0, policy_version 820 (0.0020)
	[2023-03-25 19:01:03,819][00179] Fps is (10 sec: 3686.3, 60 sec: 3345.0, 300 sec: 3360.1). Total num frames: 3358720. Throughput: 0: 837.9. Samples: 840612. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:01:03,822][00179] Avg episode reward: [(0, '21.823')]
	[2023-03-25 19:01:08,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 3371008. Throughput: 0: 813.8. Samples: 842506. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:01:08,821][00179] Avg episode reward: [(0, '21.501')]
	[2023-03-25 19:01:13,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 3387392. Throughput: 0: 817.0. Samples: 846432. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:01:13,824][00179] Avg episode reward: [(0, '21.223')]
	[2023-03-25 19:01:16,885][11340] Updated weights for policy 0, policy_version 830 (0.0019)
	[2023-03-25 19:01:18,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3208.5, 300 sec: 3346.2). Total num frames: 3403776. Throughput: 0: 835.8. Samples: 851712. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:01:18,827][00179] Avg episode reward: [(0, '20.408')]
	[2023-03-25 19:01:23,818][00179] Fps is (10 sec: 3686.5, 60 sec: 3276.8, 300 sec: 3360.2). Total num frames: 3424256. Throughput: 0: 836.0. Samples: 854678. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:01:23,830][00179] Avg episode reward: [(0, '20.202')]
	[2023-03-25 19:01:28,345][11340] Updated weights for policy 0, policy_version 840 (0.0018)
	[2023-03-25 19:01:28,819][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 3440640. Throughput: 0: 814.3. Samples: 859790. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:01:28,823][00179] Avg episode reward: [(0, '19.161')]
	[2023-03-25 19:01:33,821][00179] Fps is (10 sec: 2866.6, 60 sec: 3276.7, 300 sec: 3360.1). Total num frames: 3452928. Throughput: 0: 814.8. Samples: 863702. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:01:33,823][00179] Avg episode reward: [(0, '19.599')]
	[2023-03-25 19:01:38,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3208.5, 300 sec: 3346.2). Total num frames: 3469312. Throughput: 0: 817.4. Samples: 865758. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:01:38,824][00179] Avg episode reward: [(0, '19.941')]
	[2023-03-25 19:01:38,837][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000847_3469312.pth...
	[2023-03-25 19:01:38,969][11327] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000651_2666496.pth
	[2023-03-25 19:01:41,557][11340] Updated weights for policy 0, policy_version 850 (0.0032)
	[2023-03-25 19:01:43,819][00179] Fps is (10 sec: 3687.1, 60 sec: 3276.8, 300 sec: 3346.2). Total num frames: 3489792. Throughput: 0: 827.1. Samples: 871698. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:01:43,820][00179] Avg episode reward: [(0, '19.505')]
	[2023-03-25 19:01:48,820][00179] Fps is (10 sec: 3685.9, 60 sec: 3345.0, 300 sec: 3346.2). Total num frames: 3506176. Throughput: 0: 803.1. Samples: 876754. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 19:01:48,826][00179] Avg episode reward: [(0, '20.571')]
	[2023-03-25 19:01:53,821][00179] Fps is (10 sec: 2866.5, 60 sec: 3276.7, 300 sec: 3346.2). Total num frames: 3518464. Throughput: 0: 805.3. Samples: 878748. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 19:01:53,826][00179] Avg episode reward: [(0, '21.215')]
	[2023-03-25 19:01:54,881][11340] Updated weights for policy 0, policy_version 860 (0.0017)
	[2023-03-25 19:01:58,818][00179] Fps is (10 sec: 2867.6, 60 sec: 3208.5, 300 sec: 3346.2). Total num frames: 3534848. Throughput: 0: 806.5. Samples: 882726. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 19:01:58,826][00179] Avg episode reward: [(0, '20.805')]
	[2023-03-25 19:02:03,819][00179] Fps is (10 sec: 3687.3, 60 sec: 3276.8, 300 sec: 3346.2). Total num frames: 3555328. Throughput: 0: 828.6. Samples: 888998. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-03-25 19:02:03,827][00179] Avg episode reward: [(0, '21.119')]
	[2023-03-25 19:02:05,615][11340] Updated weights for policy 0, policy_version 870 (0.0023)
	[2023-03-25 19:02:08,820][00179] Fps is (10 sec: 3685.9, 60 sec: 3345.0, 300 sec: 3346.2). Total num frames: 3571712. Throughput: 0: 830.1. Samples: 892034. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:02:08,826][00179] Avg episode reward: [(0, '22.062')]
	[2023-03-25 19:02:13,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3346.3). Total num frames: 3584000. Throughput: 0: 809.6. Samples: 896222. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 19:02:13,823][00179] Avg episode reward: [(0, '23.222')]
	[2023-03-25 19:02:18,818][00179] Fps is (10 sec: 2867.6, 60 sec: 3276.8, 300 sec: 3346.2). Total num frames: 3600384. Throughput: 0: 813.8. Samples: 900322. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 19:02:18,826][00179] Avg episode reward: [(0, '24.444')]
	[2023-03-25 19:02:19,517][11340] Updated weights for policy 0, policy_version 880 (0.0050)
	[2023-03-25 19:02:23,819][00179] Fps is (10 sec: 3686.4, 60 sec: 3276.8, 300 sec: 3332.3). Total num frames: 3620864. Throughput: 0: 838.7. Samples: 903500. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:02:23,823][00179] Avg episode reward: [(0, '22.863')]
	[2023-03-25 19:02:28,820][00179] Fps is (10 sec: 4095.4, 60 sec: 3345.0, 300 sec: 3346.2). Total num frames: 3641344. Throughput: 0: 843.7. Samples: 909666. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-03-25 19:02:28,825][00179] Avg episode reward: [(0, '23.054')]
	[2023-03-25 19:02:30,162][11340] Updated weights for policy 0, policy_version 890 (0.0018)
	[2023-03-25 19:02:33,818][00179] Fps is (10 sec: 3276.8, 60 sec: 3345.2, 300 sec: 3346.3). Total num frames: 3653632. Throughput: 0: 824.9. Samples: 913872. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:02:33,826][00179] Avg episode reward: [(0, '23.224')]
	[2023-03-25 19:02:38,819][00179] Fps is (10 sec: 2457.8, 60 sec: 3276.8, 300 sec: 3332.4). Total num frames: 3665920. Throughput: 0: 823.1. Samples: 915788. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:02:38,830][00179] Avg episode reward: [(0, '22.928')]
	[2023-03-25 19:02:43,496][11340] Updated weights for policy 0, policy_version 900 (0.0020)
	[2023-03-25 19:02:43,819][00179] Fps is (10 sec: 3276.8, 60 sec: 3276.8, 300 sec: 3332.3). Total num frames: 3686400. Throughput: 0: 846.4. Samples: 920816. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:02:43,827][00179] Avg episode reward: [(0, '22.632')]
	[2023-03-25 19:02:48,818][00179] Fps is (10 sec: 4096.3, 60 sec: 3345.2, 300 sec: 3332.3). Total num frames: 3706880. Throughput: 0: 844.5. Samples: 927002. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:02:48,825][00179] Avg episode reward: [(0, '22.013')]
	[2023-03-25 19:02:53,821][00179] Fps is (10 sec: 3275.8, 60 sec: 3345.0, 300 sec: 3332.3). Total num frames: 3719168. Throughput: 0: 830.1. Samples: 929388. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:02:53,826][00179] Avg episode reward: [(0, '22.307')]
	[2023-03-25 19:02:55,735][11340] Updated weights for policy 0, policy_version 910 (0.0021)
	[2023-03-25 19:02:58,818][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 3735552. Throughput: 0: 825.0. Samples: 933346. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-03-25 19:02:58,821][00179] Avg episode reward: [(0, '21.992')]
	[2023-03-25 19:03:03,823][00179] Fps is (10 sec: 3276.1, 60 sec: 3276.5, 300 sec: 3332.3). Total num frames: 3751936. Throughput: 0: 849.5. Samples: 938552. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:03:03,826][00179] Avg episode reward: [(0, '22.120')]
	[2023-03-25 19:03:07,139][11340] Updated weights for policy 0, policy_version 920 (0.0018)
	[2023-03-25 19:03:08,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3332.3). Total num frames: 3772416. Throughput: 0: 846.0. Samples: 941572. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:03:08,824][00179] Avg episode reward: [(0, '21.615')]
	[2023-03-25 19:03:13,824][00179] Fps is (10 sec: 3686.3, 60 sec: 3413.0, 300 sec: 3346.2). Total num frames: 3788800. Throughput: 0: 828.7. Samples: 946960. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:03:13,826][00179] Avg episode reward: [(0, '20.942')]
	[2023-03-25 19:03:18,819][00179] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3332.3). Total num frames: 3801088. Throughput: 0: 823.2. Samples: 950918. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:03:18,821][00179] Avg episode reward: [(0, '20.702')]
	[2023-03-25 19:03:21,139][11340] Updated weights for policy 0, policy_version 930 (0.0019)
	[2023-03-25 19:03:23,818][00179] Fps is (10 sec: 2868.7, 60 sec: 3276.8, 300 sec: 3332.3). Total num frames: 3817472. Throughput: 0: 827.3. Samples: 953016. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-03-25 19:03:23,820][00179] Avg episode reward: [(0, '20.737')]
	[2023-03-25 19:03:28,818][00179] Fps is (10 sec: 3686.4, 60 sec: 3276.9, 300 sec: 3332.3). Total num frames: 3837952. Throughput: 0: 855.0. Samples: 959290. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:03:28,825][00179] Avg episode reward: [(0, '21.100')]
	[2023-03-25 19:03:30,927][11340] Updated weights for policy 0, policy_version 940 (0.0020)
	[2023-03-25 19:03:33,821][00179] Fps is (10 sec: 4095.0, 60 sec: 3413.2, 300 sec: 3346.2). Total num frames: 3858432. Throughput: 0: 838.6. Samples: 964742. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:03:33,825][00179] Avg episode reward: [(0, '21.421')]
	[2023-03-25 19:03:38,819][00179] Fps is (10 sec: 3276.7, 60 sec: 3413.4, 300 sec: 3346.3). Total num frames: 3870720. Throughput: 0: 830.4. Samples: 966754. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:03:38,822][00179] Avg episode reward: [(0, '21.779')]
	[2023-03-25 19:03:38,843][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000945_3870720.pth...
	[2023-03-25 19:03:39,004][11327] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000752_3080192.pth
	[2023-03-25 19:03:43,818][00179] Fps is (10 sec: 2458.2, 60 sec: 3276.8, 300 sec: 3332.3). Total num frames: 3883008. Throughput: 0: 829.2. Samples: 970662. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:03:43,820][00179] Avg episode reward: [(0, '22.463')]
	[2023-03-25 19:03:44,742][11340] Updated weights for policy 0, policy_version 950 (0.0016)
	[2023-03-25 19:03:48,818][00179] Fps is (10 sec: 3686.5, 60 sec: 3345.1, 300 sec: 3332.3). Total num frames: 3907584. Throughput: 0: 852.1. Samples: 976894. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 19:03:48,823][00179] Avg episode reward: [(0, '23.018')]
	[2023-03-25 19:03:53,818][00179] Fps is (10 sec: 4096.0, 60 sec: 3413.5, 300 sec: 3332.3). Total num frames: 3923968. Throughput: 0: 855.6. Samples: 980076. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-03-25 19:03:53,831][00179] Avg episode reward: [(0, '22.251')]
	[2023-03-25 19:03:55,940][11340] Updated weights for policy 0, policy_version 960 (0.0013)
	[2023-03-25 19:03:58,820][00179] Fps is (10 sec: 2866.8, 60 sec: 3345.0, 300 sec: 3332.3). Total num frames: 3936256. Throughput: 0: 832.1. Samples: 984400. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:03:58,833][00179] Avg episode reward: [(0, '22.435')]
	[2023-03-25 19:04:03,819][00179] Fps is (10 sec: 2867.1, 60 sec: 3345.3, 300 sec: 3332.3). Total num frames: 3952640. Throughput: 0: 836.4. Samples: 988554. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:04:03,820][00179] Avg episode reward: [(0, '22.311')]
	[2023-03-25 19:04:08,235][11340] Updated weights for policy 0, policy_version 970 (0.0030)
	[2023-03-25 19:04:08,818][00179] Fps is (10 sec: 3686.9, 60 sec: 3345.1, 300 sec: 3332.3). Total num frames: 3973120. Throughput: 0: 858.0. Samples: 991628. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-03-25 19:04:08,823][00179] Avg episode reward: [(0, '21.742')]
	[2023-03-25 19:04:13,821][00179] Fps is (10 sec: 4095.0, 60 sec: 3413.5, 300 sec: 3332.3). Total num frames: 3993600. Throughput: 0: 858.5. Samples: 997924. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-03-25 19:04:13,826][00179] Avg episode reward: [(0, '23.192')]
	[2023-03-25 19:04:17,759][11327] Stopping Batcher_0...
	[2023-03-25 19:04:17,760][11327] Loop batcher_evt_loop terminating...
	[2023-03-25 19:04:17,761][00179] Component Batcher_0 stopped!
	[2023-03-25 19:04:17,783][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
	[2023-03-25 19:04:17,852][11340] Weights refcount: 2 0
	[2023-03-25 19:04:17,856][00179] Component InferenceWorker_p0-w0 stopped!
	[2023-03-25 19:04:17,860][11340] Stopping InferenceWorker_p0-w0...
	[2023-03-25 19:04:17,860][11340] Loop inference_proc0-0_evt_loop terminating...
	[2023-03-25 19:04:17,921][00179] Component RolloutWorker_w6 stopped!
	[2023-03-25 19:04:17,925][11348] Stopping RolloutWorker_w6...
	[2023-03-25 19:04:17,930][11348] Loop rollout_proc6_evt_loop terminating...
	[2023-03-25 19:04:17,952][11349] Stopping RolloutWorker_w5...
	[2023-03-25 19:04:17,952][11349] Loop rollout_proc5_evt_loop terminating...
	[2023-03-25 19:04:17,952][00179] Component RolloutWorker_w5 stopped!
	[2023-03-25 19:04:17,966][00179] Component RolloutWorker_w4 stopped!
	[2023-03-25 19:04:17,968][11347] Stopping RolloutWorker_w4...
	[2023-03-25 19:04:17,975][11350] Stopping RolloutWorker_w7...
	[2023-03-25 19:04:17,975][11345] Stopping RolloutWorker_w0...
	[2023-03-25 19:04:17,975][11350] Loop rollout_proc7_evt_loop terminating...
	[2023-03-25 19:04:17,976][11345] Loop rollout_proc0_evt_loop terminating...
	[2023-03-25 19:04:17,976][00179] Component RolloutWorker_w7 stopped!
	[2023-03-25 19:04:17,978][00179] Component RolloutWorker_w0 stopped!
	[2023-03-25 19:04:17,984][00179] Component RolloutWorker_w2 stopped!
	[2023-03-25 19:04:17,985][11344] Stopping RolloutWorker_w2...
	[2023-03-25 19:04:17,998][11347] Loop rollout_proc4_evt_loop terminating...
	[2023-03-25 19:04:17,986][11344] Loop rollout_proc2_evt_loop terminating...
	[2023-03-25 19:04:18,011][00179] Component RolloutWorker_w1 stopped!
	[2023-03-25 19:04:18,022][11351] Stopping RolloutWorker_w3...
	[2023-03-25 19:04:18,025][11351] Loop rollout_proc3_evt_loop terminating...
	[2023-03-25 19:04:18,022][00179] Component RolloutWorker_w3 stopped!
	[2023-03-25 19:04:18,011][11341] Stopping RolloutWorker_w1...
	[2023-03-25 19:04:18,030][11341] Loop rollout_proc1_evt_loop terminating...
	[2023-03-25 19:04:18,054][11327] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000847_3469312.pth
	[2023-03-25 19:04:18,080][11327] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
	[2023-03-25 19:04:18,354][00179] Component LearnerWorker_p0 stopped!
	[2023-03-25 19:04:18,359][00179] Waiting for process learner_proc0 to stop...
	[2023-03-25 19:04:18,361][11327] Stopping LearnerWorker_p0...
	[2023-03-25 19:04:18,365][11327] Loop learner_proc0_evt_loop terminating...
	[2023-03-25 19:04:20,536][00179] Waiting for process inference_proc0-0 to join...
	[2023-03-25 19:04:21,187][00179] Waiting for process rollout_proc0 to join...
	[2023-03-25 19:04:21,915][00179] Waiting for process rollout_proc1 to join...
	[2023-03-25 19:04:21,917][00179] Waiting for process rollout_proc2 to join...
	[2023-03-25 19:04:21,918][00179] Waiting for process rollout_proc3 to join...
	[2023-03-25 19:04:21,919][00179] Waiting for process rollout_proc4 to join...
	[2023-03-25 19:04:21,920][00179] Waiting for process rollout_proc5 to join...
	[2023-03-25 19:04:21,923][00179] Waiting for process rollout_proc6 to join...
	[2023-03-25 19:04:21,924][00179] Waiting for process rollout_proc7 to join...
	[2023-03-25 19:04:21,926][00179] Batcher 0 profile tree view:
	batching: 27.6118, releasing_batches: 0.0243
	[2023-03-25 19:04:21,927][00179] InferenceWorker_p0-w0 profile tree view:
	wait_policy: 0.0000
	wait_policy_total: 569.3820
	update_model: 8.2195
	weight_update: 0.0012
	one_step: 0.0167
	handle_policy_step: 583.1523
	deserialize: 16.1743, stack: 3.4096, obs_to_device_normalize: 124.8593, forward: 286.9036, send_messages: 29.4664
	prepare_outputs: 92.4624
	to_cpu: 57.5609
	[2023-03-25 19:04:21,928][00179] Learner 0 profile tree view:
	misc: 0.0056, prepare_batch: 18.4221
	train: 77.5784
	epoch_init: 0.0060, minibatch_init: 0.0129, losses_postprocess: 0.5334, kl_divergence: 0.5984, after_optimizer: 33.1967
	calculate_losses: 27.4485
	losses_init: 0.0038, forward_head: 1.9589, bptt_initial: 17.7332, tail: 1.2293, advantages_returns: 0.4106, losses: 3.3731
	bptt: 2.3853
	bptt_forward_core: 2.2720
	update: 15.1234
	clip: 1.4528
	[2023-03-25 19:04:21,929][00179] RolloutWorker_w0 profile tree view:
	wait_for_trajectories: 0.3433, enqueue_policy_requests: 162.5310, env_step: 903.7951, overhead: 24.6298, complete_rollouts: 7.1839
	save_policy_outputs: 23.2176
	split_output_tensors: 11.5406
	[2023-03-25 19:04:21,931][00179] RolloutWorker_w7 profile tree view:
	wait_for_trajectories: 0.3523, enqueue_policy_requests: 163.0949, env_step: 901.0240, overhead: 24.3518, complete_rollouts: 7.7921
	save_policy_outputs: 23.3918
	split_output_tensors: 11.2819
	[2023-03-25 19:04:21,932][00179] Loop Runner_EvtLoop terminating...
	[2023-03-25 19:04:21,933][00179] Runner profile tree view:
	main_loop: 1238.6806
	[2023-03-25 19:04:21,934][00179] Collected {0: 4005888}, FPS: 3234.0
	[2023-03-25 19:05:23,293][00179] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
	[2023-03-25 19:05:23,301][00179] Overriding arg 'num_workers' with value 1 passed from command line
	[2023-03-25 19:05:23,303][00179] Adding new argument 'no_render'=True that is not in the saved config file!
	[2023-03-25 19:05:23,314][00179] Adding new argument 'save_video'=True that is not in the saved config file!
	[2023-03-25 19:05:23,315][00179] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
	[2023-03-25 19:05:23,326][00179] Adding new argument 'video_name'=None that is not in the saved config file!
	[2023-03-25 19:05:23,327][00179] Adding new argument 'max_num_frames'=1000000000.0 that is not in the saved config file!
	[2023-03-25 19:05:23,336][00179] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
	[2023-03-25 19:05:23,346][00179] Adding new argument 'push_to_hub'=False that is not in the saved config file!
	[2023-03-25 19:05:23,352][00179] Adding new argument 'hf_repository'=None that is not in the saved config file!
	[2023-03-25 19:05:23,356][00179] Adding new argument 'policy_index'=0 that is not in the saved config file!
	[2023-03-25 19:05:23,359][00179] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
	[2023-03-25 19:05:23,373][00179] Adding new argument 'train_script'=None that is not in the saved config file!
	[2023-03-25 19:05:23,375][00179] Adding new argument 'enjoy_script'=None that is not in the saved config file!
	[2023-03-25 19:05:23,387][00179] Using frameskip 1 and render_action_repeat=4 for evaluation
	[2023-03-25 19:05:23,471][00179] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-03-25 19:05:23,482][00179] RunningMeanStd input shape: (3, 72, 128)
	[2023-03-25 19:05:23,488][00179] RunningMeanStd input shape: (1,)
	[2023-03-25 19:05:23,565][00179] ConvEncoder: input_channels=3
	[2023-03-25 19:05:24,109][00179] Conv encoder output size: 512
	[2023-03-25 19:05:24,119][00179] Policy head output size: 512
	[2023-03-25 19:05:27,046][00179] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
	[2023-03-25 19:05:28,351][00179] Num frames 100...
	[2023-03-25 19:05:28,469][00179] Num frames 200...
	[2023-03-25 19:05:28,591][00179] Num frames 300...
	[2023-03-25 19:05:28,704][00179] Num frames 400...
	[2023-03-25 19:05:28,820][00179] Num frames 500...
	[2023-03-25 19:05:28,935][00179] Num frames 600...
	[2023-03-25 19:05:29,051][00179] Num frames 700...
	[2023-03-25 19:05:29,164][00179] Num frames 800...
	[2023-03-25 19:05:29,278][00179] Num frames 900...
	[2023-03-25 19:05:29,396][00179] Num frames 1000...
	[2023-03-25 19:05:29,516][00179] Num frames 1100...
	[2023-03-25 19:05:29,594][00179] Avg episode rewards: #0: 23.200, true rewards: #0: 11.200
	[2023-03-25 19:05:29,595][00179] Avg episode reward: 23.200, avg true_objective: 11.200
	[2023-03-25 19:05:29,706][00179] Num frames 1200...
	[2023-03-25 19:05:29,824][00179] Num frames 1300...
	[2023-03-25 19:05:29,950][00179] Num frames 1400...
	[2023-03-25 19:05:30,069][00179] Num frames 1500...
	[2023-03-25 19:05:30,192][00179] Num frames 1600...
	[2023-03-25 19:05:30,306][00179] Num frames 1700...
	[2023-03-25 19:05:30,423][00179] Num frames 1800...
	[2023-03-25 19:05:30,545][00179] Num frames 1900...
	[2023-03-25 19:05:30,664][00179] Avg episode rewards: #0: 19.760, true rewards: #0: 9.760
	[2023-03-25 19:05:30,666][00179] Avg episode reward: 19.760, avg true_objective: 9.760
	[2023-03-25 19:05:30,729][00179] Num frames 2000...
	[2023-03-25 19:05:30,851][00179] Num frames 2100...
	[2023-03-25 19:05:30,967][00179] Num frames 2200...
	[2023-03-25 19:05:31,080][00179] Num frames 2300...
	[2023-03-25 19:05:31,196][00179] Num frames 2400...
	[2023-03-25 19:05:31,318][00179] Num frames 2500...
	[2023-03-25 19:05:31,435][00179] Num frames 2600...
	[2023-03-25 19:05:31,558][00179] Num frames 2700...
	[2023-03-25 19:05:31,674][00179] Num frames 2800...
	[2023-03-25 19:05:31,789][00179] Num frames 2900...
	[2023-03-25 19:05:31,905][00179] Num frames 3000...
	[2023-03-25 19:05:32,019][00179] Num frames 3100...
	[2023-03-25 19:05:32,137][00179] Num frames 3200...
	[2023-03-25 19:05:32,255][00179] Num frames 3300...
	[2023-03-25 19:05:32,381][00179] Num frames 3400...
	[2023-03-25 19:05:32,499][00179] Num frames 3500...
	[2023-03-25 19:05:32,618][00179] Num frames 3600...
	[2023-03-25 19:05:32,739][00179] Num frames 3700...
	[2023-03-25 19:05:32,859][00179] Num frames 3800...
	[2023-03-25 19:05:33,009][00179] Avg episode rewards: #0: 29.610, true rewards: #0: 12.943
	[2023-03-25 19:05:33,012][00179] Avg episode reward: 29.610, avg true_objective: 12.943
	[2023-03-25 19:05:33,034][00179] Num frames 3900...
	[2023-03-25 19:05:33,175][00179] Num frames 4000...
	[2023-03-25 19:05:33,292][00179] Num frames 4100...
	[2023-03-25 19:05:33,409][00179] Num frames 4200...
	[2023-03-25 19:05:33,532][00179] Num frames 4300...
	[2023-03-25 19:05:33,656][00179] Num frames 4400...
	[2023-03-25 19:05:33,777][00179] Num frames 4500...
	[2023-03-25 19:05:33,897][00179] Num frames 4600...
	[2023-03-25 19:05:34,012][00179] Num frames 4700...
	[2023-03-25 19:05:34,130][00179] Num frames 4800...
	[2023-03-25 19:05:34,245][00179] Num frames 4900...
	[2023-03-25 19:05:34,387][00179] Avg episode rewards: #0: 28.427, true rewards: #0: 12.427
	[2023-03-25 19:05:34,389][00179] Avg episode reward: 28.427, avg true_objective: 12.427
	[2023-03-25 19:05:34,423][00179] Num frames 5000...
	[2023-03-25 19:05:34,545][00179] Num frames 5100...
	[2023-03-25 19:05:34,663][00179] Num frames 5200...
	[2023-03-25 19:05:34,777][00179] Num frames 5300...
	[2023-03-25 19:05:34,897][00179] Num frames 5400...
	[2023-03-25 19:05:35,014][00179] Num frames 5500...
	[2023-03-25 19:05:35,132][00179] Num frames 5600...
	[2023-03-25 19:05:35,246][00179] Num frames 5700...
	[2023-03-25 19:05:35,368][00179] Num frames 5800...
	[2023-03-25 19:05:35,491][00179] Num frames 5900...
	[2023-03-25 19:05:35,610][00179] Num frames 6000...
	[2023-03-25 19:05:35,771][00179] Num frames 6100...
	[2023-03-25 19:05:35,938][00179] Num frames 6200...
	[2023-03-25 19:05:36,095][00179] Num frames 6300...
	[2023-03-25 19:05:36,253][00179] Num frames 6400...
	[2023-03-25 19:05:36,432][00179] Avg episode rewards: #0: 29.750, true rewards: #0: 12.950
	[2023-03-25 19:05:36,434][00179] Avg episode reward: 29.750, avg true_objective: 12.950
	[2023-03-25 19:05:36,478][00179] Num frames 6500...
	[2023-03-25 19:05:36,648][00179] Num frames 6600...
	[2023-03-25 19:05:36,812][00179] Num frames 6700...
	[2023-03-25 19:05:36,968][00179] Num frames 6800...
	[2023-03-25 19:05:37,127][00179] Num frames 6900...
	[2023-03-25 19:05:37,288][00179] Num frames 7000...
	[2023-03-25 19:05:37,451][00179] Num frames 7100...
	[2023-03-25 19:05:37,622][00179] Num frames 7200...
	[2023-03-25 19:05:37,800][00179] Avg episode rewards: #0: 28.292, true rewards: #0: 12.125
	[2023-03-25 19:05:37,802][00179] Avg episode reward: 28.292, avg true_objective: 12.125
	[2023-03-25 19:05:37,850][00179] Num frames 7300...
	[2023-03-25 19:05:38,036][00179] Num frames 7400...
	[2023-03-25 19:05:38,205][00179] Num frames 7500...
	[2023-03-25 19:05:38,372][00179] Num frames 7600...
	[2023-03-25 19:05:38,535][00179] Num frames 7700...
	[2023-03-25 19:05:38,703][00179] Num frames 7800...
	[2023-03-25 19:05:38,872][00179] Num frames 7900...
	[2023-03-25 19:05:38,954][00179] Avg episode rewards: #0: 26.164, true rewards: #0: 11.307
	[2023-03-25 19:05:38,956][00179] Avg episode reward: 26.164, avg true_objective: 11.307
	[2023-03-25 19:05:39,093][00179] Num frames 8000...
	[2023-03-25 19:05:39,246][00179] Num frames 8100...
	[2023-03-25 19:05:39,366][00179] Num frames 8200...
	[2023-03-25 19:05:39,479][00179] Num frames 8300...
	[2023-03-25 19:05:39,593][00179] Num frames 8400...
	[2023-03-25 19:05:39,716][00179] Num frames 8500...
	[2023-03-25 19:05:39,834][00179] Num frames 8600...
	[2023-03-25 19:05:39,956][00179] Num frames 8700...
	[2023-03-25 19:05:40,071][00179] Num frames 8800...
	[2023-03-25 19:05:40,189][00179] Num frames 8900...
	[2023-03-25 19:05:40,302][00179] Num frames 9000...
	[2023-03-25 19:05:40,418][00179] Num frames 9100...
	[2023-03-25 19:05:40,538][00179] Num frames 9200...
	[2023-03-25 19:05:40,652][00179] Num frames 9300...
	[2023-03-25 19:05:40,771][00179] Num frames 9400...
	[2023-03-25 19:05:40,849][00179] Avg episode rewards: #0: 27.024, true rewards: #0: 11.774
	[2023-03-25 19:05:40,851][00179] Avg episode reward: 27.024, avg true_objective: 11.774
	[2023-03-25 19:05:40,957][00179] Num frames 9500...
	[2023-03-25 19:05:41,073][00179] Num frames 9600...
	[2023-03-25 19:05:41,185][00179] Num frames 9700...
	[2023-03-25 19:05:41,302][00179] Num frames 9800...
	[2023-03-25 19:05:41,417][00179] Num frames 9900...
	[2023-03-25 19:05:41,535][00179] Num frames 10000...
	[2023-03-25 19:05:41,652][00179] Num frames 10100...
	[2023-03-25 19:05:41,775][00179] Num frames 10200...
	[2023-03-25 19:05:41,927][00179] Avg episode rewards: #0: 25.981, true rewards: #0: 11.426
	[2023-03-25 19:05:41,930][00179] Avg episode reward: 25.981, avg true_objective: 11.426
	[2023-03-25 19:05:41,953][00179] Num frames 10300...
	[2023-03-25 19:05:42,068][00179] Num frames 10400...
	[2023-03-25 19:05:42,181][00179] Num frames 10500...
	[2023-03-25 19:05:42,299][00179] Num frames 10600...
	[2023-03-25 19:05:42,411][00179] Num frames 10700...
	[2023-03-25 19:05:42,528][00179] Num frames 10800...
	[2023-03-25 19:05:42,642][00179] Num frames 10900...
	[2023-03-25 19:05:42,762][00179] Avg episode rewards: #0: 24.755, true rewards: #0: 10.955
	[2023-03-25 19:05:42,764][00179] Avg episode reward: 24.755, avg true_objective: 10.955
	[2023-03-25 19:06:57,746][00179] Replay video saved to /content/train_dir/default_experiment/replay.mp4!
	[2023-03-25 19:10:25,639][00179] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
	[2023-03-25 19:10:25,642][00179] Overriding arg 'num_workers' with value 1 passed from command line
	[2023-03-25 19:10:25,644][00179] Adding new argument 'no_render'=True that is not in the saved config file!
	[2023-03-25 19:10:25,646][00179] Adding new argument 'save_video'=True that is not in the saved config file!
	[2023-03-25 19:10:25,647][00179] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
	[2023-03-25 19:10:25,653][00179] Adding new argument 'video_name'=None that is not in the saved config file!
	[2023-03-25 19:10:25,654][00179] Adding new argument 'max_num_frames'=100000 that is not in the saved config file!
	[2023-03-25 19:10:25,656][00179] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
	[2023-03-25 19:10:25,658][00179] Adding new argument 'push_to_hub'=True that is not in the saved config file!
	[2023-03-25 19:10:25,660][00179] Adding new argument 'hf_repository'='golightly/rl_course_vizdoom_health_gathering_supreme' that is not in the saved config file!
	[2023-03-25 19:10:25,662][00179] Adding new argument 'policy_index'=0 that is not in the saved config file!
	[2023-03-25 19:10:25,664][00179] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
	[2023-03-25 19:10:25,667][00179] Adding new argument 'train_script'=None that is not in the saved config file!
	[2023-03-25 19:10:25,668][00179] Adding new argument 'enjoy_script'=None that is not in the saved config file!
	[2023-03-25 19:10:25,675][00179] Using frameskip 1 and render_action_repeat=4 for evaluation
	[2023-03-25 19:10:25,693][00179] RunningMeanStd input shape: (3, 72, 128)
	[2023-03-25 19:10:25,695][00179] RunningMeanStd input shape: (1,)
	[2023-03-25 19:10:25,709][00179] ConvEncoder: input_channels=3
	[2023-03-25 19:10:25,746][00179] Conv encoder output size: 512
	[2023-03-25 19:10:25,749][00179] Policy head output size: 512
	[2023-03-25 19:10:25,769][00179] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
	[2023-03-25 19:10:26,221][00179] Num frames 100...
	[2023-03-25 19:10:26,337][00179] Num frames 200...
	[2023-03-25 19:10:26,469][00179] Num frames 300...
	[2023-03-25 19:10:26,589][00179] Num frames 400...
	[2023-03-25 19:10:26,707][00179] Num frames 500...
	[2023-03-25 19:10:26,818][00179] Num frames 600...
	[2023-03-25 19:10:26,930][00179] Num frames 700...
	[2023-03-25 19:10:27,053][00179] Num frames 800...
	[2023-03-25 19:10:27,173][00179] Num frames 900...
	[2023-03-25 19:10:27,286][00179] Num frames 1000...
	[2023-03-25 19:10:27,406][00179] Num frames 1100...
	[2023-03-25 19:10:27,528][00179] Num frames 1200...
	[2023-03-25 19:10:27,648][00179] Num frames 1300...
	[2023-03-25 19:10:27,763][00179] Num frames 1400...
	[2023-03-25 19:10:27,880][00179] Num frames 1500...
	[2023-03-25 19:10:27,998][00179] Num frames 1600...
	[2023-03-25 19:10:28,121][00179] Num frames 1700...
	[2023-03-25 19:10:28,240][00179] Num frames 1800...
	[2023-03-25 19:10:28,371][00179] Num frames 1900...
	[2023-03-25 19:10:28,487][00179] Num frames 2000...
	[2023-03-25 19:10:28,618][00179] Num frames 2100...
	[2023-03-25 19:10:28,670][00179] Avg episode rewards: #0: 53.999, true rewards: #0: 21.000
	[2023-03-25 19:10:28,672][00179] Avg episode reward: 53.999, avg true_objective: 21.000
	[2023-03-25 19:10:28,793][00179] Num frames 2200...
	[2023-03-25 19:10:28,909][00179] Num frames 2300...
	[2023-03-25 19:10:29,022][00179] Num frames 2400...
	[2023-03-25 19:10:29,141][00179] Num frames 2500...
	[2023-03-25 19:10:29,263][00179] Num frames 2600...
	[2023-03-25 19:10:29,375][00179] Num frames 2700...
	[2023-03-25 19:10:29,440][00179] Avg episode rewards: #0: 32.039, true rewards: #0: 13.540
	[2023-03-25 19:10:29,441][00179] Avg episode reward: 32.039, avg true_objective: 13.540
	[2023-03-25 19:10:29,568][00179] Num frames 2800...
	[2023-03-25 19:10:29,689][00179] Num frames 2900...
	[2023-03-25 19:10:29,806][00179] Num frames 3000...
	[2023-03-25 19:10:29,970][00179] Avg episode rewards: #0: 22.640, true rewards: #0: 10.307
	[2023-03-25 19:10:29,972][00179] Avg episode reward: 22.640, avg true_objective: 10.307
	[2023-03-25 19:10:29,984][00179] Num frames 3100...
	[2023-03-25 19:10:30,106][00179] Num frames 3200...
	[2023-03-25 19:10:30,230][00179] Num frames 3300...
	[2023-03-25 19:10:30,344][00179] Num frames 3400...
	[2023-03-25 19:10:30,463][00179] Num frames 3500...
	[2023-03-25 19:10:30,585][00179] Num frames 3600...
	[2023-03-25 19:10:30,699][00179] Num frames 3700...
	[2023-03-25 19:10:30,828][00179] Num frames 3800...
	[2023-03-25 19:10:30,995][00179] Num frames 3900...
	[2023-03-25 19:10:31,164][00179] Num frames 4000...
	[2023-03-25 19:10:31,327][00179] Num frames 4100...
	[2023-03-25 19:10:31,493][00179] Num frames 4200...
	[2023-03-25 19:10:31,659][00179] Num frames 4300...
	[2023-03-25 19:10:31,819][00179] Num frames 4400...
	[2023-03-25 19:10:32,019][00179] Avg episode rewards: #0: 25.715, true rewards: #0: 11.215
	[2023-03-25 19:10:32,021][00179] Avg episode reward: 25.715, avg true_objective: 11.215
	[2023-03-25 19:10:32,049][00179] Num frames 4500...
	[2023-03-25 19:10:32,216][00179] Num frames 4600...
	[2023-03-25 19:10:32,379][00179] Num frames 4700...
	[2023-03-25 19:10:32,543][00179] Num frames 4800...
	[2023-03-25 19:10:32,702][00179] Num frames 4900...
	[2023-03-25 19:10:32,868][00179] Num frames 5000...
	[2023-03-25 19:10:33,028][00179] Num frames 5100...
	[2023-03-25 19:10:33,194][00179] Num frames 5200...
	[2023-03-25 19:10:33,359][00179] Num frames 5300...
	[2023-03-25 19:10:33,534][00179] Num frames 5400...
	[2023-03-25 19:10:33,696][00179] Num frames 5500...
	[2023-03-25 19:10:33,876][00179] Avg episode rewards: #0: 24.748, true rewards: #0: 11.148
	[2023-03-25 19:10:33,878][00179] Avg episode reward: 24.748, avg true_objective: 11.148
	[2023-03-25 19:10:33,923][00179] Num frames 5600...
	[2023-03-25 19:10:34,092][00179] Num frames 5700...
	[2023-03-25 19:10:34,269][00179] Num frames 5800...
	[2023-03-25 19:10:34,439][00179] Num frames 5900...
	[2023-03-25 19:10:34,581][00179] Num frames 6000...
	[2023-03-25 19:10:34,703][00179] Num frames 6100...
	[2023-03-25 19:10:34,818][00179] Num frames 6200...
	[2023-03-25 19:10:34,940][00179] Avg episode rewards: #0: 22.748, true rewards: #0: 10.415
	[2023-03-25 19:10:34,942][00179] Avg episode reward: 22.748, avg true_objective: 10.415
	[2023-03-25 19:10:35,025][00179] Num frames 6300...
	[2023-03-25 19:10:35,147][00179] Num frames 6400...
	[2023-03-25 19:10:35,270][00179] Num frames 6500...
	[2023-03-25 19:10:35,393][00179] Num frames 6600...
	[2023-03-25 19:10:35,513][00179] Num frames 6700...
	[2023-03-25 19:10:35,625][00179] Num frames 6800...
	[2023-03-25 19:10:35,742][00179] Num frames 6900...
	[2023-03-25 19:10:35,858][00179] Num frames 7000...
	[2023-03-25 19:10:36,017][00179] Avg episode rewards: #0: 21.687, true rewards: #0: 10.116
	[2023-03-25 19:10:36,019][00179] Avg episode reward: 21.687, avg true_objective: 10.116
	[2023-03-25 19:10:36,045][00179] Num frames 7100...
	[2023-03-25 19:10:36,155][00179] Num frames 7200...
	[2023-03-25 19:10:36,272][00179] Num frames 7300...
	[2023-03-25 19:10:36,392][00179] Num frames 7400...
	[2023-03-25 19:10:36,503][00179] Num frames 7500...
	[2023-03-25 19:10:36,615][00179] Num frames 7600...
	[2023-03-25 19:10:36,739][00179] Num frames 7700...
	[2023-03-25 19:10:36,852][00179] Num frames 7800...
	[2023-03-25 19:10:36,973][00179] Num frames 7900...
	[2023-03-25 19:10:37,086][00179] Num frames 8000...
	[2023-03-25 19:10:37,201][00179] Num frames 8100...
	[2023-03-25 19:10:37,333][00179] Num frames 8200...
	[2023-03-25 19:10:37,449][00179] Num frames 8300...
	[2023-03-25 19:10:37,562][00179] Num frames 8400...
	[2023-03-25 19:10:37,674][00179] Num frames 8500...
	[2023-03-25 19:10:37,795][00179] Num frames 8600...
	[2023-03-25 19:10:37,916][00179] Avg episode rewards: #0: 24.447, true rewards: #0: 10.822
	[2023-03-25 19:10:37,921][00179] Avg episode reward: 24.447, avg true_objective: 10.822
	[2023-03-25 19:10:37,973][00179] Num frames 8700...
	[2023-03-25 19:10:38,089][00179] Num frames 8800...
	[2023-03-25 19:10:38,203][00179] Num frames 8900...
	[2023-03-25 19:10:38,352][00179] Num frames 9000...
	[2023-03-25 19:10:38,526][00179] Num frames 9100...
	[2023-03-25 19:10:38,639][00179] Num frames 9200...
	[2023-03-25 19:10:38,808][00179] Avg episode rewards: #0: 22.998, true rewards: #0: 10.331
	[2023-03-25 19:10:38,810][00179] Avg episode reward: 22.998, avg true_objective: 10.331
	[2023-03-25 19:10:38,818][00179] Num frames 9300...
	[2023-03-25 19:10:38,938][00179] Num frames 9400...
	[2023-03-25 19:10:39,158][00179] Num frames 9500...
	[2023-03-25 19:10:39,280][00179] Num frames 9600...
	[2023-03-25 19:10:39,400][00179] Num frames 9700...
	[2023-03-25 19:10:39,515][00179] Num frames 9800...
	[2023-03-25 19:10:39,636][00179] Num frames 9900...
	[2023-03-25 19:10:39,752][00179] Num frames 10000...
	[2023-03-25 19:10:39,874][00179] Num frames 10100...
	[2023-03-25 19:10:39,990][00179] Num frames 10200...
	[2023-03-25 19:10:40,114][00179] Avg episode rewards: #0: 22.758, true rewards: #0: 10.258
	[2023-03-25 19:10:40,116][00179] Avg episode reward: 22.758, avg true_objective: 10.258
	[2023-03-25 19:11:50,004][00179] Replay video saved to /content/train_dir/default_experiment/replay.mp4!